
Adolfo Diaz Taracena
PreguntaBueno primero dice que entre menor variación estándar menos se dispersan los datos, y por lo cual se puede decir que esto es bueno, pero luego en la regla empírica nos dice que si tenemos 3 desviaciones estándar estamos encontrando el 99.7% de los datos, alguien me explica, o que tiene de diferente, no que cuando tenemos menos es mejor o en ultimo caso de regla empírica hablamos de otra cosa?

Miguel Andres Rendon Reyes
Loco no es que en tres desviaciones se encuentren todo el 97%, si viste la gráfica del minuto 7:39, puedes ver, que a lo que se refiere es que en un sigma. tienes 34% de un lado y otro 34% de otro, luego le añades 13% de un lado y de otro y tienes el 95%. Por lo que en dos sigmas, encuentras el 95% de los datos. y luego eestá que si le agregamos otro sigma, obtenemos el otro resto de datos. el 4.9% de esos datos, están allí, miti para arriba miti para abajo.

William Prieto Velandia
Efectivamente el ejemplo que da @aryblgz es muy bueno para notar que la desviación estándar pequeña es recomendable, aunque es mejor aclarar que el 99.7% representa la probabilidad de que encuentres a tu variable X dentro del rango de + o - 3 desviaciones estándar, este es el verdadero significado de la probabilidad asociada

Ariadna B
Si recuerdas la clase de varianza y desviación estandar, la desviación estandar es, hablando coloquialmente, el promedio de la dispersión de tus datos con respecto a la media. Por ejemplo, imaginate que tienes una muestra aleatoria, cuya media es 10 y desviación estandar de 3. Eso significa que en promedio, tus datos estás dispersos en +- 3 unidades. O sea que tienes datos que están en 7, pero también que están 6 y otros en 8, o que inclusive otros están en 5 y otros en 9. Con esto, +-3 sigma = +-3 * 3 = +-9. Tienes que el 99.7% de todos tus datos están en el intervalo de 10-9= 1 y 10+9= 19.
Ahora imaginate que tienes otra muestra, cuya media es 10 también, pero su desviación estándar es 1. Eso significa que tus datos están menos diversos. o sea que tus datos los puedes encontrar en 9 y otros en 8, etc. Con esto: +-3 sigma = +-3 * 1 = +-3. Tienes que el 99.7% de que todos tus datos están en el intervalo de 10-3=7 y 10+3 = 13. Esto significa que ya es muy poco probable que tengas un valor fuera de este intervalo, por ejemplo que tengas un dato en 5 o 4.

Ángel David Roque Ayala
Buena pregunta, eso a mi también me confundió al principio. Yo lo entendí de la siguiente forma.
Primero entendamos - ¿Por que una variación estándar baja es mejor que una alta ? Básicamente por que los métodos de análisis para intentar adivinar el futuro mostraran resultados mas confiables.
Ahora, lo de ** 3 desviaciones estándar** se refiere a que. el 99.7% los datos estarán a una distancia de 3 variaciones estándar, Lo explicare con un ejemplo:
Si tenemos las calificaciones (cantidad se refiere a la cantidad de alumnos que obtuvieron esa calificacion ), tendríamos una distribucion estandar.
Cantidad calificación (x1) - 1 (x2) - 2 (x3) - 3 (x4) - 4 (x5) - 5 (x4) - 6 (x3) - 7 (x2) - 8 (x1) - 9
Sus datos Media: 5.0 Varianza: 4.0 Desviacion estandar: 2.0
3 Desviaciones estándar serian = (2.0 * 3) = mas menos 6
Esto nos dice que el 99.7 de todos los datos estaran dentro del rango de -1 y 11. Obtuve esos datos sumando y restando 3 desviaciones estandar a la media que es 5.
Este ejemplo seria mejor si se tuviesen mas datos, te dejo el codigo que hice para que experimentes.
import math def media(X): return sum(X) / len(X) def varianza(X): mu = media(X) acumulador = 0 for x in X: acumulador += (x - mu)**2 return acumulador / len(X) def desviacion_estandar(X): return math.sqrt(varianza(X)) def generarDatos(): contador = 1 calificacion = 1 tope = False datos = [] while contador > 0: for _ in range(contador): datos.append(calificacion) if contador == 5: tope = True if tope: contador -= 1 else: contador += 1 calificacion += 1 print(datos) return datos if __name__ == "__main__": datos = generarDatos() mu = media(datos) Var = varianza(datos) sigma = desviacion_estandar(datos) print(f'Areglo X: {datos}') print(f'Media: {mu}') print(f'Varianza: {Var}') print(f'Desviacion estandar: {sigma}') print(f'')```