Bueno primero dice que entre menor variación estándar menos se dispersan los datos, y por lo cual se puede decir que esto es bueno, pero ...

Adolfo Diaz Taracena

Pregunta

student•

Bueno primero dice que entre menor variación estándar menos se dispersan los datos, y por lo cual se puede decir que esto es bueno, pero luego en la regla empírica nos dice que si tenemos 3 desviaciones estándar estamos encontrando el 99.7% de los datos, alguien me explica, o que tiene de diferente, no que cuando tenemos menos es mejor o en ultimo caso de regla empírica hablamos de otra cosa?

Ángel David Roque Ayala

student•

Buena pregunta, eso a mi también me confundió al principio. Yo lo entendí de la siguiente forma.

Primero entendamos - ¿Por que una variación estándar baja es mejor que una alta ? Básicamente por que los métodos de análisis para intentar adivinar el futuro mostraran resultados mas confiables.

Ahora, lo de ** 3 desviaciones estándar** se refiere a que. el 99.7% los datos estarán a una distancia de 3 variaciones estándar, Lo explicare con un ejemplo:

Si tenemos las calificaciones (cantidad se refiere a la cantidad de alumnos que obtuvieron esa calificacion ), tendríamos una distribucion estandar.

Cantidad calificación (x1) - 1 (x2) - 2 (x3) - 3 (x4) - 4 (x5) - 5 (x4) - 6 (x3) - 7 (x2) - 8 (x1) - 9

Sus datos Media: 5.0 Varianza: 4.0 Desviacion estandar: 2.0

3 Desviaciones estándar serian = (2.0 * 3) = mas menos 6

Esto nos dice que el 99.7 de todos los datos estaran dentro del rango de -1 y 11. Obtuve esos datos sumando y restando 3 desviaciones estandar a la media que es 5.

Este ejemplo seria mejor si se tuviesen mas datos, te dejo el codigo que hice para que experimentes.


import math

def media(X):
    return sum(X) / len(X)

def varianza(X):
    mu = media(X)

    acumulador = 0
    for x in X:
        acumulador += (x - mu)**2

    return acumulador / len(X)

def desviacion_estandar(X):
    return math.sqrt(varianza(X))

def generarDatos():
    contador = 1
    calificacion = 1
    tope = False

    datos = []

    while contador > 0:

        for _ in range(contador):
            datos.append(calificacion)

        if contador == 5:
            tope = True

        if tope:
            contador -= 1
        else:
            contador += 1

        calificacion += 1

    print(datos)
    return datos

if __name__ == "__main__":
    datos = generarDatos()
    mu = media(datos)
    Var = varianza(datos)
    sigma = desviacion_estandar(datos)
    print(f'Areglo X: {datos}')
    print(f'Media: {mu}')
    print(f'Varianza: {Var}')
    print(f'Desviacion estandar: {sigma}')
    print(f'')```

Ariadna B

student•

Si recuerdas la clase de varianza y desviación estandar, la desviación estandar es, hablando coloquialmente, el promedio de la dispersión de tus datos con respecto a la media. Por ejemplo, imaginate que tienes una muestra aleatoria, cuya media es 10 y desviación estandar de 3. Eso significa que en promedio, tus datos estás dispersos en +- 3 unidades. O sea que tienes datos que están en 7, pero también que están 6 y otros en 8, o que inclusive otros están en 5 y otros en 9. Con esto, +-3 sigma = +-3 * 3 = +-9. Tienes que el 99.7% de todos tus datos están en el intervalo de 10-9= 1 y 10+9= 19.

Ahora imaginate que tienes otra muestra, cuya media es 10 también, pero su desviación estándar es 1. Eso significa que tus datos están menos diversos. o sea que tus datos los puedes encontrar en 9 y otros en 8, etc. Con esto: +-3 sigma = +-3 * 1 = +-3. Tienes que el 99.7% de que todos tus datos están en el intervalo de 10-3=7 y 10+3 = 13. Esto significa que ya es muy poco probable que tengas un valor fuera de este intervalo, por ejemplo que tengas un dato en 5 o 4.

William Prieto Velandia

student•

Efectivamente el ejemplo que da @aryblgz es muy bueno para notar que la desviación estándar pequeña es recomendable, aunque es mejor aclarar que el 99.7% representa la probabilidad de que encuentres a tu variable X dentro del rango de + o - 3 desviaciones estándar, este es el verdadero significado de la probabilidad asociada

Miguel Andres Rendon Reyes

student•

Loco no es que en tres desviaciones se encuentren todo el 97%, si viste la gráfica del minuto 7:39, puedes ver, que a lo que se refiere es que en un sigma. tienes 34% de un lado y otro 34% de otro, luego le añades 13% de un lado y de otro y tienes el 95%. Por lo que en dos sigmas, encuentras el 95% de los datos. y luego eestá que si le agregamos otro sigma, obtenemos el otro resto de datos. el 4.9% de esos datos, están allí, miti para arriba miti para abajo.

Bueno primero dice que entre menor variación estándar menos se dispersan los datos, y por lo cual se puede decir que esto es bueno, pero ...

Curso de Estadística Computacional con Python

Curso de Estadística Computacional con Python