No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Desviación estándar

10/25
Recursos

Aportes 70

Preguntas 16

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Un error común es comparar la desviación estándar de dos variables que tienen escalas diferentes, en este ejemplo usaremos el edad y altura

edad cumplida
media = 24, desviación estándar = 2.5

altura en centimentros
media = 175, desviación estándar = 8

Como vemos la desviación estándar de altura es mayor dado a su escala.

Lo correcto sería usar el coeficiente de variabilidad que es simplemente dividir la desviación estandar entre la media.

edad
2.5 / 24 = 0.1042.

altura
8 / 175 = 0.0457

Ahora ambas variables la podemos compara y concluimos que edad tiene una mayor variabilidad

Este articulo lo habían compartido en otro curso y explica de donde sale el 1.5 para calcular los outlier

Desviación estándar

La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos.
El símbolo σ (sigma) se utiliza frecuentemente para representar la desviación estándar de una población, mientras que s se utiliza para representar la desviación estándar de una muestra.
La desviación estándar se puede utilizar para establecer un valor de referencia para estimar la variación general de un proceso.


.

Solo para aclarar, ya que el termino de varianza se abordo muy rápidamente:

.

  • Varianza: es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones. Su fórmula es la siguiente:
    • X → Variable sobre la que se pretenden calcular la varianza
    • xi → Observación número i de la variable X. i puede tomará valores entre 1 y n.
    • N → Número de observaciones.
    • x̄ → Es la media de la variable X.

La diferencia entre la desviación estándar o típica y la varianza, es que la la desviación típica es la raíz cuadrada de la varianza
.
Y no nos podemos olvidar de otra medida de dispersión muy importante, que es el coeficiente de variación:

  • Su cálculo se obtiene de dividir la desviación típica entre el valor absoluto de la media del conjunto y por lo general se expresa en porcentaje para su mejor comprensión.

    • X → Variable sobre la que se pretenden calcular la varianza
    • σx → Desviación típica de la variable X.
    • | x̄ | → Es la media de la variable X en valor absoluto con x̄ ≠ 0

El coeficiente de variación de utiliza para comparar la dispersión (variación) de conjuntos de datos de medidas diferentes o con medias aritméticas diferentes.

Que bien se entienden estos conceptos.
No he encontrado algun video explicativo asi de claro, excepto en Platzi

Distribución normal

Buenas muchach@s ! 👋
Paso a dejar mis apuntes ✍️:


Muchas gracias por actualizar este curso. tomé el anterior hace algunos meses, (y aunque todo es conocimiento), hay una gran diferencia en la metodología, el uso de los recursos, el profesor y su forma de explicar, además la introducción a Deepnote que es una herramienta increíble para el manejo de datos. ⭐️⭐️⭐️⭐️⭐️

No sabía que en el método de detección de outliers mediante IQR el multiplicar el IQR por 1.5 solo era válido para distribuciones normales, siempre se aprende algo nuevo

no entendi muy bien esta clase : /

Para explicar el por qué se le resta 1 a N cuando se hace desviación de la muestra, pueden ver el concepto de Corrección de Bessel. Aún sigo buscando una fuente que lo defina totalmente claro, pero con ese término ya buscan algo más enfocado.

Les dejo un video en español que explica para qué usamos la Campana de Gauss y de dónde provino. Está bien interesante y puede arraigar mejor el sentido de lo que hacemos acá.
https://youtu.be/_oK-O-ZqO-w

F para la edición de Q3 del profe jajaja

Población vs. Muestra


Obtenido del siguiente link.

Si te está costando entender estos temas:

Se me hizo muy duro de entender esta clase. Les comparto este video en youtube que me funcionó 😃 super práctico
https://www.youtube.com/watch?v=hLmsEFNaOgY

Los aportes me ayudaron a entender mucho mejor lo explicado por el profesor. Gracias!

Este video ayudará a entender mejor. Esta clase no la entendí nada 😦

https://www.youtube.com/watch?v=R2U3apzVB9E

Esta clase se me hizo pesadísima (comparando contra todas las anteriores) No sé si fui el único pero hubiera estado bien hacerla en dos partes.

Desviación Estandar

  • Representa la distancia entre los datos y la media
  • Es la raiz cuadrada de la varianza
  • Cuando hablamos de una muestra (un subconjunto de la población) reducimos en uno a la cantidad de datos

Detección de Outliers

  • Una distribución normal es una distribución simétrica agrupada en torno a la media (la mayoría de datos se agrupa alrededor de la media)
  • En la mayoría de casos tenemos distribuciones normales, podemos identificar como outliers a los datos que se encuentran fuera del rango de 3 veces la desviacion estandar alrededor de la media o 1.5 el rango intercuartil (IQR) alrededor de la media (tienen un valor similar)
  • Cuando tenemos sezgo (ditribuciones no normales) el valor de la Desviación estandar pierde mucha informacion, podemos detectar los outliers por medio de una funcion de IQR

La **varianza **(también denominada variancia, aunque esta denominación es menos utilizada) es una medida estadística que mide la dispersión de los valores respecto a un valor central (media), es decir, la media de las diferencias cuadráticas de las puntuaciones respecto a su media aritmética. Suele ser re-presentada con la letra griega σ o una V en mayúscula.
Propiedades
 La varianza es siempre positiva o 0:
Cuando todos los datos de la distribución son iguales, la varianza y la desviación típica son iguales a 0.
 Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier cambio de valor será detectado.
 Son índices que describen la variabilidad o dispersión y por tanto cuando los datos están muy ale-jados de la media, el numerador de sus fórmulas será grande y la varianza y la desviación típica lo serán.
 Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica. Para reducir a la mitad la desviación típica, la muestra se tiene que multiplicar por 4.
 Si a los datos de la distribución les sumamos una cantidad constante la varianza no se modifica.
 Si a los datos de la distribución les multiplicamos una constante, la varianza queda multiplicada por el cuadrado de esa constante.

La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadráticas. Para evitar ese problema se define otra medida de dispersión, que es la desviación típica, o desviación estándar, que se halla como la raíz cuadrada positiva de la varianza. La desviación típica informa sobre la disper-sión de los datos respecto al valor de la media; cuanto mayor sea su valor, más dispersos estarán los datos. Esta medida viene representada en la mayoría de los casos por S, dado que es su inicial de su nominación en inglés.

Si te dejaron poco loco con este concepto, por que de verdad no entendi nada en el video, CHATGPT me lo hizo entender en menos de 3 min.
La desviacion estandar me ayuda a conocer que tan dispersos por “valor individual” estan de mi media(que es la medida de tendencia central, el promedio).
y solo aplicas la formula y ya.
eso es todo.
no te mates la vida

te comparto la conversacion con chat-gpt:

YO: osea, la Desviacion estandar me dice que tan disperso esta un valor individualmente de la media que ya tengo ubicada en mi base de datos, por ejemplo.
3,2,1,0,1,2,3,4

yo quiero ver que tan disperso esta 3 hacia 0 que es mi media
con la formula que me mostraste solo hago la operacion y eso me mueva un valor que me ayuda a saber que pasos debo recorrer para llegar desde 0 a 3

CHAT-GPT:
Exactamente, has comprendido correctamente el concepto de desviación estándar. La desviación estándar mide qué tan dispersos están los valores individuales en relación con la media del conjunto de datos.

En tu ejemplo, tienes el conjunto de datos [3, 2, 1, 0, 1, 2, 3, 4]. La media de este conjunto de datos es:

x̄ = (3 + 2 + 1 + 0 + 1 + 2 + 3 + 4) / 8 = 16 / 8 = 2

Ahora, queremos saber qué tan disperso está el valor 3 con respecto a la media 2. Para ello, utilizamos la fórmula de la desviación estándar:

σ = √((Σ(xi - x̄)²) / n)

Donde xi es cada valor individual en el conjunto de datos. En este caso, el valor xi sería 3.

σ = √(((3 - 2)²) / 8) = √((1²) / 8) = √(1 / 8) ≈ 0.354

La desviación estándar (σ) nos indica que el valor 3 se encuentra aproximadamente a 0.354 unidades de desviación estándar por encima de la media 2. Esto significa que el valor 3 está un poco más disperso o alejado de la media 2.

Si quisiéramos calcular la desviación estándar para cada uno de los valores individuales en el conjunto de datos, repetiríamos el cálculo utilizando cada valor xi por separado. Esto nos daría una medida de cuán dispersos están todos los valores en relación con la media.

La desviación estándar es una herramienta importante para comprender la variabilidad de los datos y es ampliamente utilizada en estadística y análisis de datos.

Espero que esta explicación te haya sido útil. Si tienes más preguntas o necesitas más aclaraciones, no dudes en preguntar. Estoy aquí para ayudarte.

Resumen de la clase
Desviación estándar: es la dispersión de los datos con respecto al promedio o media.
La desviación estándar se representa con la letra sigma y su fórmula es la siguiente:

Es importante tener en cuenta que existen 2 tipos de desviación estándar:
• Desviación estándar poblacional: es la misma fórmula que se muestra más arriba.
• Desviación estándar muestral: se representa como sigma sample o sigma muestra y lugar de dividir entre n (la cantidad total de elementos) se divide entre n-1.

Varianza:
La varianza viene a ser el cuadrado de la desviación estándar.
.
Distribución normal o Gaussiana

  • Al dibujar el histograma de un conjunto de datos observa barras distribuidas simétricamente respecto a un valor máximo.
  • Cuanto mas fino hace las barras del histograma sigue la forma de una campana.
  • La línea del medio es la mediana (o la media, ambos puntos coinciden en la distribución normal).
  • Normalmente en los extremos se ponen los valores mínimos y máximos, pero esto se puede ajustar para excluir a los datos atípicos (outliers).

Definir valores atipicos en distrbuciones simetricas
Para definir los ouliders, valores atípicos, en términos de IQR calculamos:
• Límite inferior: Q1 - 1.5 * IQR
• Límite superior: Q3 + 1.5 * IQR
.
Distribución sesgada
Definimos los outliders respecto al IRQ de esta forma:
• Límite inferior: Q1-1.5f(IQR)
• Límite superior: Q3+1.5
g({IQR)

.
Coeficiente de variación:
Su cálculo se obtiene de dividir la desviación típica entre el valor absoluto de la media del conjunto y por lo general se expresa en porcentaje para su mejor comprensión.

Dejo escrito la formula de la Varianza para que puedan tener la formula en el notebook.

$$ \sqrt {\frac{1}{N}\sum\limits_{i = 1}^N {\left( {x_i - \bar x} \right)^2 } } $$

En resumen: La desviación estandar se dfine como la raíz cuadrada de la varianza o de otro modo:

σ = √(∑(xᵢ - μ)² / N)

Este video explica de manera sencilla la desviación estándar Link.

La desviación estándar nos dice que tanto se alejan los valores del promedio.

Para entender porqué cuando analizamos una muestra usamos un grado de libertad menos, N-1 , pueden ver este video.

**¿Sabías que la desviación estándar te ayuda a entender si tus datos están muy juntos o muy dispersos?** 📊 Imagina que estás analizando calificaciones: si la desviación es baja, la mayoría sacó notas parecidas. Si es alta, hubo mucha diferencia entre las notas. ¡Es clave para saber si un examen fue justo! 🎓✏️
Esas distribuciones no simétricas, es posible convertirlas en distribuciones normales, removiendo los sesgos y permitiendonos trabajarlas como una distribución normal
Por si no entendieron que es la desviacion estandar ¡Imagina que tienes una caja llena de juguetes! La desviación estándar es como una medida de qué tan "esparcidos" están esos juguetes dentro de la caja. **Si los juguetes están todos apiñados en el centro, como si estuvieran durmiendo juntos, la desviación estándar sería pequeña.** Esto significa que la mayoría de los juguetes están cerca del tamaño y tipo promedio. **En cambio, si los juguetes están por toda la caja, algunos en las esquinas y otros en el medio, la desviación estándar sería grande.** Esto significa que hay una mayor variedad de tamaños y tipos de juguetes. **La desviación estándar se usa en muchas cosas, como:** * **Para saber qué tan diferente es la altura de las personas en un grupo.** Si la desviación estándar es pequeña, significa que la mayoría de las personas tienen una altura similar. Si es grande, significa que hay una mayor variedad de alturas. * **Para ver qué tan bien les fue a los estudiantes en un examen.** Si la desviación estándar es pequeña, significa que la mayoría de los estudiantes obtuvieron calificaciones similares. Si es grande, significa que hay una mayor variedad de calificaciones. **Es importante recordar que la desviación estándar es solo una medida, y no siempre nos dice toda la historia.** Por ejemplo, dos grupos de datos pueden tener la misma desviación estándar, pero pueden verse muy diferentes. **En resumen, la desviación estándar es como una regla que nos ayuda a medir qué tan "extendidos" están las cosas.**
Hola, en el minuto 10:17 se indica que la definición de mínimos y máximos en función de los IQR ayudan a dejar outliers fuera del análisis, sin embargo si analizamos geométricamente, yo veo que los nuevos min y max son ampliamente mayores que los originales. Entonces no deja fuera ouliers, mas bien ayuda a cubrir mas datos anómalos. Alguien me podría a entender mejor lo que ocurre?![](https://static.platzi.com/media/user_upload/image-b6b8a416-588b-4e1b-a678-73e69642b888.jpg)

Esta explicacion me ayudo mucho a comprender el tema que estamos tratando y como nos puede ayudar a mejorar nuestra capacidad en la programacion. Es algo bueno.

**Si se te dificulta interpretar que es la varianza y desviacion estandar tanto pobacional como muestra te recomiendo leer el siguiente informe:** [**https://es.wikipedia.org/wiki/Desviaci%C3%B3n\_t%C3%ADpica**](https://es.wikipedia.org/wiki/Desviaci%C3%B3n_t%C3%ADpica)**** tambien hay detalles sobre la [regla 68-95-99.7](https://es.wikipedia.org/wiki/Regla_68-95-99.7 "Regla 68-95-99.7"), o "regla empírica"que se trata en capitulos posteriores del curso...

ah y sobre la varianza, no te preocupes, es un concepto intrinsico de la desviacion estandar, esto quiere decir.
que al tu calcular la desviacion estandar estas calculando la varianza, normalmente se usa la desviacion estandar para calcular que tan dispersos estan individualmente mis valores frente a la media.
asi que, puedes tomarlo como herramienta util para muchisisisismos casos.
cuando ya estes en un caso especifico necesitaras sacar la varianza, tranquilo, ya sabras abordar ese problema con mas frescura pa.

Por qué 1.5??
Analiza la siguiente aplicación del IQR:

Lower Bound:
= Q1 - 1.5 * IQR
= Q1 - 1.5 * (Q3 - Q1)
= -0.675σ - 1.5 * (0.675 - [-0.675])σ
= -0.675σ - 1.5 * 1.35σ
= -2.7σ
Upper Bound:
= Q3 + 1.5 * IQR
= Q3 + 1.5 * (Q3 - Q1)
= 0.675σ + 1.5 * (0.675 - [-0.675])σ
= 0.675σ + 1.5 * 1.35σ
= 2.7σ

En una campana de Gauss o distribución normal el 99.72% de los datos se encuentra a 3σ (tres desviaciones estandards) de la media (μ), por tanto, la escala de 1.5 (que es igual a 2.7σ) es la mas simétrica y cercana a 3σ, por lo que, estaremos considerando la mayoría de datos como válidos para el análisis a realizar dejando solo como outlayers una porción pequeña de datos que son los que más se alejan de la media.

10. Desviación estándar

  • Método de detección de outliers con rango intercuartil.
  • La desviación estándar calcula que tan dispersos están los datos en una distribución.

esta clase me trajo recuerdos amargos de cuando estudie estadistica en la universidad. mi cerebro solo lo identificaba como ruido de fondo y lo ignoraba. Pero ahora puedo escucharlo las veces que sean necesarias para que el ruido se convierta en algo que tenga algun sentido.

Si te está costando entender estos temas:

Buena clase.

Rango Intercuartil

saludos compañer@s:
espero este ejemplo aclare muchas dudas:

Excelente clase!!

Para los que tuvieron duda de la clase, aqui información que les podria ayudar a entender mejor

Outliers
Los outliers son valores extremos o anómalos en un conjunto de datos. Por lo general, se refieren a valores que están muy por encima o por debajo de la mayoría de los demás valores en el conjunto de datos. Los outliers pueden tener un impacto significativo en los resultados de un análisis de datos, ya que pueden distorsionar las estadísticas y hacer que los resultados sean engañosos o poco precisos. Por lo tanto, a menudo es importante identificar y tratar con los outliers en el análisis de datos.

Imagina que estamos analizando los salarios de un grupo de trabajadores en una empresa. Los salarios van desde $20,000 a $50,000, con la mayoría de los salarios entre $30,000 y $40,000. Sin embargo, hay un trabajador que gana $80,000, que es mucho más alto que cualquier otro salario en el conjunto de datos. Este salario es un outlier, ya que está muy por encima de la mayoría de los demás valores en el conjunto de datos.

Si incluimos este outlier en nuestro análisis, podría distorsionar las estadísticas y hacer que los resultados sean poco precisos. Por ejemplo, si calculamos el promedio de los salarios, el resultado sería de $43,000, lo que podría dar la impresión de que la mayoría de los trabajadores ganan cerca de esa cantidad. Sin embargo, si excluimos el outlier, el promedio sería de $36,000, lo que es más preciso y refleja mejor la realidad de los salarios en la empresa.

Hay varias formas de identificar y tratar con los outliers en un conjunto de datos. Una forma común es utilizar la estadística de la “regla del pulgar” o regla del rango intercuartílico (IQR, por sus siglas en inglés). La regla del IQR se basa en el rango intercuartílico, que es la diferencia entre el tercer y el primer cuartil de un conjunto de datos.

Para utilizar la regla del IQR, sigue estos pasos:

Ordena los datos en orden ascendente.
Calcula el primer cuartil (Q1) y el tercer cuartil (Q3). El primer cuartil es el valor que divide a la mitad inferior de los datos, mientras que el tercer cuartil divide a la mitad superior de los datos.
Calcula el rango intercuartílico (IQR) restando Q1 de Q3.
Calcula los límites de los outliers agregando 1.5 veces el IQR a Q1 y restando 1.5 vez el IQR a Q3. Cualquier valor que caiga por debajo del límite inferior o por encima del límite superior se considera un outlier.

Por ejemplo, si tenemos el siguiente conjunto de datos: 2, 3, 5, 7, 8, 9, 10, 11, 12, 15

Ordenamos los datos en orden ascendente: 2, 3, 5, 7, 8, 9, 10, 11, 12, 15
Calculamos Q1 y Q3: Q1 = 5, Q3 = 11
Calculamos IQR: IQR = 11 - 5 = 6
Calculamos los límites: límite inferior = 5 - (1.5 * 6) = -1.5, límite superior = 11 + (1.5 * 6) = 20.5

Los outliers son cualquier valor por debajo de -1.5 o por encima de 20.5. En este caso, no hay outliers en el conjunto de datos.

Es importante tener en cuenta que la regla del IQR es solo una guía y que puede haber casos en los que sea necesario ajustarla o utilizar otras técnicas para identificar y tratar con los outliers. Además, es importante evaluar cada caso de manera individual y considerar si incluir o excluir los outliers es apropiado en cada situación.

Quartil

Los cuartiles son valores que dividen a un conjunto de datos en cuatro partes iguales. Los cuartiles se utilizan a menudo para resumir y describir la distribución de un conjunto de datos.

Hay tres cuartiles:

El cuartil inferior (Q1) es el valor que divide al 25% inferior de los datos del 75% superior.
El cuartil medio (Q2) es el valor que divide al 50% inferior de los datos del 50% superior. También se conoce como el valor mediano de los datos.
El cuartil superior (Q3) es el valor que divide al 75% inferior de los datos del 25% superior.

Por ejemplo, si tenemos el conjunto de datos {1, 2, 3, 4, 5, 6, 7, 8}, el cuartil inferior es el valor 2, el cuartil medio es el valor 4 y el cuartil superior es el valor 6.

Los cuartiles son útiles para comparar la distribución de dos o más conjuntos de datos y para detectar valores atípicos o extremos en un conjunto de datos. También se utilizan para calcular el rango intercuartil, que es la diferencia entre el cuartil superior y el cuartil inferior.

Información resumida de esta clase
#EstudiantesDePlatzi

  • La desviación estándar es la medida de dispersión más utilizada en la estadística descriptiva

  • Lo que hacemos para no obtener datos negativos es, al resultado de la diferencia de la media con algún dato lo elevamos al cuadrado

  • Podemos buscar la desviación estándar de una muestra de todo lo que compone el conjunto de datos

  • Por lo general, el gráfico de una distribución normal conforma una campana

  • Esta clase debemos verla un par de veces

  • Existe un rango de criterio inter cuartil para limitar los datos que creemos son normales y es restarle al Q1 1.5IQR y sumarle al Q3 1.5IQR

  • Con esto podemos decir que tenemos en consideración más del 99% de los datos

Desviación estándar para datos agrupados

  • La desviación estándar o desviación típica es la raíz cuadrada de la varianza.

  • Es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación.

  • La desviación estándar se representa por σ.(sigma)

Desviación estándar para datos agrupados

  • Para simplificar el cálculo vamos o utilizar las
    siguientes expresiones que son equivalentes a las anteriores.

Desviación estándar para datos agrupados

Varianza

Media

Un buen ejercicio matemático es probar que las sumas de las desviaciones respecto al promedio es cero. Es decir:
(x1-prom) +(x2-prom) + … +(xn-prom) = 0

Es por eso que se deben buscar otra manera de medir estas desviaciones respecto al promedio, como tomar valor absoluto (desviación media) o elevar al cuadrado (desviación estándar)
Al elevar al cuadrado, se pierde el sentido de los datos ( si estamos trabajando con alturas, obtendríamos alturas al cuadrado) es por eso que se debe aplicar raíz al resultado obtenido.

La distribución normal adapta una variable aleatoria a una función que depende de la media y la desviación típica, y eso es sorprendente.

La desviación estándar o desviación típica (σ) es una medida de centralización o
dispersión para variables de razón (ratio o cociente) y de intervalo, de gran utilidad en la
estadística descriptiva.
Se define como la raíz cuadrada de la varianza. Junto con este valor, la desviación típica
es una medida (cuadrática) que informa de la media de distancias que tienen los datos
respecto de su media aritmética, expresada en las mismas unidades que la variable.
Se caracteriza por ser el estadígrafo de mayor uso en la actualidad.

este profe es muy bueno, deberia enseñar el Curso de Funciones Matemáticas para Data Science e Inteligencia Artificial

La desviacion estar es la raiz cuadrada de la varianza
eso fue lo que entendi espero que sea de ayuda

https://www.youtube.com/watch?v=Xq3thcQqwbc&list=PLeySRPnY35dFF5D9g_zi07yPKGXui4GII
vean esta play list si no entendieron nada o si tienen dudas. Este señor lo explica muy bien visualmente. Eso si, no muestra graficas, todos son datos y formulas pero muy sencillas de entender

Desviación estándar

  • Es el valor que nos permite identificar la variación de una muestra o población para saber si son datos uniformes o más bien dispersados.

Ejemplo muy simple:

tenemos los siguientes grupos:

grupo 1 | grupo 2
6 10
7 10
8 10
7 10
6 10

La desviación del primer grupo es 0,84 y la del segundo es 0 ya que el primero varia más en sus datos mientras el segundo tiene todos los datos de la muestra iguales.

que pesada de clase esta dando el profe Francisco, porque nunca me lo presentaron así en la Universidad, muy bueno explicando, felicitaciones al profe !!

Pregunta entonces que pasa i necesito eliminar outliers pero mi distribución no es una de campana y en realidad se ve sesgada por los mismo outliers que ncesito eliminar??? 🤔🤔🤔

Me gusta porque primero aprendemos matematicamente como funciona y el porque de las cosas para luego aplicarlas en python pero entender de donde viene. Me recuerda a la universidad cuando tuvimos que crear un foreach como si no existiera, eso luego ayudo a que al usar el for entendiamos como funcionaba por dentro

Graccias profesor.

excelente clase, buena metodología, muy bien explicada

Cómo calcular el rango intercuartil

La forma y simetría de una distribución de datos pueden ser obtenibles mediante maneras analísticas, por ejemplo:


Curtosis:

Descripción de la forma de una distribución, más información aquí.


Coeficiente de asimetría:

Existen diferentes fórmulas de diversos autores, pero lo importante es que según el valor obtenido y la condición que cumpla:
0 < ca
0 > ca
ca == 0
la desviación será hacia la izquierda, derecha o inexistente (por lo tanto, será una distribución normal)

Teóricamente es más común encontrar la desviación estándar muestral simplemente como S.

La desviación estándar se usa para comparar poblaciones
.
Nos dice: Que tan alejados están los datos, en promedio, de la media.

lo poco que voy entendiendo es que la desviación estándar sirve para la distribución simétrica y ver si dicha distribución tiene outliers.

Muy importante diferenciar la desviación estandar como valor y la comparación de desviación estandar de dos variables como variabilidad.

Según lo que entiendo la ** desviación estándar ** nos va a dar el promedio de la distancia que hay de nuestros datos y la media, esto nos sirve para saber que tan lejos se encuentras nuestros datos del promedio. Ahora la varianza nos va a decir una medida de que tan separados están los datos. Ejemplo, Al ser la varianza el cuadrado de la desviación estándar, lo que va a pasar es que va a darle un valor mucho más alto a los valores que se encuentren muy lejos de la media, por lo tanto puede ser que en dos conjuntos de datos (Supongamos que en cada conjunto hay millones de datos), todos los datos sean iguales a excepción de 10000 datos, los cuales en el primer conjunto de datos, dichos datos se encuentran pegados a la media, sin embargo en el otro conjunto de datos, los 10000 datos se encuentran muy lejos de la media. Si calculáramos la DESVIACIÓN ESTANDAR nos podría dar un promedio muy parecido al ser demasiados datos, los 10000 datos pueden ser no muy significativos, lo cual podríamos pensar que todos los datos van a estar con una distribución parecida, respecto a los dos conjuntos de datos. pero si calculamos la varianza nos vamos a dar cuenta que en el primer conjunto, su valor es mucho mayor que el del segundo conjunto, por lo tanto podríamos inferir que hay datos en mi segundo conjunto que se encuentra muy lejos de la media . espero les ayude a entender y si estoy mal corregirme

Excelente clase precisa y sencilla de explicar un concepto tan importante como lo es la desviación estándar.

Dejo pagina donde se pueden ver mas ejemplos sobre la varianza muestral y la desviación estándar:
https://es.khanacademy.org/math/ap-statistics/summarizing-quantitative-data-ap/measuring-spread-quantitative/v/sample-variance?v=U2HDfJDnHQQ