Introducción al análisis exploratorio de datos

1

¿Qué es y para qué sirve el análisis exploratorio de datos?

2

¿Cómo hacer un análisis exploratorio de datos?

3

Tipos de análisis de datos

4

Tipos de datos y análisis de variables

5

Herramientas de software para el análisis exploratorio de datos

6

Conociendo nuestros datos: palmerpenguins

7

Recolección de datos, limpieza y validación

8

Ejercicio de validación de datos

Quiz: Introducción al análisis exploratorio de datos

Análisis univariado

9

Explorando una variable categórica: conteos y proporciones

10

Estadística descriptiva aplicada: medidas de tendencia central

11

Estadística descriptiva aplicada: medidas de dispersión

12

Ejercicio de obtención de medidas de dispersión

13

Estadística descriptiva aplicada: distribuciones

14

Estadística descriptiva aplicada: funciones de densidad de probabilidad

15

Bonus: Teorema del límite central

Quiz: Análisis univariado

Análisis bivariado

16

Estableciendo relaciones: gráficos de puntos

17

Estableciendo relaciones: gráficos de violín y boxplots

18

Estableciendo relaciones: matrices de correlación

19

Limitantes de los coeficientes de correlación lineal

20

Estableciendo relaciones: análisis de regresión simple

21

Limitaciones del análisis de regresión simple

Quiz: Análisis bivariado

Análisis multivariado

22

Análisis de regresión múltiple

23

Visualización del análisis de regresión múltiple

24

Análisis de regresión logística

25

Paradoja de Simpson

26

¿Qué hacer cuando tengo muchas variables?

Quiz: Análisis multivariado

Conclusiones

27

Diversidad de gráficas al explorar datos

28

Continúa aprendiendo sobre EDA

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

No se trata de lo que quieres comprar, sino de quién quieres ser. Invierte en tu educación con el precio especial

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

11 Días
9 Hrs
55 Min
33 Seg

Estadística descriptiva aplicada: medidas de dispersión

11/28
Recursos

Aportes 19

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Una curtosis mayor a 0 indica que la mayoria de los datos estan muy concentrados alrededor de la media, lo cual indica que hay poca variabilidad en los datos, es decir, el rango es pequeño

Una curtosis negativa indica lo contrario, los datos estan alejados de la media, lo cual indica mucha variabilidad en los datos, su rango es amplio

Resumen de la clase

Estadistica Descriptiva Aplicada: Medidas de Dispersion

  • Rango: La diferencia entre el valor maximo y minimo de los datos. Da una idea de que tan dispersos estan los datos
  • Rango Intercuartilico: Comprende el 25%, tanto arriba como abajo, de los datos respecto a la mediana. Divide el rango de los datos en 4 partes iguales y considera solo el 50% de los datos
  • Desviacion Estandar: Ofrece la dispersion media de una variable. Si a la media de una distribucion Normal se le suma, por arriba y por debajo, la desviacion estandar se obtiene un rango que contiene el 65% de los datos. Si se suma dos desviaciones estandar se obtiene el 95% de los datos. Si se suma tres desviaciones estandar se obtiene el 99% de los datos

Asimetría Estadística

Esta relacionado con la simetria de la distribucion

  • Si media = mediana = moda implica que la distribucion es simetrica.
  • Si media > mediana > moda, entonces La distribución esta sesgada hacia la izquierda. (Sesgo positivo)
  • Si media < mediana < moda, entonces la distribucion esta sesgada hacia la derecha. (Sesgo negativo)

Cutorsis

Es un estadístico de que tan juntos o que tan dispersos están los datos respecto a la media.

  • Si Cutorsis = 0, los datos estan distribuidos homogeneamente alrededor de la media (Distribucion Mesocurtica)
  • Si Cutorsis > 0, los datos estan concentrados alrededor de la media (Distribucion Leptocurtica)
  • Si Cutorsis < 0, los datos estan alejados de la media (Distribucion Platicurtica)

En este Blog, pueden encontrar mayor información

No había escuchado hasta ahora nunca de CURTOSIS.

En este curso estoy reforzando los conocimientos adquiridos en los de estadística 😎🔥🥇

Otra clase FANTASTICA!!!

Tipos de asimetría estadística


  • Asimetría positiva, distribución con mayor dispersión a la derecha de la media.
  • Asimetría negativa, distribución con mayor dispersión a la izquierda de la media.

Las medidas de dispersión más comunes son:


Rango:

  • Es la diferencia entre el valor máximo y el valor mínimo en un conjunto de datos.
  • El rango da una idea de cuantos dispersos estan los datos.

Desviación estándar:

  • Es la medida más común de la dispersión en un conjunto de datos.
  • Mide la cantidad de variación o dispersión de un conjunto de datos con respecto a su medio.
  • La desviación estándar se calcula como la raíz cuadrada de la varianza.

Varianza:

  • Es una medida de la dispersión en un conjunto de datos.
  • La variación mide cuánto varían los datos con respecto a su medio.
  • Es la media de los cuadrados de las desviaciones de cada valor respecto a la media.

Coeficiente de variación:

  • Es la desviación estándar dividida por los medios, expresada como un porcentaje.
  • El coeficiente de variación mide la relativa de los datos en relación con su medio.

Cuartil y rango intercuartil:

  • El rango intercuartil es la diferencia entre el tercer cuartil y el primer cuartil.
  • Mide la cantidad de variación en el rango medio de los datos.

Estas medidas de dispersión se utilizan para entender cómo los datos están distribuidos alrededor de los medios y cuánto varían los datos. Se pueden utilizar juntos con las medidas de tendencia central para entender y describir la forma, la dispersión y el sesgo en un conjunto de datos.

No hay que complicarse con las desigualdades, el entendimiento del sesgo tómenlo por parte de la moda, si el sesgo es negativo, la moda vale más que las otras medidas de tendencia central, porque todo se acumula hacia la derecha; si el sesgo es positivo, la moda vale menos porque todo se acumula hacia la izquierda.

Rango: es la diferencia entre el valor máximo y el valor mínimo Rango Intercuartilico: es la +-25% de los Datos con respecto a la Media Desviación Estandar: Dispersión media de una variable Una curtosis mayor a 0 indica que la mayoria de los datos estan muy concentrados alrededor de la media, lo cual indica que hay poca variabilidad en los datos, es decir, el rango es pequeño Una curtosis negativa indica lo contrario, los datos estan alejados de la media, lo cual indica mucha variabilidad

El diagrama de caja tambien se le conoce como gráfico de bigotes

muy buenos datos teoricos en esta clase

Tuve una duda con respecto al concepto de curtosis debido a un comentario que decía que: * Una curtosis = 0, tenía un comportamiento basado en la distribución normal o algo así. Después le pedí a Chat GPT que me explicará, debido a que más adelante el profesor en el video lo dijo. La razón de mi duda existencial que fue Chat GPT me dió otros valores basados en el número 3. Entonces nuevamente le pedí que me explicará por qué algunos conceptos de la curtosis estaban basados en el numero 0, y me puso lo siguiente: > En algunas fuentes y contextos, la curtosis puede ser ajustada restando 3 de su valor, lo cual se llama "curtosis excesiva". Esto se hace para que la distribución normal tenga una curtosis de 0, facilitando la comparación con otras distribuciones. Aquí te explico en más detalle: Entonces dije ahh ya entiendo, entonces lo que se explica es el concepto de "**curtosis excesiva." Luego busqué en Wikipedia y todo encajaba.** <https://es.wikipedia.org/wiki/Curtosis> Creo que me he confiado y he delegado algunas cosas importantes, o simplemente asentir sin cuestionar si lo he entendido en realidad , debido a ello trataré de cuestionar porque es mi responsabilidad aprender bien. Sin más por el momento dejo mi aporte, quien necesite algunas cosas del curso o de esta clase las puede encontrar en mi Repo de GH: <https://github.com/DensLopez/Analisis_Exploratorio>

Genial…!

La curtosis mientras más cercana es a 0, es porque la desviación estándar es cercana a 0.

11. Estadística descriptiva aplicada: medidas de dispersión

Medidas de dispersión

  • Rango: la diferencia entre el valor máximo y valor mínimo de los datos.
  • Rango intercuartílico: Comprenden ±25% de los datos respecto a la mediana.
  • Desviación estándar: Ofrece la dispersión media de una variable.