Introducción al análisis exploratorio de datos

1

¿Qué es y para qué sirve el análisis exploratorio de datos?

2

¿Cómo hacer un análisis exploratorio de datos?

3

Tipos de análisis de datos

4

Tipos de datos y análisis de variables

5

Herramientas de software para el análisis exploratorio de datos

6

Conociendo nuestros datos: palmerpenguins

7

Recolección de datos, limpieza y validación

8

Ejercicio de validación de datos

Quiz: Introducción al análisis exploratorio de datos

Análisis univariado

9

Explorando una variable categórica: conteos y proporciones

10

Estadística descriptiva aplicada: medidas de tendencia central

11

Estadística descriptiva aplicada: medidas de dispersión

12

Ejercicio de obtención de medidas de dispersión

13

Estadística descriptiva aplicada: distribuciones

14

Estadística descriptiva aplicada: funciones de densidad de probabilidad

15

Bonus: Teorema del límite central

Quiz: Análisis univariado

Análisis bivariado

16

Estableciendo relaciones: gráficos de puntos

17

Estableciendo relaciones: gráficos de violín y boxplots

18

Estableciendo relaciones: matrices de correlación

19

Limitantes de los coeficientes de correlación lineal

20

Estableciendo relaciones: análisis de regresión simple

21

Limitaciones del análisis de regresión simple

Quiz: Análisis bivariado

Análisis multivariado

22

Análisis de regresión múltiple

23

Visualización del análisis de regresión múltiple

24

Análisis de regresión logística

25

Paradoja de Simpson

26

¿Qué hacer cuando tengo muchas variables?

Quiz: Análisis multivariado

Conclusiones

27

Diversidad de gráficas al explorar datos

28

Continúa aprendiendo sobre EDA

¿Cómo hacer un análisis exploratorio de datos?

2/28
Recursos

Aportes 20

Preguntas 4

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Por que debería hacer un análisis exploratorio de datos?

  • Organizar y entender las variables: podrás identificar los diferentes tipos de variables, las categorías a la que pertenecen y el tipo de análisis que puedes realizar sobre ellas.
  • Establecer relaciones entre las variables
  • Encontrar patrones ocultos en los datos: podrás encontrar información o comportamientos relevantes cuando hagas el EDA.
  • Ayuda a escoger el modelo correcto para la necesidad correcta: una vez encuentres como están relacionadas las variables podrás descubrir las variables que mas se ajustan a un tipo de modelo y de esta manera eligiras el correcto
  • Ayuda a tomar decisiones informadas: decisiones basadas en los datos, en las relaciones que encuentres entre variables, en patrones ocultos y en los modelos que generes a través de la EDA

Pasos de una Análisis Exploratorio de Datos

  1. Hacer preguntas sobe los datos. Hazte las siguientes preguntas para guiar el EDA:
    • Que te gustaria encontrar?
    • Que quisieras saber de los datos?
    • Cual es la razon para realizar el analisis?
  2. Determinar el tamaño de los datos. Debes responder preguntas como:
    • Cuantas observaciones existen?
    • Cuantas variables hay?
    • Necesito todas las observaciones?
    • Necesito todas las variables?
  3. Categorizar las variables. Debes preguntarte:
    • Cuantas variables categóricas existen?
    • Cuantas variables continuas existen?
    • Como puedo explorar cada variable dependiendo de su categoría?
  4. Limpieza y validación de los datos. En ese paso debes preguntarte:
    • Tengo valores faltantes?
    • Cual es la proporción de datos faltantes?
    • Como puedo tratar a los datos faltantes?
    • Cual es la distribución de los datos?
    • Tengo valores atipicos?
  5. Establecer relaciones entre los datos. Responde preguntas como:
    • Existe algun tipo de relacion entre mi variable X y Y?
    • Que pasa ahora si considero la variable Z en el analisis?
    • Que significa que las observaciones se agrupen?
    • Que significa el patron que se observa?

Este proceso es ciclico. A pesar de que pueda parecer infinito, este proceso en algun momento debe salir del ciclo y continuar para obtener algun tipo de valor

Los 5 pasos del análisis exploratorio de datos:

  1. Hacer preguntas sobre la base de datos y las preguntas que guían tu análisis exploratorio
  2. Determinar el tamaño de los datos.
  3. Categorizar las variables
  4. Limpieza y validación de datos
  5. Establecer relaciones entre los datos

Les quiero recomendar un libro que se llama The Art of Data Science.

Cuando haces un buen analisis de tus datos, tienes la oportunidad de obtener mejores outputs, y de esta forma lograr mejores respuestas a tus preguntas

Otros aspectos a tener en cuenta

El proceso de realizar un análisis exploratorio de datos (EDA) puede variar dependiendo del tipo de datos y de los objetivos específicos del análisis, pero en general, el EDA sigue los siguientes pasos básicos:

Importación y limpieza de datos:

  • Antes de realizar cualquier análisis, es importante asegurarse de que los datos estén en un formato adecuado y limpio. Esto puede incluir la eliminación de valores perdidos, la corrección de valores inconsistentes y la transformación de variables si es necesario.

Análisis univariado:

  • Este tipo de análisis se enfoca en una sola variable a la vez. Por ejemplo, se puede calcular la media, la desviación estándar, el rango y la distribución de una variable. También se pueden crear gráficos de barras, histogramas, gráficos de densidad, entre otros, para visualizar la distribución de la variable.

Análisis bivariado:

  • En este tipo de análisis, se estudian dos variables simultáneamente. Se pueden crear gráficos de dispersión, matrices de diagramación de pares, y se pueden calcular medidas de correlación para explorar la relación entre las dos variables.

Análisis multivariado:

  • En este tipo de análisis, se estudian varias variables a la vez. Se pueden realizar técnicas como los componentes principales, la agrupación (clustering) y la reducción de dimensionalidad para identificar patrones y tendencias en los datos.

Visualización y comunicación de resultados:

  • Una vez realizado el análisis, es importante visualizar y comunicar los resultados de manera clara y concisa. Esto puede incluir la creación de gráficos, tablas y resúmenes para presentar los resultados.

Es importante destacar que el EDA es un proceso iterativo, lo que significa que puede ser necesario volver a revisar los datos y ajustar el análisis en función de los hallazgos. Además, el EDA no es un proceso lineal y es posible que se salten algunos pasos o se realice un análisis más detallado en función de los datos y objetivos específicos del proyecto.

Que buenas expectativas tengo de este curso!

Me parece que para el paso N° 1, mas que hacerce preguntas es conocer el negocio. ya que el analisis estara enfocado en el, y no siempre lo que ocurreo en una empresa ocurre en otra sobre todo si son rubros distintos.

Un análisis exploratorio de datos sigue un ciclo que parece no terminar, sin embargo es necesario que acabe, de otra forma no podríamos obtener información de valor.

Recuerden, garbage in, garbage out, los datos tienen que ser lo mas limpios posibles para poder tener el mejor resultado posible

Este curso promete

!Claves estas preguntas y siempre se deben realizar

Es interesante que el analisis exploratorio de datos se realiza de esta manera. No sabia que tiene un ciclo especial el cual cumple la funcion de analisis y ver el contenido de la data. Es algo a tener en cuenta.

**¿Por qué debemos realizar una análisis exploratorio de datos?** * desmarcada**Organizar y entender las variables** * desmarcada**Establecer relaciones entre las variables** * desmarcada**Encontrar patrones ocultos en los datos** * desmarcada**Nos ayuda a escoger el modelo correcto para la necesidad correcta** * desmarcada**Nos ayuda a tomar decisiones informadas.**

Preguntar para saber más sobre los Datos: ¿cuántas observaciones existen? ¿cuántas variables hay? ¿necesito todas las observaciones? ¿necesito todas las variables?

Las preguntas se siguen haciendo hasta obtener toda la información que me puedan brindar los datos

2. ¿Cómo hacer un análisis exploratorio de datos?

¿Por qué deberías realizar un análisis exploratorio de datos?

  • Organizar y entender las variables.
  • Establecer las relaciones entre las variables.
  • Encontrar patrones ocultos en los datos.
  • Ayudarte a escoger el modelo correcto para la necesidad correcta.
  • Ayudarte a tomar una decisión informada.

¿Cuáles son los pasos de un análisis exploratorio de datos?

  1. Hacer preguntas
    • ¿Qué te gustaría encontrar?
    • ¿Qué quisieras saber de los datos?
    • ¿Cuál es la razón para realizar el análisis?
  2. Determinar el tamaño de los datos
    • ¿Cuántas observaciones existen?
    • ¿Cuántas variables hay?
    • ¿Necesito todas las observaciones?
    • ¿Necesito todas las variables?
  3. Categorizar las variables
    • ¿Cuántas variables categóricas existen?
    • ¿Cuántas variables continuas existen?
    • ¿Cómo puedo explorar cada variable dependiendo de su categoría?
  4. Limpieza y validación de datos
    • ¿Tengo valores faltantes?
    • ¿Cuál es la proporción de datos faltantes?
    • ¿Cómo puedo tratar a los datos faltantes?
    • ¿Cuál es la distribución de los datos?
    • ¿Tengo valores atípicos?
  5. Establecer relaciones
    • ¿Existe algún tipo de relación entre mi variable X y Y?
    • ¿Qué pasa si ahora considero a la variable Z en el análisis?
    • ¿Qué significa que las observaciones se agrupen?
    • ¿Qué significa el patrón que se observa?

Unos de los porque deberiamos hacer una analis exploratorio de datos serian los siguientes:

  • organizar y entender las variables
  • Establecer relaciones entre las variables
  • Encontrar patrones en los datos
  • Ayudarte a escoger el modelo correcto para la necesidad correcta
  • Tomar decisiones informadas

Ya depues de implementar esta face tenemos que ver cuales son los pasos necesario para un analiisis exploratorios los cuales son:

  1. Hacer preguntas
    1. Que te gustaria encontrar
    2. Que quisieras saber de los datos
    3. Cual es la razon para realizar el analisis
  2. Determinar el tamaño de los datos
    1. Cuantas obsevaciones existen
    2. Cuantas varibales hay
    3. Necesito todas las observaciones o todas las varibles
  3. Categorizar las variables
    1. Cuantas variables categorias y continuas existe
    2. Como puedo explorar cada variable dependiendp se su categoria
  4. Limpieza y validacion de datos
    1. Tengo valores faltantes
    2. Cual es la proporcion de datos
    3. Como puedo tratar los datos
    4. Cual es la distribucion de los datos
    5. Tengo datos atipicos
  5. Establecer relaciones
    1. Existen relacion entres las variables(x,y)
    2. Que pasa si uso a la varible Z
    3. Que significan que las variables se agrupen
    4. Que siginificado tiene el patron observado