Por que debería hacer un análisis exploratorio de datos?
Organizar y entender las variables: podrás identificar los diferentes tipos de variables, las categorías a la que pertenecen y el tipo de análisis que puedes realizar sobre ellas.
Establecer relaciones entre las variables
Encontrar patrones ocultos en los datos: podrás encontrar información o comportamientos relevantes cuando hagas el EDA.
Ayuda a escoger el modelo correcto para la necesidad correcta: una vez encuentres como están relacionadas las variables podrás descubrir las variables que mas se ajustan a un tipo de modelo y de esta manera eligiras el correcto
Ayuda a tomar decisiones informadas: decisiones basadas en los datos, en las relaciones que encuentres entre variables, en patrones ocultos y en los modelos que generes a través de la EDA
Pasos de una Análisis Exploratorio de Datos
Hacer preguntas sobe los datos. Hazte las siguientes preguntas para guiar el EDA:
Que te gustaria encontrar?
Que quisieras saber de los datos?
Cual es la razon para realizar el analisis?
Determinar el tamaño de los datos. Debes responder preguntas como:
Cuantas observaciones existen?
Cuantas variables hay?
Necesito todas las observaciones?
Necesito todas las variables?
Categorizar las variables. Debes preguntarte:
Cuantas variables categóricas existen?
Cuantas variables continuas existen?
Como puedo explorar cada variable dependiendo de su categoría?
Limpieza y validación de los datos. En ese paso debes preguntarte:
Tengo valores faltantes?
Cual es la proporción de datos faltantes?
Como puedo tratar a los datos faltantes?
Cual es la distribución de los datos?
Tengo valores atipicos?
Establecer relaciones entre los datos. Responde preguntas como:
Existe algun tipo de relacion entre mi variable X y Y?
Que pasa ahora si considero la variable Z en el analisis?
Que significa que las observaciones se agrupen?
Que significa el patron que se observa?
Este proceso es ciclico. A pesar de que pueda parecer infinito, este proceso en algun momento debe salir del ciclo y continuar para obtener algun tipo de valor
Muchas gracias por el resumen.
6. Resumen
Resumir la información de relevante que encontraste de los datos.
Los 5 pasos del análisis exploratorio de datos:
Hacer preguntas sobre la base de datos y las preguntas que guían tu análisis exploratorio
Determinar el tamaño de los datos.
Categorizar las variables
Limpieza y validación de datos
Establecer relaciones entre los datos
👍
Les quiero recomendar un libro que se llama The Art of Data Science.
Cuando haces un buen analisis de tus datos, tienes la oportunidad de obtener mejores outputs, y de esta forma lograr mejores respuestas a tus preguntas
Exacto, es la mejor forma de iniciar con buenas bases.
Otros aspectos a tener en cuenta
El proceso de realizar un análisis exploratorio de datos (EDA) puede variar dependiendo del tipo de datos y de los objetivos específicos del análisis, pero en general, el EDA sigue los siguientes pasos básicos:
Importación y limpieza de datos:
Antes de realizar cualquier análisis, es importante asegurarse de que los datos estén en un formato adecuado y limpio. Esto puede incluir la eliminación de valores perdidos, la corrección de valores inconsistentes y la transformación de variables si es necesario.
Análisis univariado:
Este tipo de análisis se enfoca en una sola variable a la vez. Por ejemplo, se puede calcular la media, la desviación estándar, el rango y la distribución de una variable. También se pueden crear gráficos de barras, histogramas, gráficos de densidad, entre otros, para visualizar la distribución de la variable.
Análisis bivariado:
En este tipo de análisis, se estudian dos variables simultáneamente. Se pueden crear gráficos de dispersión, matrices de diagramación de pares, y se pueden calcular medidas de correlación para explorar la relación entre las dos variables.
Análisis multivariado:
En este tipo de análisis, se estudian varias variables a la vez. Se pueden realizar técnicas como los componentes principales, la agrupación (clustering) y la reducción de dimensionalidad para identificar patrones y tendencias en los datos.
Visualización y comunicación de resultados:
Una vez realizado el análisis, es importante visualizar y comunicar los resultados de manera clara y concisa. Esto puede incluir la creación de gráficos, tablas y resúmenes para presentar los resultados.
Es importante destacar que el EDA es un proceso iterativo, lo que significa que puede ser necesario volver a revisar los datos y ajustar el análisis en función de los hallazgos. Además, el EDA no es un proceso lineal y es posible que se salten algunos pasos o se realice un análisis más detallado en función de los datos y objetivos específicos del proyecto.
Analisis exploratorio de Datos Por que deberia?
Organizar y entender las variables
Establecer relaciones entre las variables
Encontrar patrones ocultos en los datos
Ayudarte a escoger el modelo correcto para la necesidad correcta
Pasos para un analisis exploratorio de datos
1.Hacer Preguntas
2.Determinar el tamaño de los datos
3.Categorizar las variables
4.Limpieza y validacion de datos
5.Establecer relaciones
Que buenas expectativas tengo de este curso!
Así es.
Me parece que para el paso N° 1, mas que hacerce preguntas es conocer el negocio. ya que el analisis estara enfocado en el, y no siempre lo que ocurreo en una empresa ocurre en otra sobre todo si son rubros distintos.
Un análisis exploratorio de datos sigue un ciclo que parece no terminar, sin embargo es necesario que acabe, de otra forma no podríamos obtener información de valor.
2. ¿Cómo hacer un análisis exploratorio de datos?
¿Por qué deberías realizar un análisis exploratorio de datos?
Organizar y entender las variables.
Establecer las relaciones entre las variables.
Encontrar patrones ocultos en los datos.
Ayudarte a escoger el modelo correcto para la necesidad correcta.
Ayudarte a tomar una decisión informada.
¿Cuáles son los pasos de un análisis exploratorio de datos?
Hacer preguntas
¿Qué te gustaría encontrar?
¿Qué quisieras saber de los datos?
¿Cuál es la razón para realizar el análisis?
Determinar el tamaño de los datos
¿Cuántas observaciones existen?
¿Cuántas variables hay?
¿Necesito todas las observaciones?
¿Necesito todas las variables?
Categorizar las variables
¿Cuántas variables categóricas existen?
¿Cuántas variables continuas existen?
¿Cómo puedo explorar cada variable dependiendo de su categoría?
Limpieza y validación de datos
¿Tengo valores faltantes?
¿Cuál es la proporción de datos faltantes?
¿Cómo puedo tratar a los datos faltantes?
¿Cuál es la distribución de los datos?
¿Tengo valores atípicos?
Establecer relaciones
¿Existe algún tipo de relación entre mi variable X y Y?
¿Qué pasa si ahora considero a la variable Z en el análisis?
¿Qué significa que las observaciones se agrupen?
¿Qué significa el patrón que se observa?
¿QUÉ ES UN ANÁLISIS EXPLORATORIO DE DATOS (AED) Y POR QUÉ ES IMPORTANTE?
Razones para realizar un análisis exploratorio de datos
Antes de aprender cómo hacer un análisis exploratorio de datos, es importante entender por qué realizarlo. Aquí tienes las principales razones:
Organizar y entender las variables:
Identificar los distintos tipos de variables (categóricas, continuas, etc.).
Determinar qué tipo de análisis puedes realizar con ellas.
Establecer relaciones entre variables:
Descubrir si las variables cambian al analizarse juntas.
Identificar asociaciones o patrones ocultos en los datos que podrían pasar desapercibidos.
Seleccionar el modelo adecuado:
Un AED te ayuda a identificar qué variables son útiles y cómo están relacionadas.
Esto evita construir modelos deficientes y asegura que el modelo seleccionado sea el más adecuado para la tarea.
Tomar decisiones fundamentadas:
Las decisiones basadas en datos son más confiables.
Un AED te permite fundamentar tus decisiones en patrones, relaciones y análisis sólidos.
PASOS PARA REALIZAR UN ANÁLISIS EXPLORATORIO DE DATOS
El proceso de un AED puede dividirse en cinco pasos principales:
1. Hacer preguntas
Define qué quieres descubrir en los datos:
¿Qué información necesitas?
¿Qué preguntas quieres responder?
¿Cuál es el objetivo de tu análisis?
2. Determinar el tamaño de los datos
Analiza la cantidad de observaciones y variables:
¿Cuántas observaciones existen?
¿Cuántas variables hay?
¿Existen datos que puedes eliminar por ser irrelevantes?
3. Categorizar las variables
Clasifica las variables según su tipo:
¿Cuántas son categóricas? ¿Cuántas son continuas?
¿Qué métodos de análisis son más adecuados según cada categoría?
4. Limpieza y validación de datos
Asegúrate de que los datos estén en buen estado:
¿Hay datos faltantes? Si es así, ¿cómo los manejarás?
¿Existen valores anómalos que debas tratar?
Analiza la proporción y distribución de los datos.
5. Establecer relaciones entre variables
Examina cómo las variables interactúan entre sí:
¿Existe relación entre la variable X y la Y?
¿Qué sucede al considerar otras variables como Z?
Identifica patrones y agrupaciones en los datos.
UN PROCESO CÍCLICO, PERO CON UN FINAL
El análisis exploratorio de datos no es lineal, sino cíclico. Esto significa que:
Comenzarás formulando preguntas.
Ajustarás los datos (tamaño, limpieza, categorización).
Identificarás relaciones entre las variables.
Luego, repetirás el ciclo con nuevas preguntas y ajustes. Sin embargo, es crucial saber cuándo detenerte. Un AED interminable no genera resultados útiles, así que debes decidir cuándo es suficiente para avanzar y compartir tus hallazgos.
¿Los pasos propuestos pueden cambiar el orden? es que me hace más sentido si pongo el punto 4 de primeras, ya que para mi es fundamental antes de comenzar con cualquier análisis tener los datos validados
Hola, Ana 😀
Sí y no. No necesariamente tiene que seguir exactamente este orden, puedes ir cambiandolo dependiendo de lo que necesites; Sin embargo, creería que el punto #1 es fundamental. Ya que haciendo estás preguntas tienes una Estrella del norte, un objetivo
.
Me explico, si pones tus preguntas cómo prioridad, a la hora de llenar vacios y validar datos, sabrás con que llenarlos (No siempre se usa la misma medida, eso dependerá a que resultado quiere llegar). Entoconces, si llenas los vacios desde el principio, sin hacer ningún tipo de pregunta, estás condicionando tus datos a una misma medida, lo cuál es una mala práctica.
.
Espero haber explicado lo mejor posible, si tienes alguna duda o no te quedó del todo claro, me avisas para detallarlo mejor
.
Saludos
👾✨
Recuerden, garbage in, garbage out, los datos tienen que ser lo mas limpios posibles para poder tener el mejor resultado posible
Este curso promete
x2
¿Cómo hacer un análisis exploratorio de datos?
1.-4 Palabras clave
Preguntas
Tamaño de datos
Categorizar variables
Ciclo de exploración
2.-4 Preguntas
¿Por qué conviene hacer un análisis exploratorio de datos antes de modelar?
¿Qué tipo de preguntas ayudan a guiar la exploración?
¿Cuáles son los pasos básicos de un EDA?
¿Por qué el proceso es cíclico y no lineal?
3.-Notas completas del tema
A) ¿Por qué hacer análisis exploratorio de datos?
El análisis exploratorio de datos ayuda a:
organizar y entender variables,
identificar tipos de variables y su tratamiento,
descubrir relaciones entre variables,
encontrar patrones ocultos,
elegir el modelo correcto para la necesidad correcta,
tomar decisiones informadas basadas en datos.
B) Primer paso: hacer preguntas
Antes de analizar, debes definir qué quieres saber:
¿Qué quiero encontrar?
¿Qué problema estoy resolviendo?
¿Qué necesito entender de mis datos?
Las preguntas sirven como guía del proceso.
C) Segundo paso: determinar el tamaño de los datos
Aquí te preguntas:
¿Cuántas observaciones hay?
¿Cuántas variables tengo?
¿Necesito todas las filas?
¿Hay columnas que no aportan valor?
Esto ayuda a evaluar la escala y utilidad del dataset.
D) Tercer paso: categorizar variables
Debes clasificar las variables:
categóricas,
continuas,
discretas,
ordinales, etc.
Eso define:
qué análisis hacer,
qué gráficos usar,
y cómo interpretar cada variable.
E) Cuarto paso: limpieza y validación de datos
En esta etapa se revisa:
valores faltantes,
datos incompletos,
proporción de ausencias,
valores extremos,
distribución de los datos,
posibles errores o inconsistencias.
Aquí decides si:
imputas valores,
eliminas registros,
o conservas lo observado.
F) Quinto paso: establecer relaciones
Se estudia:
relación entre dos variables,
relación entre tres variables,
cambios en asociaciones al agregar una variable más,
agrupamientos,
proporciones desbalanceadas,
patrones por zonas o segmentos.
Aquí buscas explicación de lo que ves.
G) El EDA es cíclico
No es una secuencia lineal que termina una sola vez.
Es un proceso iterativo:
preguntas,
tamaño,
categorías,
limpieza,
relaciones,
nuevas preguntas,
repetir.
Pero debe haber un momento para detenerse y comunicar resultados.
Un EDA infinito no produce impacto si no se transforma en acciones o decisiones.
4.-Código necesario
import pandas as pd
import numpy as np
# ==========================================================# Dataset de ejemplo# ==========================================================df = pd.DataFrame({"edad":[22,25,31,29,40, np.nan],"ingreso":[12000,15000,22000,18000,30000,26000],"categoria":["A","B","A","C","B","A"]})print("== DataFrame de ejemplo ==")print(df)# ==========================================================# Ejercicio 1/2: Preguntas básicas de EDA# ==========================================================print("\n--- Ejercicio 1/2: tamaño y estructura ---")print("Dimensiones (filas, columnas):", df.shape)print("Total de celdas:", df.size)print("Tipos de datos:")print(df.dtypes)print("\nConteo de faltantes por columna:")print(df.isna().sum())# ==========================================================# Ejercicio 2/2: Categorías y relaciones# ==========================================================print("\n--- Ejercicio 2/2: categorizar y explorar ---")# Separar columnas numéricas y categóricasnum_cols = df.select_dtypes(include=np.number).columns
cat_cols = df.select_dtypes(exclude=np.number).columns
print("Columnas numéricas:",list(num_cols))print("Columnas categóricas:",list(cat_cols))# Resumen de variables numéricasprint("\nResumen descriptivo numérico:")print(df[num_cols].describe())# Frecuencias de variables categóricasfor col in cat_cols:print(f"\nFrecuencias de {col}:")print(df[col].value_counts(dropna=False))# Relación simple entre dos variablesprint("\nPromedio de ingreso por categoría:")print(df.groupby("categoria")["ingreso"].mean())
4.- Mapa conceptual
Análisis exploratorio de datos
|
+--> Hacer preguntas
+--> Determinar tamaño
+--> Categorizar variables
+--> Limpiar y validar
+--> Establecer relaciones
|
v
Proceso cíclico
|
v
Generar conocimiento útil
5.-Pequeño resumen
Hacer análisis exploratorio de datos sirve para entender variables, detectar patrones, elegir modelos y tomar decisiones informadas. El proceso básico incluye formular preguntas, revisar el tamaño del dataset, categorizar variables, limpiar y validar datos, y estudiar relaciones entre variables. Además, es un proceso iterativo que debe cerrarse cuando ya se puede comunicar valor y no seguir explorando indefinidamente.
¿Por qué el análisis exploratorio ?
Organizar y entender las variables
Establecer relaciones entre las variables
Encontrar patrones ocultos en los datos
Escoger el modelo correcto para la necesidad correcta
Ayuda a tomar decisión informada
Pasos para analisis exploratoio
1) Hacer preguntas
2) Determinar el tamaño de los datos
3) Categorizar las variables
4) Limpieza y validacion de datos
5) Establecer las relaciones
En el punto 2. Determinar el tamaño de los datos. ¿A qué se refiere con Observaciones?
Me auto respondo con ayuda de ADA y ChatGPT, jeje. Por si le sirve a alguien :).
Las "observaciones" se refieren a las filas del dataset, mientras que las "variables" son las columnas.
Observaciones -> Filas del dataset.
Variables -> Columnas del dataset.
¿Cuántas observaciones existen?
Esta pregunta se refiere al número de filas en tu conjunto de datos. Cada fila corresponde a una observación o registro individual en el dataset. Por ejemplo, si estás trabajando con datos sobre pacientes, cada fila podría representar un paciente único. Saber cuántas observaciones tienes es importante para entender la magnitud de tu conjunto de datos y determinar si es suficiente para obtener conclusiones significativas.
¿Cuántas variables hay?
Esta pregunta hace referencia al número de columnas en tu dataset. Cada columna representa una variable, es decir, una característica o atributo que has medido o registrado sobre tus observaciones. Por ejemplo, en un dataset de pacientes, las variables podrían ser la edad, el peso, la altura, entre otros. Conocer cuántas variables hay es esencial para entender la complejidad de tus datos y los diferentes aspectos que puedes analizar.
¿Necesito todas las observaciones?
Aquí te preguntas si todas las observaciones (filas) en tu dataset son relevantes para tu análisis. En muchos casos, puede que algunos datos sean innecesarios o irrelevantes para los objetivos específicos de tu análisis. Por ejemplo, podrías tener datos de años anteriores que no son relevantes si solo te interesa el comportamiento actual. A veces también se filtran datos atípicos o incompletos que pueden afectar el análisis.
¿Necesito todas las variables?
Esta pregunta implica determinar si necesitas todas las variables (columnas) para el análisis en cuestión. A menudo, algunos datos pueden ser irrelevantes o redundantes, por lo que es importante evaluar qué variables realmente añaden valor a tu análisis. Por ejemplo, si estás interesado en analizar la relación entre la edad y el ingreso de los pacientes, podrías decidir no incluir variables como la dirección o el color favorito, ya que no son relevantes para ese análisis específico.