La exploración de datos es una habilidad esencial que permite a los analistas y científicos de datos obtener información valiosa y tomar decisiones fundamentadas. A través de esta práctica, se pueden identificar patrones, relaciones y anomalías en los datos. En esta guía, veremos cómo llevar a cabo una exploración de datos efectiva utilizando un conjunto de datos de ejemplo. Este proceso incluye la visión general del dataset, el análisis unidimensional y multidimensional, y el análisis de texto.
¿Cómo iniciar con una visión general del dataset?
Empezamos creando un nuevo notebook en Python, donde cargaremos las librerías necesarias para la visualización y manipulación de datos. A continuación, cargaremos nuestro conjunto de datos de ejemplo y realizaremos una inspección inicial.
import pandas as pd
import matplotlib.pyplotas plt
# Cargar el conjunto de datos
compras_df = pd.read_csv('data/clean_compras.csv')
Para obtener una visión general, comenzamos por identificar las columnas de datos e inspeccionar los tipos de datos de cada columna. Esto es crucial para asegurarnos de que la representación de datos es la correcta, especialmente al haber guardado y cargado la información.
# Ver columnas
print(compras_df.columns)# Tipos de datos
print(compras_df.dtypes)
Es importante identificar cambios en los tipos de datos, como que fechas pueden haberse cargado como strings en lugar de tipos de fecha.
¿Qué incluye el análisis unidimensional?
En el análisis unidimensional, evaluamos el comportamiento de las variables de forma individual. Esto incluye inspeccionar la frecuencia de las variables categóricas y obtener estadísticas descriptivas de las variables numéricas.
Para variables categóricas, podemos calcular las ocurrencias con frecuencia:
# Frecuencia de la variable 'hoja'print(compras_df['hoja'].value_counts())
Para variables numéricas, herramientas como la función describe() de pandas proporcionan estadísticas cruciales como media, desviación estándar, y percentiles:
# Estadísticas descriptivas de variables numéricas
print(compras_df.describe())
Además, podemos visualizar distribuciones numéricas utilizando histogramas y ajustando los valores atípicos a través de cuantiles.
# Histograma del importe
compras_df['importe'].hist(bins=50)plt.show()
¿Cómo se realiza un análisis multidimensional o bidimensional?
Este tipo de análisis nos permite explorar la relación entre diferentes variables y observar cómo influyen unas en otras. Un análisis bidimensional básico podría incluir la creación de gráficos de dispersión o matrices de correlación para variables numéricas.
# Gráfico de dispersión entre 'importe' y otra variable
compras_df.plot.scatter(x='importe', y='otra_variable')plt.show()
Un enfoque profundo también puede incluir el uso de técnicas relacionadas con análisis de texto si el dataset cuenta con datos textuales. Esto podría conllevar al uso de procesamiento de lenguaje natural para obtener aún más información de los datos.
En resumen, la exploración efectiva de datos es un proceso integral y escalonado que permite a los analistas comprender múltiples aspectos de sus datos. La clave está en seleccionar las visualizaciones y técnicas adecuadas que se alineen con la naturaleza del conjunto de datos y los objetivos del análisis.
Si se usa .value_counts(normalize=True), devuelve el porcentaje aparición de cada valor. Puede llegar a ser muy útil, especialmente cuando se trabaja con números grandes.
¡Gracias por compartir!
Muy bueno!
Conteo de la ocurrencia de una variable y un valor
Wow!! encontrar qué emergencias suceden en que zonas puede ayudarnos a preparar preventivamente las defensas.
Excelente ese aporte y super interesantísimo
Recomiendo al equipo de Platzi que armen un curso nuevo de análisis exploratorio y sea dado por el profesor Ricardo, sus explicaciones son claras y estructuradas.
<3 Gracias por compartirnos, les pasaré tu recomendación!
Ha sido característica estar actualizando los cursos. Muy buena recomendación.
no entendi mucho el tema de los histogramas que usaste, como lees el histograma
Creo que hay varios histogramas, pero si te refieres al del momento del minuto 9:30, al tener el conteo y los rangos, vemos que tenemos una tendencia más al inicio de los datos con una cola larga. Eso puede indicar que hay una tendencia principal pero una desviación amplia.
Este curso se pone mas interesante a medida que voy avanzando 🔥🔥🚀
Qué bueno que asi lo disfrutaste, Juan! Quedo pendiente si tienes alguna pregunta y muy emocionado de saber que proyecto creas!
Totalmente de acuerdo!
soy yo, o hace 35 clases en diferentes cursos es lo mismo reptidamente lo de analizar. No hay nada nuevo a explicar que lo mismo de siempre o es solo esto ds?
si tengo muchas variables podría realizar un análisis inicial para filtrar las mas relevantes y en esas trabajar?
Conteo de los diferentes tipos de dinosaurios 🦕 contenidos en mi dataset:
Realizando algunas modificaciones al código para poder analizar dataset de estudiantes Colombia
#Estudiantes_colombia['COBERTURA_NETA'].value_counts()[0:10]#Cobertura de estudiantes
Estudiantes_colombia[Estudiantes_colombia['COBERTURA_NETA']!=0]['COBERTURA_NETA'].value_counts().head(20)