Análisis Exploratorio de Datos con Visualización usando Seaborn y Matplotlib
Clase 7 de 17 • Curso de Regresión Logística con Python y scikit-learn
Resumen
¿Cómo se realiza un análisis exploratorio de datos?
El análisis exploratorio de datos (EDA) es un componente crucial en el proceso de análisis de datos. Nos permite comprender mejor las variables de nuestro conjunto de datos y cómo se relacionan entre sí. Para realizar este análisis utilizaremos herramientas de visualización de datos como Seaborn y Matplotlib. Estos son componentes esenciales dentro del ecosistema de Python para análisis de datos y visualización.
Primero, asegurémonos de tener importadas las librerías necesarias. El objetivo es analizar los datos desde su origen y no aquellos que han sido preprocesados. Esto ofrece una visión más clara del comportamiento original de los datos.
import seaborn as sns
import matplotlib.pyplot as plt
¿Cómo se comparan las variables categóricas?
El siguiente paso tras importar nuestras librerías es identificar las variables categóricas y visualizarlas. Estas visualizaciones permiten observar cómo las variables categóricas están relacionadas con nuestra variable de interés, en este caso, el churn.
def plotCategorical(column):
plt.figure(figsize=(10, 10))
sns.countplot(data=dfdata, x=column, hue='churn')
plt.show()
categorical_columns = dfdata.select_dtypes(include='object').columns
for column in categorical_columns:
plotCategorical(column)
- Se analiza si hay bias o sesgos en los datos basado en variables como género, partners, dependientes, servicios telefónicos, etc.
- Se observa que, por ejemplo, las personas sin partners tienen un mayor churn, lo cual puede tener sentido dado el contexto de estudio.
¿Cómo se analizan las variables numéricas?
Después de explorar las variables categóricas, es crucial analizar las variables numéricas para entender tendencias o correlaciones dentro de los datos, utilizando gráficos de dispersión y diagramas KDE.
sns.pairplot(dfdata, hue='churn', palette='bright', diag_kind='kde')
plt.figure(figsize=(10, 10))
plt.show()
- Los gráficos nos mostraron que las personas que realizan churn suelen tener cargos mensuales altos y poco tiempo en la compañía.
- La variable "tiempo en la compañía" en conjunto con "cargo mensual" mostró que personas con poco tiempo y costos elevados tienden a hacer churn.
¿Qué reveló el análisis sobre la variable 'churn'?
El análisis destacó el impacto significativo de algunas variables en la probabilidad de churn:
- Cargo mensual: Tiene una fuerte correlación con churn; cargos más altos están asociados con mayores tasas de churn.
- Contrato mensual: Los clientes con contrato mes a mes son más propensos a churn, algo observable en los datos categóricos.
- Género: No parece ser una variable determinante en el comportamiento de churn.
Nuestra exploración del dataset ha sido enriquecedora, permitiendo identificar variables clave que contribuyen al churn. Esta información será vital cuando apliquemos algoritmos de regresión logística para solucionar problemas de clasificación binomial en siguientes etapas. ¡Continúa con tu aprendizaje para lograr un modelo predictivo acertado!