Análisis Exploratorio de Datos con Visualización usando Seaborn y Matplotlib

Clase 7 de 17 • Curso de Regresión Logística con Python y scikit-learn

Contenido del curso

Fundamentos de regresión logística

Regresión logística binomial

Regresión logística multinomial

Conclusiones

Resumen

Comprender cómo se comportan los clientes antes de que cancelen un servicio es fundamental para cualquier modelo predictivo. A través del análisis exploratorio de datos (EDA), es posible identificar patrones ocultos en variables categóricas y numéricas que revelan qué factores impulsan el churn o abandono de clientes. Aquí se desglosa paso a paso cómo visualizar y analizar esas relaciones usando Python.

¿Cómo visualizar variables categóricas con Seaborn?

El punto de partida es trabajar con los datos originales, no con datos preprocesados [01:05]. Esto permite observar las distribuciones reales antes de cualquier transformación. Se utiliza la librería Seaborn (import seaborn as sns) junto con Matplotlib para generar gráficos claros y segmentados.

El primer gráfico que se construye es un countplot de la variable género (gender), separado por la variable objetivo: el churn [01:25]. El resultado muestra que:

Hay casi la misma cantidad de hombres y mujeres.
Ambos grupos se comportan de forma idéntica respecto al churn.
El género no es una variable determinante para predecir la cancelación.

¿Cómo automatizar la exploración de todas las variables categóricas?

Para evitar repetir código, se crea una función reutilizable llamada plot_categorical [02:22] que recibe el nombre de una columna y genera automáticamente el gráfico con sns.countplot, segmentado siempre por churn y con un tamaño de figura de 10x10.

Luego se extraen todas las columnas categóricas del dataframe usando df_data.select_dtypes(include='object').columns [03:20]. Estas columnas se almacenan en una variable llamada column_cat y se itera sobre ellas con un loop for, ejecutando la función para cada una.

¿Qué patrones revelan las variables categóricas?

Al analizar los gráficos generados, se identifican hallazgos relevantes [04:00]:

Partners: quienes no tienen pareja muestran mayor tendencia al churn.
Dependientes: la ausencia de dependientes se correlaciona con mayor abandono.
Servicio telefónico: hay más usuarios con servicio, pero el churn también es más alto entre ellos.
Servicio de Internet: quienes no tienen Internet cancelan mucho menos que quienes sí lo tienen.
Facturación paperless: los clientes con facturación electrónica presentan mayor churn [04:52].
Método de pago: los usuarios que pagan con cheque electrónico tienen un rate de churn más alto que quienes usan transferencia bancaria, correo o tarjeta de crédito [05:05].
Tipo de contrato: el contrato mes a mes es mucho más propenso al churn que los contratos a largo plazo [05:25].

¿Qué información aportan las variables numéricas con un pairplot?

Para las variables no categóricas se utiliza sns.pairplot [05:40], que genera automáticamente diagramas de dispersión cruzados entre todas las variables numéricas, segmentados por churn. Las variables numéricas del dataset incluyen:

Total de pagos (total charges).
Pagos mensuales (monthly charges).
Tiempo en la compañía (tenure).
Ciudadano senior (senior citizen).

Cada variable consigo misma produce un diagrama de KDE (Kernel Density Estimation), que muestra la distribución de probabilidad. El resto de combinaciones genera diagramas de dispersión correlacionados [06:28].

¿Qué relación existe entre cargos mensuales y tiempo en la compañía?

El patrón más destacado aparece en la esquina inferior derecha de los gráficos de dispersión [06:40]: la mayoría de personas que hacen churn tienen cargos mensuales altos y llevan poco tiempo en la compañía. Esto se traduce en una regla clara:

Pago mensual elevado + poco tenure = alta probabilidad de churn.
Cargos totales bajos refuerzan esta lectura, ya que el cliente no ha acumulado tiempo suficiente.

Este hallazgo es consistente con lo observado en las variables categóricas, donde el contrato mes a mes también correlaciona con mayor abandono.

Con toda esta información exploratoria, el siguiente paso natural es aplicar un modelo de regresión logística para resolver este problema de clasificación binomial [07:25], aprovechando las variables que han demostrado mayor poder predictivo. ¿Qué otras variables crees que podrían influir en la decisión de un cliente de cancelar?

Comentarios

Carlos Mazzaroli

student•

ahi tienen para hacerlo cortito

columns_cat = df.select_dtypes(include='object').columns

# Crear la figura y los subplots
fig, axs = plt.subplots(nrows=5, ncols=3, figsize=(20, 20))

for var, ax in zip(columns_cat, axs.flatten()):
    sns.countplot(data=df, x=var,hue='Churn', ax=ax)

Julián Cárdenas

student•

Nice!!

Erick Jacob Lugo Batalla

student•

Esta modificación me pareció un buen aporte, solo le hice un pequeño cambio, ya que algunas de las etiquetas de X quedaban sobrepuestas:

columns_cat = df_data.select_dtypes(include='object').columns

# Crear la figura y los subplots
fig, axs = plt.subplots(nrows=5, ncols=3, figsize=(20, 20))
axs = axs.flatten()

for var, ax in zip(columns_cat, axs):
    sns.countplot(data=df_data, x=var, hue='Churn', ax=ax)
    ax.set_title(f'Distribución de {var}')
    ax.tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

Y ya lo debieron haber identificado, pero considero que sería importante mencionar que esto ya reemplazaría estos 3 bloques:

# def plot_categorial(column):
#     fig = plt.figure(figsize=(10,10))
#     sns.countplot(data=df_data, x=column,hue='Churn')
#     plt.show()

# column_cat = df_data.select_dtypes(include='object').columns

# for _ in column_cat:
#     plot_categorial(_)

Mauricio Escobar

student•

le hice algunas modificaciones a la función de las columnas categóricas para que se haga de manera automática:

def cat_count_by_col(self, df, target, col_list= None,
                     fig_size= (20, 10),
                     show_max_num: bool= False):
    if not col_list:
        col_list = df_telco.select_dtypes(include= ['object', 'category']).columns
        col_list = col_list.drop(target)
        
    fig, axes = plt.subplots(nrows= len(col_list), figsize= fig_size)
    
    if len(col_list) == 1:
        axes = [axes] #lista para iterar de manera uniforme
    
    for i in range(len(col_list)):
        sns.countplot(data= df, x= col_list[i], hue= target, ax= axes[i])
        axes[i].set_title(f'Countplot: {col_list[i]} vs {target}',
                          fontsize= 15, fontweight= 'bold', loc= 'left', color= 'navy')
        axes[i].set_xlabel(col_list[i], fontsize= 12, fontweight= 'bold', color= 'navy')
        axes[i].set_ylabel('Count', fontsize= 12, fontweight= 'bold', color= 'navy')
        
        if show_max_num:
            for p in axes[i].patches:
                axes[i].annotate(f'{p.get_height():.0f}',                          # el numerito con 0 decimales 
                                 (p.get_x() + p.get_width() / 2., p.get_height()), # posición de los numeritos
                                 ha= 'center', va= 'center',                       # alineación de los numeritos
                                 xytext= (0, 3),                                   # posición de los numeritos (respecto a la barra)
                                 textcoords= 'offset points',
                                 fontsize= 12,
                                 )#fontweight= 'bold' )
                                      
    plt.tight_layout()
    plt.show()
 ####   
cat_count_by_col(df= df_telco, target= 'Churn',
                 fig_size= (15, 50), show_max_num= True)

Alfonso Andres Zapata Guzman

student•

def plot_categorial_plotly(column):
    fig=px.histogram(df_data, x=column, color="Churn", barmode='group')
    fig.show()

Alfonso Andres Zapata Guzman

student•

fig = px.scatter_matrix(
    df_data,
    dimensions=["SeniorCitizen", "tenure", "MonthlyCharges", "TotalCharges"],
    color="Churn",
    title="Scatter matrix of Churn data set",
    opacity=0.7, height=1000, color_discrete_sequence=["orange", "red",]
)

fig.update_traces(diagonal_visible=False)
fig.update_coloraxes(showscale=False)
fig.show()

Nahuel Zubiarrain

student•

Para un mejor gráfico les dejo este código:

cat_columns = df.select_dtypes(include='object').columns
rows = 5
cols = 3
fig, ax = plt.subplots(rows,cols, figsize=(15,30), constrained_layout=True)
for i in range(rows):
    for j in range(cols):
        title = cat_columns[i+j]
        sns.countplot(
            data=df,
            x=title,
            hue='Churn',
            ax=ax[i,j]
        )

Mario Alexander Vargas Celis

student•

Aquí tienes una guía clara para realizar un Análisis Exploratorio de Datos (EDA) utilizando Seaborn y Matplotlib, dos de las bibliotecas más populares en Python para visualización de datos.

🧪 Análisis Exploratorio de Datos (EDA) con Seaborn y Matplotlib

📦 Paso 1: Importar librerías necesarias

import pandas as pd import seaborn as sns import matplotlib.pyplot as plt

# Opcional para estilos más bonitos sns.set(style="darkgrid")

📂 Paso 2: Cargar tus datos

Ejemplo con el dataset de Titanic:

df = sns.load_dataset('titanic') df.head()

Si usas un CSV:

df = pd.read_csv('ruta/dataset.csv')

📊 Paso 3: Visualización Univariada

a. Distribuciones numéricas

sns.histplot(data=df, x='age', kde=True) plt.title('Distribución de Edad') plt.show()

b. Variables categóricas

sns.countplot(data=df, x='class') plt.title('Conteo por Clase') plt.show()

📈 Paso 4: Visualización Bivariada

a. Categórica vs numérica

sns.boxplot(data=df, x='class', y='age') plt.title('Boxplot de Edad por Clase') plt.show()

b. Numérica vs numérica

sns.scatterplot(data=df, x='age', y='fare', hue='sex') plt.title('Edad vs Tarifa') plt.show()

🧩 Paso 5: Correlaciones

corr = df.corr(numeric_only=True)

plt.figure(figsize=(10, 6)) sns.heatmap(corr, annot=True, cmap='coolwarm') plt.title('Mapa de Calor de Correlaciones') plt.show()

📋 Paso 6: Insights y Conclusiones

Después de las visualizaciones, puedes responder preguntas como:

¿Qué variables están más correlacionadas con el objetivo?
¿Existen valores atípicos?
¿Qué grupos presentan comportamientos distintos?

✅ Extras útiles

Pairplot para relaciones entre múltiples variables numéricas:sns.pairplot(df[['age', 'fare', 'pclass', 'survived']], hue='survived') plt.show()
Gráficos de violín para comparar distribuciones:sns.violinplot(x='class', y='age', data=df) plt.title('Distribución de Edad por Clase') plt.show()

Roy Quesada Araya

student•

que es hacer churn?

Agustin Terissi

student•

Churn es un término de negocios para referirse a los clientes que deciden abandonar la compañía.

Ej: "Este mes el churn fue de 200 clientes" Significado: 200 clientes abandonaron la subscripción ese mes.

jhon Robert Matamoros

student•

No seria mucho mejor separara también la columna de SeniorCitizen?

Daniel Esteban Riveros Nieto

student•

Solo yo pienso que un count plot, a pesar de que es muy útil cuando el conteo es igual para los diferentes valores de una variable categórica, no es la mejor opción, lo digo porque no muestra la probabilidad de hacer churn y lo deja a juzgarlo de manera subjetiva. Un gráfico de probabilidad sería mejor, dado que al final lo que calcula la regresión son probabilidades

Antonio Demarco Bonino

student•

Me puse a jugar con los datos para poder de una manera más real cómo es la relación entre tiempo y valor de la cuota mensual:

plt.figure(figsize=(10, 5))
sns.scatterplot(data=data, x='MonthlyCharges', y='tenure', hue='Churn', alpha=0.7, s=60)
plt.title('Relationship between Monthly Charges and Tenure by Churn', fontsize=16)
plt.xlabel('Monthly Charges', fontsize=12)
plt.ylabel('Tenure', fontsize=12)
plt.xlim(0, 130)
plt.ylim(0, 75)
plt.legend(title='Churn', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True)
plt.show()

EMANUELL ELHIAS LEON ACOSTA

student•

Veo que hace un analisis de correlación pero esta bien que haga eso con todas las variables, teniendo en cuenta que hay diferentes tipos de correlacion de acuerdo por tipo de variable (spearman,por ejemplo).

Adrian Lara Gallardo

student•

Una forma de visualizar la imagen en una sóla vista y eliminar la utilización de un doble for para acceder a la matriz de ax, podría ser de la siguiente forma, "aplanando" la matriz ax para poder acceder a ella de manera lineal.

def plot_subplots(data, n_cols, hue ): 
    columnas = [i  for i in raw_data.select_dtypes(include = 'object').columns if i not in ('customerID',hue,'TotalCharges')]
    len_cols = len(columnas)
    n_rows = (len_cols//n_cols)+1 if n_cols%2 == 0 else  (len_cols//n_cols)
    fig,ax = plt.subplots(n_rows, n_cols, figsize=(17,17))
    ax = ax.flat
    for column,index in zip(columnas, range(len(columnas))): 
        sns.countplot(data = data, x = column, hue = hue, ax = ax[index])
plot_subplots(raw_data, 2, 'Churn')
```def plot\_subplots(data, n\_cols, hue ):     columnas = \[i  for i in raw\_data.select\_dtypes(include = 'object').columns if i not in ('customerID',hue,'TotalCharges')]    len\_cols = len(columnas)    n\_rows = (len\_cols//n\_cols)+1 if n\_cols%2 == 0 else  (len\_cols//n\_cols)    fig,ax = plt.subplots(n\_rows, n\_cols, figsize=(17,17))    ax = ax.flat    for column,index in zip(columnas, range(len(columnas))):         sns.countplot(data = data, x = column, hue = hue, ax = ax\[index])plot\_subplots(raw\_data, 2, 'Churn')

Isaac Bryan Ascanoa Roncall

student•

Estoy impresionado de que hay dos forma de clasificar los valores del dataset segun su categoria. No sabia que eso era posible. Mas bien, me llamo la atencion de que se pueda hacer.

Daniel Moreno

student•

# Importando las bibliotecas necesarias
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

def plot_categoricals(data, ncols=2, churn_column='Churn'):
    """
    Esta función identifica y crea gráficos de conteo para todas las variables categóricas en el DataFrame con respecto a una columna de interés.
    
    Parámetros:
    - data: DataFrame de pandas que contiene los datos a graficar.
    - ncols: número de columnas en la visualización de gráficos. El default es 2.
    - churn_column: nombre de la columna por la cual se desea hacer el hue. Default es 'Churn'.
    """
    
    # Extrae las columnas categóricas del DataFrame
    categorical_columns = [col for col in data.columns if data[col].dtype == 'object' and col != churn_column]
    
    # Calcula el número total de gráficos a realizar y organiza el layout de subplots
    nplots = len(categorical_columns)
    nrows = (nplots // ncols) + (nplots % ncols > 0)
    fig, axes = plt.subplots(nrows, ncols, figsize=(15, nrows * 5), constrained_layout=True)
    
    # Itera sobre el número de filas y columnas para crear los gráficos
    for i, ax in enumerate(axes.flatten()):
        if i < len(categorical_columns):  # Verifica si aún hay columnas para graficar
            title = categorical_columns[i]
            sns.countplot(data=data, x=title, hue=churn_column, ax=ax)
            ax.set_title(f'COUNT {title.upper()}')  # Título del gráfico
            ax.set_xlabel(title)  # Etiqueta del eje X
            ax.set_ylabel('Count')  # Etiqueta del eje Y
            ax.legend()  # Muestra la leyenda
        else:
            ax.set_visible(False)  # Oculta los subplots extras

    plt.show()  # Muestra los gráficos

# Ejemplo de uso de la función
# Asegúrate de reemplazar 'df' con el nombre de tu DataFrame
# plot_categoricals(df, 3, 'Churn')

```# Importando las bibliotecas necesarias

import matplotlib.pyplot as plt

import seaborn as sns

import pandas as pd



def plot\_categoricals(data, ncols=2, churn\_column='Churn'):

&#x20;   """

&#x20;   Esta función identifica y crea gráficos de conteo para todas las variables categóricas en el DataFrame con respecto a una columna de interés.

&#x20;  &#x20;

&#x20;   Parámetros:

&#x20;   \- data: DataFrame de pandas que contiene los datos a graficar.

&#x20;   \- ncols: número de columnas en la visualización de gráficos. El default es 2.

&#x20;   \- churn\_column: nombre de la columna por la cual se desea hacer el hue. Default es 'Churn'.

&#x20;   """

&#x20;  &#x20;

&#x20;   \# Extrae las columnas categóricas del DataFrame

&#x20;   categorical\_columns = \[col for col in data.columns if data\[col].dtype == 'object' and col != churn\_column]

&#x20;  &#x20;

&#x20;   \# Calcula el número total de gráficos a realizar y organiza el layout de subplots

&#x20;   nplots = len(categorical\_columns)

&#x20;   nrows = (nplots // ncols) + (nplots % ncols > 0)

&#x20;   fig, axes = plt.subplots(nrows, ncols, figsize=(15, nrows \* 5), constrained\_layout=True)

&#x20;  &#x20;

&#x20;   \# Itera sobre el número de filas y columnas para crear los gráficos

&#x20;   for i, ax in enumerate(axes.flatten()):

&#x20;       if i < len(categorical\_columns):  # Verifica si aún hay columnas para graficar

&#x20;           title = categorical\_columns\[i]

&#x20;           sns.countplot(data=data, x=title, hue=churn\_column, ax=ax)

&#x20;           ax.set\_title(f'COUNT {title.upper()}')  # Título del gráfico

&#x20;           ax.set\_xlabel(title)  # Etiqueta del eje X

&#x20;           ax.set\_ylabel('Count')  # Etiqueta del eje Y

&#x20;           ax.legend()  # Muestra la leyenda

&#x20;       else:

&#x20;           ax.set\_visible(False)  # Oculta los subplots extras



&#x20;   plt.show()  # Muestra los gráficos



\# Ejemplo de uso de la función

\# Asegúrate de reemplazar 'df' con el nombre de tu DataFrame

\# plot\_categoricals(df, 3, 'Churn')

Jorge Hernán Mora García

student•

Interesante: Si es un ciudadano Senior o no es en estricto sentido una variable categórica. No obstante, seaborn la graficó porque estaba ya en representación binaria.

columns_cat = df.select_dtypes(include='object').columns

# Crear la figura y los subplots
fig, axs = plt.subplots(nrows=5, ncols=3, figsize=(20, 20))

for var, ax in zip(columns_cat, axs.flatten()):
    sns.countplot(data=df, x=var,hue='Churn', ax=ax)

columns_cat = df_data.select_dtypes(include='object').columns

# Crear la figura y los subplots
fig, axs = plt.subplots(nrows=5, ncols=3, figsize=(20, 20))
axs = axs.flatten()

for var, ax in zip(columns_cat, axs):
    sns.countplot(data=df_data, x=var, hue='Churn', ax=ax)
    ax.set_title(f'Distribución de {var}')
    ax.tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

def cat_count_by_col(self, df, target, col_list= None,
                     fig_size= (20, 10),
                     show_max_num: bool= False):
    if not col_list:
        col_list = df_telco.select_dtypes(include= ['object', 'category']).columns
        col_list = col_list.drop(target)
        
    fig, axes = plt.subplots(nrows= len(col_list), figsize= fig_size)
    
    if len(col_list) == 1:
        axes = [axes] #lista para iterar de manera uniforme
    
    for i in range(len(col_list)):
        sns.countplot(data= df, x= col_list[i], hue= target, ax= axes[i])
        axes[i].set_title(f'Countplot: {col_list[i]} vs {target}',
                          fontsize= 15, fontweight= 'bold', loc= 'left', color= 'navy')
        axes[i].set_xlabel(col_list[i], fontsize= 12, fontweight= 'bold', color= 'navy')
        axes[i].set_ylabel('Count', fontsize= 12, fontweight= 'bold', color= 'navy')
        
        if show_max_num:
            for p in axes[i].patches:
                axes[i].annotate(f'{p.get_height():.0f}',                          # el numerito con 0 decimales 
                                 (p.get_x() + p.get_width() / 2., p.get_height()), # posición de los numeritos
                                 ha= 'center', va= 'center',                       # alineación de los numeritos
                                 xytext= (0, 3),                                   # posición de los numeritos (respecto a la barra)
                                 textcoords= 'offset points',
                                 fontsize= 12,
                                 )#fontweight= 'bold' )
                                      
    plt.tight_layout()
    plt.show()
 ####   
cat_count_by_col(df= df_telco, target= 'Churn',
                 fig_size= (15, 50), show_max_num= True)

fig = px.scatter_matrix(
    df_data,
    dimensions=["SeniorCitizen", "tenure", "MonthlyCharges", "TotalCharges"],
    color="Churn",
    title="Scatter matrix of Churn data set",
    opacity=0.7, height=1000, color_discrete_sequence=["orange", "red",]
)

fig.update_traces(diagonal_visible=False)
fig.update_coloraxes(showscale=False)
fig.show()

cat_columns = df.select_dtypes(include='object').columns
rows = 5
cols = 3
fig, ax = plt.subplots(rows,cols, figsize=(15,30), constrained_layout=True)
for i in range(rows):
    for j in range(cols):
        title = cat_columns[i+j]
        sns.countplot(
            data=df,
            x=title,
            hue='Churn',
            ax=ax[i,j]
        )

plt.figure(figsize=(10, 5))
sns.scatterplot(data=data, x='MonthlyCharges', y='tenure', hue='Churn', alpha=0.7, s=60)
plt.title('Relationship between Monthly Charges and Tenure by Churn', fontsize=16)
plt.xlabel('Monthly Charges', fontsize=12)
plt.ylabel('Tenure', fontsize=12)
plt.xlim(0, 130)
plt.ylim(0, 75)
plt.legend(title='Churn', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True)
plt.show()

def plot_subplots(data, n_cols, hue ): 
    columnas = [i  for i in raw_data.select_dtypes(include = 'object').columns if i not in ('customerID',hue,'TotalCharges')]
    len_cols = len(columnas)
    n_rows = (len_cols//n_cols)+1 if n_cols%2 == 0 else  (len_cols//n_cols)
    fig,ax = plt.subplots(n_rows, n_cols, figsize=(17,17))
    ax = ax.flat
    for column,index in zip(columnas, range(len(columnas))): 
        sns.countplot(data = data, x = column, hue = hue, ax = ax[index])
plot_subplots(raw_data, 2, 'Churn')
```def plot\_subplots(data, n\_cols, hue ):     columnas = \[i  for i in raw\_data.select\_dtypes(include = 'object').columns if i not in ('customerID',hue,'TotalCharges')]    len\_cols = len(columnas)    n\_rows = (len\_cols//n\_cols)+1 if n\_cols%2 == 0 else  (len\_cols//n\_cols)    fig,ax = plt.subplots(n\_rows, n\_cols, figsize=(17,17))    ax = ax.flat    for column,index in zip(columnas, range(len(columnas))):         sns.countplot(data = data, x = column, hue = hue, ax = ax\[index])plot\_subplots(raw\_data, 2, 'Churn')

# Importando las bibliotecas necesarias
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

def plot_categoricals(data, ncols=2, churn_column='Churn'):
    """
    Esta función identifica y crea gráficos de conteo para todas las variables categóricas en el DataFrame con respecto a una columna de interés.
    
    Parámetros:
    - data: DataFrame de pandas que contiene los datos a graficar.
    - ncols: número de columnas en la visualización de gráficos. El default es 2.
    - churn_column: nombre de la columna por la cual se desea hacer el hue. Default es 'Churn'.
    """
    
    # Extrae las columnas categóricas del DataFrame
    categorical_columns = [col for col in data.columns if data[col].dtype == 'object' and col != churn_column]
    
    # Calcula el número total de gráficos a realizar y organiza el layout de subplots
    nplots = len(categorical_columns)
    nrows = (nplots // ncols) + (nplots % ncols > 0)
    fig, axes = plt.subplots(nrows, ncols, figsize=(15, nrows * 5), constrained_layout=True)
    
    # Itera sobre el número de filas y columnas para crear los gráficos
    for i, ax in enumerate(axes.flatten()):
        if i < len(categorical_columns):  # Verifica si aún hay columnas para graficar
            title = categorical_columns[i]
            sns.countplot(data=data, x=title, hue=churn_column, ax=ax)
            ax.set_title(f'COUNT {title.upper()}')  # Título del gráfico
            ax.set_xlabel(title)  # Etiqueta del eje X
            ax.set_ylabel('Count')  # Etiqueta del eje Y
            ax.legend()  # Muestra la leyenda
        else:
            ax.set_visible(False)  # Oculta los subplots extras

    plt.show()  # Muestra los gráficos

# Ejemplo de uso de la función
# Asegúrate de reemplazar 'df' con el nombre de tu DataFrame
# plot_categoricals(df, 3, 'Churn')

```# Importando las bibliotecas necesarias

import matplotlib.pyplot as plt

import seaborn as sns

import pandas as pd

def plot\_categoricals(data, ncols=2, churn\_column='Churn'):

&#x20;   """

&#x20;   Esta función identifica y crea gráficos de conteo para todas las variables categóricas en el DataFrame con respecto a una columna de interés.

&#x20;  &#x20;

&#x20;   Parámetros:

&#x20;   \- data: DataFrame de pandas que contiene los datos a graficar.

&#x20;   \- ncols: número de columnas en la visualización de gráficos. El default es 2.

&#x20;   \- churn\_column: nombre de la columna por la cual se desea hacer el hue. Default es 'Churn'.

&#x20;   """

&#x20;  &#x20;

&#x20;   \# Extrae las columnas categóricas del DataFrame

&#x20;   categorical\_columns = \[col for col in data.columns if data\[col].dtype == 'object' and col != churn\_column]

&#x20;  &#x20;

&#x20;   \# Calcula el número total de gráficos a realizar y organiza el layout de subplots

&#x20;   nplots = len(categorical\_columns)

&#x20;   nrows = (nplots // ncols) + (nplots % ncols > 0)

&#x20;   fig, axes = plt.subplots(nrows, ncols, figsize=(15, nrows \* 5), constrained\_layout=True)

&#x20;  &#x20;

&#x20;   \# Itera sobre el número de filas y columnas para crear los gráficos

&#x20;   for i, ax in enumerate(axes.flatten()):

&#x20;       if i < len(categorical\_columns):  # Verifica si aún hay columnas para graficar

&#x20;           title = categorical\_columns\[i]

&#x20;           sns.countplot(data=data, x=title, hue=churn\_column, ax=ax)

&#x20;           ax.set\_title(f'COUNT {title.upper()}')  # Título del gráfico

&#x20;           ax.set\_xlabel(title)  # Etiqueta del eje X

&#x20;           ax.set\_ylabel('Count')  # Etiqueta del eje Y

&#x20;           ax.legend()  # Muestra la leyenda

&#x20;       else:

&#x20;           ax.set\_visible(False)  # Oculta los subplots extras

&#x20;   plt.show()  # Muestra los gráficos

\# Ejemplo de uso de la función

\# Asegúrate de reemplazar 'df' con el nombre de tu DataFrame

\# plot\_categoricals(df, 3, 'Churn')

Análisis Exploratorio de Datos con Visualización usando Seaborn y Matplotlib

Fundamentos de regresión logística

Regresión Logística con Python y Scikit Learn

Regresión Logística con Python y Scikit Learn

Cuándo usar la regresión logística en modelos de clasificación

Regresión Logística: Fórmula y Aplicación en Python

Regresión logística binomial

Regresión Logística Aplicada a Dataset Binomial de Churn

Análisis de Correlación y Escalado de Datos en Pandas