Análisis Exploratorio y Escalamiento de Datos para Regresión Logística

Clase 14 de 17 • Curso de Regresión Logística con Python y scikit-learn

Resumen

¿Por qué es importante realizar un análisis exploratorio de datos?

El análisis exploratorio de datos es crucial para identificar patrones relevantes y posibles correlaciones entre las variables de un dataset. Esto no solo ayuda a mejorar la comprensión de los datos, sino que también optimiza el rendimiento de los modelos predictivos al identificar y eliminar variables que podrían inducir ruido o colinearidad en los datos.

¿Cómo analizamos la correlación entre variables?

En esta lección, se realizó un análisis de correlación visualizando un mapa de calor (heatmap) de las correlaciones entre los atributos del dataset. En este contexto, las correlaciones pueden variar entre -1 y 1:

1 o cercanas a 1: Altamente correlacionadas.
0 o cercanas a 0: No correlacionadas.
-1 o cercanas a -1: Correlación inversa.

El objetivo es descubrir variables altamente correlacionadas que podrían afectar el modelo y decidir si eliminarlas.

Ejemplo de código del análisis de correlación:

plt.figure(figsize=(15, 10))
sns.heatmap(dtf.corr(), annot=True)
plt.show()

¿Cuáles variables eliminamos y por qué?

A partir del análisis, se decidió eliminar las variables convex_area y equidiameter debido a su alta correlación con otras variables como area, perimeter, length, y width, que podrían conducir a un sobreajuste del modelo.

Ejemplo de código para eliminar variables:

xOver.drop(['convex_area', 'equidiameter'], axis=1, inplace=True)

¿Cómo visualizamos la distribución de nuestras variables y clases?

La visualización es una herramienta poderosa en el análisis exploratorio. Mediante la creación de diagramas de dispersión y Kernel Density Estimation (KDE), se puede evaluar si las clases dentro de los datos son linealmente separables. Esto facilita entender la estructura de los datos y la selección del método de clasificación.

Ejemplo de código para visualización:

sns.pairplot(df, hue="class")

¿Por qué realizar el escalamiento y la división del dataset?

El escalamiento de los datos y su posterior división en conjuntos de entrenamiento y prueba son pasos fundamentales para estandarizar los datos, asegurar que el modelo obtenga resultados replicables, y generalice correctamente en nuevos datos que no ha visto.

Ejemplo de código para escalamiento y división:

X_train, X_test, y_train, y_test = train_test_split(XOver, YOver, test_size=0.2, random_state=42, shuffle=True)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

Conclusiones prácticas

Al aplicar estos pasos, no solo se mejora la calidad del dataset, sino que también se fortalece el conocimiento sobre el negocio y los datos en los que se basa el modelo. Estos conocimientos permiten ajustar las decisiones a lo largo del proceso de modelado para obtener predicciones más precisas y eficaces. ¿Listo para seguir aprendiendo? ¡Avancemos en el próximo módulo para continuar mejorando nuestras habilidades en ciencia de datos!

FELIX DAVID CORDOVA GARCIA

student•

En el segundo 00:52 se está cometiendo un ERROR, el cual es muy sutil pero genera problemas de sobre-confianza al entrenar el modelo,dado que en la parte final del curso se obtiene un modelo con 0.99 de accuracy cuando en realidad es de solo 0.93, el error que se comete es el siguiente: Al realizar

df_dea = X_over df_dea[‘Class’] = y_over

Le estamos asignando una columna extra a la data X_over la cual es la columna de las clases,en el minuto 05:17 se observa que se eliminan 2 columnas,sin embargo, no se elimina la columna Classes la cual queda adherida al DataFrame X_over tal como se observa aquí:

Por lo que al tener esta columna dentro de los features de entrenamiento es muy FACIL para el modelo establecer los patrones y generar un modelo con tan buen accuracy tal como se puede observar en la siguiente clase

En todo caso ,si lo que se quería era generar un nuevo dataset para usar heatmap y ver las correlaciones ,simplemente se pudo usar la función concat de pandas ( en la cual uno el nuevo set de X & y generados con la librería imblearn ) tal como se muestra a continuación

Robert Yesid Barrios Acendra

student•

Sí es cierto, pero no comprendo por qué x_over quedó con la columna Class si se le agregó fue a df_dea. ¿Será por usar la asignación (=)? Si fue por eso, entonces tenía que hacer una copia profunda de x_over así:

df_dea = x_over.copy(deep = True) y luego seguir normalmente con el código.

O hacer como lo tiene y borrar Class de x_over, pero igual sigue siendo peligroso porque como no lo hicimos directamente sobre x_over se puede olvidar que eso sucedió internamente y pasa lo que pasa con el accuracy.

FELIX DAVID CORDOVA GARCIA

student•

Así es ,debió hacer una copia de x_over,al igualarla con df_dea luego agregarla la columna de clases a esta ultima implícitamente se le agrega a x_over. hacerle una copia hubiera sido otra buena opción

Daniel de Jesús Martínez Vega

student•

Siempre me ha parecido más intuitivo usar la paleta coolwarm para las matrices de correlación

df_under=X_under
df_under['Class']=y_under
plt.figure(figsize=(15,10))
sns.heatmap(df_under.corr(), annot= True, cmap='coolwarm',cbar=False);

Alfonso Andres Zapata Guzman

student•

df_under.corr().style.background_gradient(cmap="coolwarm", axis=None).format(precision=2)

Alfonso Andres Zapata Guzman

student•

Lo mismo pero en plotly

fig = px.imshow(
    df_under.corr().round(2),
    color_continuous_scale=px.colors.diverging.RdBu[::-1],
    text_auto=True,
    zmin=-1,
    zmax=1,
)

fig.update_yaxes(tickfont=dict(family='Arial', size=10), automargin='height')
fig.update_xaxes(tickfont=dict(family='Arial', size=10), automargin='height')
fig.update_layout(title_text='Graphic correlation your dataset', coloraxis_colorbar_title_text = 'Correlation')

fig.show()

Marlon Menendez

student•

Quiero hacer una observación importante en el minuto 9:20 sobre porque en el x_train se usa fit_transform() y porque en el x_test se usa solo transform().

Cuando se hace fit() con los datos del set para training, internamente se calculan medias y desviaciones estándar para cada una de las columnas del dataset, ya que cada columna tiene diferentes medias y desviaciones estándar. Solo se calcula para el training set porque es el set mas grande, por lo tanto mas representativo de datos para cada columna (80% de los datos van en el x_train ). Si se calcularan por separado, es decir, si se hiciera fit_transform para el x_test por separado, se corre el riesgo que la media y la desviación estándar calculadas difieran, y por lo tanto, al hacer pruebas no se podría evaluar correctamente el performance del modelo.

Sergio Melendrez

student•

Cual es la diferencia de usar fit y fit_transform al escalar

X_train=st_x.fit_transform(X_train) X_test=st_x.transform(X_test)

Dionicio Perez

student•

Mario Alexander Vargas Celis

student•

Claro, aquí tienes una guía completa y práctica para realizar Análisis Exploratorio de Datos (EDA) y escalamiento antes de aplicar Regresión Logística en Python usando pandas, matplotlib, seaborn y scikit-learn.

📊 1. Análisis Exploratorio de Datos (EDA)

Paso 1: Cargar los datos

import pandas as pd

df = pd.read_csv('tu_archivo.csv') # o usar un dataset de sklearn df.head()

Paso 2: Revisión general

df.info() df.describe() df.isnull().sum() df.duplicated().sum()

Paso 3: Distribución de clases (para clasificación)

import seaborn as sns import matplotlib.pyplot as plt

sns.countplot(data=df, x='target') plt.title('Distribución de Clases') plt.show()

Paso 4: Análisis de correlación

corr = df.corr(numeric_only=True) sns.heatmap(corr, annot=True, cmap='coolwarm') plt.title('Matriz de Correlación') plt.show()

Paso 5: Análisis univariado y multivariado

for col in df.select_dtypes(include='number').columns: sns.histplot(df[col], kde=True) plt.title(f'Distribución de {col}') plt.show() sns.pairplot(df, hue='target') plt.show()

🔧 2. Preprocesamiento y Escalamiento

Paso 1: Separar variables

X = df.drop(columns='target') y = df['target']

Paso 2: Escalar variables numéricas

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler() X_scaled = scaler.fit_transform(X)

⚙️ 3. Aplicar Regresión Logística

from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report, confusion_matrix

# Separar en train y test X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Entrenar modelo model = LogisticRegression() model.fit(X_train, y_train)

# Predicciones y_pred = model.predict(X_test)

# Evaluación print(confusion_matrix(y_test, y_pred)) print(classification_report(y_test, y_pred))

🧪 Opcional: Manejo de datos desbalanceados

Si tu target está desbalanceado:

from imblearn.under_sampling import RandomUnderSampler

rus = RandomUnderSampler(random_state=42) X_resampled, y_resampled = rus.fit_resample(X_scaled, y)

Juan Jose Sepulveda Calderon

student•

¿El método de correlación de Pandas realiza la estandarización de los datos internamente?

Alarcon7a

student•

Para correlación como pearson no hace falta

Fernando Jesús Núñez Valdez

student•

La misma formula normaliza el coeficiente de correlación para que quede entre -1 a 1, y no afecte o influya la escala de los datos.

Antonio Demarco Bonino

student•

Cambié un poquito lo que fue el heatmap:

plt.figure(figsize=(15, 10))
sns.heatmap(data_EDA.corr(), annot=True, cmap='coolwarm')
plt.show()

Juan Jose Sepulveda Calderon

student•

Como no sabemos cuáles son las unidades de los datos, si se hace una correlación sin que todos estos estén en una escala estándar, esto nos conduciría a conclusiones erróneas.

¿No se debería hacer el escalamiento antes de realizar el análisis de correlación? O ¿El método de correlación de Pandas realiza la estandarización internamente?

Daniel de Jesús Martínez Vega

student•

La correlación es independiente de la escala de los datos ya que esta solo mide si el comportamiento de la relación de ambas variables es lineal, otra razón es que los escalamientos min-max y z-score(StandardScaler) son lineales por lo que esta propiedad no se pierde. Puedes comprobarlo creando una matriz de correlación antes y después de escalar los datos.

Camilo Vergara

student•

En caso de que quieran que los valores de correlación que están por encima de la diagonal de la matriz no aparezcan, pueden usar el siguiente código:

corr = df_dea.corr()
mask = np.triu(np.ones_like(corr))
sns.heatmap(corr,annot=True,mask=mask)

Alfonso Andres Zapata Guzman

student•

Prefiero usar:

%%time

pio.templates['new_template']['layout']['font'] = {'family': 'verdana', 'size': 7, 'color': 'white'}


fig = px.scatter_matrix(
    df_under,
    color="Class",
    title="Scatter matrix of dataset",
    labels={col: col.replace("_", " ") for col in df.columns},
    opacity=0.8, width=1600, height=1600, color_continuous_scale=px.colors.sequential.Magenta
)

fig.update_traces(diagonal_visible=False)
fig.update_coloraxes(showscale=False)
fig.update_traces(marker=dict(size=4, line=dict(width=1, color=px.colors.sequential.Magenta)))

fig.show()

La diferencia de tiempo de ejecucion con respecto a sns.pairplot(df_under, hue='Class') es exageradamente notable.

Jhonatan Smith Garcia Muñoz

student•

Que es el objeto pio en tu codigo?

Alfonso Andres Zapata Guzman

student•

Modifica el template de la figura, esto tambien se puede hacer en fig.update(........) para solo hacerlo en la figura que se va a plotear, pero a veces me gana la flojera y alli lo modifique para todas las figuras que cree en adelante, lo cual no es tan malo, ya que posiblemente cree una figura similar luego y necesite ese tamaño de letra que modifique alli con esa linea.

import plotly.graph_objects as go
import plotly.io as pio

pio.templates['new_template'] = go.layout.Template()
pio.templates['new_template']['layout']['font'] = {'family': 'verdana', 'size': 16, 'color': 'white'}
pio.templates['new_template']['layout']['paper_bgcolor'] = 'black'
pio.templates['new_template']['layout']['plot_bgcolor'] = 'black'
pio.templates['new_template']['layout']['xaxis'] = {'title_standoff': 10, 'linecolor': 'black', 'mirror': True, 'gridcolor': '#EEEEEE'}
pio.templates['new_template']['layout']['yaxis'] = {'title_standoff': 10, 'linecolor': 'black', 'mirror': True, 'gridcolor': '#EEEEEE'}
pio.templates['new_template']['layout']['legend_bgcolor'] = 'rgb(117, 112, 179)'
pio.templates['new_template']['layout']['height'] = 700
pio.templates['new_template']['layout']['width'] = 1000
pio.templates['new_template']['layout']['autosize'] = False

pio.templates.default = 'new_template'

Juan R. Vergara M.

student•

Una clase compleja para mí. Per sé que con práctica lograré dominar estos conceptos 😎