Análisis de Correlación y Escalado de Datos en Pandas

Clase 6 de 17 • Curso de Regresión Logística con Python y scikit-learn

Resumen

¿Cómo realizar un análisis de correlación de datos?

Para entender mejor las relaciones entre los datos y la variable objetivo, el análisis de correlación es vital. En este caso, se trata de comprender cómo las diferentes variables de un conjunto de datos se vinculan con el "churn".

¿Qué es la correlación y cómo se calcula en Pandas?

La correlación mide qué tan cercanas o lejanas están dos variables. Utilizando Pandas, calculamos estas correlaciones con el comando corr(), aplicándolo a las columnas que más interesan, como el churn.

correlation = dataframe.corr()["churn"].sort_values(ascending=True)
correlation.plot(kind='bar')
plt.show()

En el ejemplo, se utiliza un gráfico de barras para visualizar las correlaciones, que hemos ordenado de manera ascendente para facilitar su interpretación.

¿Cuáles son las observaciones del análisis de correlación?

Algunas variables, como tener un contrato mes a mes, están altamente correlacionadas con el churn. Si un cliente tiene un contrato mensual, es más probable que abandone el servicio. Sin embargo, otras características, como el género del cliente o tener un servicio telefónico, no tienen relación significativa con el churn.

Además, las características como cuánto tiempo lleva un cliente con el contrato o si tiene un contrato a dos años, están inversamente correlacionadas. Esto indica que mientras más tiempo y mayor dureza tenga el contrato, menor es la probabilidad de churn.

¿Cómo se pueden escalar los datos?

La escalabilidad de los datos es crucial para preparar el dataset para modelos de machine learning. Esto se debe a que las variables están en diferentes escalas y deben ser ajustadas para evitar que el modelo le otorgue una mayor importancia a una sobre otra.

¿Qué es y cómo se usa MinMaxScaler?

MinMaxScaler es una herramienta de SciKit Learn destinada a escalar variables a un rango común, usualmente de 0 a 1. Esto se logra fácilmente con el siguiente código:

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(dataframe)

scaled_dataframe = pd.DataFrame(scaled_data, columns=dataframe.columns)

¿Cómo llevar los datos escalados a un DataFrame?

Tras escalar los datos, queda un array que debe convertirse nuevamente en un DataFrame para mantener la estructura de columnas:

scaled_dataframe = pd.DataFrame(scaled_data, columns=dataframe.columns)

Así, los datos están listos para pasarse al modelo de machine learning, como la regresión logística, que evaluará la probabilidad de churn con mayor precisión.

Este proceso no solo ayuda a mantener la consistencia de los datos, sino también a mejorar la interpretación y el rendimiento del algoritmo de clasificación. Es un paso esencial en el preprocesamiento de los datos en un proyecto de ciencia de datos.

FELIX DAVID CORDOVA GARCIA

student•

Si quieren un gráfico más colorido pueden usa seaborn

Juan R. Vergara M.

student•

👍

Ana Patricia Pérez Ríos

student•

Hola Felix David, me sale este error que no sé distinguir. ¿Puedes por favor ayudarme? Me sale las barras en color azul y no se como darle la variedad que tu elegiste.
Gracias.

FELIX DAVID CORDOVA GARCIA

student•

Hay un concepto en Machine Learning llamado DATA LEAKAGE, que basicamente consiste en que información fuera de los datos de entrenamiento es usada para entrenar el modelo, por ejemplo entrenar un escalador con todos los datos cuando debería ser solo entrenado con los datos de entrenamiento , esto genera que se puedan obtener resultados muy optimistas al entrenar nuestro modelo,pueden leer sobre eso aquí: https://machinelearningmastery.com/data-leakage-machine-learning/

En todo caso lo correcto sería lo recomendado en este artículo:

Osea lo que mencioné al incio, entrenar y estandarizar la data con los datos de entrenamiento y evaluar el modelo con la data de prueba

Fernando Jesús Núñez Valdez

student•

Este código es la misma lógica solamente que uso el MinMax scaler

# Libraries
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split

# Selecting X and y
X = df_data_processing.drop('Churn', axis=1)
y = df_data_processing.Churn

# Spliting Data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2 ,random_state=42)

# Scaling Data
scaler = MinMaxScaler()
X_train_scaled = pd.DataFrame(scaler.fit_transform(X_train), columns=X.columns)
X_test_scaled = pd.DataFrame(scaler.transform(X_test), columns=X.columns)

Alejandro Isaí Negrón Garcia

student•

Cuando se hace el one hot encoding creo que podríamos liminar ciertos campos que se encuentran estrechamente relacionados entre si, ya que, por ejemplo, se crean dos variables de género (dado que la categoría es de Masculino/Femenino), sin embargo podemos prescindir de una ya que al tener gender_Male con 1 nos da que gender_Female es 0, es decir nunca vamos a tener un 1,1 o un 0,0

Leandro Tenjo

student•

Exacto, eso mismo hicimos en el curso de Regresion Lineal

Julián Cárdenas

student•

Yo pensé que eso mismo iba a hacer este profesor, but no...

Martin Javier Gamboa Guzman

student•

Tengo dos preguntas:

1. ¿Por que se utiliza el Scaler antes de hace la exploración de los datos, no deberia ser al reves?

¿ Por que se utiliza el Max Scaler y no otro scalador?

Gerardo Jesus Ignacio Villacorta

student•

Mario Chavez

student•

Supongo que es un data set distinto al del curso, se ve raro porque la correlacion de una variable consigo misma siempre es uno, si quieres que se vea mas claro quita el ulitmo elemento.

# un slicing
churn_onehot.corr().Churn.sort_values(ascending=True)[:-1]
# con un pop
churn_onehot.corr().Churn.sort_values(ascending=True).pop(-1)

José Luis Calderon Duran

student•

Disculpen, cual me recomiendan utilizar, MInMaxScaler, Standar Scaler o Normalizar

Mauro Benito Montoya Arenas

student•

En el minuto 3:33, ¿Como sabe que las variables no estan crrelacionadas entre si?. No me quedo claro.

Juan José Zapata

student•

La correlación realmente es un número que va desde -1 a 1, mientras más cerca del -1 está más inversamente correlacionado y si está más cerca al 1 está correlacionado. Él menciona que no hay más correlaciones ya que no hay más valores que sean muy altos o muy bajos como se ve en el histograma. Algo a tener en cuenta es que esto solo nos da un indicador de una relación lineal, por lo que si la relación es de otro tipo no se puede detectar con este método.

Alfonso Andres Zapata Guzman

student•

fig = go.Figure()
fig.add_trace(
    go.Bar(
        x=data_corre['index'],
        y=data_corre['Churn'],
        marker=dict(cmax=1, cmin=-1, color=data_corre['Churn'], showscale=True)))

fig.update_xaxes(tickangle=60, tickfont=dict(family='Arial', size=10), automargin='height')
fig.update_layout(title_text='Graphic correlation variable Churn', xaxis_title="Feature", yaxis_title="Correlation")
fig.show()

Alfonso Andres Zapata Guzman

student•

marker=dict(cmax=1, cmin=-1, color=data_corre['Churn'], showscale=True, colorbar={"title": "Correlation"})

Jhonatan Smith Garcia Muñoz

student•

Hola. una pregunta. que es el objeto "go" en tu codigo? Es decir, al inicio tienes: fig = go.Figure() fig.add_trace(

Que es go? Un modulo?

Lorena Galván

student•

Esa matriz de .corr() NO muestra la correlacion entre variables. Para analizar la Multicolinealidad pueden ver un hot map pero al ser demasiadas variables el plot puede estar demasiado lleno. una forma elegante y metodica de analizarlo es utilizando variance_inflation_factor. Como yo lo hice en un proyecto, fue eliminar la variable con mayor VIF, calculaba otra vez el VIF y asi hasta que no hubiera variables con VIF mayor a 5. VIF de 7 a 10 estan medianamente correlacionadas.

from statsmodels.stats.outliers_influence import variance_inflation_factor

vif_data = pd.DataFrame()

vif_data["feature"] = df_data_processing.columns

vif_data["VIF"] = [variance_inflation_factor(df_data_processing.values, i) for i in range(len(df_data_processing.columns))]

print(vif_data)

Mario Alexander Vargas Celis

student•

Para realizar un análisis de correlación y aplicar escalado de datos usando pandas (y bibliotecas complementarias como seaborn, scikit-learn y matplotlib), puedes seguir estos pasos clave:

📌 1. Importar librerías necesarias

import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from sklearn.preprocessing import StandardScaler, MinMaxScaler

📌 2. Cargar el dataset

df = pd.read_csv("ruta/dataset.csv") # Cambia la ruta por la tuya print(df.head())

📌 3. Análisis de correlación

📊 Matriz de correlación

correlation_matrix = df.corr(numeric_only=True) # Solo numéricos print(correlation_matrix)

🔍 Visualización con mapa de calor

plt.figure(figsize=(10, 8)) sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f') plt.title("Matriz de Correlación") plt.show()

📌 4. Escalado de datos

➕ Estandarización (media = 0, desviación estándar = 1)

scaler = StandardScaler() scaled_data = scaler.fit_transform(df.select_dtypes(include=['float64', 'int64'])) scaled_df = pd.DataFrame(scaled_data, columns=df.select_dtypes(include=['float64', 'int64']).columns)

📈 Normalización (valores entre 0 y 1)

scaler = MinMaxScaler() normalized_data = scaler.fit_transform(df.select_dtypes(include=['float64', 'int64'])) normalized_df = pd.DataFrame(normalized_data, columns=df.select_dtypes(include=['float64', 'int64']).columns)

📌 5. Correlación después del escalado (opcional)

sns.heatmap(scaled_df.corr(), annot=True, cmap='coolwarm') plt.title("Correlación tras Escalado") plt.show()

🧠 ¿Por qué escalar?

El escalado es útil antes de aplicar modelos como regresión logística, SVM, KNN o PCA, que son sensibles a las magnitudes de los datos.
La correlación no se ve afectada por el escalado estándar, ya que mide relación, no magnitud.

José Salas Bolívar

student•

Buenas tardes compañeros, tengo una duda, aunque bueno más que una duda me gustaría saber, si para el caso de la regresión logística es más ventajoso utilizar como método de escalado min-max scaling en lugar de z-score?

Mario Chavez

student•

Dentro del dataset se pueden ver variables que tienen la misma correlacion:

3 StreamingTV_No internet service -0.227578 4 OnlineSecurity_No internet service -0.227578 5 OnlineBackup_No internet service -0.227578 6 TechSupport_No internet service -0.227578 7 DeviceProtection_No internet service -0.227578 8 StreamingMovies_No internet service -0.227578

Se puede interpretar multicolinealidad entre ellos?

Patricio Sánchez Fernández

student•

Súper interesante el descubrimiento en general, gracias al análisis de correlación. Puedes descartar varias columnas de forma inmediata. Algunas pósales soluciones, por ejemplo: Para aquellos que tienen plan mensual, y que son altamente susceptibles de caer en "Churn" sería interesante generar incentivos para que contraten planes anuales, otro iSight tiene que ver con la seguridad. tal vez un plan anual podría contener esas variables, que al pagarlas en un paquete, pudiera ser más interesante que pagarlas por separado.

Estamos en la parte inicial, pero al menos hay un indicio de qué gotilla el "Churn". E incluso, se podría realizar una encuesta focalizada a los potenciales clientes que podrían dejar la compañía y descubrir las potenciales mejoras de productos o servicios, que pudieran ayudar a mejorar o incrementar la oferta.

Rodrigo Consuelos

student•

Cosillas que noté:

El OneHotEncoder al no poner drop_first = True, tenemos información de más que dice lo mismo y nos va a dañar el modelo. Ejemplo: gender_male y gender_female, están correlacionadas. Y el modelo de regresión lineal y regresión logística no lidian bien con ella.
En el curso de regresión lineal también estandarizan con todos las X, lo que hace que el modelo ya cuente con información del test porque las X_test dieron información al training. Es por ello que harías el fit con el training y el transform ya con X_train y X_test.
El gráfico me parece muestra bien la correlación de las variables con Churn, pero se requeriría un pairplot para ver la correlación para el caso de variables numéricas. Sí queremos correlación de la variable Objetivo con los features, pero no queremos variables(features) correlacionadas entre ellas.

Andres Montes

student•

La multicolinealidad se refiere a la situación en la que dos o más variables independientes en un modelo de regresión están altamente correlacionadas entre sí. Esto puede causar problemas al estimar los coeficientes del modelo, ya que dificulta identificar el efecto individual de cada variable. En esencia, no es solo que "casi representen lo mismo", sino que sus valores cambian juntos de tal manera que se vuelve difícil separar sus efectos en la variable dependiente. En el contexto de la regresión logística, es crucial identificar y manejar la multicolinealidad para asegurar la validez del modelo.

Antonio Demarco Bonino

student•

Me encanta trabajar con matplotlib y hacer visuales sencillas pero potentes:

import matplotlib.pyplot as plt
data_processing.corr()['Churn'].sort_values(ascending=False).plot(kind='bar', figsize=(15, 4))
plt.axhline(y=0, color='black', linestyle='--')
plt.show()