Regresión Logística para Clasificación Binomial

Clase 8 de 17 • Curso de Regresión Logística con Python y scikit-learn

Contenido del curso

Fundamentos de regresión logística

Regresión logística binomial

Regresión logística multinomial

Conclusiones

Tomar examen

Resumen

¿Cómo aplicar la regresión logística binomial para resolver problemas de clasificación?

La regresión logística binomial es un poderoso algoritmo usado para problemas de clasificación, como determinar si un cliente dejará de usar un servicio (churn) o no. Aprender a implementarla y entender sus resultados es esencial para todo apasionado de la ciencia de datos. En este artículo, exploraremos un ejemplo práctico paso a paso utilizando bibliotecas populares de Python como Scikit-Learn.

¿Cómo prepararse para la regresión logística?

El primer paso al implementar la regresión logística es preparar los datos adecuadamente. En nuestro ejemplo, separamos las variables independentes (X) y la variable dependiente (y) en un dataset, asegurándonos de excluír la columna objetivo (la que queremos predecir).

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Supongamos que `df` es nuestro DataFrame inicial.
X = df.drop(columns=['churn'])  # Eliminar columna objetivo
y = df['churn'].values          # Variable objetivo

¿Cómo dividir los datos para entrenamiento y pruebas?

Dividir tus datos en subconjuntos de entrenamiento y prueba es crucial para asegurar que tu modelo se desempeña bien en datos no conocidos. El 70% de los datos normalmente se utiliza para entrenamiento y el 30% restante para pruebas.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

¿Cómo entrenar el modelo de regresión logística?

Utilizando Scikit-Learn, entrenar un modelo de regresión logística es directo y eficiente. Después de crear el objeto del modelo, simplemente aplicamos el método fit con nuestros conjuntos de entrenamiento.

modelo = LogisticRegression()
modelo.fit(X_train, y_train)

¿Cómo hacer predicciones y evaluar resultados?

El siguiente paso es hacer predicciones utilizando nuestro modelo entrenado y evaluar su precisión.

# Hacer predicciones sobre el conjunto de prueba
predicciones = modelo.predict(X_test)

# Calcular la precisión del modelo
precision = accuracy_score(y_test, predicciones)
print(f'Precisión del modelo: {precision * 100:.2f}%')

En nuestro ejemplo, logramos una precisión del 79%. Este valor puede variar dependiendo de diversos factores, como ajustes en el preprocesamiento de datos o variaciones en los datos mismos.

¿Qué significa la 'accuracy' y cómo interpretarla?

La 'accuracy' o precisión es un indicador de cuántas de nuestras predicciones fueron correctas en comparación con el total de casos. Aunque una precisión alta sugiere un buen rendimiento, es vital considerar:

Desbalanceo de clases: En problemas donde una clase es mucho más prevalente que otras, la precisión por sí sola podría no ser suficiente para evaluar el modelo.
Contexto del problema: Diferentes áreas pueden tener requisitos de precisión distintos. Un 79% puede ser excelente en ciertos contextos y aceptable en otros.

Al finalizar este proceso, no solo hemos aprendido a aplicar la regresión logística binomial, sino también a interpretar resultados y ajustar nuestros enfoques basados en la comprensión del contexto del problema. ¡Continúa profundizando y mejorando tus habilidades!

Comentarios

Octavio De Paula

student•

El accuracy es una métrica que mide la frecuencia con la que un modelo de aprendizaje automático predice correctamente el resultado . Puede calcular la precisión dividiendo el número de predicciones correctas por el número total de predicciones.

Gerardo Jesus Ignacio Villacorta

student•

Otro método para obtener el accuracy.

Daniel de Jesús Martínez Vega

student•

También puedes usar el método .score(), para usarlo no es necesario importar otra libreria porque es un método propio del modelo

Juan R. Vergara M.

student•

Gracias 🥇.

Quevedo Bolivar Jairo Andres

student•

Estoy haciendo un módelo de predicción para peritonitis, pero el módelo no logra encontrar la relación. Ojalá todo fuera así de fácil como en la explicación :c

Celixs Condolo

student•

depende del data set que tengas, las variables tienen que tener correlación con la variable a predecir, tambien hay otros algoritmos, una cosa que hicieron aca es borrar los datos atípicos, supongo lo hicieron para simplificar el ejercicio, pero no lo hagas, cuidado con la normalización que uses, hay muchos factores a tomar en cuenta, estudia bien tus datos, en casos reales, el estudio de datos toma mucho más tiempo que el entrenamiento, me puedo referir a dias incluso, dependerá de la condición que tenga tu data set

Juan R. Vergara M.

student•

Es porque los datasets son distintos, sigue investigando y no te rindas 🥇💡

sebastián Giraldo Vargas

student•

Qué función hace el random_state de 42??

José Fernando Aguilar Arredondo

student•

Hola @sebastián Giraldo Vargas: "random_state": Imagínalo como una función que genera números aleatorios que va utilizar el modelo. Dichos números son utilizados por el modelo. Esto para asegurar que los resultados del mismo sean reproducibles. Ya que si se utiliza los mismos números, obtendremos el mismo resultado. Y cómo podremos asegurar que las predicciones futuras con diferentes números nos den un resultado esperado, si no diversificamos nuestros datos. Es útil en el proceso de validación cruzada y para comparar diferentes modelos o hiperparametros.

Espero te pueda ayudar mi aporte y espero que mis compañeros puedan mejorara o complementar mi aporte.

Saludos!

Mauricio Escobar

student•

Creo que los resultados podrían estar sesgados dado un a desbalance entre cantidad de casos positivos (1) y negativos (0).

Es decir, el modelo es bueno en predicciones de casos positivos, pero no tanto en negativos.

def classification_metrics(y_real, y_pred, print_results: bool= True):
    tn, fp, fn, tp = cm(y_real, y_pred).ravel() # aplanamos la matriz de confusión
    
    accuracy = (tp + tn) / (tp + tn + fp + fn)
    precision = tp / (tp + fp)
    recall = tp / (tp + fn)
    f_score = 2 * (precision * recall) / (precision + recall)
    
    if print_results:
        print(f'\nClassification metrics:\n',
              f'- Accuracy: {accuracy:.2f}\n - Precision: {precision:.2f}\n',
              f'- Recall: {recall:.2f}\n - F1-Score: {f_score:.2f}')
    else:
        return accuracy, precision, recall, f_score

classification_metrics(y_test, y_pred, True)

Oscar Sanchez

student•

¿Cuál es la finalidad de escalar los datos, más allá de que varíen de 0 a 1.?

Rodrigo Martinez

student•

El objetivo es hacer mas facil computacionalmente el entrenamiento y la inferencia

Jesús Enrique García

student•

Tengo una duda para implementar la regresion logistica se debe hacer con los datos sin estandarizar?

Alarcon7a

student•

No es requerida

Alfonso Andres Zapata Guzman

student•

No es requerida en el conjunto de datos usados o en general?

Antonio Demarco Bonino

student•

Me bajé la matriz de confusión para probar de forma visual cómo se comportaban las predicciones. Este es el código:

from sklearn.metrics import confusion_matrix

y_pred = model.predict(X_test)
conf_matrix = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(6, 4))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', cbar=False)
plt.title('Confusion Matrix')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.show()

Neicer Vásquez

student•

En un modelo de regresión logística, es esencial seleccionar las variables independientes que realmente influyan en la variable dependiente. Trabajar con todas las variables puede introducir ruido y no mejorar el modelo, especialmente si algunas no tienen correlación con la variable objetivo. Es recomendable aplicar técnicas de selección de variables, como la eliminación hacia atrás o la regularización, para optimizar tu modelo y evitar el sobreajuste.

Iván Roberto Rivas Celeita

student•

Aunque inicialmente ya sabia que mis variable no tenian relación me dio esta precision ..

Isaac Bryan Ascanoa Roncall

student•

Para este ejercicio, es necesario analizar y verificar que la funcionalidad de este sea correcta porque sino vas a quedarte estancado y no podras avanzar mas adelante.

Julián Cárdenas

student•

Así funciona el comando "metrics.accuracy_score":

La función metrics.accuracy_score es una función que se utiliza comúnmente en el contexto de la evaluación de modelos de aprendizaje automático, especialmente en el ámbito de la clasificación. Esta función es parte de la biblioteca scikit-learn en Python, que es ampliamente utilizada para tareas de aprendizaje automático y minería de datos.

metrics.accuracy_score se utiliza para calcular la precisión (accuracy) de un modelo de clasificación. La precisión es una métrica que mide la proporción de predicciones correctas realizadas por el modelo en relación con el número total de predicciones. Matemáticamente, se define como:

ACCURACU = Número de predicciones correctas/ Número total de predicciones.

from sklearn import metrics

# Definir las etiquetas reales y las etiquetas predichas por el modelo
y_true = [0, 1, 1, 0, 1, 1, 0]
y_pred = [0, 1, 0, 0, 1, 1, 1]

# Calcular la precisión
accuracy = metrics.accuracy_score(y_true, y_pred)

print("Accuracy:", accuracy)

La función metrics.accuracy_score compara las etiquetas reales (y_true) con las etiquetas predichas por el modelo (y_pred) y devuelve la precisión como un valor decimal entre 0 y 1. Un valor de 1 significa que todas las predicciones del modelo son correctas, mientras que un valor más bajo indica que el modelo cometió errores en sus predicciones. La precisión es una métrica importante para evaluar el rendimiento de los modelos de clasificación, pero no siempre es la única métrica relevante, ya que puede no ser adecuada para todos los conjuntos de datos, especialmente cuando las clases están desequilibradas.

def classification_metrics(y_real, y_pred, print_results: bool= True):
    tn, fp, fn, tp = cm(y_real, y_pred).ravel() # aplanamos la matriz de confusión
    
    accuracy = (tp + tn) / (tp + tn + fp + fn)
    precision = tp / (tp + fp)
    recall = tp / (tp + fn)
    f_score = 2 * (precision * recall) / (precision + recall)
    
    if print_results:
        print(f'\nClassification metrics:\n',
              f'- Accuracy: {accuracy:.2f}\n - Precision: {precision:.2f}\n',
              f'- Recall: {recall:.2f}\n - F1-Score: {f_score:.2f}')
    else:
        return accuracy, precision, recall, f_score

classification_metrics(y_test, y_pred, True)

from sklearn.metrics import confusion_matrix

y_pred = model.predict(X_test)
conf_matrix = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(6, 4))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', cbar=False)
plt.title('Confusion Matrix')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.show()

from sklearn import metrics

# Definir las etiquetas reales y las etiquetas predichas por el modelo
y_true = [0, 1, 1, 0, 1, 1, 0]
y_pred = [0, 1, 0, 0, 1, 1, 1]

# Calcular la precisión
accuracy = metrics.accuracy_score(y_true, y_pred)

print("Accuracy:", accuracy)

Regresión Logística para Clasificación Binomial

Fundamentos de regresión logística

Regresión Logística con Python y Scikit Learn

Regresión Logística con Python y Scikit Learn

Cuándo usar la regresión logística en modelos de clasificación

Regresión Logística: Fórmula y Aplicación en Python

Regresión logística binomial

Regresión Logística Aplicada a Dataset Binomial de Churn

Análisis de Correlación y Escalado de Datos en Pandas

Análisis Exploratorio de Datos con Visualización usando Seaborn y Matplotlib