Regresión Logística: Clasificación y Predicción de Probabilidades

Curso de Introducción a Machine Learning

Contenido del curso

Introducción a machine learning

Algoritmos simples de machine learning

Deep learning

Conclusiones

Tomar examen

Regresión Logística: Clasificación y Predicción de Probabilidades

Resumen

¿Qué es la regresión logística y cómo funciona?

La regresión logística es una técnica poderosa utilizada en problemas de clasificación. Aunque su nombre sugiere una similitud con la regresión lineal, su propósito principal es dividir o clasificar datos en diferentes categorías. En la misma línea, se ajusta una función que busca separar dos clases distintas dentro de un conjunto de datos. Esta metodología es fundamental cuando se trata de predecir la probabilidad de un evento binario, como aprobar o no un examen.

¿Cómo se aplica la regresión logística en un ejemplo de educación?

Imagina que eres un profesor que busca recomendar cuántas horas deben estudiar los estudiantes para aprobar un examen. Para esto, podrías realizar una encuesta que pregunte a cada estudiante cuántas horas estudiaron y si aprobaron o no. Aquí, el objetivo de la regresión logística es encontrar una fórmula que permita predecir la probabilidad de que un estudiante pase. Si el resultado de la fórmula es 0,5 o más, consideraríamos que el estudiante probablemente aprobará. Esta técnica es muy eficiente para optimizar predicciones en situaciones similares.

¿Cómo funciona la función de coste en la regresión logística?

La función de coste es crucial para evaluar si la predicción es precisa en términos de probabilidades de aprobar o reprobar. Se trata de una función que mide la diferencia entre las predicciones del modelo y los resultados reales, buscando minimizar el error. Este concepto se puede aplicar a diferentes tipos de problemas, no solo binarios, mediante el ajuste de parámetros que mejoren la separación entre clases.

¿Cómo se mide la precisión de los modelos de regresión logística?

La precisión de un modelo de regresión logística se puede evaluar mediante una matriz de confusión. Esta herramienta evalúa si las predicciones del modelo reflejan la realidad al categorizar correctamente los resultados. Especialmente útil cuando hay un desequilibrio en los datos (más aprobados que reprobados, por ejemplo), ayuda a comprender cómo el modelo está fallando en sus predicciones. Si el conjunto de datos está equilibrado, medir la precisión, es decir, la proporción de predicciones correctas, es una técnica común para evaluar el rendimiento.

¿Cuáles son los pasos clave del proceso de regresión logística?

Proceso de decisión: Busca predecir la línea que mejor divide las clases, estimando la probabilidad de pertenencia a una clase en particular.
Función de coste: Evaluar un conjunto de pesos que permita predecir de manera más precisa si una observación pertenece a un grupo o no.
Regla de actualización: Ajustar los pesos para optimizar la probabilidad de predicción, refinando la línea divisoria dentro del conjunto de datos.

Conocer estos pilares te ayudará a aplicar la regresión logística eficazmente en diversas situaciones prácticas. Deberás recordar que, como en la matemática o la programación, ensayo y error son parte del proceso. ¡No te desanimes, sigue aprendiendo y dominando esta técnica!

Mario Alexander Vargas Celis

Estudiante

¡Claro! La Regresión Logística es una técnica fundamental de clasificación supervisada en Machine Learning. Aunque su nombre contiene “regresión”, su objetivo principal no es predecir valores continuos, sino clasificar observaciones y estimar probabilidades.

📘 ¿Qué es la Regresión Logística?

La regresión logística estima la probabilidad de que una observación pertenezca a una clase específica. La salida del modelo está en el rango [0,1][0, 1], gracias a la función sigmoide (logística):

P(y=1∣x)=11+e−(β0+β1x1+⋯+βnxn)P(y=1|x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1x_1 + \dots + \beta_nx_n)}}

🔍 ¿Cuándo usarla?

Cuando tu variable objetivo (y) es categórica binaria (0 o 1), como:

Email spam o no spam
Cliente comprará o no comprará
Diagnóstico positivo o negativo

🛠️ Implementación en Python

✅ Ejemplo básico con scikit-learn

from sklearn.datasets import load_breast_cancer from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report, confusion_matrix

# Cargar dataset data = load_breast_cancer() X = data.data y = data.target

# Dividir datos X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Crear modelo model = LogisticRegression(max_iter=1000) model.fit(X_train, y_train)

# Predicción y_pred = model.predict(X_test)

📊 Evaluación del Modelo

1. Reporte de clasificación

Precisión, recall, F1-score.

print(classification_report(y_test, y_pred))

2. Matriz de confusión

Para ver verdaderos positivos/negativos y errores.

print(confusion_matrix(y_test, y_pred))

3. Probabilidades

# Ver probabilidades de pertenecer a la clase 1 y_proba = model.predict_proba(X_test)[:, 1]

📈 Visualización de la función sigmoide

import numpy as np import matplotlib.pyplot as plt

z = np.linspace(-10, 10, 100) sigmoid = 1 / (1 + np.exp(-z))

plt.plot(z, sigmoid) plt.title('Función Sigmoide') plt.xlabel('z') plt.ylabel('P(y=1)') plt.grid(True) plt.show()

✅ Ventajas

Rápido y eficiente con datasets linealmente separables
Interpretable: puedes ver los coeficientes de impacto
Permite calibrar probabilidades reales

⚠️ Limitaciones

No funciona bien con relaciones no lineales (usa SVM o árboles en ese caso).
Supone independencia entre predictores (puede violarse en práctica).
Sensible a valores atípicos y multicolinealidad.

🧠 Variantes avanzadas

Regresión logística multinomial: para clasificación con más de dos clases (multi_class='multinomial')
Regularización (L1/L2): para evitar sobreajuste (penalty='l1' o 'l2')

Antonio Demarco Bonino

Rafael Rivera

Juan R. Vergara M.

Axel Yaguana

Team Platzi

Emmanuel Guerra Sánchez

Carlos Eduardo Magallon Zepeda

Jeinfferson Bernal G

Matías Collado

Dionicio Perez

Rodmy Suarez

Paola Alapizco

Jhon Freddy Tavera Blandon

JAKSON VELASQUEZ MUÑOZ

Ricardo Ruiz

Noe Mazahua

Isaac Bryan Ascanoa Roncall

Regresión Logística: Clasificación y Predicción de Probabilidades

Introducción a machine learning

Curso actualizado

Algoritmos de Machine Learning: Preparación y Aplicación de Datos

Introducción al Machine Learning: Historia y Conceptos Básicos

Introducción a la Ciencia de Datos: Carga y Visualización de Conjuntos

Algoritmos Supervisados y No Supervisados en Machine Learning

Procesamiento y Análisis de Datos para Machine Learning

Algoritmos simples de machine learning

Modelos de Machine Learning: Uso, Implementación y Evaluación

Regresión Lineal: Predicción y Evaluación de Modelos Numéricos