Visualización de Máxima Verosimilitud en Regresión Logística

Curso de Matemáticas para Data Science: Probabilidad

Contenido del curso

Incertidumbre y probabilidad

Fundamentos de probabilidad

Distribuciones de probabilidad

MLE (Maximum Likelihood Estimation)

Inferencia bayesiana

Tomar examen

Visualización de Máxima Verosimilitud en Regresión Logística

Resumen

¿Cómo validar matemáticamente el modelo de regresión logística con código en Python?

El modelo de regresión logística es fundamental para resolver problemas de clasificación binaria en machine learning. Para validar su hipótesis, utilizamos Python y ciertas bibliotecas específicas para evaluar la función de verosimilitud y relacionarla con las etiquetas correctas del conjunto de datos. La función de verosimilitud determina las probabilidades de que los valores predichos por el modelo se acerquen a las categorías reales de los datos. ¿Listo para explorar cómo lo hacemos?

¿Qué librerías de Python usar para el modelo?

Al trabajar con regresión logística en Python, se utilizan las librerías más comunes y eficaces:

Matplotlib: Para crear visualizaciones gráficas en dos o tres dimensiones.
NumPy y Pandas: Librerías estándar para manipular y analizar datos numéricos y estructuras de datos en Python.
Scikit Learn: Ofrece algoritmos y funciones de machine learning que facilitan la implementación de modelos complejos de manera sencilla.

¿Cómo visualizar la función de verosimilitud?

Primero, definimos una función en Python considerando que la función de verosimilitud es de dos variables y graficamos sus resultados en un gráfico tridimensional.

import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

def likelyhood_function(yp, y):
    return yp * y + (1 - yp) * (1 - y)

x = np.arange(0.0, 1.0, 0.1)
y = np.arange(0.0, 1.0, 0.1)
X, Y = np.meshgrid(x, y)
Z = likelyhood_function(X, Y)

fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.plot_surface(X, Y, Z, cmap='coolwarm')
plt.colorbar()
plt.show()

Aquí, la función muestra los valores máximos en los puntos donde la predicción y el valor real coinciden, justificando el uso de esta función para optimizar el modelo.

¿Cómo implementar el modelo de regresión logística con Scikit Learn?

Scikit Learn simplifica la implementación de modelos. El dataset "iris" se utiliza comúnmente por su claridad y simplicidad, permitiendo evaluar rápidamente los resultados del modelo.

from sklearn.linear_model import LogisticRegression
from sklearn import datasets

iris = datasets.load_iris()
X = iris.data[iris.target != 2]  # Consideramos sólo dos clases para problema binario
y = iris.target[iris.target != 2] 

model = LogisticRegression(random_state=0, solver='liblinear')
model.fit(X, y)

print(model.coef_)

Los coeficientes del modelo, o los betas, definen la importancia de cada atributo en la predicción de la clase, ofreciendo un vistazo claro de qué atributos influyen más.

¿Qué es la función de costo cross entropy y su relevancia?

La función de costo cross entropy surge de la necesidad de transformar la verosimilitud en una medida de error manejable. Se utilizó el logaritmo de las probabilidades, lo cual simplificó la expresión:

Cross Entropy es crucial porque traduce el objetivo del modelo de maximizar las probabilidades en minimizar el error en las predicciones.

Finalmente, a través de este ejercicio, la regresión logística es vista no solo como un algoritmo de clasificación, sino como una herramienta de estimación con un robusto marco matemático que optimiza los parámetros de modo que las predicciones sean lo más precisas posibles.

Al aplicar las técnicas aprendidas, abre un mundo de posibilidades en tus proyectos de inteligencia artificial. ¡La práctica y la aplicación continua son tus mejores aliados en este fascinante camino del aprendizaje automático!

Sebastian Calderón Araque

Estudiante

Quiero dejar mi aporte con un ejemplo para aclarar un poco este complejo tema.

En el ejercicio de la clase tomamos las 4 variables del dataset “iris” y lo pasamos a la función LogisticRefression de sklearn. Con esto obtuvimos los parámetros que se aplican en el log-odds. Pero si se dan cuenta, al impirmir el clf.coef_ obtenemos 4 valores, nos hace falta el primer parámetro (el be sub cero, el que NO va acompañado de ninguna equis). Este parámetro lo obtenemos con clf.intercept_.

Ya teniendo los 5 parámetros, podemos pasarlos a la función sigmoide y así obtenemos la probabilidad para cada grupo de datos.

Quiero dejar esto aún más claro con un ejemplo. Si solo tomamos la fila 3 del dataset (correspondiente a petal_length) y aplicamos los mismos procedimientos vistos en clase, obtendremos 2 parámetros, que posteriormente se pasarán a una función sigmoide (dejo el código abajo).

graficando esto obtendremos de manera intuitiva lo que significa la regresión logística. donde el cero representa un tipo de flor y el uno representa otro tipo de flor. El eje x representa la longitud del pétalo de las flores.

En el ejercicio de la clase no se puede realizar una gráfica, ya que se tienen 4 parámetros, por eso este ejercicio me parece más intuitivo.

def sigmoid(b0, b1, x):
  return 1/(1+np.exp(-(b0+b1*x)))

fig, ax = plt.subplots()
ax.plot(X[:100,2], y[0:100], "o")

clf = LogisticRegression().fit(X[:100,2].reshape(-1, 1), y[:100])
print(clf.coef_)
print(clf.intercept_)


X2 = np.arange(1,5, 0.1)
y2 = sigmoid(clf.intercept_, clf.coef_, X2)
# print(y2)
ax.plot(X2, y2[0,:])```

Roxana María Romero Luna

Estudiante

Muy bueno tu aporte, o sea que según sean los valores obtenidos de los betas la probabilidad de que una flor según los atributos dados pertenezca a un clase o otra es lo que al final buscamos. Es decir, buscamos responder si tenemos una flor y sus atributos son estos o este otro la flor es de esta clase.

Wilson Delgado

Gregorio Alfonso De León Martínez

Mateo Echavarria

Mauricio Obe

Andres López

Ever Orlando Reyes Ruiz

Alejandro Giraldo Londoño

Felix Gonzales

José Miguel Vergara Taboada

Roberth Mafla

Diego Alejandro Lesmes

Daniel Andrés Giraldo Benites

Jorge Ardila Camargo

Eric Gabriel Martinez Labrin

david jurado

Madison Eduardo Herrera Carrión

Eliana Ossio

Darían Rafael Sánchez Muñoz

Fernando Jesús Núñez Valdez

Maria Alejandra Diaz Rojas

Naren Fragozo

Andrés Villarreal

Andres Gutiérrez Castillo

Carlos Mazzaroli

Richard Eduardo Sailema Medina

clint martinez

Pablo Rosa

Sebastián Andrade

Daniel Noreña

Diego Buesaquillo

Usuario anónimo

User

DIEGO ALEXANDER CASTELLANOS SANTAMARIA

Santiago Espinel

Sergio Rubiano

Paola Alapizco

Luis Enrique Montes Gonzalez

Visualización de Máxima Verosimilitud en Regresión Logística

Incertidumbre y probabilidad

Fundamentos de Probabilidad para Ciencia de Datos

Probabilidad en Machine Learning: Fuentes de Incertidumbre y Modelos

Fundamentos de probabilidad

Tipos de Probabilidad: Conjunta, Marginal y Condicional

Probabilidades Condicionales y Correlación de Eventos Aleatorios

Paradojas de Probabilidad: Niño o Niña y Monty Hall

Distribuciones de probabilidad

Funciones y Distribuciones de Probabilidad en Cálculo

Distribuciones Discretas: Bernoulli y Binomial

Cálculos con Distribución Binomial en Google Colab usando Python

Análisis de Distribuciones Continuas: Enfoque en la Gaussiana

Estimación de Distribuciones de Probabilidad en Google Colab

MLE (Maximum Likelihood Estimation)

Estimación de Máxima Verosimilitud en Modelado Estadístico

Regresión Lineal con Estimación de Máxima Verosimilitud en Machine Learning

Regresión Logística y Estimación de Máxima Verosimilitud