No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Regresión logística

13/17
Recursos

Aportes 37

Preguntas 11

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

SI no llegan a comprender todo solo tengan en mente esto :
función sigmoide : nos devuelve 0 y 1
función de coste : nos sirve para minimizar el error

Sinceramente, creo que me hubiese servido tener más explicación práctica para entender mejor.

ya llegue al punto en el que no entiendo nada, pero bueno aqui estamos

Diez cursos de redes neuronales y machine learning despues, entiendo la base matematica. Excelente explicacion.

Cross-Entropy: Función de error que busca siempre minimizarse en un problema de clasificación binaria. Es una consecuencia de la estimación de Máxima Verosimilitud.

Regresion Logistica

La regresion logistica nos resuelve problemas de clasificacion. Resolveremos un problema de clasificacion binaria: predecir si una trasaccion bancaria fue fraudulenta o no, teniendo como atributos independientes la hora de la transaccion, la distancia entre el lugar de la transaccion y la casa del dueño de la tarjeta, entre otros. 1 es fraudulento, 0 es no fraudulento.

Consideramos todos los atributos y los combinamos por medio de parametros que se encargaran de determinar la relevancia de las variables. Al combinar todas las variables con su respectivo peso, obtendremos una nueva variable X , la cual es pasada a la funcion sigmoide de manera que en el eje x estan codificadas todas las variables

En la Regresion Logistica se van modificando los parametros beta de manera que los puntos se redisribuyan lo suficientemente bien como para que la clasificacion a traves de la curva logistica sea lo mejor posible.

El resultado ‘y’ que se obtiene de la funcion sigmoide es un numero que esta entre 0 y 1 con valores intermedios en ese rango lo cual puede generar valores de probabilidad de P=0.9 que a su vez genera valores de error de E=0.1

Por tanto, la idea es seleccionar los parametros beta de manera las P arrojes los E mas pequeños posibles o las probabilidades mas altas en terminos de los valores 0 y 1

Tuve que dejar este curso, espero lograr conseguirlo en el futuro

Nunca he visto a alguien que le salieran tan bien las llaves 😄

Nivel del curso: Basico
Explicaciones para personas que ya han usado Machine Learning.
Esta clase para los que estamos iniciando, es simplemente perdernos. Tienen que modificar el curso.

Alguna bibliografía de este tema:

  1. T. M. Cover, J. A. Thomas, “Elements of Information Theory, Second Edition” (2006)
  2. I. Goodfellow, Y. Bengio, A. Courville, “Deep Learning” (2015)
  3. S. Shalev-Shwartz, S. Ben-David, “Understanding Machine Learning, From Theory to Algorithms” (2014)

No lo puedo creer! esto es básicamente una ecuación diferencial aplicada a un modelo sigmoidal.

Los temas son complicados y falta más explicación de diferentes conceptos y ecuaciones

La estimación de máxima verosimilitud

  • (MLE, por sus siglas en inglés) es un método estadístico utilizado para estimar los parámetros de una distribución de probabilidad dada. El objetivo es encontrar los valores de los parámetros que maximizan la probabilidad (verosimilitud) de observar los datos reales.

  • La verosimilitud de un conjunto de datos es una medida de cuán probable es que los datos se generen a partir de una distribución dada. La MLE busca los valores de los parámetros que maximizan esta probabilidad. Esto se logra mediante la solución de las ecuaciones de las derivadas parciales de la verosimilitud con respecto a cada parámetro.

  • La MLE es un método popular para estimar los parámetros de una distribución de probabilidad debido a su simplicidad y robustez. Sin embargo, en algunos casos, la MLE puede no ser la mejor opción debido a la presencia de outliers o a que los datos no sigan una distribución particular.

  • La MLE es ampliamente utilizada en una variedad de campos, como la estadística, la economía, la biología, la psicología y la ingeniería entre otros.

La distribución de Bernoulli

  • es una distribución de probabilidad discreta que se utiliza para modelar eventos binarios, es decir, eventos que solo pueden tener dos posibles resultados, como “éxito” o “fracaso”, “verdadero” o “falso”, etc. La distribución de Bernoulli se caracteriza por tener solo dos posibles valores para la variable aleatoria, denotados como x, que pueden ser 0 o 1.

  • La distribución de Bernoulli se define mediante un parámetro p, que representa la probabilidad de éxito (x=1) en el evento binario. La función de probabilidad de la distribución de Bernoulli se expresa como:


P(x) = p^x (1-p)^(1-x)

donde x = 0,1 y 0 <= p <= 1
  • La distribución de Bernoulli se utiliza en una variedad de campos, como la medicina, la psicología, la economía, la ingeniería y la minería de datos entre otros. Es especialmente útil en problemas de clasificación binaria y en la modelación de procesos de decisión.

cross entrpy

  • La cross-entropy es una medida de la diferencia entre dos distribuciones de probabilidad. En particular, se utiliza para medir la diferencia entre una distribución de probabilidad real o verdadera § y una distribución de probabilidad estimada o predictiva (q). La cross-entropy se define como la media de la información negativa (entropía) de la distribución verdadera sobre la distribución predictiva:

H(p,q) = - ∑x p(x) log(q(x))
  • La cross-entropy se utiliza como una medida de la performance de un modelo de aprendizaje automático, especialmente en problemas de clasificación. Si el modelo tiene una alta cross-entropy, significa que la distribución predictiva es muy diferente de la distribución verdadera, lo que indica un mal rendimiento del modelo. Por otro lado, si la cross-entropy es baja, significa que la distribución predictiva es similar a la distribución verdadera, lo que indica un buen rendimiento del modelo.

  • La cross-entropy es utilizada en una variedad de algoritmos de aprendizaje automático, como la regresión logística, el análisis discriminante, el análisis de componentes principales y la red neuronal entre otros.

https://www.youtube.com/watch?v=BfKanl1aSG0&list=PLblh5JKOoLUKxzEP5HA2d-Li7IJkHfXSe&index=3
Explicación del máximo likelihood mediante otro método.
Pienso que la explicación en este video es más comprensible

Un artículo para reformar el tema tratado: Regresión logística simple y múltiple

Hasta que por fin conozco la regresión logística para problemas binarios.

Clase magistral. Para reforzar el tema:
Introduction to logistic regression

Quisiera compartir con ustedes un articulo que publiqué junto con un compañero para El Global Journal Of Human Social Science, si bien no es ciencia de datos, parte de toda esta base estadística de regresiones de clasificación, en este caso haciendo uso de una probit ordenada, que es muy similar a lo explicado en esta clase, para determinar los factores que inciden en el rendimiento de la educación superior en Colombia. Espero les pueda ayudar a comprender un poquito más las aplicaciones de estos conceptos, en gran parte fue lo que me motivo a estudiar Data Science

Aquí les dejo el enlace:

https://globaljournals.org/GJHSS_Volume21/5-Influencing-Factors.pdf?fbclid=IwAR3cQCc7bDiLN76IVlIlLxRnDJrgsltuQvf5dAUEtUCTH9wdDm0-nZo2GTg

Ando amor odio con este curso, cuando dijo lo de bernulli ya hasta la tercera vez que veo la clase entiendo que es por ser un problema binario, me gustaría que expliquen mejor ese tipo de cosas y no darlo por sentado
In the context of **maximum likelihood estimation (MLE)** for multiclass classification, the **cross-entropy loss** function can be derived from the principle of minimizing the negative log-likelihood of the predicted probabilities. Here’s a detailed derivation of the cross-entropy loss for a multiclass classification problem. ### 1. **Problem Setup** Let’s assume that we have a dataset of NNN observations. Each observation iii belongs to one of CCC classes, where CCC is the number of classes. Let: * X={x1,x2,…,xN}\mathbf{X} = \\{ \mathbf{x}\_1, \mathbf{x}\_2, \dots, \mathbf{x}\_N \\}X={x1​,x2​,…,xN​} be the set of input data points. * y={y1,y2,…,yN}\mathbf{y} = \\{ y\_1, y\_2, \dots, y\_N \\}y={y1​,y2​,…,yN​} be the corresponding true class labels, where yi∈{1,2,…,C}y\_i \in \\{1, 2, \dots, C\\}yi​∈{1,2,…,C}. * P={p(xi)}\mathbf{P} = \\{ p(\mathbf{x}\_i) \\}P={p(xi​)} be the predicted probabilities from a model, where p(xi)p(\mathbf{x}\_i)p(xi​) is a vector of probabilities over the classes for each observation iii, and p(xi)cp(\mathbf{x}\_i)\_cp(xi​)c​ is the predicted probability that the observation iii belongs to class ccc. ### 2. **Likelihood Function** The likelihood function for the whole dataset is the joint probability of observing the true labels given the model predictions. For each data point iii, the likelihood is the probability assigned to the true class yiy\_iyi​ by the model. Thus, for a single observation iii, the likelihood is: Li=P(yi∣xi)=p(xi)yiL\_i = P(y\_i \mid \mathbf{x}\_i) = p(\mathbf{x}\_i)\_{y\_i}Li​=P(yi​∣xi​)=p(xi​)yi​​ where p(xi)yip(\mathbf{x}\_i)\_{y\_i}p(xi​)yi​​ is the predicted probability that observation iii belongs to the true class yiy\_iyi​. For all NNN observations, the total likelihood is: L(y∣X)=∏i=1Np(xi)yiL(\mathbf{y} \mid \mathbf{X}) = \prod\_{i=1}^N p(\mathbf{x}\_i)\_{y\_i}L(y∣X)=i=1∏N​p(xi​)yi​​ ### 3. **Log-Likelihood** To simplify the computation (since products can lead to numerical instability), we typically work with the log-likelihood: log⁡L(y∣X)=∑i=1Nlog⁡p(xi)yi\log L(\mathbf{y} \mid \mathbf{X}) = \sum\_{i=1}^N \log p(\mathbf{x}\_i)\_{y\_i}logL(y∣X)=i=1∑N​logp(xi​)yi​​ ### 4. **Negative Log-Likelihood (NLL)** MLE is typically framed as maximizing the log-likelihood. However, for minimization, we consider the **negative log-likelihood (NLL)**: NLL=−∑i=1Nlog⁡p(xi)yi\text{NLL} = -\sum\_{i=1}^N \log p(\mathbf{x}\_i)\_{y\_i}NLL=−i=1∑N​logp(xi​)yi​​ ### 5. **Cross-Entropy Loss Function** Now, the **cross-entropy loss** for multiclass classification is equivalent to the negative log-likelihood, but it can be expressed in a more general form. First, define the target labels yiy\_iyi​ using a **one-hot encoding** representation. Let yi\mathbf{y}\_iyi​ be the one-hot encoded vector for the true class yiy\_iyi​, where: * yi=\[0,0,…,1,…,0]\mathbf{y}\_i = \[0, 0, \dots, 1, \dots, 0]yi​=\[0,0,…,1,…,0], with a 1 at the true class index and 0 elsewhere. Thus, the predicted probability for the true class can be written as: p(xi)yi=∑c=1Cyic⋅p(xi)cp(\mathbf{x}\_i)\_{y\_i} = \sum\_{c=1}^C y\_{ic} \cdot p(\mathbf{x}\_i)\_cp(xi​)yi​​=c=1∑C​yic​⋅p(xi​)c​ where yicy\_{ic}yic​ is the ccc-th component of the one-hot vector yi\mathbf{y}\_iyi​, and p(xi)cp(\mathbf{x}\_i)\_cp(xi​)c​ is the predicted probability of class ccc. Substituting this into the negative log-likelihood: NLL=−∑i=1Nlog⁡(∑c=1Cyic⋅p(xi)c)\text{NLL} = - \sum\_{i=1}^N \log \left( \sum\_{c=1}^C y\_{ic} \cdot p(\mathbf{x}\_i)\_c \right)NLL=−i=1∑N​log(c=1∑C​yic​⋅p(xi​)c​) ### 6. **Final Cross-Entropy Loss** For each data point iii, only one component of yicy\_{ic}yic​ is 1 (the true class), so the loss simplifies to: NLL=−∑i=1N∑c=1Cyiclog⁡p(xi)c\text{NLL} = - \sum\_{i=1}^N \sum\_{c=1}^C y\_{ic} \log p(\mathbf{x}\_i)\_cNLL=−i=1∑N​c=1∑C​yic​logp(xi​)c​ This is the **cross-entropy loss** function for multiclass classification: Cross-Entropy Loss=−1N∑i=1N∑c=1Cyiclog⁡p(xi)c\text{Cross-Entropy Loss} = - \frac{1}{N} \sum\_{i=1}^N \sum\_{c=1}^C y\_{ic} \log p(\mathbf{x}\_i)\_cCross-Entropy Loss=−N1​i=1∑N​c=1∑C​yic​logp(xi​)c​ ### 7. **Interpretation** * yicy\_{ic}yic​ is 1 if the true class for observation iii is ccc, and 0 otherwise. * p(xi)cp(\mathbf{x}\_i)\_cp(xi​)c​ is the predicted probability that observation iii belongs to class ccc. * The cross-entropy loss penalizes the model more when it assigns a low probability to the true class. ### 8. **Connection to MLE** * Maximizing the likelihood (MLE) corresponds to minimizing the cross-entropy loss. The model aims to assign higher probabilities to the correct classes, reducing the overall loss. This derivation shows how the cross-entropy loss for multiclass classification is derived from the principle of maximum likelihood estimation (MLE), specifically the negative log-likelihood.
Un dato interesante sobre **Regresión Logística** es que esta técnica no solo predice resultados binarios, como "sí" o "no", sino que convierte cualquier valor numérico en una **probabilidad** entre 0 y 1 usando la función sigmoide. Esto la hace muy útil en áreas como la medicina, donde se utiliza para predecir la probabilidad de una enfermedad, o en la detección de fraudes financieros. Así, puedes identificar el **riesgo de un evento** con mucha precisión y tomar decisiones basadas en datos claros. ¡Es una herramienta poderosa en Data Science!
si no entendiste nada. no te preocupes lo de formulas es solo para que veas el origen de todo lo que harás pero en sintesis. la regresión logistica es una tecnica estadistica(en probabilidad) que te ayuda a considerar muchas variables y en funcion de 2 valores(Verdadeo o Falso) y que la idea es que estas variables se puedan ir semejando a 1 o 0. se usa la sigmoide porque es una funcion que demuestra claramente el comportamiento de estas variables en funcion de esas 2 condiciones o valores. si es 1 o es 0.

Me parece interesante el uso de regresion logistica. No sabia la forma de su uso y como nos puede ayudar con las probabilidades.

Me siento agradecido de que Scikit-learn, pytorch, etc; ya incluyan este tipo de fórmulas en sus códigos. Soy geólogo y estoy encaminándome al desarrollo de proyectos computacionales y al análisis de datos, pero no me da la cabeza para aprender al pie de la letra las bases. Me basta con entender qué es cada cosa.

Este curso es supuestamente de nivel básico pero claramente toca temas avanzados, si yo no hubiese trabajado ya con machine learning, no tendría la menor idea de qué habla.

cosas importantes a recordar: * el uso de logaritmos es para evitar variaciones de calculo causadas por limites computacionales. * solo es necesario su uso al calcular MLE mas no al calcular la verosimilitud de un dato puntual. dudas a resolver: porque el Max likelyhood y el Min likelyhood son iguales? tengo la idea de que la probabilidad máxima nunca podrá superar 1, y la improbabilidad máxima ( o probabilidad mínima) no pasará de 0; tendrá que ver con ello que sus verosimilitudes sean inversos aditivos?

Wow genial esta clase me fue la interseccion de puntos que aprendi en la universidad, esos fueron:

  • Entropia de la teoria de la informacion.
  • Calculo con lo de bernoulli.
    Suerte a todos.

Hay partes de esta clase que están pobremente introducidas (el origen de la función sigmoide y su relación con la regresión lineal), o que incluso tiene errores matemáticos como:

  • El profesor presenta de forma equivocada una supuesta equivalencia en el significado de y_i (la clasificación Y=0 o Y=1) con el significado de lo que el llama “y_sombrero” = p(x ; h) (la probabilidad de que un elemento de la muestra sea clasificado como Y=1). Esa falta de rigurosidad lleva a una presentación deformada de la verosimilitud.

  • La expresión para la verosimilitud en verdad va como:
    L= Multiplicatoria_i p(x ; h) ^ y_i + (1 - p(x ; h)) ^ (1 - y_i )
    Lo que el profesor presenta como verosimilitud alrededor del minuto 7:30 no tiene ningún sentido. Luego, lo que presenta después como L = Sum L_i es en verdad la expresión para el log L.

Se tocan bastantes temas en esta clase, si pienso que es por ese motivo que muchas personas quedan pérdidos y teniendo que buscar otros videos para complementar (me incluyo)

no se entiene nada en las rutas de matematicas de data science

Muy buena la clase, quisiera compartir un pequeño aporte

Aquí se asume solo dos valores de la variable dependiente 0 y 1, sin embargo, es la base para estimar modelos con dependiente categórica de más categorías y se clasifican así:

Nominal: cuando los valores de la dependiente no guardan una relación de orden, por ejemplo el medio de transporte preferido (bus, taxi, uber, bici, etc).

Ordinal: Cunado los valores de la dependiente guardan una relación de orden, por ejemplo el nivel educativo.

De otra parte existe otra regresión muy similar a la logística que es la regresión probit, la diferencia es que esta ultima sustenta sus estimaciones y pruebas de hipótesis basadas en la normal.

Este es un material adicional para entender la regresión logística, es muy completa y entendible.

Regresión Logística Python