No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Regresión logística

13/17
Recursos

Aportes 31

Preguntas 11

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

SI no llegan a comprender todo solo tengan en mente esto :
función sigmoide : nos devuelve 0 y 1
función de coste : nos sirve para minimizar el error

Sinceramente, creo que me hubiese servido tener más explicación práctica para entender mejor.

ya llegue al punto en el que no entiendo nada, pero bueno aqui estamos

Diez cursos de redes neuronales y machine learning despues, entiendo la base matematica. Excelente explicacion.

Cross-Entropy: Función de error que busca siempre minimizarse en un problema de clasificación binaria. Es una consecuencia de la estimación de Máxima Verosimilitud.

Algo de material adicional para entender a profundidad la regresión logística dado su importancia en las aplicaciones de ML:

Logistic Regression

Regresion Logistica

La regresion logistica nos resuelve problemas de clasificacion. Resolveremos un problema de clasificacion binaria: predecir si una trasaccion bancaria fue fraudulenta o no, teniendo como atributos independientes la hora de la transaccion, la distancia entre el lugar de la transaccion y la casa del dueño de la tarjeta, entre otros. 1 es fraudulento, 0 es no fraudulento.

Consideramos todos los atributos y los combinamos por medio de parametros que se encargaran de determinar la relevancia de las variables. Al combinar todas las variables con su respectivo peso, obtendremos una nueva variable X , la cual es pasada a la funcion sigmoide de manera que en el eje x estan codificadas todas las variables

En la Regresion Logistica se van modificando los parametros beta de manera que los puntos se redisribuyan lo suficientemente bien como para que la clasificacion a traves de la curva logistica sea lo mejor posible.

El resultado ‘y’ que se obtiene de la funcion sigmoide es un numero que esta entre 0 y 1 con valores intermedios en ese rango lo cual puede generar valores de probabilidad de P=0.9 que a su vez genera valores de error de E=0.1

Por tanto, la idea es seleccionar los parametros beta de manera las P arrojes los E mas pequeños posibles o las probabilidades mas altas en terminos de los valores 0 y 1

Tuve que dejar este curso, espero lograr conseguirlo en el futuro

Nivel del curso: Basico
Explicaciones para personas que ya han usado Machine Learning.
Esta clase para los que estamos iniciando, es simplemente perdernos. Tienen que modificar el curso.

Nunca he visto a alguien que le salieran tan bien las llaves 😄

Alguna bibliografía de este tema:

  1. T. M. Cover, J. A. Thomas, “Elements of Information Theory, Second Edition” (2006)
  2. I. Goodfellow, Y. Bengio, A. Courville, “Deep Learning” (2015)
  3. S. Shalev-Shwartz, S. Ben-David, “Understanding Machine Learning, From Theory to Algorithms” (2014)

No lo puedo creer! esto es básicamente una ecuación diferencial aplicada a un modelo sigmoidal.

https://www.youtube.com/watch?v=BfKanl1aSG0&list=PLblh5JKOoLUKxzEP5HA2d-Li7IJkHfXSe&index=3
Explicación del máximo likelihood mediante otro método.
Pienso que la explicación en este video es más comprensible

Un artículo para reformar el tema tratado: Regresión logística simple y múltiple

Hasta que por fin conozco la regresión logística para problemas binarios.

La estimación de máxima verosimilitud

  • (MLE, por sus siglas en inglés) es un método estadístico utilizado para estimar los parámetros de una distribución de probabilidad dada. El objetivo es encontrar los valores de los parámetros que maximizan la probabilidad (verosimilitud) de observar los datos reales.

  • La verosimilitud de un conjunto de datos es una medida de cuán probable es que los datos se generen a partir de una distribución dada. La MLE busca los valores de los parámetros que maximizan esta probabilidad. Esto se logra mediante la solución de las ecuaciones de las derivadas parciales de la verosimilitud con respecto a cada parámetro.

  • La MLE es un método popular para estimar los parámetros de una distribución de probabilidad debido a su simplicidad y robustez. Sin embargo, en algunos casos, la MLE puede no ser la mejor opción debido a la presencia de outliers o a que los datos no sigan una distribución particular.

  • La MLE es ampliamente utilizada en una variedad de campos, como la estadística, la economía, la biología, la psicología y la ingeniería entre otros.

La distribución de Bernoulli

  • es una distribución de probabilidad discreta que se utiliza para modelar eventos binarios, es decir, eventos que solo pueden tener dos posibles resultados, como “éxito” o “fracaso”, “verdadero” o “falso”, etc. La distribución de Bernoulli se caracteriza por tener solo dos posibles valores para la variable aleatoria, denotados como x, que pueden ser 0 o 1.

  • La distribución de Bernoulli se define mediante un parámetro p, que representa la probabilidad de éxito (x=1) en el evento binario. La función de probabilidad de la distribución de Bernoulli se expresa como:


P(x) = p^x (1-p)^(1-x)

donde x = 0,1 y 0 <= p <= 1
  • La distribución de Bernoulli se utiliza en una variedad de campos, como la medicina, la psicología, la economía, la ingeniería y la minería de datos entre otros. Es especialmente útil en problemas de clasificación binaria y en la modelación de procesos de decisión.

cross entrpy

  • La cross-entropy es una medida de la diferencia entre dos distribuciones de probabilidad. En particular, se utiliza para medir la diferencia entre una distribución de probabilidad real o verdadera § y una distribución de probabilidad estimada o predictiva (q). La cross-entropy se define como la media de la información negativa (entropía) de la distribución verdadera sobre la distribución predictiva:

H(p,q) = - ∑x p(x) log(q(x))
  • La cross-entropy se utiliza como una medida de la performance de un modelo de aprendizaje automático, especialmente en problemas de clasificación. Si el modelo tiene una alta cross-entropy, significa que la distribución predictiva es muy diferente de la distribución verdadera, lo que indica un mal rendimiento del modelo. Por otro lado, si la cross-entropy es baja, significa que la distribución predictiva es similar a la distribución verdadera, lo que indica un buen rendimiento del modelo.

  • La cross-entropy es utilizada en una variedad de algoritmos de aprendizaje automático, como la regresión logística, el análisis discriminante, el análisis de componentes principales y la red neuronal entre otros.

Los temas son complicados y falta más explicación de diferentes conceptos y ecuaciones

Clase magistral. Para reforzar el tema:
Introduction to logistic regression

Quisiera compartir con ustedes un articulo que publiqué junto con un compañero para El Global Journal Of Human Social Science, si bien no es ciencia de datos, parte de toda esta base estadística de regresiones de clasificación, en este caso haciendo uso de una probit ordenada, que es muy similar a lo explicado en esta clase, para determinar los factores que inciden en el rendimiento de la educación superior en Colombia. Espero les pueda ayudar a comprender un poquito más las aplicaciones de estos conceptos, en gran parte fue lo que me motivo a estudiar Data Science

Aquí les dejo el enlace:

https://globaljournals.org/GJHSS_Volume21/5-Influencing-Factors.pdf?fbclid=IwAR3cQCc7bDiLN76IVlIlLxRnDJrgsltuQvf5dAUEtUCTH9wdDm0-nZo2GTg

Wow genial esta clase me fue la interseccion de puntos que aprendi en la universidad, esos fueron:

  • Entropia de la teoria de la informacion.
  • Calculo con lo de bernoulli.
    Suerte a todos.

Hay partes de esta clase que están pobremente introducidas (el origen de la función sigmoide y su relación con la regresión lineal), o que incluso tiene errores matemáticos como:

  • El profesor presenta de forma equivocada una supuesta equivalencia en el significado de y_i (la clasificación Y=0 o Y=1) con el significado de lo que el llama “y_sombrero” = p(x ; h) (la probabilidad de que un elemento de la muestra sea clasificado como Y=1). Esa falta de rigurosidad lleva a una presentación deformada de la verosimilitud.

  • La expresión para la verosimilitud en verdad va como:
    L= Multiplicatoria_i p(x ; h) ^ y_i + (1 - p(x ; h)) ^ (1 - y_i )
    Lo que el profesor presenta como verosimilitud alrededor del minuto 7:30 no tiene ningún sentido. Luego, lo que presenta después como L = Sum L_i es en verdad la expresión para el log L.

Se tocan bastantes temas en esta clase, si pienso que es por ese motivo que muchas personas quedan pérdidos y teniendo que buscar otros videos para complementar (me incluyo)

no se entiene nada en las rutas de matematicas de data science

Muy buena la clase, quisiera compartir un pequeño aporte

Aquí se asume solo dos valores de la variable dependiente 0 y 1, sin embargo, es la base para estimar modelos con dependiente categórica de más categorías y se clasifican así:

Nominal: cuando los valores de la dependiente no guardan una relación de orden, por ejemplo el medio de transporte preferido (bus, taxi, uber, bici, etc).

Ordinal: Cunado los valores de la dependiente guardan una relación de orden, por ejemplo el nivel educativo.

De otra parte existe otra regresión muy similar a la logística que es la regresión probit, la diferencia es que esta ultima sustenta sus estimaciones y pruebas de hipótesis basadas en la normal.

Este es un material adicional para entender la regresión logística, es muy completa y entendible.

Regresión Logística Python