En este gif se ilustra la importancia de escoger un buen learning rate.
Apropiar conceptos fundamentales de las redes neuronales
¿Qué es una red neuronal?
Identificar los principales Frameworks usados en la industria para el desarrollo de Deep Learning
Frameworks de Deep Learning
Comprender los modelos de representación de las redes neuronales artificiales usados en Deep Learning
Estructura de redes neuronales
Creando nuestra primer red neuronal
Entrenando nuestra primera red neuronal
Visualizando el proceso de entrenamiento
Funciones de activación
Funciones de costo o pérdidas
Inicialización y Entrenamiento de RN
Optimizadores en redes neuronales
Clasificación Binaria
Clasificación de potenciales clientes
Análisis de resultados
Métricas de desempeño: regresión y clasificación
Evaluando métricas de desempeño
Ajuste de redes neuronales: overfitting y regularización
Regularización
Ajuste de redes neuronales: Hiper parámetros
Crear un modelo de regresión a partir de un caso de uso real
Introducción a las regresiones con Deep Learning: Planteamiento del problema
Solución del problema de regresión
Ajustes finales al proyecto
Cierre del curso
Cierre del curso
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Aportes 8
Preguntas 0
En este gif se ilustra la importancia de escoger un buen learning rate.
En el curso de google sobre AA se explica un poco mejor lo que esta tratando de decir el docente con respecto al descenso de gradientes, les comparto el link https://developers.google.com/machine-learning/crash-course/fitter/graph
En este video es muy explicativo acerca del descenso del gradiente:
https://www.youtube.com/watch?v=A6FiCDoz8_4
Creo que falta aclarar lo que significa LSTM y CNN. LSTM significa long short term memory. Es un tipo de red neuronal bastante popular para trabajar con series de tiempo pues cuenta con unas variaciones que le permiten “tener memoria”. Por otro lado las CNN, o redes convolucionales, suelen ser utilizadas para el procesamiento de imagenes y deteccion de patrones.
En general, estamos buscando los pesos óptimos, los pesos con menor error. La función costo es la función que nos mide el error, por lo que estamos buscando el mínimo absoluto de la función costo. Lo mejor es usar una función costo diferenciable (como las tres que se mostraron), podemos usar calculo diferencial para encontrar dicho mínimo, este es el punto con menor valor de entre todos los puntos que tienen gradiente 0 (de existir).
Por esto es que siempre nos movemos en dirección del “menor” gradiente, estamos buscando un gradiente 0.
La parte problemática ocurre cuando los valores iniciales están muy cercanos a un máximo local, en una vecindad de un máximo local el gradiente es muy cercano a 0 (pero en dirección contraria). Lo que el algoritmo ve es que esos puntos están cerca de un punto con gradiente 0, como el algoritmo es incapaz de diferenciar si (por la localidad) es un máximo o un mínimo, el algoritmo se va a mover lentamente en la dirección del gradiente. En este caso se van a necesitar muchísimas epochs par encontrar el mínimo local, ya que el algoritmo se demora mucho en alejarse del máximo local.
El peor de los casos es que los pesos iniciales sean un máximo local. En este caso, el gradiente es 0 y no hay dirección para moverse.
Recordemos que el perceptron es una función que toma un valor de entrada y lo multiplica por un peso donde estos pesos son modificados en cada iteración. La pregunta natural que surge es: ¿Cuál es el peso inicial que va a maximizar la tasa de aprendizaje?
Excelente. No sabía que tanto influía en la convergencia los inicializadores.
Me gustaría puedas explicar lo que significa cada uno de esos acrónimos. Me gustaría usar la Ligthning y He, pues veo que convergen rápido
Depende de la taza de aprendizaje como tal, de esta manera se ajusta al numero de pasos para alcanzar la perdida mínima.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?