
Angel Armando Estrada Engallo
PreguntaViendo que el descenso del gradiente no es tan útil cuando la función tiene más de un mínimo local, ¿Qué algoritmo de optimización utilizan las redes neuronales para optimizar sus funciones de coste?
¿Utilizan el descenso del gradiente?
Si es así, ¿Cómo solucionan el problema de caer dentro de un mínimo local que puede que no necesariamente sea el global?

Miguel Angel Velazquez Romero
El descenso del gradiente esta hasta abajo de las piedras en ML Y DP, en casi todos los algoritmos hay por ahí uno.
Es medianamente facíl solucinar el problema tener varios minimos locales, para eso se utiliza el descenso del gradiente estocastico en el cual el parametro k toma 1 sola muestra pseudoalematoria dle conjunto de datos y otra alternativa es el descenso del gradiente de mini lotes en este el parametro k toma n muestras aleatorias del conjutno de datos, este se puede paralelizar.
Y bueno, realemente no se puede tener una certeza del 100% de que sea un minimo local, ese es el reto, pero los las variaciones del descenso del gradiente se puede aproximar y esto depende de la capidad de computo cuanto se pueda aproximar.

Kevin Alejandro Tovar Lamilla
hola, si se utiliza el descenso del gradiente pero en diferentes formas, por ejemplo usando el back-propagation que se usa en deep learning y ayuda a encontrar mínimos globales, aunque el back-propagación no deja de ser descenso del gradiente, así mismo hay varios algoritmos basados en descenso del gradiente que tiene sus ventajas y desventajas, también debes saber que hay funciones para optimizar estas funciones de optimización, te dejo un link donde puedes profundizar más en esto: