Viendo que el descenso del gradiente no es tan útil cuando la función tiene más de un mínimo local, ¿Qué algoritmo de optimización utiliz...

Angel Armando Estrada Engallo

Pregunta

student•hace 4 años

Viendo que el descenso del gradiente no es tan útil cuando la función tiene más de un mínimo local, ¿Qué algoritmo de optimización utilizan las redes neuronales para optimizar sus funciones de coste?

¿Utilizan el descenso del gradiente?

Si es así, ¿Cómo solucionan el problema de caer dentro de un mínimo local que puede que no necesariamente sea el global?

Miguel Angel Velazquez Romero

student•hace 4 años

El descenso del gradiente esta hasta abajo de las piedras en ML Y DP, en casi todos los algoritmos hay por ahí uno.

Es medianamente facíl solucinar el problema tener varios minimos locales, para eso se utiliza el descenso del gradiente estocastico en el cual el parametro k toma 1 sola muestra pseudoalematoria dle conjunto de datos y otra alternativa es el descenso del gradiente de mini lotes en este el parametro k toma n muestras aleatorias del conjutno de datos, este se puede paralelizar.

Y bueno, realemente no se puede tener una certeza del 100% de que sea un minimo local, ese es el reto, pero los las variaciones del descenso del gradiente se puede aproximar y esto depende de la capidad de computo cuanto se pueda aproximar.

Kevin Alejandro Tovar Lamilla

student•hace 4 años

hola, si se utiliza el descenso del gradiente pero en diferentes formas, por ejemplo usando el back-propagation que se usa en deep learning y ayuda a encontrar mínimos globales, aunque el back-propagación no deja de ser descenso del gradiente, así mismo hay varios algoritmos basados en descenso del gradiente que tiene sus ventajas y desventajas, también debes saber que hay funciones para optimizar estas funciones de optimización, te dejo un link donde puedes profundizar más en esto:

https://medium.com/metadatos/todo-lo-que-necesitas-saber-sobre-el-descenso-del-gradiente-aplicado-a-redes-neuronales-19bdbb706a78

Viendo que el descenso del gradiente no es tan útil cuando la función tiene más de un mínimo local, ¿Qué algoritmo de optimización utiliz...

Curso de Matemáticas para Data Science: Cálculo Básico

Curso de Matemáticas para Data Science: Cálculo Básico