Elegir la función de activación correcta en la última capa y la función de pérdida adecuada puede marcar la diferencia entre un modelo que aprende y uno que no converge. Este repaso reúne las recomendaciones prácticas para tomar esas decisiones y ofrece un panorama de todo lo que se construyó a lo largo del curso de redes neuronales.
¿Cómo elegir la función de activación y la función de pérdida?
Existe una guía sencilla que relaciona el tipo de problema con los parámetros finales de la red [0:08]:
- Clasificación binaria: se recomienda usar una función sigmoide en la última capa, porque solo hay dos clases posibles. La función de pérdida indicada es binary cross entropy.
- Clasificación multiclase: aunque no se detalla en profundidad, la tabla sugiere alternativas como softmax y categorical cross entropy, siguiendo la misma lógica.
- Regresión: las funciones de activación y pérdida cambian para ajustarse a valores continuos.
Esta tabla resulta muy útil porque elimina la incertidumbre al configurar la capa de salida y la función de pérdida en cualquier proyecto nuevo.
¿Qué métricas conviene usar?
La elección de la métrica de evaluación no aparece fija en la tabla porque depende del problema y del negocio [0:47]. En clasificación, lo más común es usar accuracy, aunque métricas como recall cobran relevancia cuando importa detectar todos los casos positivos. En regresión, el MAE (mean absolute error) es la opción más general, pero puede sustituirse según lo que se necesite medir.
¿Qué fundamentos se dominan tras completar el curso?
El recorrido abarcó desde la teoría hasta la implementación práctica [1:07]:
- Las redes neuronales realizan operaciones de producto punto mediante sumas ponderadas.
- La información pasa de capa en capa, lo que convierte al deep learning en un aprendizaje más profundo y rico en los datos.
- Las funciones de activación introducen no linealidad para que la red pueda aprender patrones complejos.
- Las funciones de pérdida cuantifican qué tan lejos están las predicciones del valor real.
- El gradient descent permite actualizar los pesos de la red para minimizar ese error.
Todo esto se puso en práctica primero con ejemplos construidos desde cero usando Python y NumPy, y después se escaló a Keras para resolver problemas de la vida real [1:33].
¿Qué temas avanzados quedan por explorar?
Aun con estos fundamentos sólidos, el mundo de las redes neuronales ofrece caminos adicionales [1:50]:
- Redes convolucionales: diseñadas para el análisis de imagen.
- Redes generativas (GANs): capaces de crear rostros u objetos desde cero, conocidas por los deep fakes.
- Redes LSTM: orientadas a datos secuenciales como texto o series de tiempo.
- Callbacks: herramientas dentro de Keras para controlar mejor el entrenamiento.
- Optimización de hiperparámetros: automatizar la búsqueda del mejor learning rate, la profundidad de capas y otros valores.
Estas redes ya están presentes en prácticamente todo sector económico y, con alta probabilidad, ya se usan en productos cotidianos sin que el usuario lo note [2:18].
Con los conocimientos adquiridos, el siguiente paso natural es presentar el examen del curso para poner a prueba lo aprendido y, si queda algo por mejorar o algún tema que haya resultado especialmente útil, compartirlo en los reviews del curso.