Funcionamiento básico de redes neuronales multicapa

Clase 5 de 20 • Curso de Fundamentos de LLMs

Resumen

Las redes neuronales, específicamente los multilayer perceptron (MLP), son una tecnología esencial en machine learning. Estas redes, conocidas como feed forward, poseen estructuras claras con múltiples capas, incluyendo una capa de entrada, varias capas ocultas y una capa de salida.

¿Qué son las redes neuronales multilayer perceptron?

Los multilayer perceptron son redes neuronales que se componen principalmente de tres capas:

Capa de entrada: esta depende directamente del problema que se enfrenta. Por ejemplo, el español con cincuenta mil palabras tendría un número idéntico de neuronas en esta capa.
Capas ocultas: en estas capas se lleva a cabo el aprendizaje del modelo, permitiendo entender las características y propiedades del lenguaje o problema específico.
Capa de salida: también depende del problema planteado y su número suele coincidir con la capa de entrada para tareas como predicción de palabras.

¿Cómo funciona una neurona en una red neuronal?

Cada neurona en las capas ocultas posee tres componentes básicos:

Peso (weight): señala la importancia de una característica específica para el modelo.
Sesgo (bias): ayuda a la red neuronal a no memorizar exacta y rígidamente los datos del entrenamiento inicial.
Función de activación: permite captar patrones en los datos proporcionados, basándose en cómo se activan las neuronas del cerebro humano.

Estas neuronas realizan cálculos matemáticos partiendo de datos de entrada, que multiplican por pesos específicos. Luego se suma el sesgo, resultando en una función lineal básica, a la que posteriormente se añade una función no lineal que permite modelar comportamientos complejos.

¿Qué es la función de pérdida y cómo mide el aprendizaje?

La función de pérdida determina si la red neuronal está realmente aprendiendo. Básicamente, compara los resultados predichos por la red con los resultados reales conocidos, siendo el objetivo reducir esta diferencia al máximo, idealmente hasta el valor cero. Una función común para evaluar la pérdida en problemas lineales es el error cuadrático medio.

¿En qué consiste el método Back Propagation?

El método de back propagation (propagación hacia atrás) consiste en tomar el valor obtenido en la función de pérdida para actualizar los pesos y sesgos de la red neuronal. Este método emplea conceptos matemáticos avanzados, como derivadas y derivadas parciales, buscando mínimos locales en la función de pérdida para mejorar continuamente el aprendizaje del modelo.

¿Qué indica el teorema universal de aproximación?

Este teorema establece que cualquier problema que pueda formularse matemáticamente puede aproximarse mediante una red neuronal, siempre que sean usadas funciones de activación no lineales. Esto permite modelar distintos tipos de comportamientos, incluyendo curvas complejas y espacios multidimensionales.

¿Qué limitaciones tienen los multilayer perceptron?

Los MLP presentan dificultades para captar contextos más amplios, como frases o párrafos, algo esencial para comprender adecuadamente el lenguaje humano. Por esta razón, surgieron estructuras que manejan mejor esta complejidad, tales como:

LSTM (Long Short-Term Memory): conservan información contextual extendida.
CNN (Convolutional Neural Networks): capturan información espacial o de contexto visual.

Otra limitación relevante es el problema conocido como vanishing gradients, donde el modelo queda atrapado en mínimos locales sin importar la potencia de cálculo empleada. Técnicas como el dropout pueden ayudar a mitigar esto.

Si te interesa profundizar más, en los cursos avanzados de álgebra lineal y cálculo diferencial se trabajan esos conceptos matemáticos fundamentales. ¿Qué aspectos crees que puedes profundizar para fortalecer tu aprendizaje sobre redes neuronales?

Elías Rashid Morales Mendoza

student•

Si estás leyendo esto para entender conceptos como estos recuerda que necesitas tener conocimientos previos en varias áreas de las matemáticas.

Conceptos de álgebra lineal: Porque las redes neuronales operan con vectores, matrices y operaciones como multiplicaciones matriciales.

Conceptos de cálculo diferencial: Porque el entrenamiento de redes se basa en minimizar una función de pérdida utilizando derivadas (gradientes).

Conceptos de probabilidad y estadística: Porque muchos modelos asumen distribuciones de probabilidad, y el error, la entropía o funciones como cross-entropy loss se basan en conceptos estadísticos.

Y conceptos aún mas profundos de redes neuronales, de algoritmos de optimización, de backpropagation ya que el aprendizaje implica modificar los pesos para minimizar errores.

No te rindas tu puedes....

Javier Ramos

student•

Excelente aporte , gracias ya me estaba perdiendo entre tanta información

Jaime Ballena

student•

Por donde empiezo, para volver acá..

Eduardo Guzmán

student•

Suena complejo pero en la realidad seria más como: Imagina que tienes un montón de datos de casas y quieres que la computadora aprenda a adivinar sus precios.

Prepara y Separa tus Datos:
- Tú: Tomas tu archivo gigante de casas (con su tamaño, habitaciones y precio).
- Tú: Le dices a la computadora que separe ese archivo: 80% para que aprenda (entrenamiento) y 20% para probar si aprendió bien.
- Tú: Le dices que "normalice" los números (ponga todo en la misma escala, de 0 a 1) para que la computadora no se confunda con los números grandes y pequeños.
Define el "Cerebro" de la Computadora (Código):
- Tú (en el código): Le dices a la computadora: "Construye un cerebro artificial. Que tenga una entrada para cada característica de la casa (tamaño, habitaciones, etc.), un par de capas internas para pensar, y una salida para el precio."
- Tú (en el código): Le dices: "Quiero que uses el Error Cuadrático Medio (ECM) para saber qué tan mal te equivocas." También le dices qué tan "grande" debe ser cada ajuste que haga al equivocarse (la tasa de aprendizaje).
Pon el "Cerebro" a Aprender (Correr el Código):
- Tú (en el código): Le dices: "¡Listo! Empieza a aprender con el 80% de las casas."
- Computadora (detrás de escenas): El cerebro empieza a adivinar precios. Por cada error que comete, usa el ECM para calcular el tamaño del error y automáticamente se ajusta para equivocarse menos la próxima vez. Hace esto miles de veces (las "épocas").
Revisa el Aprendizaje con el ECM (¡Tu Medidor!):
- Tú (después de que termina de aprender): Le dices a la computadora: "Ahora, adivina los precios del 20% de las casas que nunca has visto."
- Computadora: Adivina esos precios y te muestra el ECM final para esas casas nuevas.
- Si el ECM es un número pequeño (ej. 0.05, 0.001): ¡VA BIEN! Significa que tu cerebro artificial está adivinando los precios de casas nuevas con mucha precisión.
- Si el ECM es un número grande (ej. 100, 5000): ¡NO VA BIEN! Significa que el cerebro aún se equivoca mucho.
Corrige y Repite (Si no Va Bien):
- Tú: Si el ECM es alto, vuelves al Paso 2 (diseño del "cerebro") o al Paso 3 (la configuración del aprendizaje).
- Tú: Quizás le das más capas para pensar, o más neuronas.
- Tú: O ajustas la tasa de aprendizaje (que se corrija más o menos).
- Tú: Luego, repites el Paso 3 y 4. Sigue haciendo esto hasta que el ECM sea lo más pequeño posible en las casas nuevas.

Así de simple: Separas los datos, defines las reglas de aprendizaje (donde el ECM es clave), la computadora aprende y se ajusta sola, y tú revisas el ECM para saber si necesitas seguir corrigiendo tus configuraciones.

Miguel Angel Reyes Moreno

student•

Gran ejemplo para entender todo de forma más clara, gracias por compartirlo :)

Henry Rodriguez

student•

Excelente Ejemplo.

Gabriel Obregón

student•

🧠 REDES NEURONALES MULTILAYER PERCEPTRON (MLP) Tecnología esencial en machine learning. Son redes feed forward: la información fluye en una sola dirección.

🔧 ESTRUCTURA BÁSICA DE UNA MLP

➡️ Capa de Entrada

Depende del problema.
Ejemplo: idioma con 50.000 palabras = 50.000 neuronas.

🔄 Capas Ocultas

Donde ocurre el aprendizaje.
Captan patrones y características.

✅ Capa de Salida

Da la respuesta del modelo.
Puede coincidir en tamaño con la de entrada (según la tarea).

⚙️ ¿CÓMO FUNCIONA UNA NEURONA?

📌 Tres componentes esenciales:

Peso (weight) → mide la importancia de cada dato.
Sesgo (bias) → ayuda a no memorizar datos rígidamente.
Función de activación → introduce no linealidad, permite detectar patrones complejos.

🧮 Proceso Entrada × peso ➕ sesgo → función de activación → salida.

📉 FUNCIÓN DE PÉRDIDA

🎯 Mide si el modelo está aprendiendo correctamente.

✅ Compara: Predicción de la red 🆚 Resultado real

📉 Objetivo: Reducir la diferencia (ideal: llegar a cero)

📐 Función común: Error Cuadrático Medio

🔁 BACK PROPAGATION

🔍 ¿Qué hace? Ajusta pesos y sesgos según el error.

🧠 Usa:

Derivadas
Derivadas parciales

🎯 Busca: Mínimos locales en la función de pérdida para mejorar el modelo.

📏 TEOREMA UNIVERSAL DE APROXIMACIÓN

📚 ¿Qué dice? Una red con funciones de activación no lineales puede aproximar cualquier función matemática.

🌐 Implica:

Capacidad para modelar comportamientos complejos.
Útil en tareas con datos multidimensionales.

⚠️ LIMITACIONES DE LOS MLP

1️⃣ Poca comprensión del contexto amplio No manejan bien frases o párrafos completos.

🧩 Alternativas:

LSTM → mantiene contexto largo.
CNN → detecta patrones espaciales o visuales.

2️⃣ Vanishing gradients El modelo se “traba” al aprender, aunque se use mucha potencia.

🛠️ Solución:

Técnicas como dropout para reducir este efecto.

Christopher Ochoa

student•

Para sumar un poco a tu aporte podemos agregar tambien la definición del dropout como un proceso que evita el sobreentrenamiento de las redes deshabilitando aleatoriamente (un porcentaje dado por nosotros) ciertas neuronas de la capa durante el entrenamiento para que la red aprenda lo necesario.

La pagina que me ayudo a entender este concepto es la siguiente:

https://www.garcia-ferreira.es/conoce-todo-sobre-el-dropout/

edgardo ponce

student•

De esta clase me quedo 0 jajaj muy compleja. Si tengo que contar lo mismo que contó Jhener estoy frito.

Edgar A. Gonzalez Ambriz

student•

El curso de Carlos Alarcón explica muy bien las redes neuronales. Lo recomiendo ampliamente: https://platzi.com/cursos/redes-neuronales/

Mariangelica Useche

Team Platzi•

Otras funciones de pérdida usadas son:

Error absoluto medio (MAE)
(Yi siendo valor real y ^Yi el valor predicho) Aquí no se penaliza tanto los errores grandes a diferencia de MSE que al hacerlo cuadrático los penaliza más.
Entropía cruzada:
(pi es la probabilidad predicha) Se usa más para clasificación.

Juan Manuel Taborda Ortiz

student•

El error cuadrático medio (ECM) es una métrica utilizada para evaluar el desempeño de modelos de regresión. Se calcula como la media de los cuadrados de las diferencias entre los valores predichos por el modelo y los valores reales. Un ECM más bajo indica que el modelo tiene un mejor ajuste a los datos, mientras que un valor más alto sugiere un peor rendimiento. Es fundamental en el entrenamiento de redes neuronales, ya que guía la actualización de pesos durante el proceso de aprendizaje.

Tadeo Juarez

student•

Si es posible lograr un ECM de 0?, cual seria el intervalo de un ECM en promedio en casos reales?

Gonzalo Andrés Rojas Cardona

student•

Esta clase, me parece genial, muy densa, pero genial. Les recomiendo la siguiente lista de reproducción para que puedan ente

🧠 APRENDE Qué son las Redes Neuronales?

https://www.youtube.com/watch?v=MRIv2IwFTPg&list=PL-Ogd76BhmcB9OjPucsnc2-piEE96jJDQ

Aquí se explica de forma muy gráfica lo que intenta explicar esta clase, incluso en los videos 4 y 5 explica el backpropagation, con matemáticas a mi parecer sencillas para poder entenderlo.

Espero les sirva

Jose York

student•

Gracias Gonzalo, excelente aporte. Slds

Platzi Team

student•

Una función de activación es un componente clave en las redes neuronales que determina si una neurona debe activarse o no, basándose en la entrada que recibe. Se aplica a la salida de cada neurona y permite que la red neuronal aprenda patrones complejos al introducir no linealidades en el modelo. Ejemplos comunes de funciones de activación son la sigmoide, ReLU y tanh. Estas funciones son esenciales para el aprendizaje eficiente en modelos como los multilayer perceptrons, ya que ayudan a procesar la información de manera más efectiva.

Tadeo Juarez

student•

👋🏼Dejo lo que entendí de la clase 👇🏼

Que es una red neuronal

Una red neuronal son capas de neuronas, capas que tienen como objetivo recibir datos y aprender de ellos, esto lo hace con neuronas, neuronas que como en la biología del humano almacena y relaciona información, de esta relación entre neuronas es como aprende. Hay diferentes tipos de neuronas donde cambia la forma que cada una estructura sus capas de neuronas para procesar mejor cierto tipo de información

Que compone una neurona

Peso: Asigna un peso dependiendo de que tan importante es esta característica para el resultado

Bias (Sesgo): Asegura que no sobre aprenda y memorice los patrones

Función de Activación: Libertad de usar los mismos patrones o crear nuevos

Proceso en una red neuronal de una capa y multicapa

Función de perdida

La función de perdida es la función que compara los resultados de las capas de la red neuronal con los datos reales. En funciones lineales normalmente se usa el error cuadrático promedio, donde idealmente se debe llegar a 0 (ósea que nuestra red neuronal predice al 100%)

Método de propagación negra

Ahora que ya sabemos que tan bien predice nuestros datos la neurona, usamos el resultado de la función de perdida para ajustar los pesos y bias de las neuronas de las capas. Esto es para mejorar con cada entrenamiento y acercarnos a un error cuadrático promedio de 0

Teorema de aproximación universal

Establece que cualquier problema que puede ser matemáticamente formulado puede ser aproximado por una red neuronal y que use funciones de activación no lineales puede ser modelado, como funciones curvas.

Mauricio Pineda

student•

Jorge Arias Argüelles

student•

El multilayer perceptron (MLP) es un tipo de red neuronal que consta de múltiples capas: una capa de entrada, una o más capas ocultas y una capa de salida. Cada capa está formada por neuronas que realizan cálculos con los datos de entrada. Las neuronas en las capas ocultas aprenden y extraen características del input mediante funciones de activación, pesos y sesgos. Este tipo de red se utiliza para tareas de regresión y clasificación, y es fundamental en el contexto de los modelos de lenguaje, ya que sirve como base para arquitecturas más complejas como los Transformers.

Alejandro Sepúlveda Palacio

company_admin•

Discutiendo el tema con Gemini llegamos a esta infografía haciendo analogía con una fábrica que me ayudo a entenderlo por si a alguien más le es útil

Luis Carlos Parra Raffán

student•

Quiero pensar que cualquier persona que haya pasado por un programa de ingeniería, debería entender estos conceptos relativamente fácil !

Entonces en LATAM tenemos un ejército entero de potenciales AI ENGINEERS !

Que haremos con todo ese potencial )

Edwin Uldarico Hernandez Osorio

student•

En el ejemplo de la pelota dijo que el learning Rate era como ese impulso para sacarla del valle, pero el LR esta es mas relacionado con el tamaño del paso a la dirección del gradiente, puede que eso este mas relacionado con el momentum

Matías Daniel Cravero

student•

Me arrepiento de no aprobar probabilidades y estadísticas con conciencia y no solo para sacarme de arriba la materia en la facultad 🤦🏻

Juan Manuel Taborda Ortiz

student•

El teorema universal de la aproximación establece que una red neuronal de capa oculta con al menos una neurona puede aproximar cualquier función continua, siempre que se use una función de activación no lineal. Esto significa que, a pesar de su simplicidad, los multilayer perceptrons son capaces de aprender patrones complejos en los datos. Este teorema es fundamental en el desarrollo de modelos de aprendizaje profundo, ya que garantiza que las redes neuronales pueden modelar cualquier problema que pueda ser descrito matemáticamente.

Mariangelica Useche

Team Platzi•

Simplificando, el Teorema de Aproximación Universal, una red de una sola capa oculta puede aproximar arbitrariamente bien cualquier función continua, siempre que le demos suficientes neuronas.

Pero esto tiene implicaciones:

Aunque una sola capa oculta es suficiente teóricamente, en la práctica las redes profundas (muchas capas) suelen aprender con menos parámetros y de forma más estable.

Pablo Gabriel Mederos Caballero

student•

El tema es muy interesante y quiero seguir profundizando, pero sinceramente ahora mismo no entiendo nada. Me resulta frustrante que vengo siguiendo una ruta que comenzó siendo extremadamente e innecesariamente simple, y de repente saltó a este curso completamente avanzado, que aunque no entienda de qué está hablando, me va a trabar el avance en la ruta. Ese es uno de los motivos por los que la gente "termina" los cursos y no rinde las pruebas. Si no entiendo nada, no puedo rendir una prueba.

Camilo Alberto Estrada Guerra

student•

No se desea encontrar un mínimo local sino el mínimo GLOBAL