Qué es y cómo aprende un MLP

Curso de Fundamentos de LLMs

Contenido del curso

Fundamentos de los LLMs

Componentes Avanzandos de los LLMs

Personalización y Optimización

Evaluación de Modelos

20
Benchmarks para evaluar y comparar modelos LLM
12:53 min

Tomar examen

Qué es y cómo aprende un MLP

Resumen

El multi-layer perceptron (MLP) es la pieza silenciosa que hace posible que un LLM aprenda patrones del lenguaje. Antes de saltar al modelo de atención, entender cómo una red neuronal feed forward procesa palabras te da las bases para comprender por qué los transformers funcionan como funcionan.

Qué es un multi-layer perceptron y para qué sirve

Un MLP es una red neuronal feed forward compuesta por tres bloques que trabajan en cadena para transformar una entrada en una predicción.

Capa de entrada: depende del problema. Para procesar español con unas 50.000 palabras, tendrías 50.000 neuronas de entrada.
Capas ocultas: aquí ocurre el aprendizaje real. Puedes apilar tantas como necesites, y cada una alberga neuronas con sus propios parámetros.
Capa de salida: también la define tu problema. Si quieres predecir la siguiente palabra, su tamaño coincide con el de la entrada y devuelve una probabilidad por palabra [01:05].

Al ordenar esas probabilidades de mayor a menor, el modelo te dice cuál es la palabra más probable que sigue.

¿Qué es una red neuronal feed forward? Es una red en la que la información viaja en una sola dirección: de la capa de entrada, pasa por las capas ocultas y termina en la capa de salida, sin ciclos hacia atrás durante la inferencia.

Cómo funciona una neurona por dentro

Cada neurona de las capas ocultas combina tres componentes que definen su comportamiento [01:48].

Peso (weight): indica qué tan importante es una característica para el modelo.
Bias o sesgo: desplaza la función para evitar que la red memorice los datos de entrenamiento, lo que se conoce como sobreaprendizaje.
Función de activación: aporta no linealidad y permite a la red capturar patrones complejos.

Si piensas en lo que hace una neurona (entrada por peso más sesgo) reconoces la ecuación de la recta: Y = mx + b. En los papers de machine learning la verás escrita como Z = Wᵀx + b, donde W son los pesos y b el sesgo [02:48]. La idea central del MLP es tomar esa función lineal y aplicarle una función no lineal para modelar comportamientos que una recta sola no puede.

Qué función de activación usar

Las más comunes son la sigmoide, la ReLU y la leaky ReLU, y se escriben como A = θ(Z). Lo curioso es que están inspiradas en cómo se activan biológicamente las neuronas humanas cuando pensamos.

Cómo aprende una red neuronal con feed forward y backpropagation

Imagina cinco puntos en el plano X, Y. Para entrenar sin que la red memorice, divides el conjunto: 60% para entrenamiento (tres puntos) y el resto para prueba (dos puntos) [05:00]. Defines una red mínima: una neurona de entrada (la X), una capa oculta con dos neuronas y una neurona de salida (la Y).

Cómo funciona el feed forward

El feed forward es la "alimentación hacia adelante". Tomas el dato de entrada, aplicas Wx + b, le pasas la activación y ese resultado lo entregas a la siguiente neurona. En redes con varias capas ocultas, este proceso se encadena y combina funciones simples para construir una función mucho más compleja.

Cómo medir si la red aprende con la función de pérdida

Después del feed forward, pasas el conjunto de prueba por la red y comparas la predicción con el valor real usando una función de pérdida. En un problema de regresión lineal se usa el error cuadrático medio: restas la predicción del valor real, elevas al cuadrado para evitar negativos, sumas todos los errores y divides entre la cantidad de datos del test [07:30]. Cuanto más cerca de cero esté el resultado, mejor está aprendiendo la red.

¿Qué es backpropagation? Es el método que toma el valor de la función de pérdida y actualiza los pesos y sesgos de las capas ocultas, usando derivadas parciales para empujar la red hacia los mínimos donde el error es menor.

Visualiza un terreno con montañas y valles. El backpropagation lleva tu función de pérdida a los mínimos locales, los puntos donde el error se acerca a cero. Pero a veces te quedas atrapado en un valle, y por eso entra el learning rate: piénsalo como la patada que le das a una pelota para sacarla del hueco y buscar valles más profundos.

Por qué importa el teorema universal de aproximación

Este teorema es la base teórica del machine learning moderno. Dice que para cualquier problema que pueda modelarse como una función matemática, existe una red neuronal capaz de aproximarlo, siempre y cuando se usen funciones de activación no lineales [10:35]. Esa no linealidad permite mapear curvas, parábolas, senos, cosenos y funciones en espacios N dimensionales, no solo rectas.

Qué problemas tienen los multi-layer perceptron

Los MLP son potentes, pero tienen limitaciones que dieron pie a arquitecturas más sofisticadas.

No capturan la espacialidad: nosotros no nos comunicamos palabra por palabra, sino con frases, párrafos e ideas conectadas. Para resolverlo aparecieron los LSTM, precursores del modelo de atención, y las convolutional neural networks que ayudan al modelo a percibir el mundo como lo vemos.
Vanishing gradients: por más fuerte que sea tu learning rate, hay mínimos locales de los que no puedes salir aunque agregues más cómputo, tiempo o datos. Técnicas como layer normalization y dropout mitigan este problema [11:55].

La combinación del MLP con la arquitectura de atención es justo lo que da origen a los transformers, los modelos detrás de GPT-2 y de todo lo que vives hoy con los LLMs. ¿Qué parte del MLP te costó más entender la primera vez? Cuéntamelo en los comentarios.

Gabriel Obregón

Estudiante

🧠 REDES NEURONALES MULTILAYER PERCEPTRON (MLP) Tecnología esencial en machine learning. Son redes feed forward: la información fluye en una sola dirección.

🔧 ESTRUCTURA BÁSICA DE UNA MLP

➡️ Capa de Entrada

Depende del problema.
Ejemplo: idioma con 50.000 palabras = 50.000 neuronas.

🔄 Capas Ocultas

Donde ocurre el aprendizaje.
Captan patrones y características.

✅ Capa de Salida

Da la respuesta del modelo.
Puede coincidir en tamaño con la de entrada (según la tarea).

⚙️ ¿CÓMO FUNCIONA UNA NEURONA?

📌 Tres componentes esenciales:

Peso (weight) → mide la importancia de cada dato.
Sesgo (bias) → ayuda a no memorizar datos rígidamente.
Función de activación → introduce no linealidad, permite detectar patrones complejos.

🧮 Proceso Entrada × peso ➕ sesgo → función de activación → salida.

📉 FUNCIÓN DE PÉRDIDA

🎯 Mide si el modelo está aprendiendo correctamente.

✅ Compara: Predicción de la red 🆚 Resultado real

📉 Objetivo: Reducir la diferencia (ideal: llegar a cero)

📐 Función común: Error Cuadrático Medio

🔁 BACK PROPAGATION

🔍 ¿Qué hace? Ajusta pesos y sesgos según el error.

🧠 Usa:

Derivadas
Derivadas parciales

🎯 Busca: Mínimos locales en la función de pérdida para mejorar el modelo.

📏 TEOREMA UNIVERSAL DE APROXIMACIÓN

📚 ¿Qué dice? Una red con funciones de activación no lineales puede aproximar cualquier función matemática.

🌐 Implica:

Capacidad para modelar comportamientos complejos.
Útil en tareas con datos multidimensionales.

⚠️ LIMITACIONES DE LOS MLP

1️⃣ Poca comprensión del contexto amplio No manejan bien frases o párrafos completos.

🧩 Alternativas:

LSTM → mantiene contexto largo.
CNN → detecta patrones espaciales o visuales.

2️⃣ Vanishing gradients El modelo se “traba” al aprender, aunque se use mucha potencia.

🛠️ Solución:

Técnicas como dropout para reducir este efecto.

Christopher Ochoa

Estudiante

Para sumar un poco a tu aporte podemos agregar tambien la definición del dropout como un proceso que evita el sobreentrenamiento de las redes deshabilitando aleatoriamente (un porcentaje dado por nosotros) ciertas neuronas de la capa durante el entrenamiento para que la red aprenda lo necesario.

La pagina que me ayudo a entender este concepto es la siguiente:

Elías Rashid Morales Mendoza

Javier Ramos

Jaime Ballena

Eduardo Guzmán

Miguel Angel Reyes Moreno

Henry Rodriguez

edgardo ponce

Gabriel Cabrera

Mariangelica Useche

Team Platzi

Edgar A. Gonzalez Ambriz

Tadeo Juarez

Gonzalo Andrés Rojas Cardona

Jose York

Juan Manuel Taborda Ortiz

Gonzalo Blasco

Sergio Sebastian Garcia

Juan Pablo Romero Cortes

Jorge Luis Robles Jimenez

•

Pablo Mederos

Juan David González

José Alejandro López Macías

Mateo Montoya Henao

Alejandro Sepúlveda Palacio

Company_admin

Andres Blandon

Mauricio Pineda

Qué es y cómo aprende un MLP

Fundamentos de los LLMs

Funcionamiento interno de los grandes modelos de lenguaje

Qué construirás al terminar el curso de LLMs

Historia de la inteligencia artificial desde Turing hasta GPT-4

Tokenización y embeddings en LLMs