Qué es y cómo aprende un MLP

Resumen

El multi-layer perceptron (MLP) es la pieza silenciosa que hace posible que un LLM aprenda patrones del lenguaje. Antes de saltar al modelo de atención, entender cómo una red neuronal feed forward procesa palabras te da las bases para comprender por qué los transformers funcionan como funcionan.

Qué es un multi-layer perceptron y para qué sirve

Un MLP es una red neuronal feed forward compuesta por tres bloques que trabajan en cadena para transformar una entrada en una predicción.

  • Capa de entrada: depende del problema. Para procesar español con unas 50.000 palabras, tendrías 50.000 neuronas de entrada.
  • Capas ocultas: aquí ocurre el aprendizaje real. Puedes apilar tantas como necesites, y cada una alberga neuronas con sus propios parámetros.
  • Capa de salida: también la define tu problema. Si quieres predecir la siguiente palabra, su tamaño coincide con el de la entrada y devuelve una probabilidad por palabra [01:05].

Al ordenar esas probabilidades de mayor a menor, el modelo te dice cuál es la palabra más probable que sigue.

¿Qué es una red neuronal feed forward? Es una red en la que la información viaja en una sola dirección: de la capa de entrada, pasa por las capas ocultas y termina en la capa de salida, sin ciclos hacia atrás durante la inferencia.

Cómo funciona una neurona por dentro

Cada neurona de las capas ocultas combina tres componentes que definen su comportamiento [01:48].

  • Peso (weight): indica qué tan importante es una característica para el modelo.
  • Bias o sesgo: desplaza la función para evitar que la red memorice los datos de entrenamiento, lo que se conoce como sobreaprendizaje.
  • Función de activación: aporta no linealidad y permite a la red capturar patrones complejos.

Si piensas en lo que hace una neurona (entrada por peso más sesgo) reconoces la ecuación de la recta: Y = mx + b. En los papers de machine learning la verás escrita como Z = Wᵀx + b, donde W son los pesos y b el sesgo [02:48]. La idea central del MLP es tomar esa función lineal y aplicarle una función no lineal para modelar comportamientos que una recta sola no puede.

Qué función de activación usar

Las más comunes son la sigmoide, la ReLU y la leaky ReLU, y se escriben como A = θ(Z). Lo curioso es que están inspiradas en cómo se activan biológicamente las neuronas humanas cuando pensamos.

Cómo aprende una red neuronal con feed forward y backpropagation

Imagina cinco puntos en el plano X, Y. Para entrenar sin que la red memorice, divides el conjunto: 60% para entrenamiento (tres puntos) y el resto para prueba (dos puntos) [05:00]. Defines una red mínima: una neurona de entrada (la X), una capa oculta con dos neuronas y una neurona de salida (la Y).

Cómo funciona el feed forward

El feed forward es la "alimentación hacia adelante". Tomas el dato de entrada, aplicas Wx + b, le pasas la activación y ese resultado lo entregas a la siguiente neurona. En redes con varias capas ocultas, este proceso se encadena y combina funciones simples para construir una función mucho más compleja.

Cómo medir si la red aprende con la función de pérdida

Después del feed forward, pasas el conjunto de prueba por la red y comparas la predicción con el valor real usando una función de pérdida. En un problema de regresión lineal se usa el error cuadrático medio: restas la predicción del valor real, elevas al cuadrado para evitar negativos, sumas todos los errores y divides entre la cantidad de datos del test [07:30]. Cuanto más cerca de cero esté el resultado, mejor está aprendiendo la red.

¿Qué es backpropagation? Es el método que toma el valor de la función de pérdida y actualiza los pesos y sesgos de las capas ocultas, usando derivadas parciales para empujar la red hacia los mínimos donde el error es menor.

Visualiza un terreno con montañas y valles. El backpropagation lleva tu función de pérdida a los mínimos locales, los puntos donde el error se acerca a cero. Pero a veces te quedas atrapado en un valle, y por eso entra el learning rate: piénsalo como la patada que le das a una pelota para sacarla del hueco y buscar valles más profundos.

Por qué importa el teorema universal de aproximación

Este teorema es la base teórica del machine learning moderno. Dice que para cualquier problema que pueda modelarse como una función matemática, existe una red neuronal capaz de aproximarlo, siempre y cuando se usen funciones de activación no lineales [10:35]. Esa no linealidad permite mapear curvas, parábolas, senos, cosenos y funciones en espacios N dimensionales, no solo rectas.

Qué problemas tienen los multi-layer perceptron

Los MLP son potentes, pero tienen limitaciones que dieron pie a arquitecturas más sofisticadas.

  • No capturan la espacialidad: nosotros no nos comunicamos palabra por palabra, sino con frases, párrafos e ideas conectadas. Para resolverlo aparecieron los LSTM, precursores del modelo de atención, y las convolutional neural networks que ayudan al modelo a percibir el mundo como lo vemos.
  • Vanishing gradients: por más fuerte que sea tu learning rate, hay mínimos locales de los que no puedes salir aunque agregues más cómputo, tiempo o datos. Técnicas como layer normalization y dropout mitigan este problema [11:55].

La combinación del MLP con la arquitectura de atención es justo lo que da origen a los transformers, los modelos detrás de GPT-2 y de todo lo que vives hoy con los LLMs. ¿Qué parte del MLP te costó más entender la primera vez? Cuéntamelo en los comentarios.