- 1

Funcionamiento interno de los grandes modelos de lenguaje
14:16 - 2

Conceptos fundamentales de LLM: del contexto al despliegue
01:13 - 3

Historia de la inteligencia artificial desde Turing hasta GPT-4
07:41 - 4

Tokenización, vectorización y embeddings en LLMs
10:58 - 5

Funcionamiento básico de redes neuronales multicapa
11:58 - 6

Arquitectura GPT-2 y mecanismo de atención en transformadores
07:43 - 7

Fundamentos de PyTorch para modelos de machine learning
11:03 quiz de Fundamentos de los LLMs
Funcionamiento básico de redes neuronales multicapa
Clase 5 de 20 • Curso de Fundamentos de LLMs
Contenido del curso
- 8

Construcción de GPT-2 desde cero con Python y PyTorch
23:53 - 9

RoPE: codificación posicional rotatoria para transformers
07:30 - 10

Integración de Rope en GPT-2 con PyTorch
09:37 - 11

Leyes de escalado y modelos multimodales en inteligencia artificial
06:05 - 12

Cómo se entrena un modelo de lenguaje grande (LLM) paso a paso
10:47 - 13

Mixture of Experts: arquitectura eficiente para modelos de IA
12:09 - 14

Requisitos de hardware para ejecutar modelos LLM en tu computadora
04:31 - 15

Instalación de Olama y configuración de clúster local con ExoLabs
15:03 quiz de Componentes Avanzandos de los LLMs
Las redes neuronales, específicamente los multilayer perceptron (MLP), son una tecnología esencial en machine learning. Estas redes, conocidas como feed forward, poseen estructuras claras con múltiples capas, incluyendo una capa de entrada, varias capas ocultas y una capa de salida.
¿Qué son las redes neuronales multilayer perceptron?
Los multilayer perceptron son redes neuronales que se componen principalmente de tres capas:
- Capa de entrada: esta depende directamente del problema que se enfrenta. Por ejemplo, el español con cincuenta mil palabras tendría un número idéntico de neuronas en esta capa.
- Capas ocultas: en estas capas se lleva a cabo el aprendizaje del modelo, permitiendo entender las características y propiedades del lenguaje o problema específico.
- Capa de salida: también depende del problema planteado y su número suele coincidir con la capa de entrada para tareas como predicción de palabras.
¿Cómo funciona una neurona en una red neuronal?
Cada neurona en las capas ocultas posee tres componentes básicos:
- Peso (weight): señala la importancia de una característica específica para el modelo.
- Sesgo (bias): ayuda a la red neuronal a no memorizar exacta y rígidamente los datos del entrenamiento inicial.
- Función de activación: permite captar patrones en los datos proporcionados, basándose en cómo se activan las neuronas del cerebro humano.
Estas neuronas realizan cálculos matemáticos partiendo de datos de entrada, que multiplican por pesos específicos. Luego se suma el sesgo, resultando en una función lineal básica, a la que posteriormente se añade una función no lineal que permite modelar comportamientos complejos.
¿Qué es la función de pérdida y cómo mide el aprendizaje?
La función de pérdida determina si la red neuronal está realmente aprendiendo. Básicamente, compara los resultados predichos por la red con los resultados reales conocidos, siendo el objetivo reducir esta diferencia al máximo, idealmente hasta el valor cero. Una función común para evaluar la pérdida en problemas lineales es el error cuadrático medio.
¿En qué consiste el método Back Propagation?
El método de back propagation (propagación hacia atrás) consiste en tomar el valor obtenido en la función de pérdida para actualizar los pesos y sesgos de la red neuronal. Este método emplea conceptos matemáticos avanzados, como derivadas y derivadas parciales, buscando mínimos locales en la función de pérdida para mejorar continuamente el aprendizaje del modelo.
¿Qué indica el teorema universal de aproximación?
Este teorema establece que cualquier problema que pueda formularse matemáticamente puede aproximarse mediante una red neuronal, siempre que sean usadas funciones de activación no lineales. Esto permite modelar distintos tipos de comportamientos, incluyendo curvas complejas y espacios multidimensionales.
¿Qué limitaciones tienen los multilayer perceptron?
Los MLP presentan dificultades para captar contextos más amplios, como frases o párrafos, algo esencial para comprender adecuadamente el lenguaje humano. Por esta razón, surgieron estructuras que manejan mejor esta complejidad, tales como:
- LSTM (Long Short-Term Memory): conservan información contextual extendida.
- CNN (Convolutional Neural Networks): capturan información espacial o de contexto visual.
Otra limitación relevante es el problema conocido como vanishing gradients, donde el modelo queda atrapado en mínimos locales sin importar la potencia de cálculo empleada. Técnicas como el dropout pueden ayudar a mitigar esto.
Si te interesa profundizar más, en los cursos avanzados de álgebra lineal y cálculo diferencial se trabajan esos conceptos matemáticos fundamentales. ¿Qué aspectos crees que puedes profundizar para fortalecer tu aprendizaje sobre redes neuronales?