Principios esenciales para entender la AI desde cero (22 de enero)

Clase 13 de 19 • Cómo funciona el reto AI-Native: Live Classes, Cursos y Proyecto

Contenido del curso

Reto AI-Native en Platzi

Resumen

Comprende con claridad qué es la inteligencia artificial y cómo operan los LLMs: desde espacios n-dimensionales y el perceptrón hasta la atención con queries, keys y values. Con una ruta de estudio enfocada en álgebra lineal, cálculo, probabilidad y estadística, podrás usar mejor los modelos y, sobre todo, construirlos para avanzar hacia la soberanía tecnológica.

¿Por qué la inteligencia artificial importa hoy?

La IA no es solo hype: está transformando el trabajo y la interacción con Internet, incluso ya integrada en celulares. No es un fenómeno reciente; desde la máquina de Babbage y Ada Lovelace y las intuiciones de Leibniz sobre “calcular” ideas, la ambición ha sido modelar procesos mentales con matemáticas.

IA no es igual a LLM: IA > machine learning > deep learning > supervised y unsupervised; los LLMs viven en la intersección de ambos.
Dos caminos: usar modelos con criterio o entenderlos por dentro para construirlos.
Soberanía tecnológica: conocer matemáticas y arquitectura permite crear modelos y, con infraestructura como data centers, ser dueños de la tecnología que se usa.

¿Qué es IA, machine learning y LLM?

IA es el conjunto mayor de algoritmos.
Machine learning y deep learning son subconjuntos.
Los LLMs son un tipo específico dentro de deep learning con aprendizaje supervisado y no supervisado.
Hay otras ramas como reinforcement learning con enfoques distintos.

¿Qué ruta de aprendizaje acelera tu soberanía tecnológica?

Álgebra lineal: matrices y operaciones como Gauss-Jordan.
Cálculo diferencial e integral: derivadas, gradientes y áreas bajo curvas.
Probabilidad y estadística: Bayes, esperanza y razonamiento con datos.
Lectura disciplinada de libros y cursos, con constancia y repetición.

¿Cómo aprovechar mejor los LLMs con lenguaje y prompts?

El lenguaje refleja la mente, como recuerda Chomsky.
Un prompt con vocabulario del dominio mejora resultados.
Evita muletillas y “filling words” que no agregan información.

¿Cómo funcionan los LLMs por dentro?

La intuición inicia en espacios n-dimensionales: como una hoja de cálculo, pero con muchas dimensiones. Los LLMs llevan el lenguaje a vectores donde palabras relacionadas quedan “cerca” (por ejemplo, “papá” y “mamá”).

¿Qué es un espacio n-dimensional y un perceptrón?

Un dato puede tener múltiples dimensiones; el lenguaje se embebe en ese espacio.
El perceptrón es la neurona artificial: entradas x1…xn, pesos w que almacenan el conocimiento y una salida.
Las redes apilan capas (layers) de perceptrones y operan con matrices.
Tokenización: “papá” es un token; “papás” separa “papá” + “s”.

¿Cómo aprenden: pérdida, derivadas y stochastic gradient descent?

Se define una función de pérdida que mide el error entre salida y dato real.
Con derivadas se calcula la pendiente para moverse hacia errores menores (negativo del gradiente).
En alta dimensión, el Stochastic Gradient Descent (SGD) hace el proceso eficiente; aparece el gradiente y conceptos como la hessiana.
El entrenamiento actualiza los pesos W iterativamente capa por capa.

¿Qué resuelve la atención con queries, keys, values y softmax?

Antes, las RNN/LSTM limitaban el contexto (≈ 64² tokens); la atención permitió escalar el contexto masivo.
El modelo formula queries (qué preguntar), compara con keys (pistas relevantes) y combina con values (contenido) para enfocar lo útil.
Softmax normaliza puntajes y, junto con la división por √dk, mejora la estabilidad numérica.
La transpuesta en Kᵀ y la dimensión dk son nociones de álgebra lineal.
En la arquitectura, el bloque feedforward es un “perceptrón gigante” repetido en cada capa.

¿Qué matemáticas y probabilidades necesitas dominar?

Los modelos generan la siguiente palabra como la más probable; por eso pueden errar y deben verificarse. Para construir criterio, la probabilidad y la estadística son clave.

¿Cómo te ayudan álgebra lineal y cálculo en modelos?

Álgebra lineal: matrices, vectores, transpuestas y descomposiciones.
Cálculo: gradientes para optimizar la pérdida y navegar “valles” de error.
Integral: otras tareas complementarias del análisis continuo.

¿Por qué probabilidad, Bayes y estadística guían las respuestas?

Probabilidad simple: eventos equiprobables como una moneda.
Bayes: manejar eventos complejos encadenados (carga del móvil, Internet, servicio activo, receptor disponible).
Esperanza: promedio ponderado de resultados posibles cuando la distribución no es conocida con certeza.
Estadística: inferir comportamientos cuando la probabilidad no es conocida y se necesitan muchos datos.

¿Qué arquitectura y recursos prácticos se mencionan?

Arquitectura LLM: bloques de atención, feedforward y normalizaciones.
La capa de salida aplica SoftMax para mapear a probabilidades entre 0 y 1.
Benchmarks en Artificial Analysis para comparar modelos por “inteligencia”, velocidad y precio.
Lectura técnica asistida con herramientas que integran IA a papers, y hábito de estudio con libros y notas.

¿Te gustaría que profundicemos en atención, prompts o matemáticas aplicadas? Deja tus preguntas y casos de uso en los comentarios.

Comentarios

Leonardo Buezo

student•

Hay un recurso adicional al libro que menciona Jhenner, Linear Algebra Done Right (Sheldon Axler), es una playlist creada por el mismo autor del libro donde repasa todos los conceptos del libro.

Boris Turcios

student••

LÍNEA TEMPORAL MINUTO A MINUTO
Clase: Espacios n-dimensionales y Redes Neuronales (AI-Native)

⏱️ 00:00 – 01:00
🎬 Introducción al tema
Se explica el objetivo: entender cómo funcionan los LLMs desde sus bases matemáticas.
MEMO: “Primero fundamentos, luego magia” ✨

⏱️ 01:00 – 03:00
🤖 Contexto de Inteligencia Artificial
IA → Machine Learning → Deep Learning → LLMs
Se aclara cómo cada nivel depende del anterior.
MEMO: 🏔️ “Pirámide de IA”

⏱️ 03:00 – 06:00
📊 Introducción a espacios n-dimensionales
Datos convertidos en vectores.
Cada dimensión representa una característica.
MEMO: 📍 “Cada dato vive en un espacio”

⏱️ 06:00 – 09:00
🧭 Relación semántica entre vectores
Vectores cercanos = significados similares.
Base de embeddings y comprensión del lenguaje.
MEMO: 📍📍 “Cercanía = similitud”

⏱️ 09:00 – 12:00
🎯 Perceptrón (neurona artificial)
Entradas, pesos, suma y activación.
Modelo básico de decisión.
MEMO: ⚖️ “La neurona decide pesos”

⏱️ 12:00 – 15:00
🧠 Redes neuronales
Perceptrón + capas = red profunda.
Capacidad de aprender patrones complejos.
MEMO: 🧱 “Capas crean inteligencia”

⏱️ 15:00 – 18:00
📉 Error y función de pérdida
El modelo compara predicción vs realidad.
El error guía el aprendizaje.
MEMO: 🎯 “El error enseña”

⏱️ 18:00 – 21:00
📈 Descenso por gradiente
Uso de derivadas para reducir error.
Optimización iterativa.
MEMO: ⛰️ “Bajar la montaña del error”

⏱️ 21:00 – 24:00
🔁 Stochastic Gradient Descent
Pequeños ajustes repetidos muchas veces.
Aprendizaje progresivo.
MEMO: 👣 “Pasos pequeños, gran mejora”

⏱️ 24:00 – 27:00
🔍 Atención y Transformers
Las palabras se relacionan entre sí.
Queries, Keys y Values.
MEMO: 🧲 “La atención elige lo importante”

⏱️ 27:00 – 30:00
✍️ LLMs
Generación de texto basada en contexto.
Todo ocurre en espacios n-dimensionales.
MEMO: 🧠 “Lenguaje = vectores + atención”

⏱️ 30:00 – 32:00
📌 Cierre conceptual
Conexión entre matemáticas, redes y lenguaje.
Preparación para siguientes módulos.
MEMO FINAL:
“VECTOR → NEURONA → CAPAS → ERROR → ATENCIÓN → LENGUAJE”

FIN ✔️

Este Video me lo Guardo en la Bolsita yeiiiii :P Gracias Profe Jhenner Trigueros, se le reconoce el esfuerzo por enseñar,,,

Por cierto su camisa. ----- " la Ley de Intercambio Equivalente, Principio de la Alquimia" F. El Alquimista de Acero =)

La Ley del Intercambio Equivalente en Fullmetal Alchemist es el principio fundamental de la alquimia: para obtener algo, se debe sacrificar algo de igual valor; no se puede crear ni destruir materia, solo transmutarla, por lo que cualquier cambio requiere una pérdida equivalente, una regla que rige el universo y que se manifiesta en desafíos, sacrificios y las lecciones de los hermanos Elric.

Gonzalo Blasco

student•

Clase 13 · Espacios n-dimensionales y redes neuronales

LLMs desde cero (sin humo)

Idea central

Para usar bien la IA (o construirla), tenés que entender qué pasa por debajo. Los LLMs no “piensan”: calculan en espacios matemáticos de muchas dimensiones.

1. Qué es (de verdad) un espacio n-dimensional

Un espacio n-dimensional es una forma de representar información como números.

Cada dimensión = una característica.
Un dato = un vector.
Un texto no es texto → es un vector enorme.

Ejemplo mental:

En 2D: (x, y)
En LLMs: (x₁, x₂, x₃, … xₙ) con miles de dimensiones.

👉 Palabras con significado parecido quedan cerca en ese espacio. Eso explica por qué el modelo “entiende” relaciones.

2. Embeddings: cómo el lenguaje entra a la matemática

El lenguaje se convierte en números mediante embeddings.

Cada palabra/token → vector
Vectores cercanos = significados relacionados

Ejemplo:

“mamá” y “papá” → cerca
“mamá” y “tornillo” → lejos

👉 El modelo no sabe español. Sabe distancias entre vectores.

3. El perceptrón: la neurona artificial

Unidad básica de una red neuronal:

Entradas: x₁, x₂, … xₙ
Pesos: w₁, w₂, … wₙ
Suma ponderada
Función de activación
Salida

Intuición:

una neurona decide cuánto importa cada entrada

Los pesos guardan el “conocimiento”.

4. Redes neuronales: capas, no magia

Una red neuronal es:

muchas neuronas
organizadas en capas
operando con matrices

Cada capa aprende patrones más complejos que la anterior.

👉 No hay conciencia. Hay álgebra lineal a escala.

5. Cómo aprenden: error y gradiente

El aprendizaje funciona así:

El modelo predice
Compara con el valor real
Calcula el error (función de pérdida)
Ajusta pesos para reducir ese error

Herramienta clave:

Descenso por gradiente
Con derivadas
En espacios de alta dimensión

El objetivo: bajar la “montaña del error”.

6. Stochastic Gradient Descent (SGD)

Para no calcular todo junto:

Ajustes pequeños
Muchos pasos
Datos en batches

👉 Más eficiente, escalable y estable.

7. Atención: el salto clave de los LLMs

Antes:

RNN / LSTM → poco contexto

Ahora:

Transformers + atención

La atención responde:

“¿qué partes del texto importan para esta palabra?”

Componentes:

Query: qué busco
Key: dónde mirar
Value: qué usar

Softmax normaliza las probabilidades.

👉 Esto permite manejar contextos largos.

8. Qué hace realmente un LLM

Un LLM:

recibe tokens
los convierte en vectores
calcula relaciones
estima probabilidades
predice la siguiente palabra más probable

Nada más. Nada menos.

Por eso:

puede sonar seguro
y estar equivocado

Es estadística, no verdad.

9. Por qué esto importa en tu trabajo

Porque entendés:

por qué se equivoca
cuándo confiar
cuándo verificar
cómo escribir mejor prompts
por qué “alucina”

Y si querés ir más allá:

sabés qué estudiar (álgebra, cálculo, probabilidad)

Cierre (idea que te llevás)

Los LLMs no son magia. Son matemática aplicada al lenguaje.

Si entendés eso:

dejás de sobre-idealizarlos
dejás de frustrarte
los usás con criterio

Eso es ventaja real.

Luis Miguel Rodriguez

student•

Ya casi termino la ingeniería de software y, aunque me costó mucho entender varios temas de matemáticas, ahora en clases como esta y en los cursos de Platzi es donde realmente veo la importancia de esas materias para entender mejor estos conceptos.

Katherine Baquero

student•

La verdad creo que más de aclarar confundes un poco al público sobre las bases de AI (eso de confunde y vencerás no creo que se deba aplicar aquí ;) ). Se podrían ver los cursos que sugieres de ahí, pero hablar de libros de 100x páginas no adiciona nada al contenido.

Una página que recomiendo mucho para ver cómo funcionan los conceptos de matemáticas en ML e IA es (que está también en youtube), este otro y Luis Serrano, que es colombiano pero muy reconocido en el ambiente de educacion de AI y ML

Espero sea de utilidad!

Leonardo Covarrubias

student•

Porque esta clase es la numero 22 y no es de las primeras?

Manuel Cabos

student••

Álgebra Lineal
- Curso de Álgebra Lineal Aplicada para Machine Learning (Platzi)
- Libro: Linear Algebra Done Right - Sheldon Axler
Cálculo Diferencial
- Curso de Cálculo Diferencial (Platzi)
- Libro: Calculus - Michael Spivak
Probabilidad
- Curso de Estadística y Probabilidad (Platzi)
- Libro: Introduction To Probability - Dimitri P. Bertsekas (MIT)
Fundamentos LLMs
- Curso de Fundamentos de LLMs (Platzi)
Comparación y ranking de AIs *
AI para Papers *

Sandra Suarez

student•

Clases del MIT

Luis Miguel Rodriguez

student•

La clase explica, de forma intuitiva, qué es la IA, cómo se relaciona con los LLMs y qué matemáticas y conceptos necesitas para entenderlos y eventualmente construirlos tú mismo.

Idea central de la clase

Distingue IA, machine learning, deep learning y LLMs, mostrando que los LLM son solo una parte específica de la IA moderna.
Plantea dos caminos: usar modelos con criterio o entenderlos por dentro para tener soberanía tecnológica (saber matemáticas, arquitectura y hardware para no depender solo de “cajas negras”).
Enfatiza que la IA ya está integrada en trabajo, celulares e Internet, con una historia que viene desde Babbage, Ada Lovelace y la idea de “calcular” procesos mentales.

Matemáticas y ruta de estudio

Recomienda enfocarse en álgebra lineal (matrices, vectores, Gauss-Jordan), cálculo diferencial e integral (derivadas, gradientes) y probabilidad/estadística (Bayes, esperanza matemática, inferencia).
Propone una disciplina de estudio: libros, cursos y lectura técnica apoyada en herramientas con IA, con constancia y repetición.

Espacios n-dimensionales y redes

Explica que los datos viven en espacios n-dimensionales, donde cada dimensión es una característica, y el lenguaje se representa como vectores (embeddings); palabras similares quedan “cerca”.
Introduce el perceptrón como neurona artificial con entradas, pesos y salida; redes neuronales son muchas neuronas en capas que se implementan con operaciones matriciales.
Menciona la tokenización (por ejemplo, “papá” vs “papás”) como parte de cómo el texto se vuelve tokens manipulables por el modelo.

Entrenamiento: pérdida, gradiente y SGD

Se define una función de pérdida para medir el error entre predicción y valor real; ese error guía el aprendizaje.
Con derivadas y gradientes se “baja la montaña del error” ajustando pesos; con Stochastic Gradient Descent se hacen pequeños pasos iterativos y eficientes en alta dimensión.

Atención y arquitectura de LLM

Muestra las limitaciones de RNN/LSTM y cómo la atención permite usar contextos grandes relacionando palabras entre sí.
Explica queries (lo que el modelo “pregunta”), keys (pistas relevantes) y values (contenido) más el uso de softmax y la división por dkdk para estabilidad numérica.
Resume la arquitectura LLM en bloques de atención, capas feedforward tipo “perceptrón gigante”, normalizaciones y una capa final con softmax para obtener probabilidades de la siguiente palabra.

Alberto Armendariz

student•

En verdad me gustaria entender de lo que habla

EDGAR LÓPEZ FIERRO

student•

Les comparto los links de las páginas de esta clase de IA: Explore | alphaXiv AI Model & API Providers Analysis | Artificial Analysis

EDGAR LÓPEZ FIERRO

student•

Un ejemplo de aleatoriedad se puede encontrar en el módulo random de lenguajes de programación como Python y JavaScript que sirve para imprimir valores aleatorios de las variables

NESTOR IVAN RONCANCIO CABALLERO

student•

El cerebro en IA de Platzi, tremendo conocimiento. Por mas profesores asi!

Eliu Freitez

student•

Pregunta: Platzi tiene servicio post venta? Por donde se les puede escribir que respondan ?

Diego Alejandro Gil Rave

student••

Amo las explicaciones de este profesor, son un total desafío para mi mente y me conecta muchos conocimientos

Diego Mauricio Zuluaga Rodríguez

student•

¿Cómo se aplica la matemática profunda?

La clase explica que conceptos como el álgebra lineal, el cálculo diferencial y la probabilidad son fundamentales para que los LLMs funcionen. Estos permiten a la IA procesar el lenguaje como números, optimizar su aprendizaje y manejar la incertidumbre en sus respuestas.

Principios esenciales para entender la AI desde cero (22 de enero)

Reto AI-Native en Platzi

Cómo funciona el reto AI-Native de Platzi

Presenta tu proyecto aquí

Cómo elegir tu proyecto y el modelo de IA correctos (12 de enero)

Framework CREA para prompts efectivos (13 de enero)

Qué herramientas de AI existen y cuál usar (14 de enero)

Crear avatares con HeyGen desde cero (15 de enero)

Cómo construir más de cien apps con Lovable (16 de enero)

Automatización de procesos con N8N sin programar (17 de enero)

Cómo generar ingresos creando imágenes con IA (18 de enero)

Flujo completo para crear videos con IA (19 de enero)

Por qué contexto supera a modelo en IA (20 de enero)

Cómo usar AI en tu trabajo | Q&A con Aníbal Rojas (21 de enero)

Principios esenciales para entender la AI desde cero (22 de enero)

Herramientas de AI para dev (23 de enero)

Qué es MCP y RAG (26 de enero)

Construyendo asistente de AI con la API de OpenAI (27 de enero)

Cuál es el mejor editor de código de AI (28 de enero)

Crea agentes con Copilot Studio (30 de enero)

Anatomía de un Deep Agent en LangGraph (29 de enero)