Principios esenciales para entender la AI desde cero (22 de enero)

Cómo funciona el reto AI-Native: Live Classes, Cursos y Proyecto

Contenido del curso

Reto AI-Native en Platzi

Resumen

Comprende con claridad qué es la inteligencia artificial y cómo operan los LLMs: desde espacios n-dimensionales y el perceptrón hasta la atención con queries, keys y values. Con una ruta de estudio enfocada en álgebra lineal, cálculo, probabilidad y estadística, podrás usar mejor los modelos y, sobre todo, construirlos para avanzar hacia la soberanía tecnológica.

¿Por qué la inteligencia artificial importa hoy?

La IA no es solo hype: está transformando el trabajo y la interacción con Internet, incluso ya integrada en celulares. No es un fenómeno reciente; desde la máquina de Babbage y Ada Lovelace y las intuiciones de Leibniz sobre “calcular” ideas, la ambición ha sido modelar procesos mentales con matemáticas.

IA no es igual a LLM: IA > machine learning > deep learning > supervised y unsupervised; los LLMs viven en la intersección de ambos.
Dos caminos: usar modelos con criterio o entenderlos por dentro para construirlos.
Soberanía tecnológica: conocer matemáticas y arquitectura permite crear modelos y, con infraestructura como data centers, ser dueños de la tecnología que se usa.

¿Qué es IA, machine learning y LLM?

IA es el conjunto mayor de algoritmos.
Machine learning y deep learning son subconjuntos.
Los LLMs son un tipo específico dentro de deep learning con aprendizaje supervisado y no supervisado.
Hay otras ramas como reinforcement learning con enfoques distintos.

¿Qué ruta de aprendizaje acelera tu soberanía tecnológica?

Álgebra lineal: matrices y operaciones como Gauss-Jordan.
Cálculo diferencial e integral: derivadas, gradientes y áreas bajo curvas.
Probabilidad y estadística: Bayes, esperanza y razonamiento con datos.
Lectura disciplinada de libros y cursos, con constancia y repetición.

¿Cómo aprovechar mejor los LLMs con lenguaje y prompts?

El lenguaje refleja la mente, como recuerda Chomsky.
Un prompt con vocabulario del dominio mejora resultados.
Evita muletillas y “filling words” que no agregan información.

¿Cómo funcionan los LLMs por dentro?

La intuición inicia en espacios n-dimensionales: como una hoja de cálculo, pero con muchas dimensiones. Los LLMs llevan el lenguaje a vectores donde palabras relacionadas quedan “cerca” (por ejemplo, “papá” y “mamá”).

¿Qué es un espacio n-dimensional y un perceptrón?

Un dato puede tener múltiples dimensiones; el lenguaje se embebe en ese espacio.
El perceptrón es la neurona artificial: entradas x1…xn, pesos w que almacenan el conocimiento y una salida.
Las redes apilan capas (layers) de perceptrones y operan con matrices.
Tokenización: “papá” es un token; “papás” separa “papá” + “s”.

¿Cómo aprenden: pérdida, derivadas y stochastic gradient descent?

Se define una función de pérdida que mide el error entre salida y dato real.
Con derivadas se calcula la pendiente para moverse hacia errores menores (negativo del gradiente).
En alta dimensión, el Stochastic Gradient Descent (SGD) hace el proceso eficiente; aparece el gradiente y conceptos como la hessiana.
El entrenamiento actualiza los pesos W iterativamente capa por capa.

¿Qué resuelve la atención con queries, keys, values y softmax?

Antes, las RNN/LSTM limitaban el contexto (≈ 64² tokens); la atención permitió escalar el contexto masivo.
El modelo formula queries (qué preguntar), compara con keys (pistas relevantes) y combina con values (contenido) para enfocar lo útil.
Softmax normaliza puntajes y, junto con la división por √dk, mejora la estabilidad numérica.
La transpuesta en Kᵀ y la dimensión dk son nociones de álgebra lineal.
En la arquitectura, el bloque feedforward es un “perceptrón gigante” repetido en cada capa.

¿Qué matemáticas y probabilidades necesitas dominar?

Los modelos generan la siguiente palabra como la más probable; por eso pueden errar y deben verificarse. Para construir criterio, la probabilidad y la estadística son clave.

¿Cómo te ayudan álgebra lineal y cálculo en modelos?

Álgebra lineal: matrices, vectores, transpuestas y descomposiciones.
Cálculo: gradientes para optimizar la pérdida y navegar “valles” de error.
Integral: otras tareas complementarias del análisis continuo.

¿Por qué probabilidad, Bayes y estadística guían las respuestas?

Probabilidad simple: eventos equiprobables como una moneda.
Bayes: manejar eventos complejos encadenados (carga del móvil, Internet, servicio activo, receptor disponible).
Esperanza: promedio ponderado de resultados posibles cuando la distribución no es conocida con certeza.
Estadística: inferir comportamientos cuando la probabilidad no es conocida y se necesitan muchos datos.

¿Qué arquitectura y recursos prácticos se mencionan?

Arquitectura LLM: bloques de atención, feedforward y normalizaciones.
La capa de salida aplica SoftMax para mapear a probabilidades entre 0 y 1.
Benchmarks en Artificial Analysis para comparar modelos por “inteligencia”, velocidad y precio.
Lectura técnica asistida con herramientas que integran IA a papers, y hábito de estudio con libros y notas.

¿Te gustaría que profundicemos en atención, prompts o matemáticas aplicadas? Deja tus preguntas y casos de uso en los comentarios.

Gonzalo Blasco

Estudiante

Clase 13 · Espacios n-dimensionales y redes neuronales

LLMs desde cero (sin humo)

Idea central

Para usar bien la IA (o construirla), tenés que entender qué pasa por debajo. Los LLMs no “piensan”: calculan en espacios matemáticos de muchas dimensiones.

1. Qué es (de verdad) un espacio n-dimensional

Un espacio n-dimensional es una forma de representar información como números.

Cada dimensión = una característica.
Un dato = un vector.
Un texto no es texto → es un vector enorme.

Ejemplo mental:

En 2D: (x, y)
En LLMs: (x₁, x₂, x₃, … xₙ) con miles de dimensiones.

👉 Palabras con significado parecido quedan cerca en ese espacio. Eso explica por qué el modelo “entiende” relaciones.

2. Embeddings: cómo el lenguaje entra a la matemática

El lenguaje se convierte en números mediante embeddings.

Cada palabra/token → vector
Vectores cercanos = significados relacionados

Ejemplo:

“mamá” y “papá” → cerca
“mamá” y “tornillo” → lejos

👉 El modelo no sabe español. Sabe distancias entre vectores.

3. El perceptrón: la neurona artificial

Unidad básica de una red neuronal:

Entradas: x₁, x₂, … xₙ
Pesos: w₁, w₂, … wₙ
Suma ponderada
Función de activación
Salida

Intuición:

una neurona decide cuánto importa cada entrada

Los pesos guardan el “conocimiento”.

4. Redes neuronales: capas, no magia

Una red neuronal es:

muchas neuronas
organizadas en capas
operando con matrices

Cada capa aprende patrones más complejos que la anterior.

👉 No hay conciencia. Hay álgebra lineal a escala.

5. Cómo aprenden: error y gradiente

El aprendizaje funciona así:

El modelo predice
Compara con el valor real
Calcula el error (función de pérdida)
Ajusta pesos para reducir ese error

Herramienta clave:

Descenso por gradiente
Con derivadas
En espacios de alta dimensión

El objetivo: bajar la “montaña del error”.

6. Stochastic Gradient Descent (SGD)

Para no calcular todo junto:

Ajustes pequeños
Muchos pasos
Datos en batches

👉 Más eficiente, escalable y estable.

7. Atención: el salto clave de los LLMs

Antes:

RNN / LSTM → poco contexto

Ahora:

Transformers + atención

La atención responde:

“¿qué partes del texto importan para esta palabra?”

Componentes:

Query: qué busco
Key: dónde mirar
Value: qué usar

Softmax normaliza las probabilidades.

👉 Esto permite manejar contextos largos.

8. Qué hace realmente un LLM

Un LLM:

recibe tokens
los convierte en vectores
calcula relaciones
estima probabilidades
predice la siguiente palabra más probable

Nada más. Nada menos.

Por eso:

puede sonar seguro
y estar equivocado

Es estadística, no verdad.

9. Por qué esto importa en tu trabajo

Porque entendés:

por qué se equivoca
cuándo confiar
cuándo verificar
cómo escribir mejor prompts
por qué “alucina”

Y si querés ir más allá:

sabés qué estudiar (álgebra, cálculo, probabilidad)

Cierre (idea que te llevás)

Los LLMs no son magia. Son matemática aplicada al lenguaje.

Si entendés eso:

dejás de sobre-idealizarlos
dejás de frustrarte
los usás con criterio

Eso es ventaja real.

Principios esenciales para entender la AI desde cero (22 de enero)

Reto AI-Native en Platzi

Cómo funciona el reto AI-Native de Platzi

Presenta tu proyecto aquí

Cómo elegir tu proyecto y el modelo de IA correctos (12 de enero)

Framework CREA para prompts efectivos (13 de enero)

Qué herramientas de AI existen y cuál usar (14 de enero)

Crear avatares con HeyGen desde cero (15 de enero)

Cómo construir más de cien apps con Lovable (16 de enero)

Automatización de procesos con N8N sin programar (17 de enero)

Cómo generar ingresos creando imágenes con IA (18 de enero)

Flujo completo para crear videos con IA (19 de enero)

Por qué contexto supera a modelo en IA (20 de enero)

Cómo usar AI en tu trabajo | Q&A con Aníbal Rojas (21 de enero)

Principios esenciales para entender la AI desde cero (22 de enero)

Herramientas de AI para dev (23 de enero)

Qué es MCP y RAG (26 de enero)

Construyendo asistente de AI con la API de OpenAI (27 de enero)

Cuál es el mejor editor de código de AI (28 de enero)

Crea agentes con Copilot Studio (30 de enero)

Anatomía de un Deep Agent en LangGraph (29 de enero)

Resumen