El álgebra lineal es la rama de las matemáticas que sostiene casi todo lo que ocurre dentro de un modelo de inteligencia artificial. Si quieres entender qué pasa por detrás de un algoritmo de machine learning, necesitas dominar cómo se representan y transforman los datos como vectores y matrices.
Esta lectura te sirve si vienes del mundo del machine learning aplicado y quieres dar el salto hacia la teoría que explica por qué los modelos funcionan, no solo cómo usarlos.
¿Qué es el álgebra lineal y por qué importa en machine learning?
El álgebra lineal estudia las operaciones que puedes hacer sobre un objeto matemático llamado tensor. Sus casos particulares más conocidos son las matrices y los vectores, que en términos coloquiales son simples arreglos de números organizados en filas, columnas o cuadrículas [1:00].
En machine learning necesitas representar los datos que estudias mediante estas estructuras. Esa es la razón por la que se dice que el álgebra lineal es la representación natural de los objetos sobre los que aplicas un proceso de optimización.
¿Qué es un tensor? Es un objeto matemático que generaliza los vectores y matrices. Un vector es un tensor de una dimensión, una matriz es un tensor de dos dimensiones, y desde ahí puedes seguir escalando.
Y no solo se trata de representar. También necesitas transformar esos objetos: sumarlos, multiplicarlos, aplicar filtros o convoluciones. Cada una de esas operaciones tiene una definición formal dentro del álgebra lineal.
¿Cómo se representa una imagen como una matriz de píxeles?
Piensa en una imagen sencilla en escala de grises. El computador no la ve como tú; la entiende como una cuadrícula donde cada píxel tiene un valor numérico entre 0 y 1, donde 0 es blanco y 1 es completamente negro [3:30].
Esa cuadrícula se convierte en una matriz cuyas filas y columnas corresponden a las dimensiones de la imagen. Cada celda guarda un número como 0.8 o 0.7, que representa la tonalidad de gris de ese píxel específico.
Cuando aplicas técnicas de computer vision sobre estos datos, tienes que tomar la imagen, convertirla en matriz y aplicar transformaciones sobre ella. Ahí entran operaciones como:
- Suma de matrices.
- Multiplicación de matrices.
- Aplicación de filtros.
- Convoluciones.
Profundizar en procesamiento de imágenes hace evidente la necesidad del álgebra lineal en cada paso.
¿Cómo se convierten las señales de audio en vectores numéricos?
Una señal de audio se grafica con el tiempo en el eje X y la amplitud en el eje Y. Mientras hablas, esa amplitud sube y baja, formando una curva que se puede discretizar tomando muestras a intervalos regulares [5:30].
Cada muestra es un par de coordenadas: un tiempo T y una amplitud A. Si vas marcando segundo a segundo, terminas con dos listas de números: una para los tiempos y otra para las amplitudes. Esas listas son lo que en álgebra lineal llamamos vectores.
¿Qué es un vector en álgebra lineal? Es una lista ordenada de números que representa una secuencia de valores. En audio, cada posición del vector corresponde a la amplitud medida en un instante específico de tiempo.
¿Qué operaciones aplicas sobre un vector de audio?
Una vez tienes la señal como vector, puedes hacer cosas potentes. Por ejemplo, si dos personas hablan al mismo tiempo y quieres separarlas, multiplicas ese vector por una matriz diseñada para limpiar la información y aislar cada voz por separado.
Esta lógica aplica para cualquier variable que cambie en el tiempo, no solo audio. Si puedes medir algo en intervalos discretos, puedes representarlo como vector y aplicarle operaciones del álgebra lineal.
¿Cómo se representa el texto numéricamente para los modelos de lenguaje?
El texto parece imposible de convertir en números, y por eso el procesamiento del lenguaje natural dedicó años a resolver justamente eso. La representación numérica es la base sobre la que descansan los modelos de lenguaje modernos [9:30].
Una de las primeras técnicas se llama codificación one hot. Funciona así: tomas todo tu vocabulario, que puede tener miles de palabras, y creas un vector enorme donde cada posición corresponde a una palabra. Marcas con 1 las palabras presentes en una frase y con 0 las ausentes.
En la frase "yo amo aprender en Platzi", el vector tendrá unos en las posiciones de esas palabras y ceros en el resto del vocabulario. El resultado es un vector larguísimo, del tamaño total del idioma que estás modelando.
¿Qué es la codificación one hot? Es una representación numérica donde cada palabra del vocabulario ocupa una posición fija en un vector. Marcas con 1 si la palabra aparece y con 0 si no, generando un vector tan largo como el vocabulario completo.
No es la técnica más sofisticada, pero te da la base conceptual. A partir de ahí, puedes construir representaciones más complejas como los embeddings, que también dependen del álgebra lineal para definir distancias y similitudes entre palabras.
¿Por qué sin álgebra lineal no hay machine learning?
Imágenes, audio y texto se reducen a lo mismo: arreglos de números organizados como vectores, matrices o tensores. Y siempre que hablamos de esas tres palabras, hay álgebra lineal detrás definiendo cómo operar sobre ellos.
Esa es la razón por la que esta rama de las matemáticas es la forma natural de representar matemáticamente cualquier objeto sobre el que apliques algoritmos de aprendizaje. Sin esa representación y sin esas operaciones, simplemente no existe el machine learning.
¿Qué tipo de datos te interesa más representar matemáticamente: imágenes, audio o texto? Cuéntame en los comentarios.