El cálculo es la rama matemática que permite optimizar modelos de machine learning, encontrando los valores que minimizan el error entre las predicciones y los datos reales. Si ya entiendes que el álgebra lineal sirve para representar objetos como vectores y matrices, el siguiente paso lógico es preguntarte cómo la máquina ajusta esos números para acertar. Aquí entra el cálculo diferencial.
¿Por qué la optimización es el corazón de un algoritmo de machine learning?
Cuando representas un objeto numéricamente y aplicas un algoritmo, el resultado no aparece por arte de magia. Detrás hay un proceso de optimización: encontrar el mejor valor posible para que la predicción sea lo más cercana a la realidad.
Y esa palabra, optimización, es tu puerta de entrada al cálculo. En matemáticas, optimizar significa encontrar el máximo o el mínimo de una función. Si tu modelo se puede escribir como una función, entonces puedes buscar el punto donde el error es más pequeño. Ese punto es tu mejor predicción.
¿Qué significa optimizar en machine learning? Significa ajustar los parámetros de un modelo para que la diferencia entre lo que predice y los datos reales sea la menor posible. Casi siempre se traduce en minimizar una función de error.
¿Cómo funciona la optimización en una regresión lineal?
Tomemos un caso clásico que ya conoces: la regresión lineal. Imagina que tienes dos variables, tiempo y precio, y un conjunto de puntos que muestran cómo cambia el precio de algo a lo largo de los días. Tu objetivo es trazar la recta que mejor describe esos datos.
Esa recta sigue la ecuación clásica Y = mx + b, donde m es la pendiente y b el intercepto. La pregunta es: ¿qué valores de m y b hacen que la recta describa mejor los puntos?
¿Qué es el error en una regresión lineal?
Para cada punto real, digamos uno con coordenadas X₀ = 5 días y Y₀ = 13 dólares, tu recta predice un valor distinto: m·X₀ + b. La diferencia entre lo que predice la recta y el dato real es el error de ese punto.
Algunos puntos quedan arriba de la recta, otros abajo, así que algunos errores son positivos y otros negativos. Para evitar que se cancelen al sumarlos, haces lo siguiente:
- Calculas el error de cada punto como
m·Xᵢ + b - Yᵢ.
- Elevas cada error al cuadrado.
- Sumas todos los errores cuadráticos.
Ese total se conoce como error cuadrático total, y la regresión lineal busca exactamente la recta que lo hace más pequeño.
¿Qué variables se optimizan realmente?
Aquí viene un detalle clave. Las coordenadas X₀, Y₀, X₁, Y₁ y todas las demás son números conocidos: tus datos. Las verdaderas incógnitas son la pendiente m y el intercepto b. Por eso el error total se puede ver como una función que depende solo de esas dos variables.
Minimizar esa función significa encontrar el par (m, b) que da el modelo más preciso para predecir precios en tiempos futuros o intermedios.
¿Por qué se elevan los errores al cuadrado? Porque algunos puntos quedan por encima de la recta y otros por debajo, generando errores positivos y negativos. Al elevarlos al cuadrado, todos se vuelven positivos y se pueden sumar sin que se cancelen entre sí.
¿Qué papel juegan las derivadas en encontrar el mejor modelo?
Una vez que tienes una función de error que depende de la pendiente y el intercepto, el cálculo te da la herramienta para encontrar su valor mínimo: las derivadas.
La idea es sencilla. Cuando derivas la función de error respecto de la pendiente y la igualas a cero, estás buscando el punto donde la curva deja de bajar y deja de subir. Ese punto plano, donde la inclinación es cero, es donde vive el mínimo.
La derivada se interpreta como la pendiente de una curva en cada punto. Cuando esa pendiente vale cero, encontraste el lugar óptimo de tu función. Lo mismo aplica al derivar respecto del intercepto.
Este concepto, simple en apariencia, es el motor detrás de prácticamente todos los algoritmos de machine learning que existen hoy. Desde una regresión lineal hasta una red neuronal profunda, en el fondo siempre hay una función que se está minimizando con derivadas.
¿Qué es una derivada en términos simples? Es la pendiente de una curva en un punto específico. Cuando esa pendiente es cero, encontraste un máximo o un mínimo de la función.
¿Cómo se conectan álgebra lineal, cálculo y la incertidumbre?
La narrativa hasta aquí encaja como un rompecabezas:
- El álgebra lineal te permite representar correctamente los objetos sobre los que vas a hacer inferencias, usando vectores y matrices.
- Las predicciones se obtienen mediante un proceso de optimización.
- La optimización se logra gracias al cálculo, en particular usando derivadas para encontrar mínimos.
Pero falta una pieza. Esa optimización nunca es perfecta. Como viste en la regresión lineal, los errores pueden hacerse muy pequeños, pero nunca llegan a cero. Y donde hay errores residuales, hay incertidumbre.
Esa incertidumbre abre la puerta a otra rama fascinante de las matemáticas, y es justo de lo que vas a ver en la próxima clase. ¿Ya tienes una idea de cuál podría ser? Déjala en los comentarios.