Optimización en Machine Learning: Regresión Lineal y Cálculo Diferencial

Clase 17 de 23Curso de Fundamentos de AI para Data y Machine Learning

Contenido del curso

Resumen

Comprender por qué el cálculo es fundamental para la inteligencia artificial cambia por completo la forma en que se abordan los algoritmos de aprendizaje. La clave está en una sola palabra: optimización. Cada vez que un modelo de machine learning realiza una predicción, existe un proceso matemático que busca el mejor resultado posible, y ese proceso vive en el corazón del cálculo diferencial.

¿Cómo se conecta la representación numérica con la predicción?

Antes de optimizar cualquier modelo, es necesario representar los objetos del mundo real de forma que una máquina pueda procesarlos. Como se explica al inicio [0:28], esa representación se traduce en arreglos de números: si tienen una sola dimensión (filas o columnas) se denominan vectores; si tienen filas y columnas, se denominan matrices. Esta rama corresponde al álgebra lineal.

Una vez que los datos están expresados numéricamente, un algoritmo matemático puede operar sobre ellos para generar predicciones o inferencias. Sin embargo, esas predicciones no surgen por arte de magia: requieren un paso adicional que las haga lo más precisas posible.

¿Qué significa optimizar en el contexto del cálculo diferencial?

Optimizar significa encontrar los valores máximos o mínimos de una función matemática [1:18]. En cálculo diferencial, esto es algo natural: se buscan los puntos donde la pendiente de una curva es igual a cero, lo que indica un máximo o un mínimo.

En machine learning, el objeto numérico que representa los datos se convierte en una función. Los puntos donde esa función alcanza su valor mínimo determinan el estado óptimo de la predicción. De ahí que el cálculo sea una herramienta indispensable.

¿Cómo funciona la optimización en la regresión lineal?

El ejemplo clásico es la regresión lineal [2:08]. Supón que tienes dos variables —tiempo y precio— y un conjunto de puntos que muestran cómo cambia el precio a lo largo del tiempo. El objetivo es ajustar una recta descrita por la ecuación:

  • y = mx + b

donde m es la pendiente y b es el intercepto. Se necesita encontrar los valores de m y b que hagan que esa recta describa los datos de la mejor manera posible.

¿Qué papel juega el error cuadrático?

Para cada punto de los datos, existe una diferencia entre el valor real y el valor que el modelo estima [3:05]. Esa diferencia se llama error:

  • Error del punto i: (mx_i + b) − y_i.

Algunos errores son positivos y otros negativos, dependiendo de si el punto queda por encima o por debajo de la recta. Para evitar que se cancelen entre sí, cada error se eleva al cuadrado y luego se suman todos [3:52]. El resultado es el error cuadrático total.

La regresión lineal establece que la mejor recta es aquella que minimiza ese error cuadrático total. Las coordenadas de los puntos (x_i, y_i) son números conocidos; las incógnitas son únicamente m y b. Por lo tanto, el error total se expresa como una función de dos variables: f(m, b).

¿Por qué las derivadas son la herramienta clave para encontrar el mejor modelo?

Para minimizar esa función se recurre a las derivadas [5:07]. Cuando se deriva la función respecto de la pendiente m y se iguala a cero, se localiza el punto donde la función deja de decrecer y comienza a crecer, es decir, su mínimo. Lo mismo se hace respecto de b.

  • La derivada representa la pendiente de la curva en un punto dado.
  • Cuando esa pendiente vale cero, se ha encontrado el punto óptimo.

Este concepto fundamental permite realizar todo tipo de optimizaciones en los distintos algoritmos de machine learning que existen [5:35]. No se limita a la regresión lineal; es la base sobre la que se construyen modelos mucho más complejos.

Hasta aquí, la narrativa queda clara en dos piezas:

  • El álgebra lineal permite representar correctamente los objetos.
  • El cálculo permite optimizar las predicciones sobre esos objetos.

Pero la optimización nunca es perfecta. Siempre quedan errores residuales, por pequeños que sean, y eso introduce un grado de incertidumbre [6:06]. La incertidumbre abre la puerta a otra rama fascinante de las matemáticas que complementa todo el proceso. Si quieres profundizar en cómo se manejan esos errores, comparte tus dudas y sigue explorando los fundamentos matemáticos del aprendizaje automático.