Regresión y clasificación en machine learning

Resumen

El aprendizaje supervisado es el tipo de machine learning más usado hoy y funciona como cuando aprendiste a manejar: alguien te enseñó con ejemplos. Si vas a entrar al mundo del machine learning, este es el punto de partida más práctico para entender cómo una máquina aprende a predecir resultados a partir de datos etiquetados.

La idea es simple pero poderosa. Le muestras al modelo muchos ejemplos con su respuesta correcta y, con el tiempo, aprende a responder ante datos nuevos que nunca había visto. Se llama supervisado porque durante el entrenamiento existe una especie de profesor que le indica al modelo cuándo acierta y cuándo se equivoca.

¿Cuáles son los dos tipos de aprendizaje supervisado?

El aprendizaje supervisado se divide en dos grandes familias de problemas, y entender la diferencia te va a ahorrar mucha confusión más adelante.

¿Qué es regresión y qué es clasificación?

La regresión predice un número. La clasificación predice una categoría. Así de directo.

  • Regresión: cuánto costará una casa, cuál será la temperatura de mañana, cuántas ventas habrá el próximo mes.
  • Clasificación: si un correo es spam o no, si una imagen tiene un gato o un perro.

¿Cuál es la diferencia entre regresión y clasificación? La regresión devuelve un valor numérico continuo, como un precio o una temperatura. La clasificación devuelve una etiqueta o categoría, como sí/no o gato/perro.

Lo usamos más de lo que imaginamos. Cuando Netflix predice que te va a gustar una película con 4.2 estrellas, eso es regresión. Cuando Gmail separa tus correos en promociones o social, eso es clasificación.

¿Dónde se aplica el aprendizaje supervisado en la vida real?

Las aplicaciones están en casi todas las industrias y muchas veces ni nos damos cuenta de que están ahí.

En el sector financiero, los bancos usan regresión para estimar cuánto dinero puede pedir un cliente y clasificación para decidir si aprueban o no un crédito. En medicina, la regresión ayuda a ajustar la dosis de un medicamento y la clasificación detecta enfermedades en estudios clínicos.

En la industria automotriz se predice el consumo de gasolina (regresión) o se detecta si un sensor indica una posible falla (clasificación). En agricultura se calcula el rendimiento de una cosecha o se identifican enfermedades en cultivos.

Lo realmente poderoso es que estos modelos encuentran patrones que un humano no vería. Hay sistemas que detectan en electrocardiogramas señales de problemas cardíacos antes de que un médico pueda identificarlos.

¿Cómo se construye un proyecto de aprendizaje supervisado?

En el libro Hands-On Machine Learning se explica que el proceso sigue siempre la misma lógica: recoger datos etiquetados, entrenar un modelo y hacer predicciones sobre datos nuevos. Aplicado a un proyecto real, los pasos son cinco.

  1. Definir con claridad qué quieres predecir.
  2. Recolectar datos de calidad, no cualquier dato sirve.
  3. Entrenar el modelo con esos datos.
  4. Probar qué tan bien funciona.
  5. Usarlo para hacer predicciones sobre datos nuevos.

Y aquí entra una frase que se repite muchísimo en este campo: garbage in, garbage out. Si los datos que alimentas al modelo están mal, incompletos o llenos de sesgos, no importa qué tan elegante sea tu algoritmo, el resultado también será malo.

Otro punto importante: el modelo aprende de lo que ve. Si las condiciones cambian en el futuro y eso no estaba en los datos de entrenamiento, va a fallar. Por eso hay que monitorearlo y actualizarlo constantemente.

¿Qué algoritmos se usan en aprendizaje supervisado?

La elección del algoritmo depende de cuántos datos tienes, qué tan complejo es el problema, si necesitas explicarlo con claridad y cuánto tiempo tienes para entrenar.

¿Qué algoritmos se usan para regresión y clasificación?

Para regresión se usan regresión lineal, árboles de decisión, random forest e incluso redes neuronales. Para clasificación, regresión logística, Naive Bayes, máquinas vectoriales de soporte (SVM) y también redes neuronales.

¿Existe un mejor algoritmo de machine learning? No. Esto se conoce como no free lunch theorem: cada problema tiene su mejor solución según el contexto, los datos y los objetivos.

Kevin Murphy, autor de Machine Learning: A Probabilistic Perspective, lo resume bien: el aprendizaje supervisado funciona porque parte de una idea sencilla pero potente, que si existe una relación entre las variables de entrada y la respuesta que quieres obtener, el trabajo del modelo es encontrar esa relación con los datos que tiene.

¿Por qué la ética importa en el aprendizaje supervisado?

Si tus datos tienen un sesgo, tu modelo también lo tendrá. Punto.

Imagina un sistema de selección de personal entrenado con datos históricos donde ciertos perfiles fueron discriminados. El modelo va a perpetuar ese sesgo y, peor aún, puede parecer que está funcionando bien mientras refuerza desigualdades. Por eso es clave cuestionar de dónde vienen los datos y cómo fueron etiquetados.

Y está el tema de la privacidad. Para entrenar buenos modelos a veces se necesita información personal, así que vale la pena preguntarse cuánta usar y cómo protegerla. Es un debate que apenas estamos empezando a enfrentar como sociedad.

Vale la pena admitirlo: el aprendizaje supervisado no lo es todo. Modelos como GPT fueron entrenados con métodos supervisados a una escala enorme, pero ya estamos viendo modelos híbridos que combinan aprendizaje supervisado, no supervisado y reforzado. ¿Cuál de estas aplicaciones te llamó más la atención? Cuéntame en los comentarios.