Reflexión Crítica y Conclusión
Clase 14 de 20 • Curso de Fundamentos de Machine Learning
Resumen
La comprensión de modelos de aprendizaje automático requiere no solo implementarlos, sino también saber evaluar su rendimiento y adaptarse cuando no funcionan como esperamos. En el mundo real, es común tener que pivotar entre diferentes algoritmos hasta encontrar el que mejor se ajusta a nuestros datos y al problema que intentamos resolver. Aprender a interpretar métricas y tomar decisiones basadas en ellas es una habilidad fundamental para cualquier científico de datos.
¿Por qué falló el modelo de regresión lineal?
Al analizar el rendimiento de nuestro modelo de regresión lineal, nos encontramos con resultados poco alentadores. Las métricas revelan un panorama claro:
- El modelo presenta un R² negativo, lo que indica que su desempeño es peor que simplemente predecir el valor promedio de los datos.
- Los errores (RMSE y MAE) son bastante altos, demostrando una pobre capacidad predictiva.
Estos resultados sugieren fuertemente que la relación entre nuestras variables no es lineal. Cuando intentamos forzar una relación lineal en datos que siguen patrones no lineales, el modelo no puede captar adecuadamente estos patrones, resultando en predicciones deficientes.
¿Qué alternativas tenemos frente a un modelo que no funciona?
Cuando un modelo no cumple con nuestras expectativas, es momento de explorar alternativas. En este caso, el árbol de decisión emerge como una opción prometedora:
- Los árboles de decisión pueden capturar relaciones no lineales entre variables.
- Son capaces de modelar interacciones complejas sin asumir una forma específica en los datos.
Al implementar este nuevo enfoque, observamos mejoras significativas en todas las métricas:
- Reducción en RMSE y MAE: Los errores de predicción disminuyeron notablemente.
- R² positivo: A diferencia del modelo lineal, el árbol demuestra capacidad para explicar la variabilidad en los datos.
Estas mejoras confirman nuestra hipótesis: estamos tratando con datos que presentan relaciones no lineales.
¿Qué hemos aprendido hasta ahora?
Este ejercicio nos ha proporcionado valiosas lecciones:
- Preparación de datos y construcción de modelos básicos: Hemos aprendido a procesar datos y crear modelos iniciales para abordar problemas.
- Evaluación mediante métricas: Ahora sabemos interpretar diferentes métricas y utilizarlas para evaluar el rendimiento de nuestros modelos.
- No todos los algoritmos sirven para todos los problemas: Quizás la lección más importante es comprender que debemos adaptar nuestro enfoque según la naturaleza de los datos.
¿Cómo rediseñar nuestra estrategia a partir de estos hallazgos?
Con base en los resultados obtenidos, podemos replantear nuestra aproximación al problema:
- Redefinir un pipeline más adecuado: Utilizar el árbol de decisión como modelo base e iterar sobre él.
- Mejorar las visualizaciones: Crear representaciones visuales que nos ayuden a entender mejor la estructura no lineal de nuestros datos.
- Explorar modelos más robustos: Considerar algoritmos más avanzados que puedan capturar patrones complejos, como:
- Random Forest
- Gradient Boosting
- Redes neuronales
Este nuevo enfoque marca un comienzo más realista y alineado con el comportamiento real de nuestros datos. La capacidad de pivotar y adaptarse cuando los resultados no son los esperados es una habilidad crucial en ciencia de datos.
El camino del aprendizaje automático está lleno de iteraciones y ajustes. Cada "fracaso" nos acerca más a una comprensión profunda de nuestros datos y a soluciones más efectivas. ¿Qué otros modelos crees que podrían funcionar bien con datos no lineales? ¿Has tenido experiencias similares donde tuviste que cambiar completamente tu enfoque?