Ingeniería de características para mejorar modelos de machine learning

Clase 8 de 20 • Curso de Fundamentos de Machine Learning

Resumen

La ingeniería de características, también conocida como feature engineering, es una herramienta fundamental en el ámbito del machine learning. Su objetivo principal consiste en crear nuevas variables a partir de datos ya existentes. Esto permite a los modelos identificar patrones más profundos y útiles, mejorando así notablemente su desempeño predictivo.

¿Por qué es valiosa la ingeniería de características?

Esta técnica transforma datos simples en información más relevante para los modelos. Sabemos que los algoritmos no son capaces de detectar relaciones ocultas automáticamente; sin embargo, un analista puede crear variables estratégicas que aporten nuevo contexto al algoritmo:

Diferencia de goles: goles del equipo local menos goles del visitante, útil para predecir si un equipo ganó, perdió o empató.
Ratio de tiros sobre posesión: relaciona los disparos realizados con la posesión durante el juego, midiendo eficiencia ofensiva.

Ambas variables aportan información valiosa que no está explícitamente escrita en los datos originales.

¿Qué pasos seguir para crear nuevas variables?

El proceso para implementar estas nuevas variables se desglosa en los siguientes bloques prácticos:

Bloque número uno: importar datos

Aquí es clave importar las bibliotecas necesarias, principalmente pandas, para tener acceso organizado y eficiente a los datos completos.

Bloque número dos: calcular diferencia de goles

Esta nueva columna se crea restando los goles del equipo visitante a los del local, ayudándonos a entender rápidamente el desempeño de los equipos.

Bloque número tres: evaluar la eficiencia ofensiva

Se crea un ratio dividiendo los tiros al arco local sobre la posesión del equipo local. Este índice mide directamente la capacidad de aprovechar la posesión del balón para generar tiros al arco.

Bloque número cuatro: visualizar con histogramas

Visualizar los datos es crucial. Aquí se recomienda utilizar hist plot de seaborne para observar la distribución de la diferencia de goles:

Importar bibliotecas (seaborne y matplotlib).
Usar hist plot evaluando gráfica y visualmente la distribución.

Esto permite una interpretación rápida sobre cómo se comporta esta nueva variable: ¿el equipo tiende más a empatar, perder o ganar?

Bloque número cinco: establecer correlaciones

Finalmente, se utiliza un mapa de calor (heat map) para evaluar la correlación entre variables originales y aquellas recientemente creadas. Esto es determinante para comprobar la utilidad real de estas características añadidas.

Por ejemplo, una fuerte correlación encontrada en el análisis fue entre goles locales y la diferencia de goles, indicando una relación sólida que puede mejorar los modelos predictivos.

¿Y tú qué opinas de estas nuevas variables? ¿En qué situaciones crees que podrían aportarte un mayor valor predictivo? Cuéntanos tu experiencia en los comentarios.