Creación de variables predictivas en machine learning
Clase 8 de 20 • Curso de Fundamentos de Machine Learning
Contenido del curso
Preparación y Exploración de Datos
Ingeniería de Características
Modelado Predictivo Supervisado
- 10

División de datos en machine learning con train_test_split
07:31 min - 11

Creación de modelos de regresión lineal para predecir goles
10:06 min - 12

Métricas para evaluar modelos de Machine Learning en predicciones
09:45 min - 13

Análisis de métricas R² en modelos de regresión deportiva
02:48 min - 14

Cuándo elegir regresión lineal vs árboles de decisión
02:09 min
Aprendizaje No Supervisado
Pipeline y Proyecto Final
Introducción al Deep Learning
NLP en nuestro caso de uso
¿Alguna vez has escuchado sobre la ingeniería de características o feature engineering? Si trabajas con machine learning o quieres optimizar tus predicciones, saber crear nuevas variables es fundamental. Básicamente, la ingeniería de características consiste en transformar datos crudos en información más relevante para los modelos, ayudándolos a descubrir patrones más profundos y efectivos.
¿Qué es exactamente la ingeniería de características?
La ingeniería de características implica generar nuevas variables a partir de las existentes. Al hacerlo, los algoritmos pueden captar mejor lo que sucede realmente con nuestros datos. Por ejemplo, en un análisis futbolístico, en lugar de usar únicamente los goles marcados por separado, podemos crear variables como:
- Diferencia de goles: goles locales menos goles visitantes.
- Ratio de tiros sobre posesión local: tiros al arco locales sobre posesión local.
Estas nuevas variables aportan mayor contexto y permiten modelos más precisos.
¿Cómo crear nuevas variables claves en nuestro dataset?
En este caso práctico, utilizamos Python y la librería pandas para crear nuevas variables útiles en nuestro proyecto futbolístico.
Diferencia de goles como variable objetivo
Esta variable, calculada de la siguiente forma:
df['diferencia_goles'] = df['goles_local'] - df['goles_visitante']
permite determinar claramente si el equipo ganó, empató o perdió.
Ratio de tiros sobre posesión local
Creamos esta otra nueva característica clave usando esta fórmula:
df['ratio_tiros_posesion_local'] = df['tiros_arco_local'] / df['posesion_local']
Este dato revela cuánto aprovecha realmente el equipo la posesión para generar oportunidades.
¿Por qué estas variables ayudan tanto a mejorar las predicciones?
Los modelos basados en algoritmos no identifican automáticamente relaciones profundas y contextuales. La creación de estas nuevas variables proporciona a nuestros modelos la capacidad de identificar patrones valiosos al entregarles información procesada más significativa. Una sola nueva variable, como la diferencia de goles, puede ofrecer mejoras significativas, superiores incluso a cambiar el algoritmo utilizado.
Visualización y análisis posterior
Más allá de simplemente crear nuevas variables, se necesitan visualizar y analizar para evaluar su eficacia. En el proyecto, realizamos estas dos acciones clave:
- Histograma muestra la distribución de la diferencia de goles y nos indica rápidamente cómo tiende a desenvolverse nuestro equipo en los partidos.
- Mapa de calor (correlación): calcula y presenta visualmente la correlación entre las variables originales y las nuevas creadas, detectando relaciones lineales útiles.
Por ejemplo, la diferencia de goles mostró una correlación destacada con los goles de local, alcanzando un valor de 0.67, indicando que es una variable sumamente informativa.
Te invito a revisar estos procesos en detalle y compartir en los comentarios tu percepción sobre estas técnicas: ¿cómo crees que podrían impactar directamente en tu proyecto?