División de datos en machine learning con train_test_split

Clase 10 de 20 • Curso de Fundamentos de Machine Learning

Resumen

¿Qué es la capacidad de generalización en machine learning?

Para asegurar que un modelo de machine learning realmente funciona con datos nuevos, es fundamental evaluar su capacidad de generalización. Esto implica verificar si el modelo puede mantener un buen rendimiento con datos nunca antes vistos, evitando la memorización u overfitting en conjuntos de entrenamiento.

¿Cómo dividir conjuntos de datos correctamente?

El método recomendado y estándar para verificar la generalización de modelos es dividir el conjunto inicial de datos en dos partes esenciales:

Datos de entrenamiento (train set): Utilizados para que el modelo aprenda.
Datos de prueba o validación (test set): Sirven para comprobar el desempeño del modelo en nuevos datos.

Habitualmente se utiliza una proporción de 80-20, es decir, el 80% para entrenamiento y el 20% restante para prueba, lo cual ofrece un balance ideal entre aprendizaje y validación.

¿Qué es la función train_test_split?

En Python, la función train_test_split proveniente de la biblioteca scikit-learn permite dividir los conjuntos de datos de forma eficiente y aleatoria:

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Aquí, el parámetro test_size determina el tamaño de los datos destinados para pruebas, mientras que random_state asegura que los resultados sean reproducibles en diferentes ejecuciones.

¿Cómo utilizar widgets interactivos en notebooks?

El uso de widgets interactivos en notebooks facilita la exploración dinámica de cómo afecta variar el tamaño de los conjuntos de datos separando entrenamiento y pruebas. Se implementa de siguiente forma:

import ipywidgets as widgets
widgets.interactive(dividir_datos, test_size=widgets.FloatSlider(value=0.2, min=0.1, max=0.5, step=0.01))

Este slider interactivo permite que se observe en tiempo real cómo diferentes proporciones del conjunto de datos influyen en el rendimiento del modelo, contribuyendo así a mejores decisiones sobre el tamaño ideal del set de prueba.

¿Cómo interpretar resultados obtenidos con esta técnica?

Si después de dividir nuestros datos, entrenamos un modelo y obtenemos buenos resultados en el set de prueba, podemos afirmar con confianza que el modelo tiene una buena capacidad para generalizar a situaciones no vistas anteriormente. Esto responde satisfactoriamente a la duda común sobre si el modelo funcionará correctamente frente a nuevos escenarios, perspectivas o contextos.

Juan Acevedo

student••

Esto es muy importante con el tema del overfitting que es cuando el modelo memoriza todos los datos pero no aprende bien los patrones , lo cual hace tener malas predicciones

Como cuando un niño estudia y este solo ve cursos y memoriza información , pero no busca mas allá sino se queda con lo del curso(no va reconocer los patrones de la vida real)

Diana Carolina Torres Castaño

student•

Que buen aporte Juan! Me gusta tu manera de expresarlo y es muy real, aplica para todo tipo de conocimiento.

Jesus Edward Rocca

student•

Overfitting: modelo demasiado complejo, aprende ruido, falla en datos nuevos.

Underfitting: modelo muy simple, no aprende patrones, falla en todos los datos.

Clave: equilibrio entre ambos.

Mario Alexander Vargas Celis

student•

Dividir tus datos en entrenamiento y prueba es una parte fundamental en cualquier proyecto de machine learning. Con scikit-learn, puedes hacerlo fácilmente usando la función train_test_split.

🧠 ¿Por qué dividir los datos?

Entrenamiento (train): se usa para ajustar (entrenar) el modelo.
Prueba (test): se usa para evaluar qué tan bien generaliza el modelo a datos nuevos.
Evita que el modelo aprenda "de memoria" los datos (sobreajuste).

✅ Ejemplo en Python con scikit-learn

Supongamos que tienes un conjunto de datos con características X y etiquetas y:

from sklearn.model_selection import train_test_split

# Supongamos que X y y ya están definidos # X = características (variables independientes) # y = etiqueta (variable objetivo)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

🔍 Parámetros:

test_size=0.2: 20% de los datos se usan para prueba, 80% para entrenamiento.
random_state=42: asegura que la división sea reproducible (siempre igual).

📊 Visualizando tamaños:

print("Tamaño entrenamiento:", X_train.shape) print("Tamaño prueba:", X_test.shape)

📌 Tip adicional:

Si tu conjunto es muy desbalanceado, puedes usar:

train_test_split(X, y, stratify=y, test_size=0.2)

Esto mantiene la proporción de clases tanto en entrenamiento como en prueba.

Jonathan Quiros Barquero

student•

Gabriel Obregón

student•

🧠 Concepto clave: Capacidad de generalización en Machine Learning

Es la habilidad de un modelo para funcionar bien con datos nuevos.
Evita que el modelo simplemente memorice los datos del entrenamiento (overfitting).
Permite aplicar el modelo a situaciones reales y desconocidas.

📊 ¿Cómo dividir los datos?

🔹 Entrenamiento (Train set) → El modelo aprende con estos datos.

🔹 Prueba (Test set) → Evalúa el desempeño con datos nuevos.

✔️ Proporción recomendada: 80% entrenamiento – 20% prueba 🔁 Proporciona equilibrio entre aprender y validar.

🛠️ Herramienta práctica: train_test_split (scikit-learn)

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(

X, y, test_size=0.2, random_state=42)

📌 Claves del código:

test_size=0.2 → usa el 20% para pruebas
random_state=42 → asegura resultados consistentes

🎛️ Widgets interactivos en notebooks

🔧 Usa sliders para explorar cómo afecta cambiar el tamaño del set de prueba:

import ipywidgets as widgets

widgets.interactive(

dividir_datos,

test_size=widgets.FloatSlider(value=0.2, min=0.1, max=0.5, step=0.01))

👀 Observa en tiempo real cómo cambia el rendimiento del modelo 🧩 Ideal para experimentar y encontrar el mejor porcentaje

✅ Interpretación de resultados

🔍 Si el modelo tiene buen rendimiento en el test set: → Generaliza bien → Responde eficazmente a nuevos contextos → Es confiable en escenarios reales

Joel Arturo Becerril Balderas

student•

estoy un poco perdido hasta acá JuanCarlos habla de qué tan buenas o malas son nuestras predicciones pero hasta el momento no hemos predicho anda, vimos que variables tiene mayor impacto en los goles vismo correlaciones, preprocesamos pero no entiendo cuales son las predicciones de las que habla en esa parte del curso...

Percy Tejada

student•

Dividir los datos en entrenamiento y prueba es esencial para evaluar la capacidad real del modelo. Con train_test_split se evita el sobreajuste y se comprueba si el modelo generaliza bien. La proporción recomendada es 80% para entrenamiento y 20% para prueba.

Jorge Luis Jorrin

student••

La división del train/test split depende más de los datos con los que estemos trabajando, no necesariamente debería ser 80/20, hay variantes de 75/25 o 90/10 en dependencia de la cantidad de datos con la que contemos y la naturaleza de los mismos. También existen otras técnicas más avanzadas como k-fold que se usa cuando los datos están repetidos o mezclados en todo el dataset, esto puede pasar con algunos tipos de datos específicos como señales de voz por ejemplo. Lo que si es recomendado en la mayoria de los casos es que los subconjunto de entrenamiento se mayor al de prueba.

Helmuth Alberto Pardo Salinas

student•

Encontré este problema:

Problema: Usas goles_local para predecir diferencia_goles, donde:

diferencia_goles = goles_local - goles_visitante

Esto crea "data leakage"

Data leakage (filtración de datos) es cuando tu modelo tiene acceso a información que no debería conocer al momento de hacer predicciones en el mundo real.

Sugerencia de mejora: Prescindir de goles_local a la hora de definir X.

X = df_partidos[['posesion_local (%)', 'tiros_arco_local']]

diego andres guzman

student•

No sé si alguien me pueda ayudar con ideas. Estaba pensando, cuando trabajamos con notebooks, vamos a tener muchos archivos analizando. Obviamente cada archivo va a tener sus nombres de cabecera diferentes, dependiendo del archivo. Creo que esto no es escalable porque llega una persona nueva, por ejemplo, si se va a trabajar en equipo, debería aprenderesasos nombres de cabecera , es difícil, casi imposible que se puedan aprender todas las columnas. En ese orden de ideas deberíamos estar copiando y pegando esos nombres para usarlos, que se vuelve repetitivo y también es ineficiente. ¿Existe alguna metodología para trabajar esto, para hacer un poco más eficiente el manejo de los nombres de las cabeceras de las columnas?

Ignacio Robles

student•

Qué entretenido ese slider! no tenía idea que existen interactores de ese tipo. Los voy a probar.

Miguel Ávila

student•

Me pueden ayudar con el slider, al ejecutar mi celda en visual studio queda en estado pendiente y nunca visualiza el slider.

Toca incluir otra libreria adicional a las mencionadas en la clase o toca instalar un complemento adiccional en visual. les agredeceria la colaboracion?

Juan Osorio

teacher•

Recuerda importar import ipywidgets as widgets

Jonathan Mauricio Meza Bastidas

student•

Intenta dos cosas que me funcionaron:

Primero: crea un requirements.txt con pip freeze > requirements.txt, esto lo que hace es crear un archivo con la lista de todas las librerías que haz instalado hasta ahora incluyendo las más importantes para el Slider :

ipykernel

ipywidgets

widgetsnbextension

A esa lista incluye la siguiente librería notebook>=7.0.0

Segundo: desactiva el ambiente virtual, elimínalo, y vuelve a crearlo pero esta vez desde VSC como se muestra en la imagen:

ctrl + shift + p , y buscas Python: Create environment. Importante que tengas instalado aparte de la extensión de Jupyter en VSC también la de Python de Microsoft.

Vuelves a activar el ambiente virtual, si usas Linux el comando sería source .venv/bin/activate, una vez activo ejecutas el siguiente comando: pip install -r requirements.txt, esto lo que haría es instalar todas las librerías nuevamente en tu ambiente virtual.

Nos cuentas si te funcionó.

Saludos!

Jhon Freddy Tavera Blandon

student•

Por qué es importante esto

Evitas el overfitting: si entrenas y evalúas con los mismos datos, los resultados no son realistas.

Validez: puedes probar qué tan bien generaliza tu modelo con datos que nunca vio.

Repetibilidad: con random_state=42, aseguras que la división sea la misma siempre (ideal para proyectos colaborativos y científicos).

División de datos en machine learning con train_test_split

Fundamentos de Machine Learning y Contexto Deportivo

Tipos de modelos de machine learning para análisis deportivo

Modelos supervisados para predecir resultados deportivos

Modelos no supervisados para análisis de rendimiento deportivo

Configuración de Python y Jupyter para análisis deportivo

Preparación y Exploración de Datos

Limpieza y preparación de datos deportivos con Pandas

Análisis estadístico del rendimiento de un equipo de fútbol

Técnicas de escalado de datos con Min Max y Standard Scaler

Ingeniería de Características

Creación de variables predictivas en machine learning

Selección de características con SelectKBest y árboles de decisión

Modelado Predictivo Supervisado