Distribución de datos en entrenamiento y testeo

Curso Profesional de Computer Vision con TensorFlow

Contenido del curso

Comprender la visión computarizada

Dimensionamiento de proyecto de visión computarizada

Obtención y procesamiento de los datos

Entrena, testea y optimiza tus modelos

Producto con visión computarizada en producción

Siguientes pasos en inteligencia artificial

Tomar examen

Distribución de datos en entrenamiento y testeo

Mario Alexander Vargas Celis

Estudiante

Distribuir los datos de manera adecuada entre los conjuntos de entrenamiento, validación y testeo es esencial para desarrollar modelos de machine learning robustos y confiables. A continuación te explico en qué consiste cada uno de estos conjuntos y cómo distribuir los datos.

### 1. **División básica de los datos**

- **Entrenamiento (Training Set)**: Conjunto que el modelo usa para aprender. Suele representar el mayor porcentaje de los datos, entre el 60% y el 80%, para asegurar que el modelo tenga suficiente información para generalizar patrones.

- **Validación (Validation Set)**: Conjunto para ajustar los hiperparámetros del modelo y evaluar su rendimiento de forma preliminar, sin sesgarse hacia los datos de entrenamiento. Generalmente representa entre el 10% y el 20% de los datos.

- **Testeo (Test Set)**: Conjunto final que se utiliza únicamente para medir el rendimiento real del modelo después de haber sido entrenado y ajustado. Representa entre el 10% y el 20% de los datos.

### 2. **Proporciones comunes de división**

- Para proyectos pequeños o medianos, las proporciones más comunes suelen ser:

- **80% Entrenamiento - 10% Validación - 10% Testeo**

- **70% Entrenamiento - 15% Validación - 15% Testeo**

- Para proyectos con grandes cantidades de datos, podrías usar:

- **90% Entrenamiento - 5% Validación - 5% Testeo**

### 3. **Técnicas de división de datos**

- **División aleatoria (Random Split)**: Ideal para conjuntos de datos balanceados y grandes, donde la variabilidad se mantiene en cada conjunto. En Python, puedes utilizar train\_test\_split de scikit-learn:

```python

from sklearn.model_selection import train_test_split

X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)

X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

```

- **K-Fold Cross-Validation**: Técnica que divide el conjunto de entrenamiento en K subconjuntos. Se entrena el modelo K veces, cada vez usando un subconjunto diferente como validación y el resto para entrenamiento.

- **Estratificación (Stratified Split)**: Útil cuando los datos tienen clases desbalanceadas, asegurando que cada conjunto (entrenamiento, validación, testeo) tenga la misma proporción de clases.

### 4. **Consideraciones adicionales**

- **Datos de series temporales**: Si tienes datos secuenciales (por ejemplo, series temporales), lo ideal es dividirlos de forma cronológica, utilizando los primeros datos para entrenamiento y los últimos para validación y prueba.

- **Datos de visión computarizada**: Para conjuntos de imágenes, asegúrate de que las categorías y variaciones (como iluminación, ángulos, etc.) estén representadas en todos los conjuntos.

### 5. **Ejemplo de división en un proyecto de visión computarizada**

En un proyecto de detección de objetos, podrías distribuir así los datos:

- **80% Entrenamiento**: Imágenes con distintas clases de objetos bajo diferentes condiciones.

- **10% Validación**: Imágenes representativas de todas las clases para ajustar el modelo.

- **10% Testeo**: Imágenes que no se han usado para validar ni entrenar, evaluando el rendimiento final del modelo.

Definir bien esta distribución ayuda a tener un modelo bien ajustado y a evitar sobreajustes o subajustes.

Distribución de datos en entrenamiento y testeo

Comprender la visión computarizada

¿Por qué aprender computer vision?

¿Qué es la visión computarizada?

Tipos de visión computarizada

Introducción a object detection: clasificación + localización

Aprende a identificar problemas

Dimensionamiento de proyecto de visión computarizada

Cómo definir los tiempos de tu proyecto

Cómo costear tu proyecto

Cómo identificar los roles necesarios en el proyecto

Producto mínimo viable en computer vision

Obtención y procesamiento de los datos

Obtención de datos para tu proyecto

Limpieza de la base de datos