Comprender la visión computarizada

1

¿Por qué aprender computer vision?

2

¿Qué es la visión computarizada?

3

Tipos de visión computarizada

4

Introducción a object detection: clasificación + localización

5

Aprende a identificar problemas

Dimensionamiento de proyecto de visión computarizada

6

Cómo definir los tiempos de tu proyecto

7

Cómo costear tu proyecto

8

Cómo identificar los roles necesarios en el proyecto

9

Producto mínimo viable en computer vision

Obtención y procesamiento de los datos

10

Obtención de datos para tu proyecto

11

Limpieza de la base de datos

12

Distribución de datos en entrenamiento y testeo

13

Etiquetado de los datos de test

14

Etiquetado de los datos de train

15

Transforma tu base de datos a TFRecord

16

Transformar CSV a TFRecord

Entrena, testea y optimiza tus modelos

17

Librerías a importar durante fase de entrenamiento

18

Fase de entrenamiento del modelo

19

Balanceo de imágenes y data augmentation

20

Entrena, evalua y optimiza con TensorBoard

21

Validación de modelo en un entorno de ejecución

22

Re-entrenamiento del modelo para obtener mejores resultados

23

Seguimiento de centroides con OpenCV

24

Configuración de los centroides con OpenCV

25

Algoritmo de dirección y conteo con OpenCV

26

Crea un ciclo de entrenamiento de tu modelo: MLOps

Producto con visión computarizada en producción

27

Prepara tu entorno en Google Cloud Platform

28

Carga y preprocesamiento de modelos

29

Postprocesamiento de modelos

30

Despliega y consume tu modelo en producción

31

Bonus: aprende a apagar las máquinas de GCP para evitar sobrecostos

Siguientes pasos en inteligencia artificial

32

Siguientes pasos en inteligencia artificial

33

Comparte tu proyecto de detección de vehículos en carretera y certifícate

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Distribución de datos en entrenamiento y testeo

12/33
Recursos

Aportes 6

Preguntas 3

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Para cargar el archivo creado directamente en Google Drive, pueden usar el sieguiente comando:

!cp -r <CURRENT FILE PATH> <PATH YOU WANT TO SAVE>

Por ejemplo:

!cp -r '/content/datasetFinal.zip' '/content/drive/MyDrive/IA/Proyecto de computer vision/'

Previo a ello, para conectar collab con drive:

from google.colab import drive
drive.mount('/content/drive')

Otra forma de descomprimir los datos es con comandos:

!unzip dataset.zip

Si tienen el dataset_filtrado.zip dentro de una carpeta hay que agregar /
local_zip = “/dataset_filtrado.zip”

Distribuir los datos de manera adecuada entre los conjuntos de entrenamiento, validación y testeo es esencial para desarrollar modelos de machine learning robustos y confiables. A continuación te explico en qué consiste cada uno de estos conjuntos y cómo distribuir los datos. \### 1. \*\*División básica de los datos\*\* \- \*\*Entrenamiento (Training Set)\*\*: Conjunto que el modelo usa para aprender. Suele representar el mayor porcentaje de los datos, entre el 60% y el 80%, para asegurar que el modelo tenga suficiente información para generalizar patrones. \- \*\*Validación (Validation Set)\*\*: Conjunto para ajustar los hiperparámetros del modelo y evaluar su rendimiento de forma preliminar, sin sesgarse hacia los datos de entrenamiento. Generalmente representa entre el 10% y el 20% de los datos. \- \*\*Testeo (Test Set)\*\*: Conjunto final que se utiliza únicamente para medir el rendimiento real del modelo después de haber sido entrenado y ajustado. Representa entre el 10% y el 20% de los datos. \### 2. \*\*Proporciones comunes de división\*\* \- Para proyectos pequeños o medianos, las proporciones más comunes suelen ser: \- \*\*80% Entrenamiento - 10% Validación - 10% Testeo\*\* \- \*\*70% Entrenamiento - 15% Validación - 15% Testeo\*\* \- Para proyectos con grandes cantidades de datos, podrías usar: \- \*\*90% Entrenamiento - 5% Validación - 5% Testeo\*\* \### 3. \*\*Técnicas de división de datos\*\* \- \*\*División aleatoria (Random Split)\*\*: Ideal para conjuntos de datos balanceados y grandes, donde la variabilidad se mantiene en cada conjunto. En Python, puedes utilizar `train\_test\_split` de `scikit-learn`: ```python from sklearn.model\_selection import train\_test\_split X\_train, X\_temp, y\_train, y\_temp = train\_test\_split(X, y, test\_size=0.3, random\_state=42) X\_val, X\_test, y\_val, y\_test = train\_test\_split(X\_temp, y\_temp, test\_size=0.5, random\_state=42) ``` \- \*\*K-Fold Cross-Validation\*\*: Técnica que divide el conjunto de entrenamiento en `K` subconjuntos. Se entrena el modelo `K` veces, cada vez usando un subconjunto diferente como validación y el resto para entrenamiento. \- \*\*Estratificación (Stratified Split)\*\*: Útil cuando los datos tienen clases desbalanceadas, asegurando que cada conjunto (entrenamiento, validación, testeo) tenga la misma proporción de clases. \### 4. \*\*Consideraciones adicionales\*\* \- \*\*Datos de series temporales\*\*: Si tienes datos secuenciales (por ejemplo, series temporales), lo ideal es dividirlos de forma cronológica, utilizando los primeros datos para entrenamiento y los últimos para validación y prueba. \- \*\*Datos de visión computarizada\*\*: Para conjuntos de imágenes, asegúrate de que las categorías y variaciones (como iluminación, ángulos, etc.) estén representadas en todos los conjuntos. \### 5. \*\*Ejemplo de división en un proyecto de visión computarizada\*\* En un proyecto de detección de objetos, podrías distribuir así los datos: \- \*\*80% Entrenamiento\*\*: Imágenes con distintas clases de objetos bajo diferentes condiciones. \- \*\*10% Validación\*\*: Imágenes representativas de todas las clases para ajustar el modelo. \- \*\*10% Testeo\*\*: Imágenes que no se han usado para validar ni entrenar, evaluando el rendimiento final del modelo. Definir bien esta distribución ayuda a tener un modelo bien ajustado y a evitar sobreajustes o subajustes.
**En otros casos también está el conjunto de Validación** Es otro subconjunto que se usa durante el proceso de entrenamiento para afinar los hiperparámetros del modelo (como la tasa de aprendizaje o la regularización). El modelo se entrena en el conjunto de entrenamiento y se evalúa en el conjunto de validación para seleccionar los mejores hiperparámetros. Suele representar entre el **10% y el 15%** del dataset.

Google Colab permite montar su unidad de Google Drive de manera muy simple:
En la sección de archivos pueden encontrar la opción “Mount drive”. Pueden leer y escribir directamente en Drive, así lo que hagan persiste luego de terminada la sesión de Colab.