Comprender la visión computarizada

1

¿Por qué aprender computer vision?

2

¿Qué es la visión computarizada?

3

Tipos de visión computarizada

4

Introducción a object detection: clasificación + localización

5

Aprende a identificar problemas

Dimensionamiento de proyecto de visión computarizada

6

Cómo definir los tiempos de tu proyecto

7

Cómo costear tu proyecto

8

Cómo identificar los roles necesarios en el proyecto

9

Producto mínimo viable en computer vision

Obtención y procesamiento de los datos

10

Obtención de datos para tu proyecto

11

Limpieza de la base de datos

12

Distribución de datos en entrenamiento y testeo

13

Etiquetado de los datos de test

14

Etiquetado de los datos de train

15

Transforma tu base de datos a TFRecord

16

Transformar CSV a TFRecord

Entrena, testea y optimiza tus modelos

17

Librerías a importar durante fase de entrenamiento

18

Fase de entrenamiento del modelo

19

Balanceo de imágenes y data augmentation

20

Entrena, evalua y optimiza con TensorBoard

21

Validación de modelo en un entorno de ejecución

22

Re-entrenamiento del modelo para obtener mejores resultados

23

Seguimiento de centroides con OpenCV

24

Configuración de los centroides con OpenCV

25

Algoritmo de dirección y conteo con OpenCV

26

Crea un ciclo de entrenamiento de tu modelo: MLOps

Producto con visión computarizada en producción

27

Prepara tu entorno en Google Cloud Platform

28

Carga y preprocesamiento de modelos

29

Postprocesamiento de modelos

30

Despliega y consume tu modelo en producción

31

Bonus: aprende a apagar las máquinas de GCP para evitar sobrecostos

Siguientes pasos en inteligencia artificial

32

Siguientes pasos en inteligencia artificial

33

Comparte tu proyecto de detección de vehículos en carretera y certifícate

Crea una cuenta o inicia sesión

¡Continúa aprendiendo sin ningún costo! Únete y comienza a potenciar tu carrera

No se trata de lo que quieres comprar, sino de quién quieres ser. Aprovecha el precio especial.

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

13 Días
15 Hrs
18 Min
0 Seg

Introducción a object detection: clasificación + localización

4/33
Recursos

Aportes 11

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

4. Introducción a object detection = clasificación + localización + seguimiento

Detección de objetos

Esta compuesta de dos etapas sucesivas:

  • Localización del objeto: Define una frontera rectangular llamada bounding box alrededor del objeto a detectar.
  • Detección del objeto: Le asigna una etiqueta al objeto.

Arquitectura de la detección de objetos

Se utilizan redes neuronales convolucionales que incluyen las dos etapas —localización y detección.

Métricas relevantes

Además de las dos métricas comunes —accuracy y loss— se tiene otra métrica:

Intersección entre uniones (IoU)

Se utiliza para medir el solapamiento de dos o más bounding boxes. Se define de la siguiente manera.

$$
\text{IOU} = \frac{\text{Intersection}}{Union}
$$

Va de 0 a 1 donde 1 significa que las dos regiones son idénticas.

Object detection and selective search

El sistema utiliza pequeñas ventanas que recorren toda la imagen.

Existe un problema cuando el objeto es más grande que estas ventanas, pues será categorizado múltiples veces en varios bounding boxes que se resuelve con selección selectiva,

Non maximum suppresion (NMS)

Es una variable que define un umbral de IoU que define cuando se deben considerar dos o más bounding boxes de un mismo objeto. Si una bounding box no supera este umbral, es descartada. De lo contrario es almacenada.

Al final, la bounding box elegida es aquella que tiene mayor IoU.

Algortimos más utilizados

  • R-CNN
  • Faster R-CNN
  • YOLO
  • SSD

Single Shot Detector (SSD)

Es el algoritmo que se usa en el curso.

Feature Map

Así se llama el resultado la detección de bounding boxes en SSD.

MobileNet V1

  • Es el clasificador. Es de Google y de bajo coste.

  • Aplica la convolución a cada canal por separado —por ejemplo, en una imagen RGB hay un canal R, un canal G y uno B— en lugar de a toda la matriz. Esto ahorra recursos.

  • DeepWise: Separa las dimensiones de cada color de la matriz en la parte inicial de la red convolucional.

  • PointWise: Da sentido a los resultados individuales de cada dimensión de color, juntándolos.

  • Otra ventaja es que aplican conjuntos de filtros unidos en lugar de los filtros tradicionales.

  • Originalmente el clasificaba sólo 1000 objetos.

MobileNet V2

  • Mejora la V1 agregando un proceso llamado expansión. Si la imagen es pequeña, la expande añadiendo dimensiones hasta 144, haciendo a la red más robusta.

  • Projection Layer Es una capa que devuelve la imagen a sus dimensiones originales.

  • Contempla que existía no linealidad.

Que buena clase y que bien explica Adonaí . Imaginense llevar esta clase con un señor todo mal humorado de 60 años, en un salón de clase y encima que le molesta estar repitiendo la explicación. Prefiero estar acá.

BOUNDING BOX
Cuadro delimitador dentro del cual se encuentran todos los pixeles de la imagen analizada.

Detección de objetos es regresión y clasificación al mismo tiempo.

Esos diagramas te dan la idea de la arquitectura de la red.

La \*\*detección de objetos\*\* (object detection) es una tarea de la visión computarizada que combina dos aspectos fundamentales: la \*\*clasificación\*\* y la \*\*localización\*\* de objetos en una imagen. Es una de las áreas más aplicadas en campos como la seguridad, el comercio y la conducción autónoma, ya que permite a los sistemas identificar y localizar objetos de interés en tiempo real. \### 1. Clasificación + Localización: Componentes clave de la detección de objetos La detección de objetos consiste en: \- \*\*Clasificación\*\*: Identificar qué tipo de objeto está presente en una imagen o en una región de la imagen. Esto implica asignar una etiqueta a cada objeto (por ejemplo, "persona", "perro" o "auto"). \- \*\*Localización\*\*: Determinar la posición de cada objeto en la imagen. Esto se representa comúnmente con \*\*cajas delimitadoras\*\* (bounding boxes) que encierran cada objeto, especificando sus coordenadas y permitiendo así su ubicación precisa. La detección de objetos combina estas dos tareas al mismo tiempo. Esto significa que no solo dice qué objeto está presente, sino que también señala dónde está cada objeto en la imagen. \### 2. Técnicas y enfoques en la detección de objetos Para lograr la combinación de clasificación y localización, los modelos de detección de objetos han evolucionado hacia arquitecturas que pueden detectar múltiples objetos en diferentes posiciones. Existen algunos enfoques comunes en la detección de objetos: \#### Modelos basados en regiones (R-CNN y variantes) \- \*\*R-CNN (Regions with Convolutional Neural Networks)\*\*: Fue uno de los primeros modelos para detección de objetos. Genera propuestas de regiones (posibles ubicaciones de objetos) y luego usa una red neuronal convolucional para clasificar y ajustar una caja delimitadora. \- \*\*Fast R-CNN y Faster R-CNN\*\*: Mejoran la velocidad y precisión de R-CNN mediante la optimización de la generación de regiones y el uso de una única red para clasificar y ajustar las cajas en lugar de analizar cada región de forma individual. \#### Modelos de detección en un solo paso (YOLO, SSD) \- \*\*YOLO (You Only Look Once)\*\*: YOLO es un modelo de detección en un solo paso que procesa la imagen completa en una sola pasada, dividiéndola en una cuadrícula y prediciendo directamente las cajas y clasificaciones de los objetos. Es extremadamente rápido, ideal para aplicaciones en tiempo real. \- \*\*SSD (Single Shot MultiBox Detector)\*\*: Similar a YOLO, SSD detecta objetos en una sola pasada pero mejora la precisión mediante el uso de diferentes tamaños de cajas para detectar objetos de diversas escalas. Estos enfoques permiten detectar múltiples objetos en una imagen, cada uno con una caja delimitadora y una etiqueta de clasificación. \### 3. Métricas en la detección de objetos: IoU y mAP Las métricas comunes en detección de objetos incluyen: \- \*\*IoU (Intersection over Union)\*\*: Mide la superposición entre la caja delimitadora predicha y la caja delimitadora real. Cuanto más alta sea la IoU, más precisa es la detección. \- \*\*mAP (Mean Average Precision)\*\*: Promedio de precisión en todas las clases detectadas en un conjunto de datos. Es una métrica usada para evaluar la precisión general del modelo de detección. \### 4. Aplicaciones de la detección de objetos La combinación de clasificación y localización es fundamental para una gran variedad de aplicaciones prácticas: \- \*\*Conducción autónoma\*\*: Para identificar y localizar peatones, vehículos, señales de tránsito, entre otros elementos en la carretera. \- \*\*Sistemas de vigilancia\*\*: Para detectar personas u objetos sospechosos y rastrear su ubicación. \- \*\*Análisis de imágenes médicas\*\*: En diagnóstico, para detectar y localizar células o patrones anómalos, como tumores en escáneres médicos. \- \*\*Retail y comercio electrónico\*\*: Identificación y conteo de productos en almacenes o estanterías. \### 5. Cómo funciona un modelo típico de detección de objetos En términos básicos, el proceso de detección de objetos sigue estos pasos: 1\. \*\*Preprocesamiento\*\*: La imagen es transformada (por ejemplo, cambiada de tamaño) para adaptarse al modelo. 2\. \*\*Generación de propuestas de región\*\* (en modelos basados en regiones) o \*\*pasada completa en una cuadrícula\*\* (en modelos de un solo paso). 3\. \*\*Clasificación y ajuste de cajas\*\*: Para cada región, el modelo clasifica y ajusta las cajas delimitadoras para identificar los objetos presentes y su ubicación. 4\. \*\*Post-procesamiento\*\*: Filtrado de resultados redundantes mediante técnicas como supresión de no-máximos (Non-Maximum Suppression, NMS) para asegurar que cada objeto tenga una única detección. La detección de objetos es fundamental en visión computarizada, y los avances en esta tecnología han mejorado considerablemente la precisión y eficiencia en aplicaciones prácticas y en tiempo real.
**Algoritmos populares para detección de objetos:** Existen varios algoritmos y modelos diseñados específicamente para la detección de objetos, que combinan clasificación y localización: **YOLO (You Only Look Once)**: Es un algoritmo en tiempo real que divide la imagen en una cuadrícula y predice simultáneamente las cajas delimitadoras y las probabilidades de las clases para cada celda. Es altamente eficiente y adecuado para aplicaciones en tiempo real, como cámaras de vigilancia o vehículos autónomos. **SSD (Single Shot Multibox Detector)**: SSD es similar a YOLO y también realiza detección en una sola pasada. Proporciona un balance entre precisión y velocidad, dividiendo la imagen en múltiples escalas y utilizando diferentes tamaños de cajas para detectar objetos de diferentes tamaños. **R-CNN (Region-based CNN)**: Este algoritmo primero propone regiones de interés en la imagen y luego aplica CNN para clasificar y localizar los objetos en esas regiones. Versiones mejoradas como **Fast R-CNN** y **Faster R-CNN** han optimizado el rendimiento y la velocidad.
a poco si
😅😅😅

Curioso

¡Hola!

Quería compartir con ustedes un webinar que se llevará a cabo este jueves 16 de marzo sobre el tema de machine learning aplicado en computer vision. Estoy segura de que será un excelente complemento para este curso.

El profe Adonai Vera estará dando una de las charlas!

A continuación, les comparto el enlace a la página del webinar https://bit.ly/webinar_Platzi