Introducción a Computer Vision

1

¿Qué es la visión computarizada y cuáles son sus tipos?

Detección de objetos

2

Introducción a object detection: sliding window y bounding box

3

Generando video de sliding window

4

Introducción a object detection: backbone, non-max suppression y métricas

5

Visualización de IoU en object detection

6

Tipos de arquitecturas en detección de objetos

7

Arquitecturas relevantes en object detection

8

Utilizando un dataset de object detection

9

Carga de dataset de object detection

10

Exploración del dataset de object detection

11

Visualización de bounding boxes en el dataset de object detection

12

Aumentado de datos con Albumentation

13

Implementando Albumentation en object detection

14

Visualizando imágenes con aumentado de datos

15

Utilizando un modelo de object detection pre-entrenado

16

Probar detección de objetos con modelo pre-entrenado

17

Fine-tuning en detección de objetos

18

Fine-tuning en detección de objetos: carga de datos

19

Fine-tuning en detección de objetos: data augmentation

20

Fine-tuning en detección de objetos: entrenamiento

21

Fine-tuning en detección de objetos: visualización de objetos

Quiz: Detección de objetos

Segmentación de objetos

22

Introduciendo la segmentación de objetos

23

Tipos de segmentación y sus arquitecturas relevantes

24

¿Cómo es un dataset de segmentación?

25

Utilizando un dataset de segmentación de objetos

26

Visualización de nuestro dataset de segmentación

27

Creando red neuronal U-Net para segmentación

28

Entrenando y estudiando una red de segmentación

29

Generando predicciones con modelo de object segmentation

Quiz: Segmentación de objetos

Un paso más allá

30

El estado de la cuestión en computer vision

31

Comparte tu proyecto de detección y segmentación de objetos para conducción autónoma y certifícate

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Tipos de arquitecturas en detección de objetos

6/31
Recursos

Aportes 1

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

En una etapa: Realizan la detección + localización en un solo pase hacia delaten de la red.

Por lo general constan de 3 componentes: Un extractor de características, un clasificador y un regresor de cajas.
Estos componentes principales, se entrenan en conjunto para detectar objetos en una imagen.

Elementos clave:

1. Extracción de características: Está etapa es responsable de extraer características importantes de la imagen de entrada. Para esto, se utiliza una CNN pre-entrenada, que se encarga de extraer características visuales de la imagen.
2. Clasificación: Está etapa se encarga de determinar, si la imagen contiene un objeto específico o no. Para esto se utiliza un NN totalmente conectada que toma las características extraídas y las clasifica en diferentes categorías de objetos.
3. Regresión de cajas: Se encargará de determinar la ubicación y el tamaño de la caja que rodea el objeto. Para esto se utiliza otra NN que toma las características extraídas y predice la posición y el tamaño de la caja que rodea el objeto

Multietapa: El proceso se realiza utilizando múltiples etapas. Por lo general, consta de dos componentes principales; un detector de regiones y un clasificador/regresor

Elementos clave:

1. Detector de regiones: Su objetivo es generar una serie de regiones propuestas que puedan contener objetos en la imagen de entrada. Para lograr esto, se utiliza una CNN, que procesa la imagen en ventanas de diferentes tamaños y posiciones, luego utiliza técnicas como la propuesta selectiva de búsqueda (Selective Serch) o redes neuronales regionales convolucionales (R-CNN) para generar regiones candidatas que podrían contener objetos.

2. Clasificación/regresión: Está etapa se encarga de clasificar y regresar las regiones propuestas generadas por el detector de regiones. Para esto, se utiliza una NN totalmente conectada que toma las características extraídas de la región de objetos, o regresa la posición y el tamaño de la caja que rodea el objeto.

A diferencia de la arquitectura una etapa que se entrenan en conjunto. En este tipo de arquitectura se entrenan en dos etapas separadas.
En la primera etapa, se entrena el detector de regiones utilizando técnicas de aprendizaje supervisado, donde se proporcionan ejemplos de imágenes y regiones de objetos verdaderos.
Segunda etapa, se entrena el clasificador/regresor utilizando técnicas de aprendizaje supervisado y los datos de las regiones propuestas y sus correspondientes etiquetas de clases y/o cajas delimitadoras.