Introducción a Computer Vision

1

¿Qué es la visión computarizada y cuáles son sus tipos?

Detección de objetos

2

Introducción a object detection: sliding window y bounding box

3

Generando video de sliding window

4

Introducción a object detection: backbone, non-max suppression y métricas

5

Visualización de IoU en object detection

6

Tipos de arquitecturas en detección de objetos

7

Arquitecturas relevantes en object detection

8

Utilizando un dataset de object detection

9

Carga de dataset de object detection

10

Exploración del dataset de object detection

11

Visualización de bounding boxes en el dataset de object detection

12

Aumentado de datos con Albumentation

13

Implementando Albumentation en object detection

14

Visualizando imágenes con aumentado de datos

15

Utilizando un modelo de object detection pre-entrenado

16

Probar detección de objetos con modelo pre-entrenado

17

Fine-tuning en detección de objetos

18

Fine-tuning en detección de objetos: carga de datos

19

Fine-tuning en detección de objetos: data augmentation

20

Fine-tuning en detección de objetos: entrenamiento

21

Fine-tuning en detección de objetos: visualización de objetos

Quiz: Detección de objetos

Segmentación de objetos

22

Introduciendo la segmentación de objetos

23

Tipos de segmentación y sus arquitecturas relevantes

24

¿Cómo es un dataset de segmentación?

25

Utilizando un dataset de segmentación de objetos

26

Visualización de nuestro dataset de segmentación

27

Creando red neuronal U-Net para segmentación

28

Entrenando y estudiando una red de segmentación

29

Generando predicciones con modelo de object segmentation

Quiz: Segmentación de objetos

Un paso más allá

30

El estado de la cuestión en computer vision

31

Comparte tu proyecto de detección y segmentación de objetos para conducción autónoma y certifícate

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Arquitecturas relevantes en object detection

7/31
Recursos

Aportes 2

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Este blog es mágico para continuar aprendiendo: https://lilianweng.github.io/posts/2017-10-29-object-recognition-part-1/

Aquí tienes una lista de algunas de las arquitecturas más relevantes y populares en detección de objetos, junto con una breve descripción de cada una: \### 1. \*\*R-CNN (Region-based Convolutional Neural Networks)\*\* \- \*\*Descripción:\*\* Introdujo la idea de utilizar una CNN para extraer características de regiones de interés propuestas. Este enfoque utiliza técnicas como Selective Search para generar propuestas de regiones, que luego son clasificadas por una CNN. \- \*\*Ventaja:\*\* Alta precisión en la detección. \### 2. \*\*Fast R-CNN\*\* \- \*\*Descripción:\*\* Mejora de R-CNN que procesa toda la imagen en la CNN una sola vez y utiliza estas características compartidas para clasificar todas las propuestas de región, lo que reduce significativamente el tiempo de inferencia. \- \*\*Ventaja:\*\* Mayor velocidad y eficiencia en comparación con R-CNN. \### 3. \*\*Faster R-CNN\*\* \- \*\*Descripción:\*\* Introduce una Red de Propuestas de Región (RPN) que trabaja en paralelo con la red principal, lo que permite generar propuestas de forma más rápida y eficiente. \- \*\*Ventaja:\*\* Combina velocidad y precisión. \### 4. \*\*YOLO (You Only Look Once)\*\* \- \*\*Descripción:\*\* Aborda la detección de objetos como un problema de regresión en una sola red. Divide la imagen en una cuadrícula y predice bounding boxes y clases de objetos para cada celda en un solo paso. \- \*\*Ventaja:\*\* Extremadamente rápido y adecuado para aplicaciones en tiempo real. \### 5. \*\*SSD (Single Shot MultiBox Detector)\*\* \- \*\*Descripción:\*\* Similar a YOLO, pero utiliza múltiples capas para detectar objetos de diferentes escalas, lo que mejora la precisión en objetos pequeños. \- \*\*Ventaja:\*\* Balance entre velocidad y precisión. \### 6. \*\*RetinaNet\*\* \- \*\*Descripción:\*\* Combina la arquitectura de un solo disparo con un nuevo tipo de pérdida llamada "focal loss", que ayuda a manejar el desbalance entre clases en el entrenamiento. \- \*\*Ventaja:\*\* Alta precisión en objetos difíciles de detectar, manteniendo una velocidad razonable. \### 7. \*\*Mask R-CNN\*\* \- \*\*Descripción:\*\* Extensión de Faster R-CNN que agrega una rama para la segmentación de instancias, permitiendo no solo la detección de objetos, sino también la segmentación de sus contornos. \- \*\*Ventaja:\*\* Capacidad de realizar detección y segmentación simultáneamente. \### 8. \*\*CenterNet\*\* \- \*\*Descripción:\*\* Enfocado en detectar el centro de los objetos y predecir sus dimensiones. Utiliza un enfoque de detección basado en puntos en lugar de propuestas de región. \- \*\*Ventaja:\*\* Simplicidad y efectividad en la detección de objetos. \### 9. \*\*DETR (Detection Transformer)\*\* \- \*\*Descripción:\*\* Un enfoque más reciente que utiliza arquitecturas de transformadores para detectar objetos directamente a partir de la representación de la imagen, eliminando la necesidad de propuestas de región. \- \*\*Ventaja:\*\* Innovador, con resultados competitivos en precisión. \### 10. \*\*Cascade R-CNN\*\* \- \*\*Descripción:\*\* Mejora la precisión utilizando múltiples etapas de detección en cascada, refinando las predicciones en cada etapa. \- \*\*Ventaja:\*\* Precisión mejorada a través de un enfoque estructurado. \### 11. \*\*EfficientDet\*\* \- \*\*Descripción:\*\* Basado en EfficientNet, optimiza la arquitectura para detección de objetos. Utiliza una combinación de técnicas de escalado para mejorar la eficiencia. \- \*\*Ventaja:\*\* Alta precisión con menor costo computacional. \### 12. \*\*Focal Loss\*\* \- \*\*Descripción:\*\* No es una arquitectura en sí, pero es una técnica que se utiliza en modelos como RetinaNet para abordar el problema del desbalance en la detección de objetos. \- \*\*Ventaja:\*\* Mejora el rendimiento en clases difíciles de detectar. \### Consideraciones Finales La elección de la arquitectura adecuada depende de varios factores, incluyendo la precisión requerida, la velocidad de inferencia, y los recursos computacionales disponibles. Las arquitecturas más recientes, como DETR y EfficientDet, están ganando popularidad debido a su rendimiento competitivo y eficiencia.