Introducción a object detection: sliding window y bounding box

Mario Alexander Vargas Celis

student•

La **detección de objetos** es una técnica clave en la visión computarizada que no solo reconoce qué objetos están presentes en una imagen, sino que también los localiza mediante **bounding boxes** (cajas delimitadoras). Este proceso es esencial para aplicaciones como la conducción autónoma, la vigilancia, la robótica, y muchas otras.

### 1. ¿Qué es la detección de objetos?

La detección de objetos consiste en identificar instancias de objetos de una o más clases (como personas, automóviles, animales, etc.) en una imagen o video y marcarlos con una **caja delimitadora** que define la posición y el tamaño de cada objeto.

### 2. Técnicas básicas de detección de objetos

#### a. Sliding Window

El método de **ventana deslizante (sliding window)** es uno de los enfoques más básicos y antiguos en la detección de objetos. Este método implica:

- **Dividir la imagen**: La imagen se divide en secciones más pequeñas utilizando una ventana de tamaño fijo que se desliza sobre toda la imagen en diferentes posiciones y escalas.

- **Extracción de características**: Para cada posición de la ventana, se extraen características de la imagen que luego se envían a un clasificador (por ejemplo, SVM o una red neuronal simple).

- **Clasificación**: El clasificador determina si la región de la imagen contiene o no el objeto de interés.

- **Escaneo a múltiples escalas**: Para detectar objetos de diferentes tamaños, la ventana se redimensiona y se vuelve a escanear la imagen.

**Ventajas**:

- Simplicidad en su implementación y comprensión.

- Compatible con cualquier clasificador o algoritmo de extracción de características.

**Desventajas**:

- **Computacionalmente costoso**: Escanear la imagen a diferentes escalas y posiciones requiere mucho tiempo de procesamiento, especialmente en imágenes de alta resolución.

- **Ineficiencia**: No es práctico para aplicaciones en tiempo real.

#### b. Bounding Box

Una **bounding box** es un rectángulo que rodea el objeto detectado y se utiliza para marcar su ubicación en la imagen. Las coordenadas de una bounding box se suelen definir mediante cuatro valores: (x\_min, y\_min, x\_max, y\_max), donde (x\_min, y\_min) representa la esquina superior izquierda y (x\_max, y\_max) la esquina inferior derecha.

Las bounding boxes se utilizan junto con los algoritmos de detección de objetos para presentar visualmente dónde se encuentra un objeto detectado dentro de la imagen.

### 3. Limitaciones del enfoque tradicional

El enfoque de sliding window, aunque funcional, es ineficiente para tareas complejas debido a la alta carga computacional y al procesamiento redundante de áreas de la imagen. Esto llevó al desarrollo de métodos más avanzados como:

- **Redes convolucionales (CNN)** para una extracción de características más eficiente.

- **R-CNN (Regions with CNN features)**: Mejora la selección de regiones al aplicar una red convolucional en cada propuesta de región.

- **YOLO (You Only Look Once)** y **SSD (Single Shot MultiBox Detector)**: Técnicas modernas que procesan la imagen completa en un solo paso para detectar objetos en tiempo real.

### 4. ¿Cómo mejoran las técnicas modernas la detección de objetos?

Las técnicas modernas, como YOLO y SSD, reemplazan el enfoque de sliding window con redes neuronales que procesan la imagen en su totalidad y predicen simultáneamente múltiples bounding boxes y las clases de los objetos. Esto resulta en una detección de objetos mucho más rápida y precisa, ideal para aplicaciones en tiempo real.

**Ventajas de los métodos avanzados**:

- **Detección en tiempo real**: Las redes como YOLO pueden procesar múltiples cuadros por segundo.

- **Precisión mejorada**: Mejor rendimiento en términos de precisión y localización de los objetos.

- **Escalabilidad**: Capacidad para trabajar con múltiples clases de objetos de diferentes tamaños.

En conclusión, la **detección de objetos** ha evolucionado significativamente desde enfoques tradicionales como la **sliding window** hasta métodos más avanzados que emplean **bounding boxes** y técnicas de deep learning para mejorar la eficiencia y precisión.

Introducción a object detection: sliding window y bounding box

Introducción a Computer Vision

¿Qué es la visión computarizada y cuáles son sus tipos?

Detección de objetos

Introducción a object detection: sliding window y bounding box

Generando video de sliding window

Introducción a object detection: backbone, non-max suppression y métricas

Visualización de IoU en object detection

Tipos de arquitecturas en detección de objetos

Arquitecturas relevantes en object detection

Utilizando un dataset de object detection

Carga de dataset de object detection

Exploración del dataset de object detection

Visualización de bounding boxes en el dataset de object detection

Aumentado de datos con Albumentation

Implementando Albumentation en object detection

Visualizando imágenes con aumentado de datos

Utilizando un modelo de object detection pre-entrenado

Probar detección de objetos con modelo pre-entrenado

Fine-tuning en detección de objetos

Fine-tuning en detección de objetos: carga de datos

Fine-tuning en detección de objetos: data augmentation

Fine-tuning en detección de objetos: entrenamiento

Fine-tuning en detección de objetos: visualización de objetos

Segmentación de objetos

Introduciendo la segmentación de objetos

Tipos de segmentación y sus arquitecturas relevantes

¿Cómo es un dataset de segmentación?

Utilizando un dataset de segmentación de objetos

Visualización de nuestro dataset de segmentación

Creando red neuronal U-Net para segmentación

Entrenando y estudiando una red de segmentación

Generando predicciones con modelo de object segmentation

Un paso más allá

El estado de la cuestión en computer vision

Comparte tu proyecto de detección y segmentación de objetos para conducción autónoma y certifícate