Creando red neuronal U-Net para segmentación

Clase 27 de 31 • Curso de Detección y Segmentación de Objetos con TensorFlow

Edwight Antonio Delgado Lugo

student•

comparto este enlace donde se explica la arquitectura de U-net

https://www.youtube.com/watch?v=waIPUsecaaQ

Julen Alvaro

student•

Hola Sergio, no entiendo por qué la activación de la última capa convolucional es una sigmoide. ¿Al estar clasificando entre más de dos outputs posibles por qué no necesitamos una función de activación 'softmax'?

Alejandro Lloveras

student•

Gracias por el recurso complementario Sergio, super interesante y bien detallado!

Federico Arias

student•

Segun Gemini: En resumen:

Sigmoide: Se utiliza para la segmentación binaria, donde cada píxel se clasifica en una de dos clases.
Softmax: Se utiliza para la segmentación multiclase, donde cada píxel se clasifica en una de varias clases.

Al elegir la función de activación adecuada, puedes adaptar tu red U-Net para resolver una variedad de tareas de segmentación de imágenes.

Federico Arias

student•

Al 2025 ya hay librerias que contienen la arquitectura de U-net y no es necesario crearla desde cero: por ejemplo: - ! pip install segmentation-models-pytorch. Compatible con Pytorch.

Mario Alexander Vargas Celis

student•

La red U-Net es una arquitectura de red neuronal convolucional utilizada para tareas de segmentación. Está diseñada para funcionar especialmente bien con conjuntos de datos limitados y es ampliamente utilizada en segmentación médica, entre otras aplicaciones de segmentación de imágenes.

### Estructura de la Red U-Net

U-Net tiene una estructura de encoder-decoder en forma de "U":

1. **Encoder (Contracción)**: Reduce el tamaño espacial de la imagen mientras extrae características importantes.

2. **Decoder (Expansión)**: Restaura la resolución de la imagen para obtener un mapa de segmentación del mismo tamaño que la imagen original.

3. **Conexiones Skip**: Conectan capas de encoder con capas de decoder correspondientes, lo que ayuda a recuperar información detallada y mejora la precisión.

### Ejemplo de Implementación en Keras/TensorFlow

Aquí tienes un código básico para construir una red U-Net en Keras:


import tensorflow as tf

from tensorflow.keras.layers import Input, Conv2D, MaxPooling2D, Conv2DTranspose, concatenate, Dropout

from tensorflow.keras.models import Model



def unet\_model(input\_size=(128, 128, 3), num\_classes=1):

&#x20;   inputs = Input(input\_size)



&#x20;   \# Encoder

&#x20;   conv1 = Conv2D(64, 3, activation="relu", padding="same")(inputs)

&#x20;   conv1 = Conv2D(64, 3, activation="relu", padding="same")(conv1)

&#x20;   pool1 = MaxPooling2D(pool\_size=(2, 2))(conv1)



&#x20;   conv2 = Conv2D(128, 3, activation="relu", padding="same")(pool1)

&#x20;   conv2 = Conv2D(128, 3, activation="relu", padding="same")(conv2)

&#x20;   pool2 = MaxPooling2D(pool\_size=(2, 2))(conv2)



&#x20;   conv3 = Conv2D(256, 3, activation="relu", padding="same")(pool2)

&#x20;   conv3 = Conv2D(256, 3, activation="relu", padding="same")(conv3)

&#x20;   pool3 = MaxPooling2D(pool\_size=(2, 2))(conv3)



&#x20;   conv4 = Conv2D(512, 3, activation="relu", padding="same")(pool3)

&#x20;   conv4 = Conv2D(512, 3, activation="relu", padding="same")(conv4)

&#x20;   drop4 = Dropout(0.5)(conv4)

&#x20;   pool4 = MaxPooling2D(pool\_size=(2, 2))(drop4)



&#x20;   \# Bottleneck

&#x20;   conv5 = Conv2D(1024, 3, activation="relu", padding="same")(pool4)

&#x20;   conv5 = Conv2D(1024, 3, activation="relu", padding="same")(conv5)

&#x20;   drop5 = Dropout(0.5)(conv5)



&#x20;   \# Decoder

&#x20;   up6 = Conv2DTranspose(512, 2, strides=(2, 2), padding="same")(drop5)

&#x20;   merge6 = concatenate(\[drop4, up6], axis=3)

&#x20;   conv6 = Conv2D(512, 3, activation="relu", padding="same")(merge6)

&#x20;   conv6 = Conv2D(512, 3, activation="relu", padding="same")(conv6)



&#x20;   up7 = Conv2DTranspose(256, 2, strides=(2, 2), padding="same")(conv6)

&#x20;   merge7 = concatenate(\[conv3, up7], axis=3)

&#x20;   conv7 = Conv2D(256, 3, activation="relu", padding="same")(merge7)

&#x20;   conv7 = Conv2D(256, 3, activation="relu", padding="same")(conv7)



&#x20;   up8 = Conv2DTranspose(128, 2, strides=(2, 2), padding="same")(conv7)

&#x20;   merge8 = concatenate(\[conv2, up8], axis=3)

&#x20;   conv8 = Conv2D(128, 3, activation="relu", padding="same")(merge8)

&#x20;   conv8 = Conv2D(128, 3, activation="relu", padding="same")(conv8)



&#x20;   up9 = Conv2DTranspose(64, 2, strides=(2, 2), padding="same")(conv8)

&#x20;   merge9 = concatenate(\[conv1, up9], axis=3)

&#x20;   conv9 = Conv2D(64, 3, activation="relu", padding="same")(merge9)

&#x20;   conv9 = Conv2D(64, 3, activation="relu", padding="same")(conv9)

&#x20;   conv9 = Conv2D(num\_classes, 1, activation="sigmoid")(conv9)



&#x20;   model = Model(inputs=inputs, outputs=conv9)



&#x20;   return model



\# Crear el modelo

model = unet\_model(input\_size=(128, 128, 3), num\_classes=1)

model.compile(optimizer='adam', loss='binary\_crossentropy', metrics=\['accuracy'])

model.summary()

### Explicación del Código

1. **Encoder**: Las capas de convolución extraen características importantes de la imagen. Cada bloque incluye dos capas Conv2D seguidas de una MaxPooling2D para reducir la resolución.

2. **Bottleneck**: Es la parte más profunda de la red, donde las características son representadas en una resolución mínima pero con más profundidad.

3. **Decoder**: Cada capa Conv2DTranspose aumenta la resolución, y las conexiones skip (concatenate) con el encoder permiten conservar la información espacial y mejorar la precisión de la segmentación.

4. **Salida**: La última capa Conv2D genera la máscara de segmentación con una activación sigmoid para mapas binarios de clase única (ajustar según el número de clases en num\_classes).

### Consideraciones de Entrenamiento

- **Tamaño del Dataset**: U-Net funciona bien con datasets relativamente pequeños.

- **Tamaño de la Imagen**: Cambia el parámetro input\_size si tu dataset tiene un tamaño de imagen diferente.

- **Más de una Clase**: Si tienes más de una clase, ajusta num\_classes y usa categorical\_crossentropy como función de pérdida.

Este modelo se puede entrenar con imágenes y máscaras de segmentación para crear un pipeline de segmentación preciso, útil en aplicaciones de visión artificial como medicina, agricultura, y más.

David Hernando Henao Marulanda

student•

Hola Profe, tengo una consulta cuando se definen c2 a c5 en ves de llevar el input_shape no deberian tener la salida del dropout anterior?

gracias

Godofredo Quea

student•

Habra una forma de hacer eso en jupyter notebook.. siento que corre ecxelente en colab pero no en el notebook

import tensorflow as tf

from tensorflow.keras.layers import Input, Conv2D, MaxPooling2D, Conv2DTranspose, concatenate, Dropout

from tensorflow.keras.models import Model

def unet\_model(input\_size=(128, 128, 3), num\_classes=1):

&#x20;   inputs = Input(input\_size)

&#x20;   \# Encoder

&#x20;   conv1 = Conv2D(64, 3, activation="relu", padding="same")(inputs)

&#x20;   conv1 = Conv2D(64, 3, activation="relu", padding="same")(conv1)

&#x20;   pool1 = MaxPooling2D(pool\_size=(2, 2))(conv1)

&#x20;   conv2 = Conv2D(128, 3, activation="relu", padding="same")(pool1)

&#x20;   conv2 = Conv2D(128, 3, activation="relu", padding="same")(conv2)

&#x20;   pool2 = MaxPooling2D(pool\_size=(2, 2))(conv2)

&#x20;   conv3 = Conv2D(256, 3, activation="relu", padding="same")(pool2)

&#x20;   conv3 = Conv2D(256, 3, activation="relu", padding="same")(conv3)

&#x20;   pool3 = MaxPooling2D(pool\_size=(2, 2))(conv3)

&#x20;   conv4 = Conv2D(512, 3, activation="relu", padding="same")(pool3)

&#x20;   conv4 = Conv2D(512, 3, activation="relu", padding="same")(conv4)

&#x20;   drop4 = Dropout(0.5)(conv4)

&#x20;   pool4 = MaxPooling2D(pool\_size=(2, 2))(drop4)

&#x20;   \# Bottleneck

&#x20;   conv5 = Conv2D(1024, 3, activation="relu", padding="same")(pool4)

&#x20;   conv5 = Conv2D(1024, 3, activation="relu", padding="same")(conv5)

&#x20;   drop5 = Dropout(0.5)(conv5)

&#x20;   \# Decoder

&#x20;   up6 = Conv2DTranspose(512, 2, strides=(2, 2), padding="same")(drop5)

&#x20;   merge6 = concatenate(\[drop4, up6], axis=3)

&#x20;   conv6 = Conv2D(512, 3, activation="relu", padding="same")(merge6)

&#x20;   conv6 = Conv2D(512, 3, activation="relu", padding="same")(conv6)

&#x20;   up7 = Conv2DTranspose(256, 2, strides=(2, 2), padding="same")(conv6)

&#x20;   merge7 = concatenate(\[conv3, up7], axis=3)

&#x20;   conv7 = Conv2D(256, 3, activation="relu", padding="same")(merge7)

&#x20;   conv7 = Conv2D(256, 3, activation="relu", padding="same")(conv7)

&#x20;   up8 = Conv2DTranspose(128, 2, strides=(2, 2), padding="same")(conv7)

&#x20;   merge8 = concatenate(\[conv2, up8], axis=3)

&#x20;   conv8 = Conv2D(128, 3, activation="relu", padding="same")(merge8)

&#x20;   conv8 = Conv2D(128, 3, activation="relu", padding="same")(conv8)

&#x20;   up9 = Conv2DTranspose(64, 2, strides=(2, 2), padding="same")(conv8)

&#x20;   merge9 = concatenate(\[conv1, up9], axis=3)

&#x20;   conv9 = Conv2D(64, 3, activation="relu", padding="same")(merge9)

&#x20;   conv9 = Conv2D(64, 3, activation="relu", padding="same")(conv9)

&#x20;   conv9 = Conv2D(num\_classes, 1, activation="sigmoid")(conv9)

&#x20;   model = Model(inputs=inputs, outputs=conv9)

&#x20;   return model

\# Crear el modelo

model = unet\_model(input\_size=(128, 128, 3), num\_classes=1)

model.compile(optimizer='adam', loss='binary\_crossentropy', metrics=\['accuracy'])

model.summary()

Creando red neuronal U-Net para segmentación

Introducción a Computer Vision

¿Qué es la visión computarizada y cuáles son sus tipos?

Detección de objetos

Introducción a object detection: sliding window y bounding box

Generando video de sliding window

Introducción a object detection: backbone, non-max suppression y métricas

Visualización de IoU en object detection

Tipos de arquitecturas en detección de objetos

Arquitecturas relevantes en object detection

Utilizando un dataset de object detection

Carga de dataset de object detection

Exploración del dataset de object detection

Visualización de bounding boxes en el dataset de object detection

Aumentado de datos con Albumentation

Implementando Albumentation en object detection

Visualizando imágenes con aumentado de datos

Utilizando un modelo de object detection pre-entrenado

Probar detección de objetos con modelo pre-entrenado

Fine-tuning en detección de objetos

Fine-tuning en detección de objetos: carga de datos

Fine-tuning en detección de objetos: data augmentation

Fine-tuning en detección de objetos: entrenamiento

Fine-tuning en detección de objetos: visualización de objetos

Segmentación de objetos

Introduciendo la segmentación de objetos

Tipos de segmentación y sus arquitecturas relevantes

¿Cómo es un dataset de segmentación?

Utilizando un dataset de segmentación de objetos

Visualización de nuestro dataset de segmentación

Creando red neuronal U-Net para segmentación

Entrenando y estudiando una red de segmentación

Generando predicciones con modelo de object segmentation

Un paso más allá

El estado de la cuestión en computer vision

Comparte tu proyecto de detección y segmentación de objetos para conducción autónoma y certifícate