ReLU, Sigmoide y Tanh en redes convolucionales

Curso de Redes Neuronales Convolucionales

Contenido del curso

No sé dónde empezar

Fundamentos de las CNN y su aplicación biomédica

Construcción práctica con PyTorch

Entrenamiento y evaluación de modelos

Optimización y generalización

Tomar examen

ReLU, Sigmoide y Tanh en redes convolucionales

Resumen

Las funciones de activación son el puente que decide qué información pasa y qué se descarta dentro de una red neuronal convolucional. Si trabajas con imágenes médicas, como radiografías para detectar neumonía, entender cómo funcionan ReLU, Sigmoide y Tangente hiperbólica te ayuda a tomar mejores decisiones al diseñar tu modelo en PyTorch.

¿Qué hace una función de activación después de una convolución?

Después de que una capa convolucional procesa la imagen original, el resultado pasa por una capa de activación. Ahí ocurre algo clave: se introduce no linealidad entre la variable de entrada y la salida.

¿Y por qué importa eso? Porque una relación lineal sería tan simple como f(x) = x, y las imágenes del mundo real, como una radiografía, contienen patrones mucho más complejos. La no linealidad permite que la red detecte características sutiles que de otra forma pasarían desapercibidas.

¿Qué es una función de activación en redes neuronales? Es una operación matemática no lineal que se aplica al resultado de una capa convolucional para decidir qué información se propaga hacia adelante y resaltar características relevantes en la imagen.

¿Cómo se comportan ReLU, Sigmoide y Tangente hiperbólica?

Cada función tiene una lógica distinta para transformar los valores numéricos de la matriz que representa la imagen, donde cada número refleja la intensidad del color tras la convolución [1:30].

ReLU: si el valor es menor a cero, lo convierte en cero. Si es positivo, lo deja igual. Por ejemplo, -4 pasa a 0, y 5 se mantiene como 5.
Sigmoide: transforma los valores en un rango acotado, manteniendo una salida muy parecida a la imagen original.
Tangente hiperbólica: produce valores normalizados entre -1 y 1, con un crecimiento un poco mayor que Sigmoide.

¿Cómo se visualiza el efecto de cada función?

En el ejemplo práctico se cargaron tres imágenes: un gradiente, la letra P del logo de Platzi y una imagen subida por el usuario [3:25].

En el gradiente, ReLU oscurece la escala y activa zonas específicas.
La Sigmoide se mantiene muy similar a la imagen original.
La tangente hiperbólica crece un poco más en intensidad.
En la letra P no se observa variación.
En la imagen a color del usuario se nota mejor el contraste entre las tres funciones.

Este contraste visual te ayuda a entender qué función conserva más detalle y cuál transforma la entrada con mayor agresividad.

¿Cómo implementar funciones de activación en PyTorch?

La implementación es directa. Desde el módulo funcional de PyTorch puedes invocar cualquiera de las tres funciones con una sola línea [2:45].

python import torch.nn.functional as F

ReLU

salida_relu = F.relu(entrada)

Sigmoide

salida_sigmoid = F.sigmoid(entrada)

Tangente hiperbólica

salida_tanh = F.tanh(entrada)

Un detalle útil: en Google Colab puedes elegir el dispositivo de ejecución entre GPU y CPU [2:15]. Esta selección automática optimiza el uso de memoria, algo importante cuando las imágenes son de alta resolución.

¿Cuándo usar GPU en lugar de CPU en PyTorch? Usa GPU cuando proceses imágenes grandes o entrenes modelos con muchas operaciones convolucionales. La CPU funciona bien para pruebas rápidas y notebooks ligeros.

¿Cuándo conviene usar cada función de activación?

La elección depende del momento de la red en el que la coloques y del tipo de salida que esperas.

ReLU: úsala como primera opción cuando tengas dudas. Es práctica, rápida en tiempos de ejecución y suele ir justo después de una capa convolucional.
Sigmoide: ideal como última capa cuando necesitas tomar decisiones binarias, por ejemplo, neumonía sí o no.
Tangente hiperbólica: recomendada cuando trabajas con valores normalizados entre -1 y 1.

¿Qué función de activación uso si no sé cuál elegir? Empieza con ReLU después de tus capas convolucionales. Si tu salida final requiere una probabilidad o una decisión binaria, cierra con Sigmoide.

La mejor práctica es probar distintas funciones y comparar resultados según tu caso de uso. Lo que funciona en una radiografía puede no ser óptimo en una fotografía a color.

¿Por qué la resolución de las imágenes complica los cálculos?

Tanto las radiografías como las fotos de tu celular tienen una alta cantidad de píxeles. Cuando una red neuronal procesa estas imágenes, debe realizar muchísimas operaciones, lo que se vuelve costoso en tiempo y memoria [4:50].

Para reducir esa complejidad existen estrategias como el pooling, que permite resumir la información sin perder lo esencial. ¿Has probado combinar ReLU con pooling en tus propios modelos? Cuéntame qué resultados has obtenido.

Jesús Alberto Romero Hernández

Estudiante

Análisis de Resultados:

A continuación, el detalle de qué ocurre matemáticamente y visualmente cuando cruzamos cada tipo de dato con cada función.

El Gradiente Continuo

Naturaleza del dato: Un tensor 2D continuo con valores negativos y positivos (de -1.0 a 1.0). De las tres imagenes esta es la única que posee valores de píxeles negativos entre -1 y 0.

+ ReLU:
- Matemáticas: Todos los valores de entrada desde -1.0 hasta -0.001 se vuelven 0.0. Los valores positivos no cambian.
- Visual: La mitad izquierda del gradiente se vuelve un bloque negro sólido. La mitad derecha mantiene su degradado intacto.
+ Sigmoide:
- Matemáticas: Todo el rango de -1.0 a 1.0 se comprime suavemente en valores positivos entre approx 0.26 y approx 0.73. Matemáticamente, un valor de entrada de -1 se transforma en approx 0.26, 0.0 se transforma en 0.5, y un 1.0 se transforma en approx 0.731.
- Visual: Se suavizan los extremos. El negro y el blanco absolutos desaparecen, dejando un degradado de bajo contraste.
+ Tanh:
- Matemáticas: Mantiene el rango negativo/positivo, pero la curva se vuelve más pronunciada (no lineal).
- Visual: La transición en el centro de la imagen (donde los valores cruzan el 0.0) se vuelve mucho más abrupta y contrastada.

La Resonancia Médica (GBM)

Naturaleza del dato: Un tensor 3D (convertido a RGB) continuo, pero con valores exclusivamente positivos (de 0.0 a 1.0, gracias a T.ToTensor()).

+ ReLU:
- Matemáticas: Como no hay números negativos en el tensor original, la fórmula ReLU no hace absolutamente nada.
- Visual: La imagen resulta idéntica a la original.
+ Sigmoide:
- Matemáticas: El fondo negro original $0.$) se transforma en 0.0. Los blancos brillantes (1.0) se transforman en approx 0.731.
- Visual: Debido a la "Regla para Imágenes a Color", la imagen se ve lavada y gris. Al no existir ya valores cercanos a 0.0 ni a 1.0, todo se renderiza como un espectro de grises medios y claros de bajísimo contraste.
+ Tanh:
- Matemáticas: El 0.0 se queda en 0.0. El 1.0 se comprime ligeramente a approx 0.761.
- Visual: El fondo negro sigue siendo negro puro. Los blancos se atenúan un poco, pero se mantiene un alto contraste general.

La Letra "P"

Naturaleza del dato: Un tensor 2D binario y discreto. No hay gradientes, solo existen dos valores en toda la matriz: 0.0 (fondo) y 1.0 (la letra).

+ ReLU:
- Matemáticas: El 0.0 sigue siendo 0.0 y el 1.0 sigue siendo 1.0.
- Visual: Sin cambios.
+ Sigmoide:
- Matemáticas: Ocurre una alteración drástica. Todos los 0.0 pasan a ser 0.5 y los 1.0 pasan a ser approx 0.731.
- Visual: Sin cambios aparentes. Aquí actúa la "Regla para Escala de Grises". Matplotlib detecta que el valor mínimo ahora es 0.5 y lo pinta de negro. Detecta que el máximo es 0.731 y lo pinta de blanco. El auto-escalado oculta la compresión matemática.
+ Tanh:
- Matemáticas: El 0.0 sigue siendo 0.0 y los 1.0 pasan a ser approx 0.761.
- Visual: Sin cambios aparentes. Por la misma razón anterior, Matplotlib toma el nuevo máximo 0.761 y lo fuerza a renderizarse como blanco puro 1.0.

Naturaleza del dato: Un tensor 2D binario y discreto. No hay gradientes, solo existen dos valores en toda la matriz: $0.0$ (fondo) y $1.0$ (la letra).

+ ReLU:
- Matemáticas: El $0.0$ sigue siendo $0.0$ y el $1.0$ sigue siendo $1.0$.
- Visual: Sin cambios.
+ Sigmoide:
- Matemáticas: Ocurre una alteración drástica. Todos los $0.0$ pasan a ser $0.5$ y los $1.0$ pasan a ser $\approx 0.731$.
- Visual: Sin cambios aparentes. Aquí actúa la "Regla para Escala de Grises". Matplotlib detecta que el valor mínimo ahora es $0.5$ y lo pinta de negro. Detecta que el máximo es $0.731$ y lo pinta de blanco. El auto-escalado oculta la compresión matemática.
+ Tanh:
- Matemáticas: El $0.0$ sigue siendo $0.0$ y los $1.0$ pasan a ser $\approx 0.761$.
- Visual: Sin cambios aparentes. Por la misma razón anterior, Matplotlib toma el nuevo máximo ($0.761$) y lo fuerza a renderizarse como blanco puro (1.0).

ReLU, Sigmoide y Tanh en redes convolucionales

Fundamentos de las CNN y su aplicación biomédica

Redes convolucionales con PyTorch para imágenes médicas

Cómo las radiografías se convierten en números

Convoluciones en PyTorch con tensores

Stride y padding en convoluciones