Max Pooling vs Average Pooling en CNNs

Curso de Redes Neuronales Convolucionales

Contenido del curso

No sé dónde empezar

Fundamentos de las CNN y su aplicación biomédica

Construcción práctica con PyTorch

Entrenamiento y evaluación de modelos

Optimización y generalización

Tomar examen

Max Pooling vs Average Pooling en CNNs

Resumen

Cuando entrenas una red neuronal convolucional, cada capa agrega cómputo y matrices más grandes. Aquí entra el pooling, una técnica que reduce la dimensionalidad espacial de la imagen para acelerar el procesamiento sin perder las características importantes. Si trabajas con visión por computadora o modelos de clasificación de imágenes, entender cómo funciona el max pooling y el average pooling te ahorra tiempo de entrenamiento y mejora el rendimiento de tu red.

Cómo funciona el pooling dentro de una red convolucional

El flujo típico empieza con una imagen original que pasa a una capa de convolución, luego a una función de activación y, en algún punto, a una capa de pooling [0:09]. Esa capa de pooling toma el resultado de la convolución y lo encoge, reduciendo el ancho y alto de la matriz numérica para que las siguientes operaciones sean más ligeras.

La idea central es trabajar con representaciones más pequeñas que conserven lo esencial. En lugar de procesar toda la matriz píxel por píxel, el pooling resume regiones completas en un solo valor.

¿Qué hace el pooling en una CNN? Reduce el tamaño espacial de la matriz (ancho y alto) aplicando una operación estadística sobre ventanas locales, lo que acelera el cómputo y resalta características clave.

Qué significa ventana y stride en pooling

Dos parámetros definen cómo se mueve el pooling sobre la matriz: la ventana y el stride [1:05].

La ventana indica cuántos valores tomas a la vez. Una ventana de dos toma dos filas y dos columnas, es decir, cuatro valores.
El stride indica cuántas posiciones se desplaza la ventana en cada paso.
Con stride igual a dos, la ventana salta de las posiciones 1,2,5,6 directamente a 3,4,7,8 sin solaparse.

Si reduces el stride a uno, la ventana se desplaza casilla por casilla y obtienes una matriz de salida con más valores, porque hay más solapamientos [1:48].

Cuál es la diferencia entre max pooling y average pooling

Existen dos operaciones estadísticas comunes dentro del pooling, cada una con un comportamiento distinto sobre la imagen [0:43].

El max pooling toma el valor máximo dentro de cada ventana. Si la ventana cubre los valores 1, 2, 5 y 6, el resultado es 6. Si cubre 3, 4, 7 y 8, el resultado es 8 [1:23]. Este método resalta las características más dominantes de la imagen.

El average pooling calcula el promedio de los valores dentro de la ventana. En vez de quedarse con el más fuerte, suaviza la región y entrega una representación más uniforme.

¿Cuándo usar max pooling y cuándo average pooling? Usa max pooling para detectar características dominantes como bordes; usa average pooling para suavizar y trabajar con casos generales. Si dudas, el average pooling es más robusto.

Por qué pooling no es lo mismo que redimensionar una imagen

Una confusión frecuente es pensar que reducir el tamaño con pooling equivale a un resize o redimensionamiento clásico [2:13]. No lo es.

El pooling se basa en estadísticas locales: desplaza una ventana sobre la matriz y aplica una fórmula matemática (máximo o promedio) en cada paso. El redimensionamiento, en cambio, usa interpolaciones que no analizan el contenido local de la misma forma. Esa diferencia importa porque el pooling preserva patrones útiles para la red, mientras que un resize puede perderlos.

Cómo se ve el pooling aplicado a imágenes reales

Al aplicar pooling sobre una imagen original de 64x64 píxeles, el resultado es una imagen de 32x32 [2:51]. En las visualizaciones se muestran al mismo tamaño para comparar, por eso la versión con pooling se ve más pixelada.

Con un gradiente blanco y negro y con la letra P, donde hay muchos bordes, la diferencia entre ambos métodos se nota con claridad [3:08]:

En el max pooling, los bordes tienden a difuminarse porque el método se queda con los valores más altos de cada zona.
En el average pooling, los bordes se resaltan al promediar las regiones, generando una transición más suave.
En el logo de Platzi, ambas operaciones muestran cómo cambian los valores de la matriz al recorrer la imagen.

Esa diferencia visual te ayuda a decidir cuál se adapta mejor a tu problema. Si tu modelo necesita detectar contornos fuertes, el max pooling te da esa señal. Si buscas estabilidad y generalización, el average pooling es la apuesta más segura.

Después del pooling todavía tienes una matriz numérica, pero el siguiente paso es convertir esa matriz en un vector de características que permita tomar una decisión final, por ejemplo, si una radiografía muestra o no neumonía [4:13]. ¿Has aplicado pooling en alguno de tus modelos? Cuéntame qué resultados obtuviste.

Andrés Cardona

Estudiante

Texto académico: ¿Cuándo usar cada tipo de pooling?

🔹 1. Max Pooling

Qué hace: conserva el valor más alto de cada región.
Cuándo usarlo:
- En las primeras capas de CNN, para detectar bordes, texturas y características locales dominantes.
- Cuando se busca robustez frente al ruido → el máximo suele sobrevivir aunque haya valores espurios pequeños.
- En problemas de clasificación de imágenes (ej. CIFAR, ImageNet), es el más usado.
Ventaja clave: resalta patrones importantes y descarta detalles menores.

🔹 2. Average Pooling

Qué hace: calcula el promedio de los valores en cada región.
Cuándo usarlo:
- En redes donde interesa suavizar y mantener la información global, no solo los picos.
- En etapas intermedias o previas a capas densas, cuando se busca un resumen estable de la activación.
- En aplicaciones biomédicas, puede ser útil para no perder señales sutiles (ej. texturas celulares).
Ventaja clave: produce representaciones más suaves y menos sesgadas hacia valores extremos.

🔹 3. Global Pooling (Global Average o Global Max)

Qué hace: reduce cada mapa de características a un único valor (por canal).
Cuándo usarlo:
- En arquitecturas modernas (ResNet, Inception, MobileNet) como alternativa a fully connected layers → reduce drásticamente parámetros.
- En problemas con gran riesgo de sobreajuste → evita usar millones de pesos de una capa densa.
- Para clasificación final, justo antes de la capa softmax.
Ventaja clave: fuerza a la red a hacer un resumen global del feature map, favoreciendo generalización.

🔹 Otros Poolings

Stochastic Pooling: elige aleatoriamente un valor de la región, proporcional a su magnitud.
- Útil para regularización en entrenamientos pequeños.
Adaptive Pooling: ajusta dinámicamente el tamaño de salida (ej. para forzar siempre un 7×7 antes de la capa final, sin importar el tamaño de entrada).
- Útil en arquitecturas que reciben imágenes de dimensiones variables.

Max Pooling vs Average Pooling en CNNs

Fundamentos de las CNN y su aplicación biomédica

Redes convolucionales con PyTorch para imágenes médicas

Cómo las radiografías se convierten en números

Convoluciones en PyTorch con tensores

Stride y padding en convoluciones

ReLU, Sigmoide y Tanh en redes convolucionales