Representación matricial de imágenes con PyTorch

Clase 3 de 15 • Curso de Redes Neuronales Convolucionales

Clase anteriorSiguiente clase

Resumen

El álgebra lineal es clave al trabajar con imágenes digitales, ya que permite convertir imágenes en representaciones numéricas manipulables mediante matrices y vectores. La librería PyTorch, ampliamente utilizada en Python, facilita este proceso gracias al uso de tensores, estructuras especializadas para gestionar números, vectores, matrices e incluso imágenes.

¿Qué es un tensor y cómo se utiliza en PyTorch?

Un tensor es una estructura básica en PyTorch que sirve para representar datos numéricos en múltiples dimensiones:

Escalar tensor: Representa un simple número.
Tensor vectorial: Similar a un vector numérico tradicional.
Tensor matricial (2x2): Equivalente a las matrices que se estudian en álgebra lineal.
Tensor tridimensional: Ideal para representar imágenes, con dimensiones correspondientes al ancho, alto y los canales de color RGB.

Estos tensores pueden utilizar valores que van de 0 a 255 o valores normalizados entre 0 y 1, dependiendo del contexto y necesidad.

¿Cómo funciona el producto punto con tensores en PyTorch?

Una operación importante en álgebra lineal que utilizamos regularmente en PyTorch es el producto punto:

Consiste en multiplicar pares de elementos correspondientes de dos vectores y sumar los resultados.
Ejemplo práctico: si tenemos vectores A=[1,2,3] y B=[4,5,6], su producto punto será (1×4) + (2×5) + (3×6) = 32.

Esta operación es fundamental para los procesos que involucran convoluciones más avanzadas.

¿Qué es una convolución y cuál es su utilidad en imágenes?

La convolución se define como la suma de productos puntos locales. Es utilizada frecuentemente en procesamiento de imágenes para identificar y resaltar características específicas, como bordes o determinadas estructuras.

Consiste en multiplicar una pequeña matriz o "kernel" contra segmentos específicos de píxeles en una imagen.
Por ejemplo, usando el kernel Sobel podemos detectar bordes verticales eficientemente.

Al aplicar convoluciones sobre toda una imagen obtenemos representaciones numéricas de características concretas, tales como intensidades y límites visuales.

¿Qué es un kernel y cómo se aplica?

El "kernel" es una matriz de valores específicos diseñada para resaltar ciertas características:

Al utilizarlo, multiplicamos cada valor del kernel por los valores correspondientes del fragmento de imagen.
La combinación de estos productos determina la característica resaltada en la nueva imagen.

Por ejemplo, matrices específicas permiten detectar rápidamente y con precisión bordes en diferentes orientaciones.

¿Cómo se estructuran comúnmente los tensores para imágenes en PyTorch?

Generalmente, se utiliza una estructura estándar para representar imágenes:

Ancho y alto: dimensiones espaciales de la imagen (por ejemplo, 64×64).
Canales: corresponde a los colores RGB, típicamente definido como 3.
Batch-size: número de imágenes que procesamos simultáneamente.

Así, una imagen a color de tamaño 64x64 será representada en PyTorch típicamente como un tensor con dimensiones 64, 64, 3, y en caso de procesar imágenes individualmente, tendrá un batch-size igual a 1.

Ahora que ya conocemos qué aportan las convoluciones y cómo aprovechar PyTorch para representarlas numéricamente en las imágenes, estamos mejor preparados para seguir profundizando en la programación y análisis visual digital. ¿Has implementado alguna vez convoluciones con PyTorch? ¡Comparte tu experiencia en los comentarios!