Convoluciones en PyTorch con tensores

Curso de Redes Neuronales Convolucionales

Contenido del curso

No sé dónde empezar

Fundamentos de las CNN y su aplicación biomédica

Construcción práctica con PyTorch

Entrenamiento y evaluación de modelos

Optimización y generalización

Tomar examen

Convoluciones en PyTorch con tensores

Resumen

Las redes neuronales convolucionales convierten imágenes en matrices numéricas para detectar bordes, formas y patrones. Aquí aprendes cómo funciona una convolución usando álgebra lineal, tensores y PyTorch, ideal si trabajas en visión por computadora o deep learning.

Si alguna vez te preguntaste cuándo ibas a usar álgebra lineal en la vida real, este es el momento. Vamos a representar una imagen como un sistema de números y a operar sobre ella para extraer información visual.

Por qué usar Google Colab y PyTorch para procesar imágenes

Para escribir el código vas a trabajar en Google Colab, un entorno gratuito que te da CPU y GPU sin instalar nada en tu equipo. Solo conectas el notebook y empiezas a programar en Python [0:18].

La librería principal aquí es PyTorch, que te permite hacer operaciones matemáticas sobre imágenes y construir tus propias redes neuronales convolucionales. Su estructura central es el tensor, una forma flexible de expresar escalares, vectores, matrices e imágenes completas.

¿Qué es un tensor en PyTorch? Es una estructura de datos que generaliza escalares, vectores y matrices. Puede tener una, dos o más dimensiones, y es el tipo de dato que PyTorch usa para procesar imágenes y entrenar modelos.

Cómo se representa una imagen como tensor

Una imagen no es más que números organizados en dimensiones. Cuando importas torch con import torch, puedes crear distintos tipos de tensores según lo que necesites representar [1:00].

Un escalar es un solo número envuelto en la estructura tensor.
Un vector es una lista de números, útil para representar características.
Una matriz dos por dos guarda valores en filas y columnas.
Un tensor tridimensional representa una imagen, por ejemplo de 64 por 64 píxeles con tres capas.

Esas tres capas corresponden a los canales RGB, y los valores suelen ir de 0 a 255 o normalizados entre 0 y 1. Así PyTorch entiende exactamente con qué tipo de dato estás trabajando.

Cómo se calcula el producto punto entre tensores

El producto punto es una de las operaciones más usadas y la base de todo lo que viene después. Si tienes el vector A igual a [1, 2, 3] y el vector B igual a [4, 5, 6], al ejecutar el producto punto obtienes 32 [2:10].

Ese número sale de multiplicar uno por cuatro, más dos por cinco, más tres por seis. Suma simple, pero es la pieza que hace funcionar a las convoluciones.

Qué es una convolución y cómo detecta bordes en una imagen

Una convolución es la suma de productos punto locales aplicados sobre una imagen. Esa operación es lo que permite pasar de una foto original a una versión donde solo se ven, por ejemplo, los bordes verticales [2:45].

Imagina una letra P representada con ceros y unos, donde cero es negro y uno es blanco. Tomas un píxel y sus vecinos inmediatos, formas una pequeña matriz local y la multiplicas por un kernel.

¿Qué es un kernel en una convolución? Es una matriz pequeña que define qué característica vas a detectar. Según los valores que contenga, puede resaltar bordes, esquinas, texturas u otros patrones dentro de la imagen.

Un ejemplo clásico es el kernel Sobel, diseñado específicamente para detectar bordes verticales. Cuando aplicas ese kernel sobre cada fragmento de la imagen, obtienes una nueva matriz que representa las intensidades de los bordes detectados.

Por qué se recorre la imagen completa

La convolución no se aplica solo a un pedacito. Tienes que deslizar el kernel por toda la imagen, fragmento por fragmento, para obtener una representación numérica completa que muestre dónde están las características que buscas [3:40].

El resultado es una nueva matriz, más pequeña o del mismo tamaño según la configuración, donde cada valor te dice qué tan fuerte es la característica en esa zona de la imagen original.

Cómo se estructura un tensor de imágenes en PyTorch

Cuando trabajas con redes neuronales, los tensores de imágenes suelen tener cuatro dimensiones. Esta forma estándar es lo que el modelo espera recibir como entrada [4:30].

Ancho y alto: el tamaño en píxeles, por ejemplo 64 por 64.
Canales: tres si es una imagen a color RGB, uno si es en escala de grises.
Batch size: la cantidad de imágenes que procesas a la vez.

Si trabajas con una sola imagen, el batch size es uno. Si entrenas un modelo con lotes de imágenes, ese número corresponde al tamaño del lote. Así, una imagen RGB de 64 por 64 procesada individualmente se ve como (1, 3, 64, 64) o (64, 64, 3, 1) según la convención.

La convolución, entonces, no es una enfermedad ni un misterio matemático: es la operación que te deja resaltar lo importante dentro de una imagen. ¿Qué tipo de características te gustaría detectar primero en tu propio proyecto? Déjalo en los comentarios.

Jesús Alberto Romero Hernández

Estudiante

•

A continuación les comparto mi Análisis de Resultados al Convolucinar la imagen de la letra P con el Kernel Sobel:

La imagen P_img original está compuesta estrictamente por píxeles de valor 0.0 (fondo negro) y píxeles 1.0 (la letra P blanca). Al pasarle el kernel Sobel, la operación matemática genera tres únicos resultados posibles:

Como se observa, luego de haber aplicado la convolución sobre al imagen original de la P se observan varios cosas

Las áreas planas donde hay tanto blanco como negro pasan a tener color gris y no negro (píxel=0) como vimos en caso de aplicar el kenel Sobel a una imagen donde todos los píxeles poseen un mismo valor.
En los bordes o umbrales horizontales negativos (de zona brillante a zona oscura) los píxeles adoptan color negro (píxel=0).
En los bordes o umbrales horizontales positivos (de zona oscura a zona brillante ) los píxeles adoptan color blanco (píxel=1).

Caso 1: Zonas Uniformes (Fondo o dentro de la P) El kernel pasa por puros ceros o puros unos. La fila de arriba (negativos) se cancela con la de abajo (positivos). Resultado = 0.0

Caso 2: Transición de la P (1.0) al Fondo (0.0) De arriba hacia abajo La fila superior del kernel ( -1, -2, -1) se ecuentra sobre los 1.0 de la P, y la fila inferior ( +1, +2, +1) se encuentra sobre toca los 0.0 del fondo. Resultado = (1 x-1) + (1 x -2) + (1 x -1) = -4.0

Caso C: Transición del Fondo (0.0) a la P (1.0) De arriba hacia abajo La fila superior del kernel se encuentra sobre los 0.0 del fondo, y la fila inferior se encuentra sobre los 1.0 de la P. Resultado = (1 x 1) + (1 x 2) + (1 x 1) = +4.0

Cómo mapea Matplotlib estos números

Como el tensor final contiene valores que van desde -4.0 hasta +4.0, Matplotlib configura la pantalla automáticamente de la siguiente manera:

• vmin (Negro Puro) = -4.0 Por eso las transiciones de la P al fondo (donde el brillo cae) se pintan completamente negras.

• vmax (Blanco Puro) = +4.0 Por eso las transiciones del fondo a la P (donde el brillo sube) se pintan completamente blancas.

• El Centro (Gris Medio) = 0.0 Como el cero(0) matemático está exactamente a la mitad de la distancia entre -4.0 y +4.0, Matplotlib le asigna el color intermedio exacto: el gris. Por eso todo el fondo liso y el interior de la P adoptan ese tono grisáceo.

Convoluciones en PyTorch con tensores

Fundamentos de las CNN y su aplicación biomédica

Redes convolucionales con PyTorch para imágenes médicas

Cómo las radiografías se convierten en números