Tensores y operaciones con PyTorch para análisis de imágenes

Clase 3 de 15 • Curso de Redes Neuronales Convolucionales

Resumen

¿Sabías que el álgebra lineal tiene aplicaciones directas en la programación y análisis de imágenes digitales? Hoy aprenderás cómo utilizar esta herramienta matemática importante a través de PyTorch, una librería de Python especializada en operar con tensores, que facilita desde operaciones sencillas hasta la creación de redes neuronales convolucionales.

¿Qué son los tensores y cómo los utiliza PyTorch?

PyTorch es una poderosa librería basada en Python que utiliza tensores para representar y operar números, vectores, matrices e imágenes. Estos tensores permiten:

Representar un escalar (un solo número).
Expresar vectores (listas de números).
Construir matrices (por ejemplo, una matriz 2x2).
Procesar imágenes con diferentes niveles de profundidad (como imágenes RGB en tres dimensiones).

La visualización y manipulación de los datos se realizan directamente en un entorno interactivo como Google Colab, ofreciendo acceso gratuito a recursos CPU y GPU.

¿Cómo funciona el producto punto en tensores?

Una operación esencial con tensores es el producto punto. Supongamos que tienes dos vectores:

Vector uno: [1, 2, 3]
Vector dos: [4, 5, 6]

El producto punto resultante sería la multiplicación elemento por elemento seguida de una suma:

1×4 + 2×5 + 3×6 = 32

Esta operación es fundamental para realizar convoluciones, como veremos seguidamente.

¿Qué es una convolución y para qué sirve?

La convolución es la suma de varios productos punto locales aplicados sobre partes específicas de una matriz, como una imagen digital. Esto permite transformar imágenes y destacar características especiales, como la detección de bordes verticales.

Por ejemplo, utilizando kernels específicos (matrices pequeñas aplicadas sobre la imagen), es posible implementar el kernel Sobel para detectar efectivamente aquellos bordes verticales en una imagen. Al realizar esta operación en cada píxel, obtenemos una nueva imagen representada numéricamente, donde se pueden observar claramente estas características destacadas.

¿Cómo se representa una imagen digital como tensor?

Las imágenes digitales en formato RGB suelen representarse como tensores tridimensionales de esta manera:

Dimensiones: ancho, alto y número de canales.
Valores: por lo general, entre 0 y 255, o normalizados entre 0 y 1.

Al trabajar con PyTorch, normalmente veremos las imágenes en un formato con cuatro dimensiones:

Ancho
Alto
Canales (RGB)
Batch size (número de imágenes procesadas simultáneamente)

Por ejemplo, una sola imagen RGB de 64 x 64 píxeles se representaría numéricamente como un tensor (64, 64, 3, 1).

¿Cuál ha sido tu experiencia con tensores o álgebra lineal aplicada a imágenes? ¡Comparte tu opinión o experiencias en los comentarios!

Bastian Maurico Landskron Silva

student•

Esto me esta volando la cabeza kajkaja buenisimo

Jose Antonio Aguilar

student•

falto profundizar ... espero que tomen nota del problema y dejan mas info del tema...

Bryan Castano

student•

Fantastico, es Asombroso ver como el Kernel detecta bodes lineales en la imagen [P] , asi es com ofunciona le aprendizjae profundo en imagnees, capas tras capas de conv permiten abstreaer patrones mas complejos hasta generalizar conocimiento especail de lasi magnees de entrnamiento en verdadero aprendizaje y es asombrosos ucnado lo entiendes. \n genial.

Gaston Blanco

student•

Cuando hace la convolución a la P. Esta se "comprime". Producto punto -> 0001 = 1

Si te fijas pasa de:

| 0001 = 1 | 0011 = 2 | 0111 = 3 | 1111 = 4 |

Esto es 1 fila pasa de 4 valores a 1

(entiendo que para que el gráfico de 0 y 1 de esta en una matriz de 4x4)

Jesus Percy Nazario Portilla

student•

buenazo, me gustaria que compartar su archivo de google colab para replicarlo en mi propio drive.

Tensores y operaciones con PyTorch para análisis de imágenes

Fundamentos de las CNN y su aplicación biomédica

Redes neuronales convolucionales con PyTorch para análisis médico

Conversión de imágenes médicas en matrices numéricas para IA