Debuguea tensores en PyTorch sin errores

Curso de Redes Neuronales con PyTorch

Contenido del curso

Fundamentos de PyTorch

Estructura de modelo de deep learning en PyTorch

Redes neuronales con PyTorch

Cierre del curso

24
Qué aprendiste en el curso de PyTorch
01:13 min

Tomar examen

Debuguea tensores en PyTorch sin errores

Resumen

Trabajar con tensores en PyTorch implica vigilar tres factores que determinan si tu código corre o explota en errores: la forma, el tipo de dato y el device donde vive el tensor. Si dominas estos tres, te ahorras horas de debugueo en proyectos de machine learning y deep learning.

Esta guía te muestra cómo inspeccionar y modificar cada uno desde Google Colab, con ejemplos directos del flujo de trabajo en PyTorch.

¿Cómo inspeccionar la forma y dimensiones de un tensor?

La forma de un tensor te dice cuántas dimensiones tiene y cuántos elementos hay en cada una. En PyTorch usas el atributo shape para obtener un objeto torch.size con esa información [01:30].

Por ejemplo, una matriz 2x2 devuelve torch.Size([2, 2]), mientras que un tensor T5 con forma 5x2x3 indica tres dimensiones: cinco grados en la primera, dos en la segunda y tres en la tercera.

También puedes consultar solo el número de dimensiones con el atributo ndim, aunque shape te da más contexto en una sola llamada.

¿Qué diferencia hay entre shape y ndim en PyTorch? shape te devuelve el tamaño de cada dimensión, mientras que ndim solo devuelve un entero con la cantidad total de dimensiones. shape es más informativo para debuguear.

¿Qué tipos de datos puede tener un tensor en PyTorch?

Cada tensor tiene un dtype que define la precisión de sus valores. El default cuando creas un tensor con decimales es torch.float32, también conocido como torch.float [03:30].

Estos son los tipos más usados que encontrarás en la documentación de PyTorch:

torch.float32 o torch.float: punto flotante de 32 bits, el estándar.
torch.float64 o torch.double: punto flotante de 64 bits, mayor precisión.
torch.bool: valores booleanos verdadero o falso.
torch.int8: enteros firmados, positivos y negativos.
torch.uint8: enteros sin firmar, solo positivos.

La cantidad de bits define la precisión: más bits significan más exactitud, pero también más consumo de memoria. Cuando trabajas con un GPU pequeño como el de Colab, float32 es el balance ideal entre precisión y rendimiento.

¿Qué pasa cuando sumas tensores de tipos distintos?

PyTorch toma una decisión automática sobre el tipo del resultado. Si sumas una matriz float32 con una int64, el resultado se convierte a float32, porque PyTorch detecta cuál es el formato más óptimo para conservar la información [05:50].

¿Cómo cambio el tipo de un tensor manualmente?

Usa la función to, que recibe el argumento dtype. Por ejemplo, para convertir una matriz de enteros a flotantes escribes matriz.to(torch.float). Verás cómo cada número aparece con su punto decimal, señal de que ya es float32.

Esta función la vas a usar muchas veces, así que vale la pena memorizarla.

¿Por qué importa el device donde corre tu tensor?

El device es el hardware donde se ejecuta el tensor: puede ser CPU o GPU. Dos tensores solo pueden operar entre sí si están en el mismo dispositivo, y aquí es donde aparecen muchos errores [07:30].

Para consultar el device de un tensor usas el atributo device. Por defecto, los tensores se crean en CPU.

¿Qué es CUDA y cómo lo activo?

CUDA es la plataforma de computación de NVIDIA que permite usar el poder de los GPUs para acelerar operaciones entre tensores, sobre todo la multiplicación de matrices. Es esencial para el entrenamiento y la inferencia en machine learning.

Antes de mover un tensor a GPU, verifica si CUDA está disponible:

python torch.cuda.is_available()

Si devuelve True, puedes mover tu tensor con la función to:

python matriz_cuda = matriz.to(torch.device('cuda'))

Lo interesante es que to sirve para dos cosas a la vez: cambia el device y el tipo en una sola línea. Por ejemplo, puedes mover un tensor de CUDA a CPU y, al mismo tiempo, convertirlo de int64 a float32 en un solo comando [10:00].

¿Qué significa cuda:0 en PyTorch? Es el GPU número cero de tu sistema. Si tuvieras cinco GPUs, se numerarían de cero a cuatro. PyTorch empieza el conteo desde cero.

¿Qué error sale cuando los tensores están en devices diferentes?

Si intentas sumar un tensor que vive en CUDA con otro que está en CPU, PyTorch lanza un error claro: expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu [11:30].

La solución es simple: mueve ambos tensores al mismo device antes de operar. Aprender a leer estos errores te ahorra mucho tiempo cuando entrenas modelos.

Los tres factores (shape, dtype y device) son la causa de la mayoría de bugs cuando empiezas con PyTorch. Tenerlos siempre presentes hace que tu código sea más predecible y fácil de depurar.

¿Has tenido errores de device mismatch al entrenar tus modelos? Cuéntame en los comentarios cómo los resolviste.

Mario Alexander Vargas Celis

Estudiante

El proceso de depuración ("debugging") de operaciones con tensores en PyTorch implica revisar el estado y las transformaciones que sufren los tensores durante el proceso de cálculo. Aquí te ofrezco algunas técnicas y herramientas útiles para depurar operaciones con tensores:

### 1. **Verificar las dimensiones de los tensores (shape)**

Un error común al trabajar con tensores es que no coincidan sus dimensiones para las operaciones. Usar tensor.shape te permite revisar la forma (dimensión) de los tensores.


import torch



tensor = torch.rand(3, 4)

print(tensor.shape)  # Salida: torch.Size(\[3, 4])

Si una operación falla, lo primero que deberías hacer es verificar que las dimensiones sean compatibles.

### 2. **Imprimir el tensor en varios puntos del código**

Cuando algo no sale como esperas, puedes imprimir el tensor en diferentes etapas del cálculo para verificar su contenido.


tensor = torch.rand(3, 4)

print(tensor)  # Imprime el contenido del tensor

También puedes verificar propiedades como:

- **dtype** (tipo de dato del tensor)

- **device** (si está en CPU o GPU)


print(tensor.dtype)  # Tipo de dato del tensor (float, int, etc.)

print(tensor.device)  # Verificar si el tensor está en CPU o GPU

### 3. **Usar assert para validar condiciones**

Puedes usar assert para validar que ciertas propiedades del tensor sean las correctas antes de realizar una operación.


tensor = torch.rand(3, 4)

assert tensor.shape == (3, 4), "El tensor no tiene la forma correcta"

### 4. **Tener cuidado con la asignación en GPU**

Si trabajas con GPU y ocurre un error, asegúrate de que los tensores estén en el mismo dispositivo. No puedes realizar operaciones entre tensores en dispositivos diferentes.


if torch.cuda.is\_available():

&#x20;   tensor\_cpu = torch.rand(3, 4)

&#x20;   tensor\_gpu = tensor\_cpu.to('cuda')

&#x20;   print(tensor\_gpu.device)  # Verifica que el tensor esté en la GPU

Si intentas operar entre un tensor en CPU y otro en GPU, obtendrás un error, así que asegúrate de moverlos al mismo dispositivo:


\# tensor\_cpu + tensor\_gpu  -> Esto generará un error

tensor\_cpu = tensor\_cpu.to('cuda')  # Movemos ambos tensores a la GPU

result = tensor\_cpu + tensor\_gpu

### 5. **Comprobar errores numéricos (NaN, Inf)**

En ocasiones, los valores de los tensores pueden convertirse en NaN o Inf debido a cálculos mal condicionados (como divisiones por cero o logaritmos de valores negativos).

Puedes verificar si un tensor contiene estos valores:


tensor = torch.tensor(\[float('inf'), -float('inf'), float('nan'), 1.0])



\# Comprobar si hay NaNs

print(torch.isnan(tensor))  # Salida: tensor(\[False, False,  True, False])



\# Comprobar si hay Infs

print(torch.isinf(tensor))  # Salida: tensor(\[ True,  True, False, False])

### 6. **Trazado con autograd para identificar errores en el cálculo de gradientes**

Si estás utilizando autograd y los gradientes no se calculan como esperas, puedes revisar el flujo de cálculo del gradiente mediante torch.autograd.


x = torch.tensor(\[2.0], requires\_grad=True)

y = x\*\*2

y.backward()



print(x.grad)  # Imprime el gradiente de `x`

Si en algún momento pierdes el gradiente o se genera un error en el flujo de cálculo, puedes depurar revisando el historial de operaciones.

### 7. **Uso de torch.set\_printoptions para mejorar la visualización**

A veces los tensores grandes no se muestran completamente, lo cual puede dificultar la depuración. Puedes ajustar las opciones de impresión para mostrar más detalles del tensor:


torch.set\_printoptions(precision=3, edgeitems=2, linewidth=75)



tensor = torch.rand(100, 4)

print(tensor)

### 8. **Depurar operaciones en GPU**

Depurar tensores en GPU puede ser un desafío, ya que los errores son menos descriptivos. Para aislar el problema, puedes copiar el tensor de vuelta a la CPU y revisar su valor:


tensor\_gpu = torch.rand(3, 4).to('cuda')

tensor\_cpu = tensor\_gpu.cpu()

print(tensor\_cpu)  # Inspecciona el tensor en CPU

### 9. **Comparación con NumPy**

A veces, puedes comparar resultados de operaciones en PyTorch con NumPy para asegurarte de que todo funcione como esperas.


import numpy as np



tensor = torch.rand(3, 4)

array = tensor.numpy()



\# Comparar una operación

assert np.allclose(tensor.sum().item(), array.sum()), "Los resultados no coinciden"

### 10. **Uso de herramientas de depuración como PDB**

Si necesitas una depuración más profunda, puedes usar el depurador interactivo de Python, pdb. Por ejemplo, puedes pausar el programa y examinar el estado de las variables en ese punto:


import pdb



tensor = torch.rand(3, 4)

pdb.set\_trace()  # Inicia el depurador interactivo aquí

Esto te permitirá ejecutar comandos para inspeccionar variables y entender el flujo del programa.

Estas técnicas te ayudarán a depurar operaciones con tensores y detectar problemas en tus redes neuronales o cualquier cálculo que estés haciendo en PyTorch.

Debuguea tensores en PyTorch sin errores

Fundamentos de PyTorch

Clasificación de Texto con PyTorch y TorchText en Google Colab

Introducción a PyTorch: Ventajas y Comparación con Otros Frameworks

Clasificador de texto con nn.Module en PyTorch

Tensores en PyTorch desde cero