PyTorch desde cero, Unidad 4 — Autograd: diferenciación automática, 4.1 — Cálculo de gradientes · 13/01/2026

backward()

backward(): El corazón de la diferenciación automática en PyTorch

Introducción

En el mundo de las redes neuronales y el aprendizaje profundo, la capacidad de calcular gradientes eficientemente es fundamental para el entrenamiento de modelos. backward() es una función clave en PyTorch que permite realizar la retropropagación de errores y calcular los gradientes necesarios para actualizar los pesos del modelo durante el entrenamiento. En esta guía, exploraremos por qué backward() es crucial, cómo usarlo correctamente con ejemplos prácticos, y algunas trampas comunes a evitar.

Explicación principal

backward() en PyTorch se utiliza para calcular los gradientes de las entradas con respecto a una función de pérdida. Este proceso es central en el entrenamiento de modelos de aprendizaje profundo, ya que permite ajustar los pesos del modelo de manera eficiente. Veamos un ejemplo práctico:

import torch

# Definición de una simple red neuronal lineal
x = torch.randn(10, 3)
y = torch.randn(10, 2)

linear = torch.nn.Linear(3, 2)
loss_fn = torch.nn.MSELoss(reduction='sum')

# Forward pass (cálculo de la salida y pérdida)
pred_y = linear(x)
loss = loss_fn(pred_y, y)

# Cálculo de los gradientes con backward()
loss.backward()

# Imprimir los gradientes
print(linear.weight.grad)

En este ejemplo, backward() se utiliza para calcular los gradientes de la función de pérdida (loss) con respecto a los pesos del modelo (linear.weight). Esto permite ajustar los pesos en direcciones que disminuyan la pérdida.

Errores típicos / trampas

Aunque backward() es una herramienta poderosa, su uso incorrecto puede llevar a resultados inesperados. Aquí te presentamos algunas de las trampas más comunes:

Omitir el llamado a .zero_() en la retropropagación:

Si no se inicializa manualmente los gradientes antes del cálculo, PyTorch acumulará los gradientes en lugar de reemplazarlos. Esto puede dar como resultado errores al entrenar el modelo.

   # Trampa 1: Ignorar .zero_()
   pred_y = linear(x)
   loss = loss_fn(pred_y, y)
   loss.backward()

Usar backward() sin especificar los gradientes de entrada:

En algunos casos, puede ser útil especificar manualmente los gradientes de entrada para el cálculo de los gradientes. No hacerlo puede dar como resultado resultados incorrectos.

   # Trampa 2: Omitir grad_outputs en backward()
   pred_y = linear(x)
   loss = loss_fn(pred_y, y)
   loss.backward(retain_graph=True)  # Retain graph para cálculos posteriores

Ignorar las restricciones de gráficos computacionales dinámicos:

Si se intenta calcular los gradientes en un grafo que ya fue evaluado, PyTorch lanzará una excepción. Es importante asegurarse de que el grafo no esté evaluado antes del cálculo de los gradientes.

   # Trampa 3: Evaluar el grafo antes de backward()
   pred_y = linear(x)
   loss = loss_fn(pred_y, y)
   with torch.no_grad():  # Esto debería haberse usado para evitar la evaluación del grafo
       print(pred_y)  # Este cálculo no debería estar aquí

   loss.backward()  # Lanza excepción si pred_y ya fue evaluado antes

Checklist accionable

Asegúrate de seguir estos pasos para usar backward() correctamente:

Inicializa los gradientes con .zero_():

   linear.weight.grad.zero_()

Especifica los gradientes de entrada con retain_graph=True cuando sea necesario:

   loss.backward(retain_graph=True)

Evalúa el grafo correctamente antes del cálculo de los gradientes:

   with torch.no_grad():
       pred_y = linear(x)  # Evita la evaluación del grafo aquí

Evita la acumulación de gradientes sin intencionalmente hacerlo:

   loss.backward()

Usa grad_outputs cuando sea necesario para especificar los gradientes de entrada:

   pred_y = linear(x)
   grad_outputs = torch.ones_like(y)  # O cualquier otro tensor adecuado
   loss.backward(grad_outputs, retain_graph=True)

Cierre con "Siguientes pasos"

Siguientes pasos

Ahora que has aprendido sobre backward(), aquí te presentamos algunos pasos para seguir:

Aprender más sobre autograd: Explora más conceptos avanzados de autograd en PyTorch.
Practicar con diferentes funciones de pérdida: Experimenta con otras funciones de pérdida y ve cómo afectan a los gradientes calculados.
Usar grad_outputs para controlado cálculo de gradientes: Aprende a usar grad_outputs para calcular gradientes personalizados.
Implementar regularización en tu modelo: Comienza a aplicar técnicas como dropout y weight decay para mejorar la capacidad del modelo.

Siguiendo estos pasos, podrás dominar el uso de backward() y otros conceptos clave en PyTorch, lo que te ayudará a construir modelos de aprendizaje profundo más fuertes y eficientes.