PyTorch desde cero, Unidad 8 — Evaluación y validación, 8.1 — Métricas en PyTorch · 13/01/2026

Métricas manuales

Introducción

En el campo de la inteligencia artificial y el aprendizaje profundo, las métricas son fundamentales para medir la calidad y rendimiento de los modelos. Las métricas manuales, en particular, nos permiten tener un control más preciso sobre cómo evaluamos nuestros modelos, ajustándonos a nuestras necesidades específicas. Sin embargo, también es común cometer errores que pueden llevarnos a conclusiones erróneas o suboptimizadas. En este artículo, aprenderemos a calcular y utilizar métricas manuales en PyTorch para evaluar nuestros modelos de manera efectiva.

Explicación principal con ejemplos

1. Precisión (Accuracy)

La precisión es una métrica básica que mide el porcentaje de predicciones correctas. Para un problema de clasificación binaria, la fórmula para calcular la precisión es:

\[ \text{Precisión} = \frac{\text{Número de predicciones correctas}}{\text{Total de predicciones} \]

Veamos un ejemplo en PyTorch:

import torch

# Supongamos que tenemos una predicción y la etiqueta verdadera
predicciones = torch.tensor([1, 0, 0, 1, 0])
etiquetas_verdaderas = torch.tensor([1, 0, 1, 1, 0])

# Calcular la precisión manualmente
correctos = (predicciones == etiquetas_verdaderas).sum().item()
precisión = correctos / len(predicciones)
print(f"Precisión: {precisión:.2f}")

2. Recall

El recall, también conocido como sensibilidad o tasa de detección, mide el porcentaje de ejemplos verdaderamente positivos que fueron correctamente identificados. Se calcula con la siguiente fórmula:

\[ \text{Recall} = \frac{\text{Número de predicciones correctas en positivo}}{\text{Total de ejemplos verdaderos pos}} \]

Un ejemplo en PyTorch:

# Supongamos que tenemos una matriz de confusión 2x2 para un problema binario
matriz_confusión = torch.tensor([[40, 15], [3, 5]])

# Calcular el recall manualmente
recall_positivo = matriz_confusión[0][0] / (matriz_confusión[0][0] + matriz_confusión[0][1])
print(f"Recall positivo: {recall_positivo:.2f}")

3. F1-score

El F1-score es una combinación de precisión y recall, proporcionando un balance entre ambos. Se calcula con la siguiente fórmula:

\[ F1 = 2 \times \frac{\text{Precisión} \times \text{Recall}}{\text{Precisión} + \text{Recall}} \]

Un ejemplo en PyTorch:

# Supongamos que ya tenemos el recall positivo y la precisión
recall_positivo = 0.8966
precisión = 0.7143

# Calcular el F1-score manualmente
f1_score = 2 * (precisión * recall_positivo) / (precisión + recall_positivo)
print(f"F1-score: {f1_score:.2f}")

4. AUC-ROC (Área bajo la curva ROC)

El AUC-ROC mide el rendimiento de un clasificador en todo el rango de probabilidades posibles. Es útil para problemas con una distribución imbalances de clases.

Un ejemplo en PyTorch:

import numpy as np
from sklearn.metrics import roc_auc_score

# Supongamos que tenemos las probabilidades predichas y las etiquetas verdaderas
probabilidades_predichas = torch.tensor([0.1, 0.4, 0.35, 0.8]).softmax(dim=0).numpy()
etiquetas_verdaderas = np.array([0, 0, 1, 1])

# Calcular el AUC-ROC manualmente
auc_roc = roc_auc_score(etiquetas_verdaderas, probabilidades_predichas)
print(f"AUC-ROC: {auc_roc:.2f}")

Errores típicos / trampas

1. No tener en cuenta la distribución imbalances de las clases

Si tus datos tienen una distribución imbalances de clases y no ajustas las métricas correspondientemente, podrías obtener una visión sesgada del rendimiento del modelo.

2. Usar precisión sin considerar el recall o viceversa

En problemas con un alto ratio de falsos negativos (como en la detección de enfermedades raras), es importante también considerar el recall junto con la precisión para tener una visión completa del rendimiento.

3. No ajustar las métricas para su tipo específico de problema

Las métricas como la precisión y el recall son adecuadas para problemas de clasificación binaria, pero no tanto para problemas multiclase o multilabel. Asegúrate de usar la métrica correcta según el problema que estés resolviendo.

Checklist accionable

Define tus objetivos: ¿Qué quieres medir? Precisión, recall, F1-score, AUC-ROC, etc.
Ajusta las métricas a tu caso de uso: Considera la distribución imbalances de clases y el tipo específico de problema que estés resolviendo.
Implementa las fórmulas adecuadas en PyTorch:

Precisión: correctos / total
Recall: TP / (TP + FN)
F1-score: 2 (P R) / (P + R)

Usa librerías externas para validaciones complejas: Si estás trabajando con problemas que requieren una medición más compleja, considera usar librerías como Scikit-learn.
Monitorea las métricas en tiempo real durante el entrenamiento: Utiliza DataLoader y PyTorch’s autograd para calcular y monitorear las métricas a lo largo del proceso de entrenamiento.

Cierre

Ahora que has aprendido cómo calcular e implementar métricas manuales en PyTorch, es importante recordar que no hay una única métrica perfecta. Elige la(s) métrica(s) adecuada(s) para tu caso de uso y monitorea constantemente el rendimiento del modelo para asegurarte de que está cumpliendo con tus objetivos.

Siguientes pasos

Avanzar a modelos más complejos: Conocer las bases te ayudará a comprender mejor cómo funcionan los modelos avanzados.
Optimizar la arquitectura del modelo: Una vez que tengas un buen entendimiento de cómo medir el rendimiento, puedes comenzar a ajustar y optimizar tu arquitectura.
Aprender transfer learning: Utiliza modelos preentrenados para obtener mejor precisión en menos tiempo.

¡Felicitaciones por haber llegado hasta aquí! ¡Estás listo para aplicar tus conocimientos e implementar soluciones de IA robustas.

Métricas manuales

Métricas manuales

Introducción

Explicación principal con ejemplos

1. Precisión (Accuracy)

2. Recall

3. F1-score

4. AUC-ROC (Área bajo la curva ROC)

Errores típicos / trampas

1. No tener en cuenta la distribución imbalances de las clases

2. Usar precisión sin considerar el recall o viceversa

3. No ajustar las métricas para su tipo específico de problema

Checklist accionable

Cierre

Siguientes pasos

Contacta e inscríbete

Contacto