Probabilidad y estadística para IA, Unidad 8 — Estadística en evaluación de modelos, 8.1 — Métricas de evaluación · 13/01/2026

F1-score

F1-score: Una métrica integral para la evaluación de modelos de IA

Introducción

En el campo de la inteligencia artificial, las métricas de evaluación son fundamentales para comprender cómo se comporta nuestro modelo frente a los datos. El F1-score es una medida que combina precisión y recall en un solo valor, lo cual es especialmente útil cuando estamos trabajando con problemas de clasificación imbalanced o cuasi imbalanced. Este artículo explorará qué es el F1-score, cómo calcularlo, sus ventajas y desventajas, y cómo evitar algunos errores comunes al usarlo.

Explicación principal con ejemplos

El F1-score se define como la media aritmética de precisión (Precision) y recall (Recall). Se calcula utilizando la siguiente fórmula:

\[ \text{F1-score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} \]

Ejemplo de cálculo

Vamos a considerar un modelo que clasifica imágenes como "gato" o "no gato". Imaginemos que tenemos las siguientes métricas para una clase particular:

Número verdaderos positivos (TP): 40
Número de falsos positivos (FP): 10
Número de falsos negativos (FN): 5

Primero, calculamos la precisión y el recall:

\[ \text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} = \frac{40}{40 + 10} = \frac{40}{50} = 0.8 \]

\[ \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}} = \frac{40}{40 + 5} = \frac{40}{45} \approx 0.89 \]

Ahora, utilizamos estas métricas para calcular el F1-score:

\[ \text{F1-score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} = 2 \times \frac{0.8 \times 0.89}{0.8 + 0.89} \approx 0.835 \]

Código de ejemplo

from sklearn.metrics import precision_score, recall_score

# Ejemplo de datos falsos
y_true = [1, 1, 1, 0, 0]
y_pred = [1, 1, 0, 0, 0]

precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)

f1_score = 2 * (precision * recall) / (precision + recall)
print(f'F1-score: {f1_score:.3f}')

Este código calcula el F1-score para una serie de predicciones en un problema binario.

Errores típicos / trampas

Ignorar la equilibración de clases: El F1-score puede ser engañoso si las clases están desequilibradas, ya que se basa tanto en la precisión como en el recall. Si una clase tiene muchos más datos que otra, un modelo que predice siempre la clase mayoritaria obtendrá un F1-score alto incluso si no es efectivo.

Confundir F1-score con Accuracy: Aunque a primera vista puede parecer similar, el F1-score mide la precisión del modelo en términos de precision y recall, mientras que la accuracy mide simplemente cuántas predicciones son correctas en general. Esto es especialmente problemático cuando las clases están desequilibradas.

Usar F1-score sin contexto: El F1-score debe interpretarse con cuidado dependiendo del problema específico a resolver. En algunos casos, una alta precisión puede ser más importante que un alto recall y viceversa. Por lo tanto, es crucial entender el problema antes de utilizar esta métrica.

Checklist accionable

Analiza la equilibración de clases: Evalúa si tus datos están equilibrados o desequilibrados.
Comprueba el balance de precision y recall: Verifica que tanto la precisión como el recall sean importantes para tu modelo.
Interpreta correctamente las métricas: Asegúrate de entender qué significa un alto F1-score en el contexto de tu problema específico.
Usa F1-score en conjunto con otras métricas: Combina el F1-score con accuracy, precision y recall para una visión más completa del rendimiento del modelo.
Entiende la interpretación de los resultados: Al evaluar tus modelos utilizando F1-score, asegúrate de que entiendes cómo estos números reflejan el desempeño real.

Cierre con "Siguientes pasos"

Para profundizar en el uso del F1-score y otros aspectos de evaluación de modelos:

Aprende sobre equilibrado de clases: Estudia técnicas para manejar datos desequilibrados.
Implementa validaciones cruzadas: Utiliza validaciones cruzadas para garantizar que tu F1-score no esté sesgando por el overfitting o underfitting.
Ejercita el pensamiento crítico: Analiza cuidadosamente las métricas y asegúrate de que están relevantes para tu problema.

Siguiendo estos pasos, podrás mejorar la interpretación y aplicación del F1-score en tus proyectos de inteligencia artificial.