NLP desde cero, Unidad 9 — Evaluación en NLP, 9.1 — Métricas habituales · 13/01/2026

F1-score

F1-score: Una métrica clave para la evaluación de modelos NLP

Introducción

En el mundo del Procesamiento del Lenguaje Natural (NLP), medir la calidad y precisión de los modelos es crucial. Entre las diversas métricas disponibles, el F1-score se destaca como una herramienta poderosa que combina tanto la precisión (Precision) como el recuerdo (Recall). Este artículo explora en profundidad el F1-score, su importancia en la evaluación de modelos NLP y cómo evitar errores comunes al utilizarlo.

Explicación principal

El F1-score es una métrica que se utiliza para evaluar la clasificación binaria y multi-clase. Es especialmente útil cuando queremos obtener un equilibrio entre precisión y recall. La fórmula para el F1-score es:

\[ \text{F1} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} \]

Donde:

Precision mide la proporción de predicciones positivas que son verdaderas.
Recall (Sensibilidad) mide el porcentaje de verdaderos positivos que son correctamente identificados.

Un F1-score de 1.0 indica un modelo perfecto, mientras que uno de 0.0 es igual a tener un modelo inútil. El F1-score siempre se encuentra entre 0 y 1, donde un valor más cercano a 1 es mejor.

Ejemplo práctico

Supongamos un modelo NLP que clasifica correos electrónicos como spam o no-spam en una base de datos con 100 correos:

Verdaderos Positivos (TP): 90
Falsos Positivos (FP): 5
Falsos Negativos (FN): 10

Precision: \[ \text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} = \frac{90}{90+5} = 0.944 \]

Recall: \[ \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}} = \frac{90}{90+10} = 0.90 \]

Por lo tanto, el F1-score sería: \[ \text{F1} = 2 \times \frac{0.944 \times 0.90}{0.944 + 0.90} = 0.92 \]

Código de ejemplo

from sklearn.metrics import precision_score, recall_score, f1_score

# Suponiendo las variables: y_true (valores reales) y y_pred (predicciones del modelo)
y_true = [0, 1, 1, 0, 1]
y_pred = [0, 1, 0, 0, 1]

precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
f1 = f1_score(y_true, y_pred)

print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1-score: {f1}")

Errores típicos / trampas

1. Ignorar el equilibrio entre precisión y recall

El F1-score busca un equilibrio entre precisión y recall, pero en algunos casos, uno puede ser más importante que otro dependiendo del problema de clasificación. Por ejemplo, en una tarea de detección de fraudes financieros, queremos minimizar tanto los falsos negativos (fraudes no detectados) como los falsos positivos (transacciones legítimas etiquetadas como fraudulenta).

2. Usar F1-score sin tener en cuenta el desbalanceo de clases

Si una clase tiene muy pocos datos, el F1-score puede no reflejar correctamente la calidad del modelo. En estos casos, se recomienda usar variantes del F1-score como F1-score ponderado o media aritmética/matemática.

3. Interpretar mal los resultados

Un alto F1-score no siempre significa un buen modelo, especialmente si las clases están desbalanceadas. Por ejemplo, en una tarea de clasificación con muchas más negativos que positivos, un modelo que predice todo como negativo obtendría un F1-score perfecto pero sería inútil.

Checklist accionable

Acciones para mejorar el uso del F1-score:

Reconocer la importancia del equilibrio entre precisión y recall: Analizar el problema de clasificación para determinar si una baja precisión o recall es más problemática.
Verificar el desbalanceo de clases: Si los datos están desbalanceados, calcular F1-score ponderado en lugar de un simple promedio aritmético.
Usar F1-score en conjunto con otras métricas:

Accuracy (Precisión general)
Confusion Matrix

Calibrar el modelo para ajustar la curva ROC: Asegurarse de que los predicciones sean equilibradas entre false positives y false negatives.
Validación cruzada: Verificar consistentemente las métricas en diferentes particiones del conjunto de datos.

Cierre

Siguientes pasos:

Aprender más sobre desbalanceo de clases: Familiarizarse con técnicas como SMOTE, oversampling y undersampling para manejar conjuntos de datos desequilibrados.
Experimentar con diferentes variantes del F1-score: Aplicar F1-score ponderado en problemas donde una clase es significativamente más rara que la otra.
Usar herramientas avanzadas de visualización: Graficar curvas ROC y Precision-Recall para obtener un mejor entendimiento de cómo se comporta el modelo.

El F1-score es una métrica poderosa pero requiere un uso cuidadoso y comprensión. Es importante considerar su contexto en el problema de clasificación específico y combinarlo con otras herramientas de evaluación para obtener resultados más precisos y útiles.