Generación de texto con LLMs, Unidad 8 — Evaluación de texto generado, 8.1 — Métricas automáticas · 13/01/2026

Perplejidad

Perplejidad: Una Métrica Valiosa para Evaluación de Texto Generado

Introducción

La perplejidad es una métrica fundamental que se utiliza para evaluar la calidad y coherencia del texto generado por modelos LLMs (Modelos de Lenguaje Grandes). Específicamente, mide cuán probable es un texto dado en términos de entropía. Cuanto menor sea la perplejidad, más confiable será el modelo en generar texto que se ajuste a las distribuciones de probabilidad del lenguaje. Esta métrica es especialmente útil para evaluar la calidad del texto generado y comparar diferentes modelos o configuraciones.

Explicación Principal

La perplejidad se calcula utilizando la siguiente fórmula:

\[ \text{Perplejidad} = 2^{-\frac{\sum_{i=1}^{N}\log_2 P(w_i | w_1, w_2, ..., w_{i-1})}{N}} \]

donde \(P\) es la probabilidad condicional de un token \(w_i\) dado los tokens anteriores \(w_1, w_2, ..., w_{i-1}\), y \(N\) es el número total de tokens en el texto.

En términos simples, si un modelo genera textos que son muy predecibles (es decir, con alta probabilidad condicional) para cada token dado los anteriores, la perplejidad será baja. Por otro lado, si el texto generado es inesperado o no coherente, la perplejidad será alta.

Ejemplo:

Supongamos que tenemos un modelo generando el siguiente texto:

"El sol brilló en el cielo y las aves volaron."

Si este texto tiene una probabilidad muy alta de ser generado por nuestro modelo, la perplejidad será baja. Sin embargo, si el texto generado es inesperado como:

"El sol brilló en el cielo y las aves bailaron."

la perplejidad sería más alta debido a que el último token "bailaron" no es muy probable dado los tokens anteriores.

Errores Típicos / Trampas

Ignorar la Normalización: La perplejidad se mide en logaritmo base 2, lo cual puede ser confuso si no se entiende bien. Es importante normalizar correctamente las probabilidades para obtener un valor de perplejidad que sea interpretable.

Comparaciones Inadecuadas: Comparar directamente la perplejidad entre modelos diferentes sin considerar el tamaño del vocabulario o los datos de entrenamiento puede ser engañoso. Los modelos con vocabularios más grandes tienden a tener una perplejidad menor, no necesariamente porque sean mejores.

Métricas Subjetivas: La perplejidad mide la probabilidad condicional de un modelo pero no considera otros aspectos subjetivos como el estilo, la coherencia o la utilidad del texto generado. Es crucial complementar la perplejidad con otras métricas.

Checklist Accionable

Revisar la Normalización: Asegúrate de que estás utilizando un logaritmo base 2 para calcular la perplejidad.
Comparar en el Mismo Contexto: Cuanto a comparar modelos, asegura que estén entrenados con datos y vocabularios similares.
Incluir Contexto: La perplejidad debe considerar el contexto del texto generado para ser más precisa.
Complementar con Otras Métricas: No depender solo de la perplejidad; utiliza también otras métricas como BLEU, ROUGE o heurísticas prácticas.
Monitoreo Continuo: Implementa un proceso de monitoreo continuo para detectar cambios en la calidad del texto generado.

Cierre: Siguientes Pasos

Explorar Métricas Complementarias: Aprende a utilizar otras métricas como BLEU y ROUGE, que pueden proporcionar una visión más completa de la calidad del texto generado.
Implementar Mejoras Prácticas: Basado en tus hallazgos con la perplejidad, ajusta los prompts o parámetros de decodificación para mejorar aún más la calidad del texto generado.
Continuar Aprendiendo: Explora la fine-tuning y el uso avanzado de modelos LLMs para optimizar su desempeño en aplicaciones específicas.

La perplejidad es una herramienta valiosa para evaluar la calidad del texto generado por modelos LLMs, pero debe utilizarse junto con otras métricas para obtener una evaluación completa y precisa.