Modelos de lenguaje, Unidad 7 — Entrenamiento de modelos de lenguaje, 7.2 — Función de pérdida · 13/01/2026

Cross-entropy

Cross-entropy: Una función de pérdida clave para entrenar modelos de lenguaje

Introducción

La cross-entropy es una función de pérdida fundamental en la formación de modelos de lenguaje. Esta función mide la divergencia entre las distribuciones esperadas y las estimadas, lo que es crucial para guiar el aprendizaje del modelo hacia representaciones óptimas del texto. En este artículo, exploraremos cómo funciona la cross-entropy, su importancia en el entrenamiento de modelos de lenguaje, y proporcionaremos algunos ejemplos prácticos.

Explicación principal

La cross-entropy mide cuánto se desvía la predicción de un modelo de lenguaje de las probabilidades verdaderas. En términos matemáticos, si \( p \) es el vector de probabilidad real y \( q \) es el vector de probabilidad estimado por nuestro modelo, la cross-entropy se define como:

\[ H(p, q) = -\sum_{i} p_i \log(q_i) \]

Donde \( p_i \) son las probabilidades reales y \( q_i \) son las probabilidades predichas.

Ejemplo práctico

Supongamos un modelo que intenta predecir la siguiente palabra en una secuencia de texto. La salida del modelo es una distribución de probabilidad sobre los posibles tokens. Si el vocabulario contiene 10,000 tokens y nuestro modelo predice \( q_i \) para cada token, entonces la cross-entropy entre las probabilidades reales \( p \) y las estimadas \( q \) sería:

import numpy as np

# Probabilidades reales (p)
p = np.array([1.0/10000] * 10000)
p[534] = 9999 / 10000  # La palabra "perro" tiene una probabilidad alta de 0.9999

# Probabilidades estimadas (q)
q = np.array([0.2/10000] * 10000)  # Todas las palabras tienen la misma probabilidad baja
q[534] = 0.8  # La palabra "perro" tiene una alta probabilidad

# Calcular cross-entropy
def cross_entropy(p, q):
    return -np.sum(p * np.log(q))

cross_entropy_value = cross_entropy(p, q)
print(f"Cross-entropy value: {cross_entropy_value}")

Errores típicos / trampas

1. Confusión con la entropía

A menudo se confunde la cross-entropy con la entropía. Mientras que la entropía mide la incertidumbre en una distribución de probabilidad, la cross-entropy mide cuánto se desvían las predicciones del modelo de la realidad.

2. Ignorar el escalamiento

La cross-entropy debe ser escala-invariante. Si los valores de entrada a la función son muy grandes o muy pequeños, puede afectar negativamente al rendimiento del entrenamiento. Es importante normalizar las entradas para evitar este problema.

3. No tener en cuenta el balanceo de clase

En casos donde ciertas clases están subrepresentadas en los datos de entrenamiento (como es común en modelos de lenguaje), la cross-entropy puede dar una ventaja injusta a estas clases. Para corregir esto, se utiliza la técnica de balanceo de clase, asignando pesos a las clases menos frecuentes.

Checklist accionable

Pasos para optimizar la utilización de cross-entropy:

Normalizar los datos: Asegúrate de que las entradas a la función de pérdida estén en un rango adecuado.
Balancear clase: Usa técnicas como ponderación por clase para compensar desequilibrios en los datos.
Validación cruzada: Verifica regularmente el rendimiento del modelo con diferentes conjuntos de validación para prevenir sobreajuste.
Optimización del aprendizaje: Ajusta la tasa de aprendizaje para asegurar un buen equilibrio entre convergencia rápida y evitar subir pasos.
Regularización: Aplica técnicas como dropout o L2 regularización para prevenir el overfitting.

Cierre con "Siguientes pasos"

Siguientes pasos

Explorar modelos avanzados: Después de dominar la cross-entropy, investiga sobre otros tipos de funciones de pérdida y modelos de lenguaje más sofisticados como los Transformers.
Estudiar arquitecturas Transformer: Comprende cómo las arquitecturas basadas en atención pueden mejorar el rendimiento del entrenamiento y la generación de texto.
Experimentar con datasets: Trabaja con diferentes conjuntos de datos para entender mejor cómo afectan a los modelos.

Siguiendo estos pasos, podrás profundizar tu comprensión sobre cómo funciona la cross-entropy en modelos de lenguaje y mejorar significativamente el rendimiento de tus modelos.