Modelos generativos: GANs, VAEs, Unidad 10 — Evaluación de modelos generativos, 10.1 — Métricas automáticas · 13/01/2026

Inception Score

Inception Score: Evaluando la Calidad de los Modelos Generativos

Introducción

En el mundo de la inteligencia artificial, especialmente dentro de la generación de imágenes y datos continuos, es crucial tener métricas que nos permitan evaluar la calidad del modelo en términos de cómo se comporta frente a generar nuevas muestras. Uno de los métodos más utilizados para medir la calidad de los modelos generativos es el Inception Score (IS). Este artículo te guiará sobre cómo calcular y interpretar este score, analizando sus beneficios y limitaciones.

Explicación Principal

El Inception Score fue propuesto por Salimans et al. en 2016 y se basa en la idea de medir la entropía de distribución probada a través del modelo generativo comparándola con el score de Inception de las imágenes reales.

Cálculo del Inception Score

El score IS se calcula de la siguiente manera:

Generar muestras: Usa tu modelo generativo para generar una cantidad N de muestras.
Calcular probabilidad: Para cada muestra, calcula la probabilidad que el modelo inception assigne a esa imagen usando la red Inception v3 pre-entrenada (congelada en modo inferencia).
Calcular entropía de distribución generativa: Calcula la entropía de las probabilidades obtenidas.
Calcular score IS: Multiplica el logaritmo de N por la entropía calculada.

La fórmula matemática es:

\[ \text{IS} = \exp\left(\mathbb{E}_{x \sim p_{data}} [\log p_{model}(x)]\right) \]

Donde:

\( x \sim p_{data} \): Muestra aleatoria de datos reales.
\( p_{model}(x) \): Probabilidad del modelo generativo de generar la muestra.

Ejemplo en Código

A continuación, se presenta un ejemplo simplificado de cómo podrías calcular el Inception Score usando TensorFlow y Keras. Para este ejemplo, asumiremos que tienes acceso a una red generadora pre-entrenada y al conjunto de datos real.

import tensorflow as tf
from tensorflow.keras.applications.inception_v3 import InceptionV3, preprocess_input

def calculate_inception_score(generated_images, batch_size=64):
    # Cargar la red Inception v3 congelada en modo inferencia
    inception = InceptionV3(weights='imagenet', include_top=True)
    
    # Preprocesar las imágenes generadas
    generated_images_preprocessed = preprocess_input(generated_images * 255)

    scores = []
    for i in range(0, len(generated_images), batch_size):
        batch = generated_images_preprocessed[i:i + batch_size]
        preds = inception.predict(batch)
        scores.append(tf.reduce_mean(tf.exp(preds)).numpy())

    # Calcular el score IS
    is_score = tf.reduce_mean(scores).numpy()
    return is_score

# Ejemplo de uso
generated_images = ...  # Generadas por tu modelo generativo
is_score = calculate_inception_score(generated_images)
print(f"Inception Score: {is_score}")

Errores Típicos / Trampas

Aunque el Inception Score es una métrica útil, también presenta ciertas limitaciones y trampas que debes tener en cuenta:

Distribución no uniforme: El score IS favorece a modelos que generan imágenes con distribuciones de probabilidad más uniformes, lo cual puede llevar a generar imágenes menos variadas.
Memoria del modelo: Si el modelo generativo memoriza la imagen real en lugar de generar una nueva, obtendrás un score alto pero las imágenes generadas no tendrán variación.
Balance entre calidad y cantidad: El score IS se ve afectado por el número de muestras generadas; si generas demasiadas muestras, incluso con baja calidad, podrías obtener un score elevado.

Checklist Accionable

Para utilizar correctamente el Inception Score en tu proyecto:

Genera suficientes muestras: Asegúrate de que la cantidad de muestras generadas sea significativa (más de 1000).
Usa una red pre-entrenada confiable: El score depende directamente del modelo Inception v3, así que asegúrate de usar una versión confiable.
Compara con datos reales: Usa el mismo conjunto de datos real en tu calculo para tener un punto de referencia.
Analiza las imágenes generadas: Verifica visualmente si las imágenes generadas son variadas y de alta calidad.
Evaluación continua: No bases solo tu evaluación en una métrica, combínala con la evaluación humana.

Cierre

El Inception Score es una herramienta valiosa para evaluar la calidad de los modelos generativos, pero es importante ser consciente de sus limitaciones. Combínalo con otras métricas y siempre verifica visualmente las imágenes generadas para obtener un panorama completo del rendimiento de tu modelo.

Siguientes pasos

Explorar más métricas: Analiza otros métodos como el Fréchet Inception Distance (FID) y la Structural Similarity Index (SSIM).
Implementar en tu proyecto: Asegúrate de integrar esta métrica en tu proceso de evaluación de modelos.
Refinar el modelo: Si los resultados no son satisfactorios, considera ajustes en el modelo generativo o un cambio en la estrategia de entrenamiento.

¡Espero que este artículo te haya ayudado a entender mejor el Inception Score y cómo puedes utilizarlo para evaluar tus modelos generativos!