Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

Generación de imágenes con IA, Unidad 8 — Evaluación de imágenes generadas, 8.2 — Evaluación humana ·

Realismo

Realismo: Evaluando la calidad humana de imágenes generadas con IA

Introducción

La evaluación de la calidad humana es fundamental cuando se trabaja con modelos de generación de imágenes basados en IA. Aunque existen métodos automatizados para evaluar la calidad, estas herramientas suelen tener limitaciones y no pueden reemplazar la evaluación por humanos. En este artículo, exploraremos cómo evaluar la realismo de las imágenes generadas, cuáles son los errores típicos a evitar y proporcionaremos un checklist accionable para mejorar la calidad visual.

Explicación principal con ejemplos

La realismo en imágenes generadas implica que la imagen resultante muestre una representación precisa y coherente de lo que se describe en el prompt. Esta precisión no solo incluye los detalles visuales, sino también la consistencia entre diferentes elementos de la imagen.

Ejemplo 1: Arte del siglo XXI

Considere un prompt para generar "un paisaje urbano moderno con edificios altos y arquitectura vanguardista". Un modelo que genera una imagen con edificios modernos pero sin cohesión visual, como fachadas desproporcionadamente grandes o formas incoherentes, falla en la realismo.

**Prompt**: Un paisaje urbano moderno con edificios altos y arquitectura vanguardista.
**Generación del modelo A**: Edificios altos y modernos con fachadas irregulares.
**Generación del modelo B**: Edificios modernos y coherentes, pero con formas exageradamente rígidas.

En este ejemplo, el modelo B muestra un mayor nivel de realismo debido a su cohesión visual.

Ejemplo 2: Personajes históricos

Imaginemos que se pide generar una imagen del rey Arturo. Un modelo que produce una imagen con rasgos característicos falsos o inconsistentes (por ejemplo, un rey con una corona moderna) fallará en la realismo.

**Prompt**: Imagen del rey Arturo.
**Generación del modelo C**: Reina Arturo con una corona medieval y una armadura moderna.

En este caso, el modelo C no cumple con la descripción del prompt, lo que resulta en una imagen poco realista.

Errores típicos / trampas

Aunque cada proyecto tiene sus propias peculiaridades, aquí enumeramos algunos errores comunes a evitar durante la evaluación humana de imágenes generadas:

  1. Anatomía incorrecta: La mala representación del cuerpo humano puede resultar en imágenes poco realistas. Por ejemplo, un modelo que genera personas con manos demasiado largas o pies desproporcionadamente pequeños.
  1. Inconsistencias visuales: Cuando diferentes elementos de la imagen no se sincronizan visualmente. Por ejemplo, una escena nocturna con luces pero sin sombras adecuadas, o un objeto que parece estar en 3D pero las sombras y luces no están consistentes.
  1. Overprompting: Cuando el modelo interpreta demasiado literalmente el prompt y produce detalles innecesarios o inapropiados. Por ejemplo, una imagen de un perro con una corona medieval que no está mencionada en el prompt.

Checklist accionable

Siguiendo estos puntos, puede mejorar significativamente la evaluación de realismo en las imágenes generadas:

  1. Revisar cohesión visual: Verifica que todos los elementos de la imagen estén consistentes entre sí.
  2. Verificar anatomía humana: Asegúrate de que no haya errores anatómicos visibles, especialmente en personas o animales.
  3. Evaluar consistencia histórica: Comprueba que el estilo y el contexto histórico sean coherentes con la descripción del prompt.
  4. Analizar detalles de luz y sombra: Evalúa si las luces y sombras están correctamente aplicadas para reflejar la iluminación realista.
  5. Revisar escenarios físicos posibles: Verifica que los objetos o escenarios no contravenan las leyes de la física, como un coche volando sin alas.

Cierre con "Siguientes pasos"

Siguientes pasos

  1. Aprender a utilizar FID e IS para evaluar imágenes generadas automáticamente.
  2. Explorar métodos de fine-tuning para mejorar la precisión y coherencia de los modelos generativos.
  3. Investigar sistemas multimodales que combinen texto y vídeo para generar contenido más rico.

Siguiendo estos pasos, puedes mejorar significativamente la calidad visual y realismo en las imágenes generadas con IA, lo cual es crucial para su utilización efectiva en proyectos profesionales.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).