Modelos generativos: GANs, VAEs, Unidad 6 — Introducción a GANs, 6.2 — Qué hace especiales a las GANs · 13/01/2026

Generación realista

Generación realista: Qué hace especiales a las GANs

Introducción

Las redes generativas adversariales (GANs, por sus siglas en inglés) son un tipo de arquitectura neural que se ha destacado en la generación de datos continuos y discretos. Su capacidad para generar imágenes realistas, textos coherentes o sonidos naturales los hace únicos entre otros modelos generativos. En este artículo, exploraremos cómo las GANs logran generar contenido tan realista y las trampas que pueden encontrarse al trabajar con ellas.

Explicación principal

Las GANs funcionan a través de una competencia interactiva entre dos redes: un generador y un discriminador. El generador crea datos falsos, mientras que el discriminador evalúa si esos datos son auténticos o falsos. A medida que ambos modelos se entrenan juntos, el generador aprende a crear datos más realistas para confundir al discriminador.

Ejemplo de arquitectura

import torch
from torch import nn
import torchvision.datasets as dsets
import torchvision.transforms as transforms
from torch.autograd import Variable

# Definición del discriminador (discriminator)
class Discriminator(nn.Module):
    def __init__(self, input_size, hidden_layer_size):
        super(Discriminator, self).__init__()
        self.layer = nn.Sequential(
            nn.Linear(input_size, hidden_layer_size),
            nn.LeakyReLU(0.2),
            nn.Linear(hidden_layer_size, 1),
            nn.Sigmoid()
        )

    def forward(self, x):
        return self.layer(x)

# Definición del generador (generator)
class Generator(nn.Module):
    def __init__(self, input_size, hidden_layer_size, output_size):
        super(Generator, self).__init__()
        self.layer = nn.Sequential(
            nn.Linear(input_size, hidden_layer_size),
            nn.ReLU(),
            nn.Linear(hidden_layer_size, output_size),
            nn.Tanh()
        )

    def forward(self, x):
        return self.layer(x)

# Definición de los parámetros
input_size = 100
hidden_layer_size = 256
output_size = 784

discriminator = Discriminator(input_size=input_size, hidden_layer_size=hidden_layer_size)
generator = Generator(input_size=input_size, hidden_layer_size=hidden_layer_size, output_size=output_size)

# Carga de datos (usando MNIST como ejemplo)
train_dataset = dsets.MNIST(root='./data', train=True, transform=transforms.ToTensor(), download=True)
train_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=100, shuffle=True)

# Entrenamiento
criterion = nn.BCELoss()
optimizerD = torch.optim.Adam(discriminator.parameters(), lr=0.0002)
optimizerG = torch.optim.Adam(generator.parameters(), lr=0.0002)

for epoch in range(num_epochs):
    for i, (images, _) in enumerate(train_loader):
        real_images = Variable(images.view(-1, 784))
        
        # Entrenamiento del discriminador
        optimizerD.zero_grad()
        real_output = discriminator(real_images)
        noise = torch.randn((batch_size, input_size))
        fake_images = generator(noise)
        fake_output = discriminator(fake_images.detach())
        d_loss = criterion(real_output, torch.ones(batch_size, 1)) + \
                 criterion(fake_output, torch.zeros(batch_size, 1))
        d_loss.backward()
        optimizerD.step()

        # Entrenamiento del generador
        optimizerG.zero_grad()
        noise = torch.randn((batch_size, input_size))
        fake_images = generator(noise)
        output = discriminator(fake_images)
        g_loss = criterion(output, torch.ones(batch_size, 1))
        g_loss.backward()
        optimizerG.step()

Factores que hacen a las GANs generadoras de contenido realista

Capa adversarial: La competencia entre el generador y el discriminador impulsa al generador a aprender características más detalladas para generar imágenes realistas.
Escalabilidad: Las GANs pueden escalarse fácilmente con arquitecturas más complejas, permitiendo la creación de datos más detallados y realistas.
Flexibilidad en el tipo de datos: Las GANs no están limitadas a una sola modalidad de datos; pueden generar imágenes, textos, sonidos, etc.

Errores típicos / trampas

Mode collapse (colapso de modos): El generador se centra en solo un subconjunto de los posibles modos del dataset, lo que resulta en una generación limitada y poco diversa.
Problemas con la convergencia: La competencia entre el generador y el discriminador puede ser difícil de equilibrar durante el entrenamiento, resultando en un mal rendimiento de los modelos.
Ruido en las salidas del generador: Las salidas del generador pueden contener ruido o detalles que no son relevantes para la tarea específica.

Checklist accionable

Asegúrate de que el discriminador no esté dominando al generador.
Implementa técnicas como DCGAN y conditional GANs para mejorar la calidad de los datos generados.
Usa visualizaciones para monitorizar la convergencia del entrenamiento.
Asegúrate de que el dataset sea representativo de las características a generar.
Utiliza técnicas de regularización como dropout y batch normalization para mejorar la estabilidad durante el entrenamiento.

Siguientes pasos

Explora modelos avanzados como StyleGAN.
Aprende sobre generación condicionada con GANs (conditional GAN).
Investiga modelos de difusión y su relación con las GANs para mejorar la calidad del rendimiento.

Este artículo ha explorado cómo las GANs logran generar contenido realista y algunas de las trampas que pueden encontrarse al trabajar con ellas. Si estás interesado en dominar el uso de GANs, considera seguir estos pasos para mejorar tu comprensión y habilidades en este campo.