Redes convolucionales (CNN), Unidad 10 — CNN modernas (visión general), 10.1 — Arquitecturas históricas · 13/01/2026

VGG

VGG: Arquitecturas históricas en redes convolucionales

Introducción

Las arquitecturas de redes convolucionales (CNN) han evolucionado significativamente desde la introducción de LeNet, pasando por AlexNet hasta llegar a las modernas arquitecturas como VGG. La red VGG, desarrollada en 2014 por una equipo de investigadores del grupo Visual Geometry Group (VGG) de la Universidad de Oxford, ha dejado un impacto duradero en el campo de la visión por computador. Esta arquitectura se basa en una estructura sencilla pero efectiva que se centra en la utilización extensiva de capas convolucionales y pools, lo cual le permite aprender características visuales complejas a través de múltiples niveles de abstracción.

Explicación principal

Descripción general del modelo VGG

La red VGG está compuesta por una serie de bloques que consisten en varias capas convolucionales seguidas de un bloque de pooling. Cada bloque aprende características específicas a través de un conjunto predefinido de filtros, y cada uno se conecta directamente con el siguiente bloque sin saltos.

# Ejemplo simplificado de una arquitectura VGG en Keras

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense

model = Sequential([
    Conv2D(64, (3, 3), activation='relu', input_shape=(224, 224, 3)),
    MaxPooling2D((2, 2)),
    
    Conv2D(128, (3, 3), activation='relu'),
    MaxPooling2D((2, 2)),
    
    Conv2D(256, (3, 3), activation='relu'),
    MaxPooling2D((2, 2)),
    
    Conv2D(512, (3, 3), activation='relu'),
    MaxPooling2D((2, 2)),
    
    Conv2D(512, (3, 3), activation='relu'),
    MaxPooling2D((2, 2)),
    
    Flatten(),
    Dense(4096, activation='relu'),
    Dense(4096, activation='relu'),
    Dense(num_classes, activation='softmax')
])

Características clave del modelo VGG

Capas convolucionales: Se utilizan capas convolucionales con un tamaño de kernel 3x3 para extraer características visuales a través de múltiples niveles.
Pooling: Usan max-pooling con una ventana 2x2 para reducir la dimensionalidad y mantener las características más importantes.
Flatten: Las capas convolucionales se flatten a un vector antes del proceso de clasificación.

Impacto en el campo

La arquitectura VGG fue pionera en su uso extensivo de una estructura simple pero profunda para aprender características visuales complejas. Específicamente, la utilización de una gran cantidad (19 capas convolucionales) y un alto número de filtros (más de 20 millones de parámetros) permitió a VGG ganar el primer puesto en ImageNet Challenge en 2014.

Errores típicos / trampas

Mal configuración del tamaño de la ventana de pooling

Un error común es seleccionar una ventana de pooling demasiado grande, lo que puede resultar en pérdida de detalles relevantes en las características visuales. Es importante elegir una ventana apropiada para mantener un equilibrio entre reducción de dimensionalidad y preservación de información.

Falta de regularización

La falta de técnicas de regularización como dropout o batch normalization puede llevar a overfitting, especialmente con arquitecturas profundas como VGG. Es crucial incluir estas técnicas para mejorar la capacidad del modelo para generalizar a datos no vistos.

Selección inadecuada del conjunto de datos

Usar un conjunto de datos pequeño o no representativo puede limitar significativamente el rendimiento del modelo. Es importante contar con un conjunto de entrenamiento y validación adecuadamente grande y diverso, particularmente en arquitecturas profundas como VGG.

Problemas de optimización

La convergencia a una solución óptima puede ser lenta o inexistente para arquitecturas muy profundas. Es importante monitorear la curva de entrenamiento y probar diferentes configuraciones de optimización, como learning rate, a fin de mejorar la velocidad y precisión del aprendizaje.

Checklist accionable

Preparación del conjunto de datos: Asegúrate de que el conjunto de datos es adecuadamente grande y representativo.
Configuración inicial: Especifica las capas convolucionales, los tamaños de ventana de pooling y la cantidad de filtros.
Regularización: Aplica técnicas como dropout o batch normalization para prevenir overfitting.
Optimización del modelo: Prueba diferentes configuraciones de optimización, incluyendo learning rate y tamaño de lotes (batch size).
Validación cruzada: Evalúa el rendimiento del modelo en varios conjuntos de validación para asegurar generalización adecuada.

Cierre: Siguientes pasos

Continuación del aprendizaje

Pruebas adicionales: Prueba VGG con diferentes configuraciones y ajustes.
Comparación con otras arquitecturas: Analiza cómo VGG se compara con arquitecturas modernas como ResNet o Inception en diferentes tareas de visión por computador.

Recursos recomendados

El modelo VGG sigue siendo una arquitectura valiosa para estudiar y mejorar, proporcionando un punto de partida sólido para el diseño de redes convolucionales profundas.

VGG