Reconocimiento facial (técnico y ético), Unidad 4 — Extracción de características, 4.2 — Deep Learning para reconocimiento facial · 13/01/2026

CNN como extractores de embeddings

CNN como extractores de embeddings para reconocimiento facial

Introducción

La extracción de características es un paso crucial en los sistemas de reconocimiento facial. Esta etapa implica la representación numérica de las imágenes faciales, convirtiéndolas en vectores conocidos como "embeddings". Estos embeddings son fundamentales para comparar rostros y realizar tareas como la identificación o verificación. En este artículo, exploraremos cómo las CNN (Redes Neuronales Convolucionales) se utilizan eficazmente como extractores de embeddings en sistemas de reconocimiento facial.

Explicación principal con ejemplos

Las CNN son ideales para el procesamiento de imágenes debido a su capacidad para capturar características espaciales. En el contexto del reconocimiento facial, una CNN puede aprender representaciones sofisticadas que describen las características únicas de un rostro. Una arquitectura común utilizada es la ResNet, que utiliza bloques de identidad y shortcut connections para mejorar la convergencia y reducir la sobrerrepresentación.

Ejemplo: ResNet50 como extractor de embeddings

import tensorflow as tf
from tensorflow.keras.applications import ResNet50

# Cargar el modelo ResNet50 sin las capas superiores
base_model = ResNet50(weights='imagenet', include_top=False, input_shape=(224, 224, 3))

# Extraer embeddings de una imagen
from tensorflow.keras.preprocessing import image
import numpy as np

img_path = 'path/to/image.jpg'
img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = preprocess_input(x)  # Preprocesar la imagen según el modelo

embeddings = base_model.predict(x)

print(embeddings.shape)  # Salida: (1, 7, 7, 2048)

En este ejemplo, utilizamos ResNet50, una arquitectura popular para extraer características. El modelo se entrena en grandes conjuntos de datos de imágenes, lo que le permite aprender representaciones robustas. Las últimas capas del modelo (generalmente las 7x7) contienen embeddings.

Errores típicos / trampas

Preprocesamiento inadecuado: Cada arquitectura de CNN tiene su propio formato y escala específica para las imágenes de entrada. No preprocesar adecuadamente puede hacer que el modelo no funcione correctamente.

Máscaras no uniformes: Las máscaras (máscara de ocultación) en la base del rostro pueden afectar significativamente los embeddings. Si una parte del rostro está oculta, los embeddings podrían ser inexactos o inconsistentes.

Overfitting y underfitting: Los modelos entrenados en conjuntos de datos no representativos pueden sobreajustarse a ciertos tipos de imágenes y fallar con nuevas entradas. Asegúrate de tener un conjunto de entrenamiento diverso y adecuado.

Checklist accionable

Verifica el preprocesamiento: Asegúrate de que las imágenes están en el formato correcto y escalas adecuadas.
Evalúa la consistencia del rostro: Verifica que todas las capturas estén con el mismo ángulo, luz y expresión.
Especifica la arquitectura: Elige una CNN apropiada para tu tarea específica (ResNet, VGG, Inception, etc.).
Ajusta hiperparámetros: Experimenta con tamaños de lote, learning rate y épocas para optimizar el rendimiento.
Evalúa la representación en embeddings: Analiza cómo se comportan los embeddings en tu conjunto de datos.

Cierre: Siguientes pasos

Ahora que hemos explorado cómo las CNN pueden ser utilizadas como extractores de embeddings, es importante considerar las siguientes acciones:

Prueba diferentes arquitecturas: Experimenta con diferentes modelos para ver qué funciona mejor en tu caso particular.
Aumenta la diversidad del conjunto de datos: Incluye más variedad en tus conjuntos de entrenamiento y prueba para reducir los sesgos y mejorar la robustez.
Implementa técnicas de regularización: Utiliza dropout, l2 regularization o batch normalization para prevenir el overfitting.

El reconocimiento facial es un campo en constante evolución. Continúa explorando nuevas arquitecturas y técnicas para mejorar la precisión y responsabilidad en los sistemas de visión artificial.