Segmentación de imágenes, Unidad 6 — Segmentación de instancias, 6.2 — Mask R-CNN · 13/01/2026

Extensión de Faster R-CNN

Extensión de Faster R-CNN: Mask R-CNN

Introducción

En la visión por computadora, la detección de objetos es un paso crucial para muchas aplicaciones, desde reconocimiento facial hasta identificación de vehículos en imágenes de tráfico. Sin embargo, solo detectar los objetos no siempre es suficiente; a menudo necesitamos saber exactamente qué están haciendo esos objetos y cómo interactúan con el entorno. Este es donde entra Mask R-CNN (Region-based Convolutional Neural Network), una extensión de Faster R-CNN que añade la capacidad de segmentar los píxeles pertenecientes a un objeto, proporcionando máscaras para cada detección.

Mask R-CNN combina la eficiencia y precisión del detector base (Faster R-CNN) con la capacidad de generar máscaras binarias de alta resolución. Esto hace que Mask R-CNN sea ideal para aplicaciones donde se requiere una detección precisa no solo del objeto, sino también su ubicación exacta en la imagen.

Explicación principal

Mask R-CNN es una arquitectura de aprendizaje profundo que se basa en Faster R-CNN y añade una nueva rama para generar máscaras binarias. Aquí te presentamos el flujo general del proceso:

Detector base (Faster R-CNN): El componente principal sigue la estructura de Faster R-CNN, donde los propuestos regiones de interés (ROI) son procesados a través de un clasificador y un regresor para detectar objetos.

Generación de máscaras: Una nueva rama es añadida a la arquitectura existente para generar máscaras binarias. Esta rama toma los ROIs propuestos del paso anterior, los procesa con una red convolucional y luego aplica un padding y upsampling para obtener una máscara de alta resolución.

Máscaras finales: Las máscaras generadas se ajustan a las predicciones de clasificación e inferencia de cuadros del detector base, proporcionando así una segmentación precisa del objeto en la imagen.

A continuación, presentamos un ejemplo simplificado de cómo podría ser la arquitectura de Mask R-CNN:

import tensorflow as tf

def build_mask_rcnn(input_shape):
    backbone = tf.keras.applications.ResNet50(include_top=False, input_shape=input_shape)
    roi_pooling = tf.keras.layers.RoiPoolingConv(6, (32, 32))(backbone.output)

    # Clasificador
    classifier = tf.keras.models.Model(inputs=backbone.input, outputs=roi_pooling)
    
    # Máscaras
    mask_branch = tf.keras.layers.Conv2D(512, (3, 3), padding='same')(roi_pooling)
    mask_branch = tf.keras.layers.BatchNormalization()(mask_branch)
    mask_branch = tf.keras.layers.Activation('relu')(mask_branch)
    mask_branch = tf.keras.layers.Conv2D(512, (3, 3), padding='same')(mask_branch)
    mask_branch = tf.keras.layers.BatchNormalization()(mask_branch)
    mask_branch = tf.keras.layers.Activation('relu')(mask_branch)
    mask_branch = tf.keras.layers.UpSampling2D(size=(2, 2))(mask_branch)
    mask_branch = tf.keras.layers.Conv2D(512, (3, 3), padding='same')(mask_branch)
    mask_branch = tf.keras.layers.BatchNormalization()(mask_branch)
    mask_branch = tf.keras.layers.Activation('relu')(mask_branch)
    mask_output = tf.keras.layers.Conv2D(num_classes, (1, 1), activation='sigmoid', name='masks')(mask_branch)

    return tf.keras.models.Model(inputs=backbone.input, outputs=[classifier.output, mask_output])

Errores típicos / trampas

Aunque Mask R-CNN es una poderosa herramienta, hay varios errores y trampas que debes tener en cuenta:

Sobrecarga computacional: La adición de la rama para las máscaras puede aumentar significativamente el tiempo de entrenamiento y la memoria necesaria. Asegúrate de tener suficientes recursos antes de implementar esta arquitectura.

Alineación entre ROI y máscaras: En algunas configuraciones, los ROIs propuestos pueden no estar perfectamente alineados con las máscaras generadas. Esto puede llevar a máscaras inexactas o cortadas. Asegúrate de ajustar adecuadamente el padding y el upsampling.

Balanza entre precisión y velocidad: Al aumentar la precisión del segmentado, se reduce la velocidad de inferencia. Es importante encontrar un equilibrio entre estos dos aspectos según las necesidades específicas de tu aplicación.

Checklist accionable

Para implementar correctamente Mask R-CNN en tu proyecto, sigue estos pasos:

Preparación del dataset: Anota claramente las máscaras para cada objeto en el conjunto de datos de entrenamiento.
Escalabilidad y optimización: Ajusta la arquitectura del detector base según tus recursos disponibles (GPU, memoria).
Entrenamiento: Comienza con una tasa de aprendizaje baja y ajusta gradualmente para mejorar la convergencia y precisión.
Alineación ROIs-máscaras: Asegúrate de que los ROIs propuestos estén correctamente alineados con las máscaras generadas.
Evalúa el rendimiento: Usa métricas como IoU (Intersection over Union) para medir la precisión de tus segmentaciones.

Cierre

Mask R-CNN es una herramienta invaluable en la visión por computadora, permitiendo no solo detección sino también segmentación precisa de objetos. Sin embargo, su implementación requiere un cuidado especial para evitar trampas comunes y asegurar un rendimiento óptimo.

Siguientes pasos

Aumenta el conocimiento: Explora más sobre otras arquitecturas relacionadas como Panoptic FPN o Deformable ConvNets.
Practica con proyectos reales: Aplica Mask R-CNN a tus propios proyectos para mejorar tu comprensión y habilidades.
Participa en competiciones de visión por computadora: Esto te ayudará a enfrentarte a problemas complejos y aprender de otros expertos.

¡Feliz codificación!