Detección de objetos, Unidad 6 — Arquitectura interna de YOLO, 6.1 — Backbone, neck y head · 12/01/2026

Predicción final

Introducción

La predicción final es un paso crucial en la arquitectura de los detectores de objetos basados en Deep Learning, especialmente en modelos como YOLO (You Only Look Once). Este modelo introduce una única etapa que combina tanto la detección como la clasificación, lo que facilita el procesamiento y reduce significativamente las latencias. En esta unidad, exploraremos cómo funciona la predicción final en YOLO, sus componentes clave, y los desafíos comunes a tener en cuenta al implementarlo.

Explicación principal con ejemplos

Arquitectura de Backbone

El backbone es la parte más profunda del modelo que se encarga de extraer características de las imágenes. En YOLO, este componente suele ser una arquitectura convolucional preexistente como Darknet-53 o ResNet. Aquí te presentamos un ejemplo simplificado del Backbone:

def backbone(input_tensor):
    x = Conv2D(64, (7, 7), strides=(2, 2), activation='relu')(input_tensor)
    x = MaxPooling2D((3, 3), strides=(2, 2))(x)
    # Resto de las capas del backbone
    return x

Neck

El neck es una transición entre el backbone y la predicción final. En YOLO, este componente puede ser simplemente un conjunto adicional de capas convolucionales o incluso una red separada como CSPNet (Cross Stage Partial Network). Su función principal es adaptar las características extraídas del backbone a las necesidades de la predicción final:

def neck(input_tensor):
    x = Conv2D(1024, (3, 3), padding='same', activation='relu')(input_tensor)
    x = UpSampling2D()(x)  # Para mantener el tamaño del mapa de características
    return x

Head

Finalmente, la predicción final se realiza en el head. Este componente es responsable de generar las cajas bounding y las clasificaciones finales. En YOLO, cada celda del grid predictivo genera varias cajas candidatas con sus respectivas probabilidades:

def head(input_tensor):
    x = Conv2D(1024, (3, 3), padding='same', activation='relu')(input_tensor)
    # Generar predicciones: bbox y clasificaciones
    box_predictions = Conv2D(num_anchors * 5 + num_classes, (1, 1))(x)  # Cada celda predice bbox y clases
    return box_predictions

Errores típicos / trampas

Falta de balance en la arquitectura del backbone

Un error común es diseñar un backbone que no extrae características adecuadamente. Si el backbone es demasiado profundo o complejo, puede resultar en sobreajuste; si es demasiado simple, puede no capturar las características necesarias para detección precisa.

Mal uso de los anchors

En YOLO, los anchors son cruciales para la predicción final. Seleccionar anchos incorrectos puede llevar a cajas bounding inexactas o mal clasificaciones. Es importante ajustar los anchos según el dominio específico y las características del dataset.

Problemas con la arquitectura del neck

El diseño del neck también es crucial. Un neck que no adapta adecuadamente las características puede resultar en una predicción final inexacta o suboptimizada. Es importante experimentar con diferentes arquitecturas para encontrar lo más adecuado.

Mal configuración de los parámetros de entrenamiento

Parámetros como el learning rate, batch size y epochs pueden afectar significativamente la calidad de las predicciones finales. Configuraciones incorrectas pueden llevar a modelos que no convergen bien o a sobrerrepresentaciones.

Checklist accionable

Elije un backbone adecuado: Asegúrate de seleccionar el mejor backbone para tu dominio.
Configura correctamente los anchors: Ajusta los anchos según las características del dataset y la escala de objetos.
Diseña un neck eficiente: Experimenta con diferentes arquitecturas para adaptar las características adecuadamente.
Optimiza parámetros del entrenamiento: Configura learning rate, batch size y epochs adecuadamente.
Valida con datos reales: Evalúa regularmente el modelo con datos no vistos para evitar el sobreajuste.

Cierre: Siguientes pasos

Pasos siguientes en la detección de objetos

Exploremos segmentación semántica: La siguiente etapa lógica después de la detección es la segmentación, donde se identifican regiones específicas dentro de un objeto.
Implementemos el tracking de objetos: Estudia cómo seguir y rastrear objetos a través del tiempo en secuencias de vídeo para mejorar la precisión en aplicaciones reales.
Profundic peace en visión artificial en producción: Aprende sobre los desafíos y mejores prácticas para implementar modelos de detección en entornos de producción.

Al seguir estos pasos, podrás profundizar en el dominio de la detección de objetos y aplicarlo con éxito a diversos problemas reales.

Predicción final

Predicción final

Introducción

Explicación principal con ejemplos

Arquitectura de Backbone

Neck

Head

Errores típicos / trampas

Falta de balance en la arquitectura del backbone

Mal uso de los anchors

Problemas con la arquitectura del neck

Mal configuración de los parámetros de entrenamiento

Checklist accionable

Cierre: Siguientes pasos

Pasos siguientes en la detección de objetos

Contacta e inscríbete

Contacto