Detección de objetos, Unidad 5 — Detectores de una sola etapa (one-stage), 5.2 — YOLO · 12/01/2026

Detección como regresión

Detección como regresión: Desarrollando un entendimiento profundo de YOLO

Introducción

La detección de objetos es una tarea fundamental en la visión por computador y la inteligencia artificial. En las últimas décadas, varios algoritmos han surgido para abordar esta tarea, cada uno con sus propias fortalezas y debilidades. Uno de los enfoques más revolucionarios es el YOLO (You Only Look Once), que se basa en la idea de tratar la detección como una regresión. Este enfoque permite una detección rápida y precisa, adaptándose perfectamente a aplicaciones donde la velocidad es crucial.

En este artículo, profundizaremos en cómo funciona YOLO, sus méritos e inconvenientes, y cómo implementarlo de manera efectiva. También exploraremos algunos errores comunes que pueden surgir durante su desarrollo y proporcionamos un checklist para asegurar el éxito de tu proyecto con YOLO.

Explicación principal

YOLO es conocido por convertir la detección de objetos en una tarea de regresión, lo que significa que se trata de predecir directamente las coordenadas del borde del objeto (top-left y bottom-right), su ancho y alto, y la clase a la que pertenece. Esta aproximación es significativamente más rápida que los métodos tradicionales como R-CNN y Fast R-CNN, ya que no requiere múltiples clasificaciones por región.

Arquitectura de YOLO

YOLO divide la imagen en una cuadrícula y, para cada celda, predice un número fijo de objetos. Cada predicción incluye las coordenadas del borde (top-left) del objeto, su ancho y alto, y la confianza de que esa celda contiene un objeto. Además, predice las probabilidades de pertenecer a cada una de las clases predefinidas.

Ejemplo de Implementación

A continuación, se presenta un ejemplo simple en Python utilizando TensorFlow para entender mejor cómo funciona YOLO.

import tensorflow as tf
from tensorflow.keras import layers

# Definir la arquitectura del modelo
model = tf.keras.Sequential([
    # Capas convolucionales y max pooling
    layers.Conv2D(16, (3, 3), activation='relu', input_shape=(416, 416, 3)),
    layers.MaxPooling2D(pool_size=(2, 2)),
    
    layers.Conv2D(32, (3, 3), activation='relu'),
    layers.MaxPooling2D(pool_size=(2, 2)),
    
    # Capas del cuello (neck) de YOLO
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.MaxPooling2D(pool_size=(2, 2)),
    
    # Capa final que produce predicciones
    layers.Conv2D(1024, (3, 3), activation='relu'), 
    layers.Flatten(),
    layers.Dense(units=507)  # Cada celda predice 3 boxes, 80 classes and confidence score
])

# Definir la salida de las predicciones
output = model.output

# Procesar y organizar las predicciones según YOLO
predictions = tf.reshape(output, (-1, 7, 7, 25))  # (7x7 cells, each predicting 3 boxes with 80 classes and confidence score)

Errores típicos / trampas

Aunque YOLO es muy eficiente en términos de tiempo y precisión, hay varios errores comunes que pueden surgir durante su desarrollo:

Balanceo de clases: Si las clases están mal balanceadas (por ejemplo, si hay muchas más imágenes de un tipo de objeto que de otro), el modelo puede tendenciar a clasificar incorrectamente los objetos menos representados.

Recuadros del borde: Al predecir directamente las coordenadas del borde del objeto, es posible que las predicciones no sean precisas si hay mucha oclusión o si los objetos están muy pequeños en la imagen.

Falta de contexto: Como YOLO trata de prever las características de un objeto sin considerar el contexto completo, puede fallar en detener objetos que se parezcan a otras clases pero no sean exactamente iguales (por ejemplo, diferentes tipos de vehículos).

Checklist accionable

Aquí hay algunos pasos para asegurarte de implementar YOLO con éxito:

Balancea tus datos: Asegúrate de tener un conjunto de datos balanceado que represente correctamente todas las clases a detectar.
Normaliza tus imágenes: Normalizar los valores del píxel puede mejorar la precisión del modelo.
Entrena en múltiples escalas: Utiliza imágenes de diferentes tamaños para entrenar el modelo, lo que ayudará a predecir objetos de diferentes dimensiones.
Ajusta parámetros del modelo: Experimenta con diferentes valores para las capas y la arquitectura para mejorar la precisión.
Especifica ancho y alto correctos: Asegúrate de que los tamaños de los recuadros predichos sean lo suficientemente pequeños como para no perder detalles importantes.

Cierre

Implementar YOLO en tu proyecto puede abrir nuevas posibilidades en términos de velocidad y precisión en la detección de objetos. Sin embargo, es crucial estar al tanto de los errores comunes que pueden surgir durante su desarrollo. Siguiendo estos consejos y utilizando un enfoque metódico, podrás optimizar tu modelo para obtener los mejores resultados.

Siguientes pasos

Explora otros modelos: Tras dominar YOLO, considera explorar otras arquitecturas como SSD o RetinaNet.
Aplícalo a nuevos proyectos: Implementa YOLO en una variedad de aplicaciones para ver cómo se adapta a diferentes entornos y tareas.
Participa en competiciones: Participa en competiciones de detección de objetos como el COCO dataset, donde podrás medir tu modelo contra otros.

¡Feliz codificación!