Overfitting y underfitting, Unidad 10 — Evaluación correcta para evitar engaños, 10.2 — Errores frecuentes · 13/01/2026

Comparaciones injustas

Introducción

En el campo del machine learning, la evaluación de modelos es una parte crucial para asegurar que nuestras predicciones sean precisas y útiles. Sin embargo, a menudo caemos en errores comunes al comparar diferentes modelos o configuraciones, lo cual puede llevarnos a conclusiones erróneas sobre su rendimiento real. En este artículo, abordaremos los errores típicos de las comparaciones injustas y proporcionaremos un checklist accionable para evitarlos.

Explicación principal con ejemplos

Ejemplo 1: Comparando modelos en diferentes conjuntos de datos

Imaginemos que estamos evaluando dos modelos de clasificación, Modelo A y Modelo B, utilizando el mismo conjunto de datos para entrenamiento y prueba. Sin embargo, ambos modelos fueron ajustados con ligeras diferencias en los hiperparámetros. Este tipo de comparación puede dar resultados engañosos.

from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Cargar datos
data = load_iris()
X, y = data.data, data.target

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Entrenar Modelos A y B con ligeras diferencias en hiperparámetros
model_A = LogisticRegression(C=1.0).fit(X_train, y_train)
model_B = LogisticRegression(C=0.5).fit(X_train, y_train)

# Evaluar ambos modelos en el conjunto de prueba
accuracy_A = accuracy_score(y_test, model_A.predict(X_test))
accuracy_B = accuracy_score(y_test, model_B.predict(X_test))

print(f'Precisión del Modelo A: {accuracy_A}')
print(f'Precisión del Modelo B: {accuracy_B}')

Si Modelo A tiene una precisión ligeramente superior a Modelo B, podríamos concluir que el ajuste con un valor de C mayor es mejor. Sin embargo, este tipo de comparación es injusta porque ambos modelos fueron ajustados en los mismos datos durante la fase de entrenamiento.

Ejemplo 2: Comparando modelos sin separar conjuntos de validación

Otro error común es no usar conjuntos de validación para evaluar y ajustar los modelos. Esto puede llevar a una sobreestimación del rendimiento real del modelo en el conjunto de prueba.

# Ignorar la división en conjuntos de entrenamiento, validación e incluso prueba
model_C = LogisticRegression(C=1.0).fit(X, y)
accuracy_C = accuracy_score(y, model_C.predict(X))

print(f'Precisión del Modelo C: {accuracy_C}')

En este caso, el modelo Modelo C podría parecer más preciso porque no se ha ajustado en los mismos datos donde se evalúa su rendimiento. Este tipo de evaluación puede llevar a conclusiones engañosas sobre la capacidad real del modelo.

Errores típicos / trampas

Comparar modelos con diferentes conjuntos de entrenamiento y prueba: Asegúrate de que los modelos sean comparados en conjuntos de datos iguales para obtener una medición justa.
Usar la misma base de datos para ajuste y evaluación: La evaluación del rendimiento real debe realizarla un conjunto de datos completamente independiente al usado para entrenar el modelo.
Comparar hiperparámetros sin optimización adecuada: Comparaciones injustas pueden surgir si los hiperparámetros son ajustados en un conjunto de datos y luego evaluados en otro, sin una validación cruzada o búsqueda de hiperparámetros adecuadas.

Checklist accionable

Separar conjuntos de entrenamiento, validación e incluso prueba: Usa técnicas como la validación cruzada para garantizar que el modelo se evalúe justamente.
Usa hiperparámetros estandarizados o ajustados en un conjunto diferente a los de prueba: Asegura que cualquier ajuste adicional sea realizado solo con datos no vistos.
Optimiza hiperparámetros utilizando validación cruzada: Evita el sobreajuste al ajustar parámetros basados en una sola evaluación del rendimiento en el conjunto de entrenamiento.
Evalúa a los modelos en conjuntos independientes para evitar la optimización del test set.
Asegúrate que las métricas utilizadas sean relevantes y apropiadas: Las métricas deben reflejar el objetivo real del modelo.

Cierre con "Siguientes pasos"

Continúa explorando técnicas avanzadas de validación: Aprende sobre validación cruzada más compleja, como la K-fold cross-validation.
Implementa validación en tu flujo de trabajo habitual: Integra estas prácticas en el ciclo de desarrollo y evaluación de modelos para garantizar una medición justa del rendimiento.
Busca más recursos para profundizar en evaluación y optimización de modelos: Consulta documentación oficial, tutoriales y artículos relacionados.

Siguiendo estos consejos, podrás evitar comparaciones injustas y asegurar que los modelos evalúen adecuadamente su rendimiento real.

Comparaciones injustas

Comparaciones injustas

Introducción

Explicación principal con ejemplos

Ejemplo 1: Comparando modelos en diferentes conjuntos de datos

Ejemplo 2: Comparando modelos sin separar conjuntos de validación

Errores típicos / trampas

Checklist accionable

Cierre con "Siguientes pasos"

Contacta e inscríbete

Contacto