Scikit-learn desde cero, Unidad 9 — Selección y ajuste de modelos, 9.2 — Comparación de modelos · 13/01/2026

Misma validación

Comparación de modelos: Misma validación

Introducción

La comparación de modelos es una etapa crucial en el flujo de trabajo de machine learning. Permite evaluar la performance y elegir el modelo más adecuado para un problema específico. Sin embargo, este proceso puede ser engañoso si no se realiza correctamente, lo que puede llevar a conclusiones erróneas sobre qué modelos son los mejores candidatos para producción.

En esta unidad de aprendizaje, aprenderás cómo comparar modelos utilizando la misma validación en scikit-learn. Veremos ejemplos prácticos y discutiremos errores comunes a evitar para asegurarse de que tus conclusiones sean fiables.

Explicación principal con ejemplos

Para evaluar el desempeño de varios modelos, es común usar la validación cruzada (cross-validation). Sin embargo, al hacerlo sin cuidado, puedes obtener resultados engañosos. La idea básica es que todos los modelos se entrenen y se valoren en las mismas condiciones para evitar sesgos.

Veamos un ejemplo con tres modelos de regresión lineal: LinearRegression, Ridge y Lasso. Utilizaremos la base de datos boston de scikit-learn:

from sklearn.datasets import load_boston
from sklearn.model_selection import cross_val_score, KFold
import numpy as np

# Cargar los datos
data = load_boston()
X, y = data.data, data.target

# Definir los modelos a evaluar
models = [LinearRegression(), Ridge(alpha=1), Lasso(alpha=0.1)]

# Realizar la validación cruzada con KFold
kf = KFold(n_splits=5, shuffle=True, random_state=42)

for model in models:
    scores = cross_val_score(model, X, y, cv=kf, scoring='neg_mean_squared_error')
    print(f"Modelo: {model.__class__.__name__}, RMSE: {-np.mean(scores):.2f}")

En este código, cross_val_score se utiliza para evaluar cada modelo en 5 folds con validación cruzada. El resultado es un array de puntuaciones negativas del error cuadrático medio (RMSE), que luego convertimos a positivo para mejor interpretación.

Errores típicos / trampas

Comparar modelos sin la misma validación: Si los modelos se entrenan en conjuntos de datos diferentes o con validación cruzada desbalanceada, no podrás compararlos de manera justa.
Usar las mismas puntuaciones fuera del conjunto de validación para calibrar y seleccionar un modelo: La elección del mejor modelo no debe basarse en el resultado de la misma validación utilizada para entrenarlo. Esto es conocido como "optimismo" o "pico de sobreajuste".
Confiar ciegamente en una única métrica: Las decisiones deben basarse en múltiples métricas pertinentes al problema y al modelo.

Checklist accionable

Elegir la misma validación para todos los modelos.
Usar KFold o StratifiedKFold según sea necesario (StratifiedKFold es preferible cuando las clases están desequilibradas).
Calibrar hiperparámetros con una técnica de búsqueda exhaustiva como GridSearchCV o RandomizedSearchCV antes de la validación final.
Comparar modelos usando múltiples métricas (RMSE, MAE, R², etc.) y entender su significado en el contexto del problema.
Evaluar el modelo final en un conjunto de datos completamente nuevo para asegurarte de que no haya sobreajuste.

Cierre: Siguientes pasos

Ahora que has aprendido cómo comparar modelos con la misma validación, es momento de aplicarlo a tus propios proyectos:

Práctica: Aplica esta técnica al proyecto que estés trabajando actualmente o haz un mini-proyecto usando diferentes modelos y datos.
Expansión del conocimiento: Explora técnicas avanzadas como el Cross-Validation con Hold-Out para evaluar mejor los modelos.
Evaluación en producción: Asegúrate de validar tus modelos finales en condiciones reales antes de implementarlos.

Siguiendo estos pasos, podrás tomar decisiones más informadas y confiadas al elegir modelos para tu trabajo de machine learning.