Scikit-learn desde cero, Unidad 3 — Estructura básica de un proyecto con scikit-learn, 3.2 — Flujo estándar de trabajo · 13/01/2026

Evaluar resultados

Evaluar resultados: Un paso crucial en la construcción de modelos con Scikit-learn

Introducción

Evaluar los resultados de un modelo es una etapa fundamental en el flujo de trabajo de machine learning. Es aquí donde validamos si nuestro modelo está funcionando como esperábamos y cuán efectivo es para hacer predicciones sobre nuevos datos. En esta unidad, exploraremos cómo evaluar adecuadamente los modelos de Scikit-learn, usando diferentes métricas y técnicas.

Explicación principal con ejemplos

Para ilustrar este proceso, consideremos un ejemplo simple de clasificación binaria utilizando el dataset iris que viene integrado en Scikit-learn. Primero, importamos las bibliotecas necesarias y cargamos el conjunto de datos:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Cargar dataset iris
iris = load_iris()
X, y = iris.data[:, :2], iris.target[:2]  # Usamos solo dos características para simplificar

# Separar datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Entrenar modelo KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

# Hacer predicciones
y_pred = knn.predict(X_test)

# Evaluar el modelo usando accuracy_score
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")

En este ejemplo, usamos KNeighborsClassifier para clasificar datos de flores iris basados en dos características. Luego, evaluamos la precisión del modelo utilizando accuracy_score. Sin embargo, hay varias técnicas y errores comunes que debemos considerar al evaluar nuestros modelos.

Errores típicos / trampas

Sólo usar accuracy (o cualquier métrica) para clasificación binaria

En problemas con múltiples clases, la precisión puede ser engañosa y no reflejar adecuadamente el rendimiento del modelo. Por ejemplo, en una clasificación de tres clases, si todas las predicciones son 1 pero la mayoría de las etiquetas reales son 0, la precisión será alta aunque el modelo esté mal.

Ignorar la validación cruzada

La validación cruzada (cross-validation) es crucial para evaluar el rendimiento del modelo en múltiples particiones de datos. Esto ayuda a identificar si el modelo está sobreajustado o subajustado y proporciona una estimación más precisa del rendimiento real.

No considerar el balanceo de clases

En problemas con clases desequilibradas, métricas simples como la precisión pueden ser engañosas. Utiliza classification_report en Scikit-learn para obtener una visión más completa de los resultados, incluyendo recall y F1-score.

Sólo evaluar con conjuntos de prueba

Dependiendo del problema y el conjunto de datos, puede ser útil también evaluar los modelos en subconjuntos de entrenamiento o validación. Esto ayuda a detectar overfitting temprano.

Ignorar el tiempo de ejecución

En problemas con alta dimensionalidad o grandes conjuntos de datos, el tiempo de ejecución es crucial. Evalúa no solo la precisión sino también el rendimiento computacional del modelo.

Checklist accionable

A continuación, te presentamos un checklist para asegurarte de evaluar adecuadamente tus modelos:

Usa múltiples métricas: No depender únicamente en una métrica como la precisión.
Implementa validación cruzada: Utiliza técnicas como StratifiedKFold para obtener estimaciones más precisas del rendimiento.
Analiza el balanceo de clases: Considera técnicas como oversampling o undersampling si las clases están desequilibradas.
Evalúa en diferentes conjuntos de datos: No sólo en conjunto de prueba, sino también en subconjuntos de entrenamiento y validación.
Mide el tiempo de ejecución: Evalúa no solo la precisión sino también la eficiencia del modelo.

Cierre: Siguientes pasos

Evaluar los resultados de un modelo es una tarea esencial pero a menudo olvidada en el flujo de trabajo de machine learning. Al seguir las recomendaciones y evitar los errores comunes, puedes asegurarte de que tu modelo está funcionando según lo esperado.

Siguientes pasos:

Aprende sobre validación cruzada más detalladamente.
Explora métricas adicionales como F1-score, Recall y Precision.
Considera la implementación de técnicas para manejar clases desequilibradas.
Prueba diferentes modelos y compararlos usando las mismas métricas para una decisión informada.

¡Esperamos que este artículo te haya ayudado a entender mejor cómo evaluar adecuadamente los resultados de tus modelos con Scikit-learn!