Overfitting y underfitting, Unidad 10 — Evaluación correcta para evitar engaños, 10.1 — Buenas prácticas de validación · 13/01/2026

Separación correcta de datos

Introducción

La separación correcta de los datos es un paso fundamental en cualquier proceso de machine learning. Asegurar una distribución adecuada entre conjuntos de entrenamiento, validación y prueba es crucial para obtener modelos generalizables y evitar el overfitting. Sin embargo, este paso puede ser fácilmente subestimado, lo que lleva a mal interpretaciones y evaluaciones erróneas del rendimiento del modelo.

Explicación principal con ejemplos

La separación de datos implica dividir los datos en tres conjuntos: uno para entrenamiento, otro para validación (opcional) y uno para prueba. Este proceso es crucial porque permite evaluar el rendimiento del modelo sin sesgarlo con datos que ya han sido vistos.

En una implementación sencilla, podríamos dividir nuestros datos en los siguientes conjuntos:

from sklearn.model_selection import train_test_split

# Supongamos que `X` son las características y `y` es la variable objetivo
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

print("Tamaño conjunto de entrenamiento:", len(X_train))
print("Tamaño conjunto de validación:", len(X_val))
print("Tamaño conjunto de prueba:", len(X_test))

Ejemplo práctico

Supongamos que estamos trabajando en un modelo para predecir el precio de una vivienda basado en sus características. Utilizaremos la base de datos housing del scikit-learn.

from sklearn.datasets import fetch_california_housing
import pandas as pd

# Cargar dataset
data = fetch_california_housing()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target

# Separación de datos
X = df.drop('target', axis=1)
y = df['target']

X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

print("Tamaño conjunto de entrenamiento:", len(X_train))
print("Tamaño conjunto de validación:", len(X_val))
print("Tamaño conjunto de prueba:", len(X_test))

Errores típicos / trampas

Usar el conjunto de prueba durante el entrenamiento: Un error común es optimizar directamente sobre los datos del conjunto de prueba, lo cual puede dar un indicio erróneo del rendimiento real del modelo.

No mantener la consistencia en la separación: Si se separan los datos varias veces (por ejemplo, en diferentes etapas de desarrollo), y estas separaciones no son consistentes, el rendimiento del modelo puede verse afectado negativamente.

Separar manualmente sin una estrategia clara: Separar los datos al azar puede llevar a subconjuntos desequilibrados o a modelos que funcionan bien en algunos casos pero mal en otros.

Checklist accionable

Usa train_test_split con parámetros adecuados para dividir tus datos.
Cambia el valor de random_state para asegurarte de que la separación sea consistente entre diferentes corridas del modelo.
Evita mezclar conjuntos de entrenamiento y prueba durante el desarrollo, no utilices los datos de prueba para ajustar hiperparámetros o optimizar el modelo.
Verifica la consistencia en la separación de datos a lo largo del proceso de desarrollo del modelo.
Revisa que las variables sean balanceadas en cada conjunto, especialmente si estás trabajando con datasets desequilibrados.

Cierre: Siguientes pasos

Para seguir avanzando después de asegurarte de una separación correcta de datos:

Evalúa el rendimiento usando validación cruzada: Asegúrate de que tu modelo no está overfitting en los conjuntos de entrenamiento y validación.
Optimiza hiperparámetros: Utiliza la validación para encontrar los mejores hiperparámetros para tus modelos.
Implementa técnicas de regularización: Si observas overfitting, considera implementar estrategias como early stopping o L1/L2 regularización.

Por último, recuerda siempre validar y evaluar tu modelo con cuidado para garantizar que sea efectivo en nuevos datos no vistos.

Separación correcta de datos

Separación correcta de datos

Introducción

Explicación principal con ejemplos

Ejemplo práctico

Errores típicos / trampas

Checklist accionable

Cierre: Siguientes pasos

Contacta e inscríbete

Contacto