Overfitting y underfitting, Unidad 4 — Overfitting: causas habituales, 4.2 — Problemas en los datos · 13/01/2026

Pocos datos

Pocos datos: una causa común de overfitting

Introducción

En el mundo del machine learning, los modelos complejos pueden caer en el trampa de aprender tanto del ruido como de la señal. Este fenómeno se conoce como overfitting, y puede ser particularmente problemático cuando no tenemos suficientes datos para entrenar adecuadamente a nuestro modelo. En esta unidad, exploraremos cómo los pocos datos pueden causar overfitting, proporcionando ejemplos prácticos y consejos para mitigarlo.

Explicación principal con ejemplos

Cuando un conjunto de datos es insuficientemente grande o no representa adecuadamente la distribución subyacente del problema que estamos intentando resolver, el modelo puede aprender patrones locales que no son generalizables. Esto se manifiesta en overfitting.

Ejemplo práctico: Predicción de precios inmobiliarios

Supongamos que estamos desarrollando un modelo para predecir los precios de las viviendas en una ciudad. Si nuestro conjunto de datos es pequeño, solo puede incluir información sobre ciertas calles o barrios. El modelo podría ajustarse muy bien a estos datos específicos pero fallar enormemente al aplicarlo a nuevas áreas no representadas en el conjunto de entrenamiento.

# Ejemplo ficticio de un modelo de regresión lineal
import numpy as np
from sklearn.linear_model import LinearRegression

# Datos limitados (pocos ejemplos)
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([2.1, 4.2, 6.1, 8.0, 9.9])

model = LinearRegression()
model.fit(X, y)

# Predicción sobre datos nuevos
new_X = np.array([[6], [7], [8]])
predictions = model.predict(new_X)
print(predictions)

En este ejemplo, el modelo puede ajustarse perfectamente a los datos existentes pero fallará al predecir valores fuera del rango de entrenamiento debido a la falta de representatividad.

Errores típicos / trampas

Ignorar las limitaciones del conjunto de datos: Si no reconocemos que el tamaño del conjunto de datos es insuficiente, podemos seguir ajustando nuestro modelo sin considerar si este ajuste realista puede ser generalizado a nuevos datos.

Usar validación cruzada inadecuadamente: Validación cruzada (k-fold) puede ser un recurso valioso para evaluar el rendimiento del modelo, pero si no se aplica correctamente en conjuntos de datos pequeños, puede llevar a overfitting.

Optimización sobre el conjunto de test: A menudo es tentador ajustar nuestros hiperparámetros o funciones utilizando el conjunto de test, pero esto invalida cualquier evaluación posterior del rendimiento real del modelo.

Checklist accionable

Para abordar la problemática de los pocos datos y prevenir overfitting:

Incrementar el tamaño del conjunto de datos: Busca más ejemplos relacionados con tu problema para aumentar la representatividad del conjunto de entrenamiento.
Usar técnicas de under-sampling o over-sampling: Si tus datos están desequilibrados, considera balancear los conjuntos para mejorar el rendimiento del modelo.
Aplicar validación cruzada adecuadamente: Dividir correctamente tu conjunto de datos puede ayudarte a obtener una mejor estimación del rendimiento real del modelo.
Regularización: Ajusta parámetros como lambda en técnicas como Ridge o Lasso para evitar overfitting.
Usar modelos más simples: Si el conjunto de datos es muy pequeño, puede ser necesario simplificar tu modelo a uno con menor capacidad.

Cierre: Siguientes pasos

Mitigación continua

Continúa buscando y recopilando nuevos datos para mejorar la representatividad del conjunto de entrenamiento.
Evalúa regularmente el rendimiento del modelo en diferentes conjuntos de validación y test.
Ajusta tus parámetros y técnicas según sea necesario.

Explorar otros recursos

Feature Engineering: Mejora tus características basándote en conocimientos domainiales para obtener más información valiosa desde los datos existentes.
Métodos avanzados de validación: Familiarízate con técnicas como el bootstrapping o la validación por deslizamiento cruzado.

Los pocos datos pueden ser un desafío significativo en machine learning, pero con estrategias adecuadas y una comprensión profunda del problema, podemos mitigar su impacto y construir modelos más robustos y generalizables.