Clasificación de texto, Unidad 7 — Entrenamiento y ajuste, 7.2 — Ajuste de hiperparámetros · 12/01/2026

Regularización

Introducción

La regularización es una técnica fundamental en la construcción de clasificadores robustos y preventiva contra sobreajuste. El sobreajuste ocurre cuando un modelo se ajusta demasiado a los datos de entrenamiento, resultando en una baja precisión al predecir datos nuevos. La regularización actúa como un controlador del ajuste, permitiendo que el modelo generalice mejor a nuevos datos.

Explicación principal con ejemplos

La regularización implica la adición de una penalización o sanción al error cuadrático medio (o cruzado) en lugar de minimizar solo el error. Esta penalización disminuye los valores de los pesos del modelo, lo que a menudo resulta en un modelo más simple y menos complejo.

Ejemplo: Regularización L2

El regularizador L2 (también conocido como Ridge Regression o Tikhonov regularización) se calcula sumando una proporción de la suma cuadrática de los pesos al error del modelo. Esto impide que ciertos pesos crezcan demasiado grandes.

import numpy as np
from sklearn.linear_model import SGDClassifier

# Datos de ejemplo
X = np.array([[0, 1], [1, 0]])
y = np.array([0, 1])

# Crear un clasificador con regularización L2
sgd_clf = SGDClassifier(loss='log', penalty='l2', alpha=0.01)
sgd_clf.fit(X, y)

print("Peso después de regularizar (L2):", sgd_clf.coef_)

Ejemplo: Regularización L1

El regularizador L1 (también conocido como Lasso Regression) se calcula sumando una proporción del valor absoluto de los pesos al error. Esto puede resultar en la eliminación de algunas características completamente, lo que es útil para reducir el número de características irrelevantes.

# Crear un clasificador con regularización L1
sgd_clf_l1 = SGDClassifier(loss='log', penalty='l1', alpha=0.01)
sgd_clf_l1.fit(X, y)

print("Peso después de regularizar (L1):", sgd_clf_l1.coef_)

Errores típicos / trampas

Regularización excesiva: Regularizar demasiado puede resultar en un modelo subajustado que no se ajusta adecuadamente a los datos de entrenamiento.
No utilizar regularización en suficiente medida: Falta de regularización puede llevar al sobreajuste, donde el modelo se ajusta demasiado a los datos de entrenamiento y falla en generalizar a nuevos datos.
Escojer una penalización inadecuada: La elección de la penalización (L1 o L2) depende del problema particular. Una elección errónea puede resultar en un modelo que no se ajuste correctamente.

Checklist accionable

Entender el concepto de regularización: Comprender cómo y por qué funciona la regularización es crucial para su correcta implementación.
Elegir el tipo adecuado de regularización: L1 o L2, basándose en las características del problema.
Definir el grado de regularización: Ajustar el hiperparámetro alpha (o equivalente) para encontrar un equilibrio entre ajuste y generalización.
Validación cruzada: Utilizar validación cruzada para evaluar la efectividad de diferentes grados de regularización en diferentes conjuntos de datos.
Monitorear el desempeño del modelo: Verificar continuamente si hay signos de sobreajuste o subajuste.

Cierre con "Siguientes pasos"

Ajuste adicional a otros modelos: La regularización no se limita solo al clasificador SGD, sino que también es útil en otros tipos de modelos como SVM.
Explorar técnicas más avanzadas: Métodos como DropOut o Group Lasso pueden ser útiles dependiendo del problema y la cantidad de datos disponibles.
Implementación en producción: Una vez que se elija la regularización adecuada, es importante implementarla en una solución real.

Por lo tanto, la regularización es una herramienta poderosa para mejorar la calidad del modelo de clasificación. Con un entendimiento claro y la aplicación correcta, puedes construir modelos más robustos y generalizables.

Regularización