Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

Machine Learning clásico, Unidad 3 — Clasificación: tomar decisiones, 3.2 — Regresión logística ·

Umbrales de decisión

Umbrales de decisión

Introducción

En el contexto del Machine Learning clásico, la regresión logística es una técnica fundamental para tomar decisiones basadas en datos. Una parte crucial de esta técnica es entender y aplicar adecuadamente los umbrales de decisión. Este umbral, también conocido como límite de discriminación o umbral de clasificación, define el punto en donde la predicción del modelo cambia desde una clase a otra.

Explicación principal con ejemplos

La regresión logística transforma la salida lineal (un valor entre -infinito y +infinito) generada por un modelo lineal a una probabilidad entre 0 y 1. Este proceso se realiza mediante la función sigmoide, también conocida como función logística:

\[ P(y=1|x; \theta) = \frac{1}{1 + e^{-(\theta_0 + \theta_1 x)}} \]

donde \( \theta_0 \) y \( \theta_1 \) son los parámetros del modelo, \( x \) es la entrada (variable independiente), y \( P(y=1|x; \theta) \) es la probabilidad de que la salida sea 1 dado \( x \).

El umbral de decisión se establece en un punto donde la probabilidad calculada por el modelo supera cierto umbral. Por ejemplo, si establecemos un umbral de 0.5:

  • Si \( P(y=1|x; \theta) > 0.5 \), entonces predicción = 1.
  • Si \( P(y=1|x; \theta) \leq 0.5 \), entonces predicción = 0.

Este umbral se puede ajustar según las necesidades del problema de clasificación en cuestión, y puede ser crucial para optimizar el desempeño del modelo. Por ejemplo:

def predict(x, theta):
    z = theta[0] + theta[1]*x
    return 1 if (1 / (1 + np.exp(-z))) > 0.5 else 0

# Ejemplo de uso:
theta = [0.2, -3]
print(predict(4, theta))  # Salida: 0 o 1 según el umbral

Errores típicos / trampas

1. Umbral fijo y no ajustado

Una de las trampas más comunes es utilizar un umbral fijado en 0.5 para todos los modelos, sin considerar la distribución de probabilidades o el coste del error real (falso positivo vs falso negativo).

2. Ignorar el contexto del negocio

A menudo, el costo de una predicción falsa no es igual en todos los contextos. Por ejemplo, en un sistema de detección de fraudes, puede ser más grave cometer un error al permitir un fraude que aislarse correctamente.

3. No considerar la distribución de clases

Si las clases están muy desequilibradas (por ejemplo, la clase minoritaria es muy pequeña), el umbral fijo en 0.5 puede no ser adecuado. En estos casos, se debe ajustar a los valores que mejor equilibren el costo real.

Checklist accionable

  1. Determina el coste real del error para entender cuánto importa cada tipo de predicción falsa.
  2. Analiza la distribución de las clases en tu conjunto de datos y ajusta el umbral según sea necesario.
  3. Experimenta con diferentes umbrales utilizando cross-validation o validación cruzada.
  4. Evalúa regularmente el rendimiento del modelo después de implementarlo en producción, para asegurarte de que sigue funcionando bien.
  5. Documenta y automatiza los procesos de ajuste del umbral, ya que estos pueden variar con el tiempo.

Cierre: Siguientes pasos

  • Ajusta el umbral según el contexto de tu negocio y las métricas relevantes.
  • Implementa validaciones cruzadas para encontrar un umbral óptimo en modelos complejos.
  • Monitorea constantemente el rendimiento del modelo en producción, y ajusta el umbral cuando sea necesario.

Siguiendo estos pasos, podrás mejorar significativamente la precisión y el desempeño de tus modelos de regresión logística.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).