Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

Aprendizaje supervisado, Unidad 6 — Modelos basados en árboles, 6.1 — Árboles de decisión ·

Criterios de decisión

Criterios de decisión en árboles de decisión

Introducción

En el aprendizaje supervisado, los árboles de decisión son una herramienta valiosa debido a su capacidad para modelar decisiones complejas. Sin embargo, la elección del criterio de decisión es crucial ya que determinará cómo se separan los datos y, por lo tanto, la calidad del modelo. En este artículo, exploraremos los diferentes criterios de decisión utilizados en árboles de decisión, discutiremos sus ventajas e inconvenientes, y proporcionaremos un ejemplo práctico para ilustrar su aplicación.

Explicación principal con ejemplos

Los árboles de decisión utilizan una serie de reglas para separar los datos. Estas reglas son creadas a partir de un criterio de decisión. Los tres criterios más comunes utilizados en árboles de decisión son:

1. Criterio de información de Shannon (IG - Entropía)

El criterio de entropía busca maximizar la pureza de los subconjuntos generados al dividir el conjunto de datos. La fórmula para calcular la entropía es:

\[ H(S) = -\sum_{i=1}^{c} p_i \log_2(p_i) \]

Donde \( c \) es el número de clases y \( p_i \) es la probabilidad de ocurrencia de cada clase en el conjunto de datos.

Ejemplo: Supongamos que estamos clasificando imágenes de flores. Si en un subconjunto tenemos 50% de setosas, 30% de virginicas y 20% de versicolor, la entropía sería:

\[ H(S) = -\left( \frac{1}{2} \log_2\left(\frac{1}{2}\right) + \frac{3}{10} \log_2\left(\frac{3}{10}\right) + \frac{1}{5} \log_2\left(\frac{1}{5}\right) \right) \approx 0.971 \]

2. Criterio de ganancia de información (IGI - Ganancia)

La ganancia de información es la diferencia entre la entropía del conjunto original y la suma ponderada por el subconjunto de las entropías de los subconjuntos resultantes después de una división.

\[ \text{Ganancia} = H(S) - \sum_{i=1}^{k} \frac{|S_i|}{|S|} H(S_i) \]

Donde \( k \) es el número de subconjuntos generados, y \( S_i \) es cada subconjunto.

Ejemplo: Siguiendo con la misma distribución de clases, si dividimos en dos subconjuntos que contienen 70% setosas y 30% virginicas, y otro con 100% versicolor, la ganancia sería:

\[ \text{Ganancia} = 0.971 - \left( \frac{7}{10} \times H(S_1) + \frac{3}{10} \times H(S_2) \right) \]

3. Criterio de ganancia en base al entropía (Gini)

La entropía de Gini mide la probabilidad de que un elemento aleatoriamente seleccionado sea incorrectamente clasificado si se basa en una partición con respecto a la distribución real del conjunto de entrenamiento.

\[ \text{Gini}(S) = 1 - \sum_{i=1}^{c} p_i^2 \]

Ejemplo: Si tenemos el mismo conjunto de clases, la entropía de Gini sería:

\[ \text{Gini}(S) = 1 - \left( \left(\frac{1}{2}\right)^2 + \left(\frac{3}{10}\right)^2 + \left(\frac{1}{5}\right)^2 \right) \approx 0.874 \]

Errores típicos / trampas

Al elegir el criterio de decisión, es importante estar atento a ciertos errores comunes:

1. Sesgo hacia variables con más niveles

El criterio de entropía y ganancia en base al entropía pueden favorecer variables categóricas con más niveles, ya que buscan maximizar la pureza.

Ejemplo: Si tenemos una variable con solo dos niveles vs otra con diez, el árbol puede tendenciar a dividir por la variable con más niveles.

2. Sesgo hacia variables numéricas

Las variables numéricas pueden ser tratadas como categóricas al dividiirlas en intervalos, lo que puede llevar a divisiones subóptimas.

Ejemplo: Si se divide una variable numérica en intervalos, podrían surgir soluciones artificiales donde la separación no es natural.

3. Falta de interpretabilidad

Las decisiones tomadas por el criterio pueden ser difíciles de entender y explicar a otros stakeholders.

Ejemplo: Un árbol que hace divisiones basándose en variables complejas o poco significativas puede resultar en modelos difíciles de justificar.

Checklist accionable

Para asegurar una elección adecuada del criterio de decisión, considera lo siguiente:

  1. Entender la distribución de las clases: Evalúa cuántas categorías tiene tu variable objetivo y cómo se distribuyen.
  2. Normalizar variables numéricas: Asegúrate de que todas las variables estén en una escala similar para evitar sesgos en el criterio.
  3. Validación cruzada: Utiliza validación cruzada para evaluar la calidad del árbol obtenido con cada criterio.
  4. Comparar métricas: Compara el rendimiento de los modelos obtenidos con diferentes criterios utilizando métricas como precisión, recall y F1-score.
  5. Interpretabilidad: Evalúa si las decisiones tomadas son claras y fáciles de explicar.

Cierre: Siguientes pasos

Conocer cómo elegir el mejor criterio de decisión es fundamental para construir modelos de árboles de decisión efectivos. Aquí hay algunos pasos adicionales:

  • Prueba diferentes criterios: Experimenta con entropía, ganancia y Gini para ver qué se ajusta mejor a tu conjunto de datos.
  • Ajuste hiperparámetros: Asegúrate de optimizar los hiperparámetros del árbol (como la profundidad máxima) para mejorar el rendimiento.
  • Monitoreo en producción: Una vez que esté en producción, monitorea continuamente las métricas y ajusta el modelo según sea necesario.

Siguiendo estos pasos, podrás construir modelos de árboles de decisión más precisos y efectivos.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).