Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

Modelos de regresión, Unidad 9 — Feature engineering para regresión, 9.1 — Selección de variables ·

Variables redundantes

Variables redundantes: Por qué importa y cómo abordarlas

Introducción

En modelado de regresión, la selección de variables es una tarea crucial que puede influir significativamente en la precisión y generalización de nuestro modelo. Una variable redundante es aquella cuya información está perfectamente correlacionada con otra variable presente en el conjunto de datos. Este fenómeno puede llevar a una sobrecarga innecesaria del modelo, aumentar los costos computacionales y potencialmente reducir la interpretabilidad del modelo.

En este artículo exploraremos por qué es importante identificar y eliminar variables redundantes, proporcionaremos ejemplos para ilustrar estos conceptos y ofreceremos un conjunto de prácticas recomendadas para evitar errores comunes en el proceso de selección de variables. También incluiremos una lista de verificación accionable para guiar a los programadores en la aplicación de estas técnicas.

Explicación principal con ejemplos

Las variables redundantes son aquellas que presentan una correlación perfecta o casi perfecta con otras variables del conjunto de datos. Esto puede ser detectado mediante el análisis de la matriz de correlación y otros métodos estadísticos. Por ejemplo, si tenemos dos variables X1 e X2, y su relación es tal que X2 = 2 * X1 + 5, entonces X2 se consideraría una variable redundante con respecto a X1.

Ejemplo de código

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Generamos un conjunto de datos artificial para ilustrar la redundancia.
np.random.seed(0)
n_samples = 500
X1 = np.random.rand(n_samples)
X2 = X1 * 2 + 5  # X2 es una versión modificada de X1 con ruido adicional

# Creamos el DataFrame
data = pd.DataFrame({'X1': X1, 'X2': X2})
sns.scatterplot(data=data, x='X1', y='X2')
plt.title('Relación perfecta entre X1 y X2')
plt.show()

# Correlación entre las variables
correlation_matrix = data.corr()
print(correlation_matrix)

En este ejemplo, X2 es una versión modificada de X1, lo que debería indicar una correlación perfecta. Sin embargo, en un conjunto de datos real, la relación podría ser más compleja y no tan perfecta.

Errores típicos / trampas

1. Confundir correlación con causalidad

Un error común es tomar como cierto que una variable redundante causa cambios en otra variable cuando solo muestra una fuerte correlación. Esto puede llevar a malinterpretar los resultados y a hacer conclusiones incorrectas.

2. Ignorar el ruido adicional

Algunos conjuntos de datos pueden contener variables que son perfectamente correlacionadas pero con pequeños cambios en sus valores debido al ruido. Es importante diferenciar entre esta correlación perfecta y la que surge del ruido.

3. Falta de interpretabilidad

Las variables redundantes pueden hacer que un modelo sea más difícil de interpretar, lo que puede ser crítico en aplicaciones donde la explicación del modelo es crucial para tomar decisiones basadas en él.

Checklist accionable

  1. Analiza la matriz de correlación: Usa herramientas como seaborn o pandas.corr() para visualizar y analizar las relaciones entre variables.
  2. Elimina variables perfectamente correlacionadas: Si dos variables están perfectamente correlacionadas, retén solo una y elimina la otra.
  3. Revisa y ajusta los modelos: Ajusta diferentes modelos eliminando variables redundantes y observa cómo se comportan en términos de precisión y generalización.
  4. Evalúa el impacto en el modelo: Mide el impacto de eliminar las variables redundantes en la interpretabilidad del modelo, evitando sobrecargarlo con información innecesaria.
  5. Mantén un registro: Documenta todos los pasos realizados y justificaciones para asegurarte que puedes rastrear cualquier cambio realizado.

Cierre: Siguientes pasos

Pasos siguientes en tu viaje de modelado de regresión

  • Explora variables categóricas: Las variables categóricas pueden introducir interacciones complejas en el modelo.
  • Ajusta tus modelos iterativamente: Basándote en las técnicas descritas, continua ajustando y optimizando tus modelos.
  • Evalúa la generalización del modelo: Asegúrate de que tu modelo no solo funcione bien con los datos de entrenamiento, sino también con nuevos datos.

Siguiendo estos pasos y teniendo en cuenta las trampas comunes, podrás mejorar significativamente el rendimiento y la interpretabilidad de tus modelos de regresión.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).