Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

Feature engineering, Unidad 3 — Tratamiento de valores faltantes, 3.2 — Estrategias de imputación ·

Imputación simple

Imputación simple

Introducción

En el mundo de la ciencia de datos, el tratamiento de valores faltantes es un desafío constante. La imputación simple es una técnica fundamental en este proceso, consistente en reemplazar los valores faltantes con estadísticas predefinidas o predeterminadas del conjunto de datos. Esta técnica ofrece una solución rápida y fácil a problemas de valores ausentes, pero es importante entender sus limitaciones y aplicarla con cuidado para no distorsionar los resultados.

La imputación simple es especialmente útil cuando se desconocen las causas detrás de los valores faltantes o cuando se desea obtener un valor rápido sin entrar en detalles complejos. Sin embargo, esta técnica debe usarse con precaución y considerar sus posibles efectos sobre el rendimiento del modelo.

Explicación principal

La imputación simple es la sustitución de valores faltantes por una constante o estadística predefinida. Las opciones más comunes incluyen:

  • Media (promedio): Se usa para reemplazar los valores faltantes con el promedio de la columna.
  • Mediana: Similar a la media, pero resistente a la presencia de outliers.
  • Moda: Usada principalmente en variables categóricas o discretas.

En Python, podemos usar scikit-learn para aplicar esta técnica. Veamos un ejemplo práctico:

import pandas as pd
from sklearn.impute import SimpleImputer

# Crear un DataFrame de ejemplo con valores faltantes
data = {
    'A': [1, 2, None, 4],
    'B': ['a', 'b', 'c', None]
}
df = pd.DataFrame(data)

# Crear un imputador que reemplazará los valores faltantes usando la media para las columnas numéricas
imputer = SimpleImputer(strategy='mean')

# Aplicar el imputador a la columna numérica y luego imprimir el DataFrame resultante
df['A'] = imputer.fit_transform(df[['A']])
print(df)

En este ejemplo, se aplica la imputación simple usando la media para reemplazar los valores faltantes en la columna A. Nota que esta técnica solo funciona con datos numéricos y no es aplicable a variables categóricas.

Errores típicos / trampas

  1. Ignorar el contexto del problema: La imputación simple sin considerar el contexto puede resultar en un sesgo significativo. Por ejemplo, si se aplica la media a una columna que contiene salarios, la imputación podría sobreestimar o subestimar los valores dependiendo de las circunstancias.
  1. No considerar distribuciones no normales: Si los datos tienen outliers o están fuertemente sesgados, usar la media puede distorsionar el conjunto de datos. En estos casos, la mediana sería una mejor opción.
  1. Imputación en variables categóricas: La imputación simple utilizando la moda es adecuada para variables categóricas, pero se debe tener cuidado con el sesgo que esto puede crear. Si hay valores extremos o raras categorías, la imputación podría distorsionar los resultados.

Checklist accionable

  1. Analiza las columnas antes de aplicar la imputación: Comprueba si las columnas contienen valores faltantes y el tipo de datos (numérico o categórico).
  1. Considere el contexto del problema: Antes de aplicar cualquier técnica, analiza cómo los valores faltantes podrían afectar a la variable en cuestión.
  1. Evalúa las distribuciones: Verifica si las columnas numéricas tienen una distribución normal o no. Si no es normal, considera usar mediana en lugar de media.
  1. Usa el método adecuado para variables categóricas: Para valores faltantes en variables categóricas, considera la moda y verifica si este valor tiene sentido en tu contexto.
  1. Evalúa los resultados después de imputar: Compara los resultados del modelo antes y después de aplicar la imputación simple para asegurarte de que no se ha introducido sesgo o distorsiones.

Siguientes pasos

  • Prueba diferentes estrategias de imputación: Experimenta con otras técnicas como la mediana, moda o modelos preditivos antes de usar la imputación simple.
  • Analiza el impacto en el modelo: Mide cómo la imputación afecta a los resultados del modelo. Si se observan cambios significativos, considera ajustar la técnica de imputación.
  • Documenta tus decisiones: Mantén un registro claro de las estrategias de imputación utilizadas y sus justificaciones para asegurar consistencia en el proceso.

La imputación simple es una herramienta valiosa pero debe usarse con cautela. Al seguir estos pasos, podrás mejorar significativamente la calidad de tus modelos de machine learning al manejar adecuadamente los valores faltantes.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).