Probabilidad y estadística para IA, Unidad 5 — Muestreo y datos incompletos, 5.3 — Datos faltantes · 13/01/2026

Riesgos en IA

Riesgos en IA: Navegando los Desafíos de Datos Faltantes

Introducción

La inteligencia artificial (IA) y la machine learning (ML) han revolucionado numerosas industrias, pero con ellos también se ha incrementado el desafío asociado a manejar datos incompletos. Los datos faltantes no son solo un obstáculo técnico, sino que pueden llevar a resultados erróneos en modelos de ML y a decisiones suboptimas basadas en esos modelos. En esta guía, exploraremos cómo los datos faltantes afectan la IA, los errores comunes al manejarlos y proporcionaremos una lista de verificación para mitigar estos riesgos.

Explicación Principal

Los datos faltantes pueden surgir por diversas razones: problemas técnicos con el registro de datos, errores en la recopilación o incluso en la transformación y almacenamiento. En un modelo de ML, si se omite el manejo adecuado de los datos faltantes, estos pueden causar sesgos, bajo rendimiento del modelo y confianza errónea.

Ejemplo: Predicción de Precipitaciones

Supongamos que estamos desarrollando un modelo para predecir la precipitación en ciudades. En nuestra base de datos, tenemos información sobre temperaturas, humedad, presión atmosférica y otros factores climáticos. Sin embargo, por algún motivo, no tenemos registros de precipitaciones en algunas fechas.

import pandas as pd

# Ejemplo de DataFrame con datos faltantes
df = pd.DataFrame({
    'Fecha': ['2023-10-01', '2023-10-02', '2023-10-03'],
    'Temperatura': [25, 26, None],
    'Precipitaciones': [0.0, None, 2.0]
})

print(df)

En este ejemplo, vemos que las precipitaciones para los días 2 y 3 son faltantes. Si no tomamos medidas adecuadas para manejar estos datos faltantes, nuestro modelo podría dar resultados sesgados o incluso no funcionar en ciertos casos.

Errores Típicos / Trampas

Ignorar los Datos Faltantes: Es común pensar que simplemente ignorar las filas con valores faltantes puede resolver el problema. Sin embargo, esto solo es factible si la proporción de datos faltantes es muy baja. En caso contrario, este enfoque podría llevar a sesgos significativos.

Reemplazar por Valores Fijos: Una opción popular pero errónea es reemplazar los valores faltantes con un valor fijo como cero o la media de la columna. Esto puede distorsionar las relaciones entre variables y afectar negativamente el rendimiento del modelo.

Supresión Inapropiada: Suprimir datos completos en lugar de faltantes puede llevar a la pérdida de información valiosa, especialmente si los datos completos son únicos o raros. Además, esto puede dar algoritmos como el k-NN una ventaja injusta sobre otros.

Checklist Accionable

Identificar y Analizar: Antes de tomar cualquier acción, es crucial identificar qué proporción de los datos está faltante para cada columna en su conjunto de datos.
Verificar la Relación entre Variables: Examinar si existen relaciones entre las variables con datos faltantes y otras variables puede ayudar a entender el origen del problema.
Usar MÉTODOS ADECUADOS DE IMPUTACIÓN: Utilizar técnicas como imputación media, mediana o basada en modelo (como regresión) puede mejorar la precisión de los modelos. También se pueden utilizar algoritmos específicos que manejen datos faltantes mejor.
Validar el Modelo: Realizar validaciones cruzadas para asegurarse de que su imputación no esté inflando el rendimiento del modelo y esté representativo del conjunto completo de datos.
Documentar Proceso: Documentar los métodos utilizados para manejar los datos faltantes para futuras referencias y auditorías.

Cierre

Siguientes Pasos

Profundizar en Imputación Avanzada: Explorar técnicas más avanzadas de imputación, como imputación basada en vecinos más cercanos (KNN) o métodos basados en modelos.
Estudiar Valores Ausentes Especiales (NA): Aprender a manejar valores ausentes específicos que puedan tener significado especial en los datos, como "no aplicable" o "desconocido".
Implementar Verificación Continua: Mantener un sistema de verificación continua para detectar y abordar nuevos problemas con los datos faltantes en el futuro.

Manejar eficazmente los datos faltantes es crucial para garantizar que su modelo de IA sea confiable, preciso y equitativo.