Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

Probabilidad y estadística para IA, Unidad 5 — Muestreo y datos incompletos, 5.3 — Datos faltantes ·

Tipos de ausencia

Tipos de ausencia

Introducción

En la práctica de la inteligencia artificial (IA), los datos incompletos son un desafío común. Los datos faltantes pueden surgir por diversas razones, como errores en la recopilación, omisiones humanas o falta de información relevante para ciertos registros. Aprender a gestionar estos datos es crucial para desarrollar modelos robustos y precisos. En esta unidad, exploraremos los diferentes tipos de ausencia que pueden encontrarse en los conjuntos de datos, analizaremos errores comunes al tratar con datos faltantes y proporcionaremos una guía práctica sobre cómo abordarlos.

Explicación principal

Existen varios tipos de ausencia en los datos, cada uno con sus propias características y desafíos. Comencemos por entender estos diferentes tipos:

1. Dato Ausente (Missing Completely at Random - MCAR)

Un dato es MCAR cuando la probabilidad de que esté ausente no depende del valor del dato ni de las variables observadas o no observadas.

2. Dato Ausente al Azar Condicionalmente (Missing at Random - MAR)

En este caso, la probabilidad de que un dato esté ausente depende únicamente de las variables observadas y no de los valores de las variables faltantes.

3. Dato Ausente en Mecanismo no Aleatorio (Missing Not At Random - MNAR)

La probabilidad de que un dato esté ausente está influenciada por el valor del propio dato, lo cual hace mucho más difícil predecir y manejar los datos faltantes.

Para ilustrar estos conceptos, consideremos un ejemplo con un conjunto de datos de empleados en una empresa:

import pandas as pd

# Creación de un DataFrame simulado
data = {
    'Edad': [25, 30, None, 40, 35],
    'Sueldo': [50000, 60000, 70000, 80000, None],
    'Departamento': ['Ventas', 'TI', 'RH', 'Marketing', 'Admin']
}

df = pd.DataFrame(data)
print(df)

Este ejemplo muestra datos faltantes para la edad y el sueldo de algunos empleados. Nota que no hay una razón obvia por la cual los datos estén ausentes, lo que sugiere posibles casos MCAR o MAR.

Errores típicos / trampas

1. Ignorar los datos faltantes

Ignorar simplemente las filas con datos faltantes puede llevar a sesgos en el análisis. Por ejemplo, si se omite toda la fila de un empleado con datos faltantes, es posible que se muestre una tendencia falsa o se omitan observaciones importantes.

2. Sustituir los valores faltantes por ceros

Sustituir valores faltantes por cero puede distorsionar las medidas estadísticas y los análisis de correlación. Por ejemplo, si el sueldo es 0 en lugar de faltar, se podría interpretar que todos los empleados ganan al menos esa cantidad.

3. Usar un solo método de imputación

Dependiendo del contexto, una sola estrategia de imputación puede no ser adecuada. Por ejemplo, usar la mediana para imputar valores faltantes en una distribución normal puede distorsionar la forma y dispersión de los datos.

Checklist accionable

Para manejar eficazmente los datos faltantes, es útil seguir un conjunto de pasos bien estructurados:

  1. Identificar el tipo de ausencia: Analiza el conjunto de datos para determinar si los datos faltantes son MCAR, MAR o MNAR.
  2. Comprender la fuente de los datos faltantes: Investiga las causas detrás de los datos ausentes para tomar decisiones informadas sobre cómo manejarlos.
  3. Elegir una estrategia de imputación adecuada:
  • Para MCAR y MAR, podrías usar el promedio o la mediana del conjunto completo.
  • Para MNAR, métodos más avanzados como el modelo de selección de modelo (missing not at random) pueden ser necesarios.
  1. Verificar el impacto: Asegúrate de que la imputación no distorsione las relaciones y métricas clave en los datos.
  2. Documentar todo: Mantén un registro detallado de las decisiones tomadas, métodos utilizados e implicaciones para futuras referencias.

Cierre

Siguientes pasos

  • Explora más estrategias de imputación: Aprende acerca de otros métodos como KNN, múltiples imputaciones y modelo de regresión.
  • Practica con conjuntos de datos reales: Aplica los conceptos aprendidos a proyectos prácticos para mejorar la comprensión y habilidades.
  • Participa en foros comunitarios: Comparte experiencias y desafíos en foros como Stack Overflow o Reddit, donde puedes aprender de otros expertos.

Manejar los datos faltantes es un paso crucial en el procesamiento y análisis de datos. Al comprender los tipos diferentes de ausencia, evitar errores comunes y seguir un proceso estructurado, puedes mejorar significativamente la calidad de tus modelos de IA.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).