Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

Probabilidad y estadística para IA, Unidad 9 — Correlación, dependencia y causalidad, 9.3 — Correlación no es causalidad ·

Riesgos en decisiones automáticas

Riesgos en decisiones automáticas

Introducción

La inteligencia artificial (IA) y el aprendizaje automático han transformado cómo tomamos decisiones, pero también presentan riesgos significativos. Aunque los modelos de machine learning pueden ser extremadamente precisos para predecir comportamientos o resultados basados en datos históricos, existen numerosas trampas y errores que pueden llevar a decisiones erróneas si no se abordan adecuadamente. Correlación no es causalidad es una frase poderosa que resalta la importancia de comprender estas limitaciones.

La correlación entre dos variables implica que cuando una variable cambia, la otra tiende a cambiar en dirección opuesta o en la misma dirección, pero esto no significa que una cause a la otra. Este concepto es crucial para evitar trampas comunes en el desarrollo y análisis de modelos de IA.

Explicación principal con ejemplos

Ejemplo 1: Predicción del clima

Considere un modelo de machine learning diseñado para predecir el clima. El modelo puede detectar una correlación entre la presencia de nubes y la probabilidad de lluvia en ciertas zonas. Sin embargo, esta correlación no implica que las nubes causen la lluvia; simplemente se observa que estas dos variables suelen ocurrir juntas.

# Ejemplo de datos ficticios
import pandas as pd

data = {
    'nubes': [10, 20, 30, 40, 50],
    'lluvia': [0.2, 0.3, 0.4, 0.5, 0.6]
}

df = pd.DataFrame(data)
print(df.corr())  # Correlación entre nubes y lluvia

Ejemplo 2: Predicción del rendimiento académico

Imaginemos un modelo que correlaciona el tiempo que un estudiante dedica a estudiar con su puntaje en exámenes. Si observamos una fuerte correlación, podría parecer obvio que más estudio causa mejores resultados. Sin embargo, otras variables como la asistencia al curso o la calidad de los materiales de aprendizaje también pueden estar en juego.

# Ejemplo de datos ficticios
data = {
    'tiempo_estudio': [2, 4, 6, 8, 10],
    'puntaje_examen': [75, 85, 90, 88, 93]
}

df = pd.DataFrame(data)
print(df.corr())  # Correlación entre tiempo de estudio y puntaje del examen

Ejemplo 3: Predicción de precios inmobiliarios

Un modelo puede identificar una fuerte correlación entre el tamaño de la vivienda (medido en metros cuadrados) y su precio. Sin embargo, no es correcto asumir que el tamaño causa un mayor precio; otros factores como la ubicación o la edad de la casa pueden influir.

# Ejemplo de datos ficticios
data = {
    'metros_cuadrados': [50, 75, 100, 125, 150],
    'precio_inmobiliario': [100000, 130000, 160000, 180000, 200000]
}

df = pd.DataFrame(data)
print(df.corr())  # Correlación entre metros cuadrados y precio

Errores típicos / trampas

Trampa 1: Confundir correlación con causalidad

Una de las trampas más comunes es confiar en la correlación para establecer causales. Como vimos en los ejemplos, la correlación no implica causalidad. Es crucial distinguir entre estas dos relaciones.

Trampa 2: Ignorar variables ocultas o confundientes

En la predicción del clima y rendimiento académico, podrían haber variables ocultas que influyen en ambos resultados. Por ejemplo, el tiempo de estudio podría correlacionarse con el tiempo dedicado a actividades recreativas, lo cual afecta los resultados.

Trampa 3: Asignar causas erróneas

En la predicción del precio inmobiliario, asumir que el tamaño causa un mayor precio puede llevar a decisiones erróneas. Por ejemplo, una política basada en este modelo podría incentivar el aumento del tamaño de las viviendas sin considerar otros factores.

Checklist accionable

Para evitar estos errores y tomar decisiones más informadas:

  1. Identifica variables ocultas: Busca y analiza posibles variables que podrían estar influyendo en los resultados.
  2. Realiza análisis de regresión: Utiliza técnicas como la regresión múltiple para identificar las relaciones causales.
  3. Investiga teorías causales: Aprende sobre el diagrama de causalidad y cómo usarlo para modelar relaciones.
  4. Prueba modelos alternativos: Considera diferentes modelos que pueden explicar los datos mejor, incluyendo variables ocultas.
  5. Evalúa el contexto: Analiza cuidadosamente el contexto en el que se aplica la IA para entender las limitaciones y trampas comunes.

Cierre con "Siguientes pasos"

Los riesgos de confundir correlación con causalidad son reales, pero hay formas de mitigarlos. Algunos pasos a seguir incluyen:

  • Investiga profundamente: Aprende sobre los conceptos teóricos detrás de la causalidad.
  • Desarrolla habilidades analíticas: Mejora tus habilidades en análisis estadísticos y modelado de datos.
  • Busca mentoría: Trabaja con expertos que puedan ayudarte a evitar estos errores comunes.

La comprensión de que "correlación no es causalidad" es un paso crucial hacia la toma de decisiones más informadas y éticas en el campo de la IA.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).