Feature engineering, Unidad 11 — Riesgos y malas prácticas, 11.2 — Ética y responsabilidad · 13/01/2026

Discriminación indirecta

Introducción

La discriminación indirecta es un fenómeno en el que sistemas de machine learning pueden perpetuar y aumentar la desigualdad a través de decisiones basadas en variables indirectamente relacionadas con características protegidas, como raza, género o edad. Esta forma de discriminación puede ser más insidiosa porque no depende explícitamente de estas características, sino que se manifiesta a través de variables como la ubicación geográfica, el tipo de educación o incluso los hábitos de consumo.

Explicación principal con ejemplos

La discriminación indirecta ocurre cuando un modelo aprende patrones en los datos que reflejan desigualdades sociales sin tener acceso explícito a las características protegidas. Por ejemplo, consideremos un sistema de recomendaciones para empleos:

# Ejemplo de variables en un conjunto de datos de empleo

import pandas as pd

data = {
    'edad': [25, 30, 40, 45],
    'nivel_educacion': ['Licenciado', 'Maestría', 'Doctorado', 'Posdoctoral'],
    'localidad': ['Ciudad A', 'Ciudad B', 'Ciudad C', 'Ciudad D'],
    'tipo_empleo': ['Full-time', 'Part-time', 'Freelance', 'Consultoría'],
    'recomendacion': [True, False, True, False]
}

df = pd.DataFrame(data)

En este ejemplo, a pesar de que no se incluye explícitamente raza o género, el modelo podría aprender que ciertas zonas geográficas o niveles educativos se asocian con empleos más altos. Esto puede perpetuar desigualdades sin que la discriminación sea intencional.

Errores típicos / trampas

Supuestos implícitos en el modelo: Los modelos pueden aprender supuestos implícitos presentes en los datos de entrenamiento, como asumir que ciertas áreas geográficas o zonas urbanas son más propensas a tener empleos mejores.

Bags of Words y TF-IDF: Métodos basados en texto pueden aprenden patrones en el lenguaje que reflejan estereotipos. Por ejemplo, la mención de ciertas palabras asociadas con ciertos tipos de educación o habilidades puede llevar a asumir que determinados grupos son más aptos para ciertos roles.

Recursos y oportunidades históricas: Si el conjunto de datos contiene información sobre empleos anteriores en las zonas geográficas, un modelo puede aprender que ciertas áreas tienen mejores oportunidades laborales, perpetuando la desigualdad a través del tiempo.

Checklist accionable

Identificar variables protegidas: Analiza cuidadosamente tu conjunto de datos para identificar posibles variables protegidas indirectas.
Analizar correlaciones: Examina las correlaciones entre variables y características protegidas, buscando patrones que puedan ser discriminatorios.
Revisar el rendimiento del modelo: Evalúa cómo varía el rendimiento del modelo según diferentes segmentos de la población, identificando posibles desigualdades.
Transparencia en los datos: Documenta todas las variables utilizadas y su origen para asegurar transparencia en el proceso de modelado.
Revisión ética: Incluye una revisión ética en tu flujo de trabajo regular, asegurando que no se perpetúen desigualdades a través del modelo.

Cierre

La discriminación indirecta es un desafío crucial en el desarrollo responsable de sistemas de machine learning. Es importante reconocer y abordar este problema para garantizar que nuestros modelos sean justos y equitativos. Al seguir la checklist proporcionada, puedes tomar medidas efectivas para minimizar la posibilidad de perpetuar desigualdades a través del modelado.

Siguientes pasos:

Optimización del modelo: Asegúrate de ajustar tu modelo para reducir las disparidades identificadas.
Educación continua: Mantente actualizado sobre los avances en la detección y abordaje de desigualdades en machine learning.
Comunidad de apoyo: Participa en comunidades como el Grupo de Trabajo de Ética en IA de Comoprogramar.es para intercambiar conocimientos y mejores prácticas.

Discriminación indirecta