Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

Flujo completo de un proyecto de IA, Unidad 8 — Evaluación del modelo, 8.1 — Métricas técnicas ·

Métricas según el problema

Métricas según el problema

Introducción

En la evaluación del modelo de inteligencia artificial, las métricas técnicas son fundamentales para medir su rendimiento y asegurar que cumple con los objetivos del proyecto. Es crucial elegir las correctas en función del tipo de problema que se esté resolviendo, ya que diferentes problemas requieren métricas distintas. Por ejemplo, si el objetivo es predecir una variable continua (regresión), se podría utilizar la media absoluta de error o el error cuadrático medio; en cambio, para clasificación binaria, podrían ser más adecuadas la exactitud, la precisión, o el AUC-ROC.

Explicación principal con ejemplos

Regresión

En problemas de regresión, las métricas más comunes son:

  • Error Cuadrático Medio (MSE): Mide la diferencia entre los valores predichos y reales al cuadrado. Es sensible a errores grandes.
  from sklearn.metrics import mean_squared_error

  # Ejemplo de cálculo
  predicted_values = [1.0, 2.5, 3.7]
  true_values = [1.1, 2.6, 3.9]

  mse = mean_squared_error(true_values, predicted_values)
  • Media Absoluta de Error (MAE): Mide la diferencia entre los valores predichos y reales en términos absolutos. Es menos sensible a errores grandes.
  from sklearn.metrics import mean_absolute_error

  # Ejemplo de cálculo
  mae = mean_absolute_error(true_values, predicted_values)
  • R² (Coeficiente de determinación): Mide la proporción de variabilidad explicada por el modelo. Un valor cercano a 1 indica un buen ajuste.
  from sklearn.metrics import r2_score

  # Ejemplo de cálculo
  r2 = r2_score(true_values, predicted_values)

Clasificación binaria

Para problemas de clasificación binaria, las métricas más útiles son:

  • Exactitud (Accuracy): Proporción de predicciones correctas.
  from sklearn.metrics import accuracy_score

  # Ejemplo de cálculo
  y_true = [0, 1, 1, 0, 1]
  y_pred = [0, 1, 0, 0, 1]

  acc = accuracy_score(y_true, y_pred)
  • Precisión (Precision): Proporción de predicciones positivas que son verdaderos positivos.
  from sklearn.metrics import precision_score

  # Ejemplo de cálculo
  prec = precision_score(y_true, y_pred)
  • Recall (Sensibilidad o Tasa de detección): Proporción de verdaderos positivos que se detectan correctamente.
  from sklearn.metrics import recall_score

  # Ejemplo de cálculo
  rec = recall_score(y_true, y_pred)
  • AUC-ROC (Área bajo la Curva de Recepción del Operador): Mide la capacidad del modelo para distinguir entre clases.
  from sklearn.metrics import roc_auc_score

  # Ejemplo de cálculo
  auc = roc_auc_score(y_true, y_pred)

Clasificación multiclase

Para problemas de clasificación con múltiples clases, las métricas pueden variar:

  • Exactitud es similar a la binaria.
  • Promedio ponderado (weighted average) del AUC-ROC o de otras métricas.

Errores típicos / trampas

  1. Usar exactitud en problemas imbalanced: La exactitud puede ser engañosa si el dataset está desequilibrado, ya que las clases pueden estar muy desbalanceadas.
  2. Ignorar la AUC-ROC para problemas binarios: Es una métrica valiosa para clasificaciones con desequilibrio de clases y permite comparar modelos sin importar el límite de decisión utilizado.
  3. No considerar los costos del error: Las decisiones basadas en el modelo deben tener en cuenta las consecuencias reales del error, no solo su magnitud.

Checklist accionable

  1. Identificar claramente el tipo de problema (regresión, clasificación binaria/multiclase).
  2. Seleccionar las métricas adecuadas basándose en el tipo de problema.
  3. Calcular y analizar las métricas seleccionadas.
  4. Verificar que se consideren los costos del error en la evaluación.
  5. Documentar las métricas utilizadas y su análisis.

Cierre con "Siguientes pasos"

  • Reevaluar y actualizar las métricas: Según el feedback del modelo en producción.
  • Considerar nuevas métricas si es necesario: Si se identifican problemas no cubiertos por las métricas seleccionadas.
  • Implementar una validación cruzada para aumentar la confiabilidad de los resultados.

Siguiendo estos pasos, puedes asegurarte de que tus modelos de inteligencia artificial están evaluados adecuadamente y cumplen con los objetivos del proyecto.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).