Otras métricas comunes
Introducción
En la inteligencia artificial, las métricas de distancia son fundamentales para entender y trabajar con datos. Mientras que la distacia euclídea es una métrica comúnmente utilizada, existen otras métricas que pueden ser más adecuadas en diferentes contextos. En esta unidad, exploraremos algunas de estas métricas comunes y su importancia en el análisis de datos.
Explicación principal
1. Distancia Manhattan (Taxicab)
La distancia Manhattan, también conocida como la métrica taxicab, mide la distancia entre dos puntos sumando las distancias verticales y horizontales en un sistema de coordenadas bidimensional. Esta métrica es útil cuando los desplazamientos se limitan a movimientos rectilíneos (como en una ciudad con calles perpendiculares).
Fórmula: \[ d = |x_2 - x_1| + |y_2 - y_1| \]
2. Distancia Minkowski
La distancia Minkowski es una generalización de la distancia euclídea y la Manhattan. Se define como:
Fórmula: \[ d = \left( \sum_{i=1}^{n} |x_i - y_i|^p \right)^{1/p} \]
Donde \( p \) es un parámetro que puede variar:
- Para \( p = 1 \), se convierte en la distancia Manhattan.
- Para \( p = 2 \), se convierte en la distancia euclídea.
3. Distancia Hamming
La distancia Hamming mide el número de posiciones en las cuales dos cadenas (de igual longitud) son diferentes. Es útil para comparar secuencias binarias, caracteres o datos discretos en general.
Fórmula: \[ d = \sum_{i=1}^{n} I(x_i \neq y_i) \]
Donde \( I(x_i \neq y_i) \) es 1 si los elementos son diferentes y 0 en caso contrario.
Ejemplo de código
import numpy as np
# Definir dos cadenas binarias
binary_string1 = '1010'
binary_string2 = '1100'
# Calcular la distancia Hamming
def hamming_distance(s1, s2):
return sum(c1 != c2 for c1, c2 in zip(s1, s2))
distancia_hamming = hamming_distance(binary_string1, binary_string2)
print(f"Distancia Hamming: {distancia_hamming}")
Errores típicos / trampas
1. Confundir la distancia Manhattan con la euclídea
Aunque ambas métricas son similares en su estructura, tienen propiedades diferentes que pueden llevar a errores al aplicarlas incorrectamente.
Ejemplo:
- Para \( p = 2 \), el vector (3, 4) se encuentra a una distancia de 5 units de (0, 0) usando la euclídea.
- Usando Manhattan para el mismo vector, la distancia sería 7 units.
2. Ignorar las propiedades de simetría y desigualdad en la distancia
La métrica debe cumplir con ciertas propiedades para ser válida (simetría, triangularidad y no-negatividad). Ignorar estas propiedades puede llevar a resultados incorrectos.
Ejemplo:
- Si \( d(x, y) = 0 \), entonces \( x = y \).
- Si \( d(x, z) \leq d(x, y) + d(y, z) \).
3. Usar la distancia euclídea en variables discretas
La distancia euclídea no es adecuada para datos categóricos o binarios. En tales casos, métricas como Hamming pueden ser más apropiadas.
Checklist accionable
- Entender la definición: Asegúrate de que entiendes completamente cómo se calcula cada una de estas métricas.
- Aplicar correctamente: Utiliza las fórmulas correctas para cada caso y asegúrate de aplicarlas en el contexto adecuado.
- Verificar propiedades: Comprueba que tus métricas cumplen con las propiedades necesarias (simetría, triangularidad).
- Elegir la métrica apropiada: Selecciona la métrica que mejor se adapte a los datos y el problema en cuestión.
- Validar resultados: Asegúrate de que tus resultados son consistentes y coherentes con lo esperado.
Cierre
Siguientes pasos
- Familiarízate con más métricas comunes, como la Jaccard o la Bhattacharyya.
- Practica aplicando estas métricas en proyectos reales para entender mejor su comportamiento y aplicabilidad.
- Explora cómo estas métricas se utilizan en algoritmos de clustering y clasificación.
Siguiendo estos pasos, podrás utilizar eficazmente diferentes métricas de distancia en tus trabajos con datos y mejorar el rendimiento de tus modelos de inteligencia artificial.