Matemáticas para IA, Unidad 9 — Matemáticas de modelos clásicos de ML, 9.3 — Clustering · 13/01/2026

Distancias y grupos

Introducción

En la inteligencia artificial, especialmente en el ámbito de los modelos de clustering (clustering), las distancias son fundamentales para agrupar datos en clusters. El concepto de distancia se utiliza para medir similitud o diferencia entre observaciones. A través de estas distancias, podemos definir cómo agrupar los datos de manera efectiva y eficiente.

Explicación principal con ejemplos

El clustering es un proceso donde los datos son clasificados en grupos basados en características comunes. Para hacer esto, primero debemos medir la distancia entre las observaciones. Las distancias más utilizadas incluyen la distancia euclídea, la distancia Manhattan y otras métricas.

Distancia euclídea

La distancia euclídea es una medida de similitud que se utiliza para calcular la distancia entre dos puntos en un espacio multidimensional. Se calcula como:

\[ d_{euclidean}(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2} \]

Donde \( x \) e \( y \) son vectores de características.

Ejemplo con código

import numpy as np

# Definir dos puntos en 2D
point_a = np.array([1, 2])
point_b = np.array([4, 6])

# Calcular distancia euclídea
euclidean_distance = np.linalg.norm(point_a - point_b)
print(f'Distancia euclidiana: {euclidean_distance}')

Distancia Manhattan

La distancia Manhattan, también conocida como norma L1, es la suma de las distancias absolutas en cada dimensión.

\[ d_{manhattan}(x, y) = \sum_{i=1}^{n} |x_i - y_i| \]

Ejemplo con código

# Calcular distancia Manhattan
manhattan_distance = np.sum(np.abs(point_a - point_b))
print(f'Distancia Manhattan: {manhattan_distance}')

Errores típicos / trampas

Ignorar la escala de las variables: Las distancias son muy sensibles a la escala de los datos. Si las características no están en una escala similar, pueden dominar el cálculo de distancia.

Usar la misma métrica para todos los problemas: No todas las métricas son adecuadas para todos los tipos de datos y problemas. La elección incorrecta de la métrica puede llevar a resultados erróneos o imprecisos.

Olvidarse de la similitud relativa entre observaciones: Las distancias absolutas pueden ser engañosas. Es importante considerar la similitud relativa entre las observaciones para obtener un clustering preciso.

Checklist accionable

Normalizar los datos antes de calcular distancias.
Experimentar con diferentes métricas (distancia euclídea, Manhattan, etc.) y evaluar el rendimiento del modelo en cada caso.
Utilizar técnicas como PCA o t-SNE para reducir la dimensionalidad antes de aplicar clustering.
Validar los resultados del clustering con expertos o conocidos para asegurarse de que las clasificaciones son intuitivamente correctas.
Documentar y guardar todos los parámetros utilizados durante el proceso de clustering, incluyendo métricas de distancia.

Cierre: Siguientes pasos

Explorar más profundamente la teoría: Comprender mejor las bases matemáticas subyacentes a diferentes tipos de distancias y métricas.
Implementar clustering en proyectos reales: Aplicar los conocimientos adquiridos a problemas prácticos para mejorar tus habilidades y comprender mejor el rendimiento del clustering en diferentes contextos.

Siguiendo estos pasos, podrás aplicar técnicas de clustering de manera más efectiva y confiable en tus proyectos de inteligencia artificial.

Distancias y grupos

Distancias y grupos

Introducción

Explicación principal con ejemplos

Distancia euclídea

Ejemplo con código

Distancia Manhattan

Ejemplo con código

Errores típicos / trampas

Checklist accionable

Cierre: Siguientes pasos

Contacta e inscríbete

Contacto