Machine Learning clásico, Unidad 6 — Aprendizaje no supervisado, 6.1 — Clustering · 13/01/2026

k-means

Clustering: Introducción al k-means

Introducción

El clustering, o agrupamiento, es una técnica de aprendizaje no supervisado que busca encontrar patrones ocultos en los datos sin la necesidad de etiquetas. Una de las técnicas más utilizadas para el clustering es k-means. Este algoritmo divide un conjunto de objetos en k grupos (clusters) basándose en sus características similares, permitiendo la exploración y la clasificación de grandes conjuntos de datos.

Explicación principal con ejemplos

Concepto básico

El objetivo del k-means es minimizar la suma de las distancias cuadráticas entre los puntos y el centroide (medio aritmético) de su propio cluster. En otras palabras, busca agrupar puntos en clusters donde cada punto esté lo más cercano posible a su propio centroide.

Pasos del algoritmo

Selecciona aleatoriamente k centroides iniciales.
Asigna cada punto de datos a su centroide más cercano (cluster).
Calcula el nuevo centroide para cada cluster.
Repite pasos 2 y 3 hasta que los centroides no cambien o se alcance un umbral de convergencia.

Ejemplo práctico

Imaginemos una base de datos con puntos en un espacio bidimensional, donde cada punto tiene dos características (x e y).

import numpy as np
from sklearn.cluster import KMeans

# Generamos 100 puntos aleatorios en un espacio bidimensional
np.random.seed(42)
X = np.random.rand(100, 2)

# Aplicamos el algoritmo k-means con k=3 clusters
kmeans = KMeans(n_clusters=3, random_state=42).fit(X)
labels = kmeans.labels_
centroids = kmeans.cluster_centers_

print("Etiquetas asignadas a los puntos:", labels)
print("Centroides de los clusters:", centroids)

# Visualización
import matplotlib.pyplot as plt

plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.scatter(centroids[:, 0], centroids[:, 1], marker='X', color='red')
plt.title('Clusters generados por k-means')
plt.show()

Errores típicos / trampas

1. Selección incorrecta del número de clusters (k)

El valor de k es una variable crucial que se debe ajustar según el problema a resolver y la naturaleza de los datos. No siempre se puede elegir un k adecuado sin experimentación.

2. Datos no preparados

Asegúrate de normalizar o estandarizar tus datos antes de aplicar k-means, ya que este algoritmo es sensible a las escalas y distribuciones normales de los datos.

3. Convergencia en un mínimo local

El resultado puede estar atrapado en un mínimo local si los centroides iniciales son seleccionados mal. Esto se puede mitigar con técnicas como el método del codo o la ejecución múltiples veces con diferentes semillas.

Checklist accionable

Verifica y ajusta k: Asegúrate de que k es adecuado para tu problema.
Normaliza tus datos: Si los atributos tienen escalas diferentes, normalízalos o estandaríalos.
Ejecuta múltiples veces con diferentes semillas: Para evitar convergencia en un mínimo local.
Grafica la suma de distancias cuadráticas: Asegúrate de que el algoritmo está convergiendo correctamente y no se atrapa en un ciclo.
Visualiza los clusters generados: Verifica si los clusters tienen sentido en tu contexto.

Cierre: Siguientes pasos

Explora k-means con datos reales: Aplica k-means a conjuntos de datos reales para entender mejor su comportamiento y ajuste.
Prueba otras técnicas de clustering: Experimenta con otros algoritmos como DBSCAN o hierarchical clustering para ver si son más adecuados para tu caso de uso.
Aprende sobre validación cruzada en ML: Para mejorar la selección del número de clusters y evitar overfitting.

Al seguir estos pasos, podrás aplicar k-means con mayor confianza y obtener resultados más precisos.