NLP desde cero, Unidad 6 — Semántica básica y similitud, 6.1 — Similitud entre textos · 13/01/2026

Distancias

Introducción

La similitud entre textos es una tarea fundamental en el procesamiento del lenguaje natural (NLP). Sin embargo, la similitud no siempre es suficiente para medir cuán cercanos o lejanos son dos documentos. Es aquí donde las distancias juegan un papel crucial. Las distancias nos permiten quantificar de manera precisa cuánto se desvían los textos entre sí. Esto es especialmente útil en tareas como la clasificación, el clustering y la recomendación de contenido.

Explicación Principal

Las distancias pueden ser medidas a través de diferentes métodos, cada uno con sus propias ventajas e inadecuaciones. En NLP, se utilizan principalmente dos tipos de distancias: las distancias métricas basadas en vectorización y las distancias basadas en similitud lexicográfica.

Distancia Cosine

La distancia coseno es una medida comúnmente utilizada para calcular la similitud entre vectores. En el contexto del NLP, se utiliza frecuentemente con modelos de bolsa de palabras (Bag of Words) o TF-IDF.

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_distances

# Ejemplo de documentos
textos = [
    "Me encanta la comida española",
    "El español es mi idioma favorito"
]

vectorizador = TfidfVectorizer()
X = vectorizador.fit_transform(textos)

distancia_coseno = 1 - cosine_distances(X)  # La distancia coseno se normaliza entre 0 y 1
print(distancia_coseno)

Distancia Euclidiana

La distancia euclidiana mide la longitud de la línea recta que une dos puntos en un espacio multidimensional. En NLP, esto puede interpretarse como la diferencia entre los vectores representativos de dos documentos.

from scipy.spatial import distance

# Ejemplo vectorizado
v1 = [0.3, 0.5]
v2 = [0.4, 0.6]

distancia_euclidiana = distance.euclidean(v1, v2)
print(f"Distancia Euclidiana: {distancia_euclidiana}")

Distancia de Jaccard

La distancia de Jaccard mide la similitud entre conjuntos y es útil para textos cortos o listas de palabras. Es especialmente útil cuando se trata de encontrar documentos con temas similares.

def distancia_jaccard(set1, set2):
    interseccion = len(set(set1) & set(set2))
    union = (len(set(set1)) + len(set(set2))) - interseccion
    return 1 - (interseccion / union)

# Ejemplo de documentos tokenizados
doc1 = {"me", "encanta", "la", "comida", "española"}
doc2 = {"el", "spanish", "es", "mi", "idioma"}

distancia_jaccard = distancia_jaccard(doc1, doc2)
print(f"Distancia de Jaccard: {distancia_jaccard}")

Errores Típicos / Trampas

1. Confundir la similitud con la distancia

Es común confundirse entre calcular una distancia y una medida de similitud, ya que ambas son medidas inversas.

similitud = 0.85
distancia = 1 - similitud  # Esto es incorrecto en términos matemáticos

2. Ignorar el contexto semántico

Algunos modelos vectoriales, como Word2Vec o GloVe, capturan relaciones semánticas entre palabras a través de su posición relativa en un espacio vectorial. Sin embargo, si se usan directamente las distancias sin considerar estas relaciones, se pueden obtener resultados erróneos.

3. No normalizar los datos

Es importante normalizar los documentos antes de calcular cualquier distancia, especialmente si se utilizan modelos TF-IDF o Bag of Words.

from sklearn.preprocessing import Normalizer

# Ejemplo de documentos vectorizados
X = [[0.4, 0.6], [0.3, 0.7]]
normalizador = Normalizer()
X_normalizado = normalizador.fit_transform(X)
print(X_normalizado)

Checklist Accionable

Normaliza tus datos: Si utilizas modelos basados en vectorización, asegúrate de normalizarlos.
Elige la distancia adecuada: Considera el tipo de documentos y las características que quieres medir para seleccionar la mejor distancia.
Analiza los conjuntos de entrenamiento: Asegúrate de que tu conjunto de entrenamiento sea representativo del problema real.
Evalúa el contexto semántico: Si estás trabajando con modelos preentrenados, considera cómo se han entrenado y si son aplicables a tu tarea.
Prueba múltiples métricas: No depender solo de una métrica puede ayudarte a obtener un mejor entendimiento del problema.

Siguientes Pasos

Explora más modelos vectoriales: Trata con diferentes tipos de representaciones de texto como Word2Vec, GloVe o BERT.
Aprende sobre embeddings: Estos modelos capturan la semántica y la sintaxis en una forma numérica que puedes usar para calcular distancias.
Prueba algoritmos de clustering: Utiliza las distancias calculadas para agrupar documentos similares.

Siguiendo estos pasos, podrás mejorar tu comprensión de cómo medir la similitud entre textos y aplicar diferentes técnicas en tus proyectos NLP.

Distancias

Distancias

Introducción

Explicación Principal

Distancia Cosine

Distancia Euclidiana

Distancia de Jaccard

Errores Típicos / Trampas

1. Confundir la similitud con la distancia

2. Ignorar el contexto semántico

3. No normalizar los datos

Checklist Accionable

Siguientes Pasos

Contacta e inscríbete

Contacto