Tokenización, embeddings y vectores, Unidad 8 — Similitud y distancia en espacios vectoriales, 8.2 — Búsqueda semántica · 13/01/2026

Ranking de textos

Introducción

La búsqueda semántica es una parte fundamental del procesamiento del lenguaje natural (NLP) y es crucial para aplicaciones como sistemas de recomendación, búsquedas avanzadas y análisis de sentimientos. En el contexto de la búsqueda semántica, el ranking de textos se refiere a la identificación de los documentos más relevantes en relación con una consulta específica. Este proceso implica evaluar cuán bien cada texto se ajusta a lo que se busca, utilizando técnicas avanzadas para medir la similitud entre el texto buscado y los documentos disponibles.

Explicación principal

La búsqueda semántica no es simplemente encontrar un texto exacto; sino identificar aquellos textos que mejor representan o están más relacionados con lo que se busca. Esto implica la utilización de técnicas avanzadas como el cálculo del coseno, la distancia euclídea y otros métodos para medir similitud en espacios vectoriales.

Ejemplo práctico

Supongamos que queremos buscar información sobre "NLP" (Procesamiento del Lenguaje Natural) en una base de datos con varios documentos. Cada documento se representará como un vector en un espacio vectorial, donde cada dimensión representa la presencia o ausencia de palabras clave o frases.

# Ejemplo de representación de texto como vectores
documentos = [
    "NLP es una técnica para procesar el lenguaje humano",
    "Transformers son modelos avanzados en NLP",
    "La tokenización es una parte crucial del NLP"
]

from sklearn.feature_extraction.text import TfidfVectorizer
vectorizador = TfidfVectorizer()
vectors = vectorizador.fit_transform(documentos)

# Consulta: "NLP y transformers"
consulta = ["NLP y transformers"]
consulta_vectorizada = vectorizador.transform(consulta)

Medición de similitud

Una vez que los documentos y la consulta están representados como vectores, podemos calcular la similitud entre ellos utilizando diferentes métodos. Las dos técnicas más comunes son:

Cosine Similarity (Similaridad Coseno)

La similaridad coseno mide cuánto se asemejan las direcciones de los vectores. Una valoración cercana a 1 implica alta similitud, y un valor cercano a 0 implica baja similitud.

from sklearn.metrics.pairwise import cosine_similarity

similares = cosine_similarity(consulta_vectorizada, vectors)
print(similares)

Distancia Euclídea

La distancia euclídea mide la longitud de la línea recta que une dos puntos en un espacio multidimensional. En el contexto del NLP, se utiliza para medir cuán lejos están los documentos en el espacio vectorial.

from scipy.spatial import distance

distancias = [distance.euclidean(vector, consulta_vectorizada[0].toarray()[0]) for vector in vectors.toarray()]
print(distancias)