Logo de CursoIA
CursoIA Curso de Inteligencia Artificial

NLP desde cero, Unidad 5 — Representación numérica del texto, 5.1 — Modelos de bolsa de palabras ·

Limitaciones

Limitaciones de los modelos de bolsa de palabras

Introducción

Los modelos de bolsa de palabras (Bag of Words, BoW) son una técnica básica y popular para representar texto en forma numérica. Sin embargo, estas técnicas tienen varias limitaciones que es crucial comprender antes de implementarlas en proyectos prácticos. En esta sección, exploraremos las principales limitaciones del modelo de bolsa de palabras y cómo pueden afectar su rendimiento.

Explicación principal con ejemplos

El modelo de bolsa de palabras representa el texto como una lista de frecuencias de palabras sin considerar el orden ni la gramática. Por ejemplo, si tenemos dos oraciones:

  • Oración 1: "Ella ama las flores rojas."
  • Oración 2: "Las flores rojas son amadas por ella."

Ambas oraciones serían representadas del mismo modo en BoW, con una lista de frecuencias para cada palabra. Sin embargo, esta representación no captura el significado semántico o la sintaxis correcta.

Ejemplo

Supongamos que tenemos un conjunto de oraciones en español:

oraciones = [
    "Ella ama las flores rojas.",
    "Las flores rojas son amadas por ella.",
    "Flores rojos y verdes."
]

Si aplicamos BoW a estas oraciones, obtendremos una representación similar para cada oración:

  • Oración 1: {"Ella": 1, "ama": 1, "las": 1, "flores": 2, "rojas": 2}
  • Oración 2: {"Las": 1, "flores": 1, "rojas": 1, "son": 1, "amadas": 1, "por": 1, "ella": 1}
  • Oración 3: {"Flores": 1, "rojos": 1, "y": 1, "verdes": 1}

Limitaciones

  1. Falta de contexto: Los modelos BoW no capturan el orden o la posición relativa de las palabras en una oración. Esto significa que dos oraciones con palabras exactamente iguales pero en diferente orden son vistas como distintas.
  1. Ambigüedad léxica: Las palabras pueden tener significados diferentes dependiendo del contexto. Por ejemplo, "bolsa" puede referirse a un contenedor o al método de pago. BoW no distingue entre estos usos.
  1. Falta de gramática y sintaxis: Los modelos BoW ignoran completamente la gramática y la estructura gramatical del texto. Esto significa que dos oraciones con una misma lista de palabras pero diferentes gramáticas son vistas como distintas.
  1. Ignorancia del significado semántico: BoW no considera el significado semántico de las palabras. Por ejemplo, "amor" y "amar" son tratados como palabras totalmente diferentes en BoW.
  1. Falta de contexto implícito: Los modelos BoW no capturan información contextual que puede ser crucial para entender una oración. Por ejemplo, en la oración "Ella ama las flores rojas", el adjetivo "rojas" describe a "flores", pero este contexto se pierde en BoW.

Errores típicos / trampas

  1. Ignorar posiciones y orden: Suponer que dos oraciones con la misma lista de palabras son necesariamente similares.
  2. Confundir significados contextuales: No distinguir entre palabras con el mismo nombre pero diferentes significados (polisemia).
  3. No considerar la gramática: Tomar como igual una oración en presente y otra en pasado, simplemente porque contienen las mismas palabras.

Checklist accionable

  1. Identifica los contextos donde BoW no es suficiente: Analiza tus datasets para identificar situaciones donde el orden o la posición de las palabras es crucial.
  2. Incluye gramática y estructura: Considera técnicas que capturén la gramática y la estructura del texto, como los modelos de N-gramas.
  3. Captura significados semánticos: Investiga sobre embeddings word (como Word2Vec o GloVe) que puedan capturar el significado semántico de las palabras.
  4. Implementa contexto implícito: Explora técnicas avanzadas como Transformers, que pueden modelar la relación entre palabras en un texto.
  5. Evita confusión con polisemia: Utiliza recursos como WordNet para resolver ambigüedades léxicas.

Cierre

Siguientes pasos

  • Explora modelos más avanzados: Investiga sobre técnicas como N-gramas, embeddings word y modelos de lenguaje.
  • Aplícalo en proyectos prácticos: Aplica lo aprendido a tu proyecto actual para mejorar la representación del texto.
  • Continúa aprendiendo: Mantente al día con las últimas tendencias en procesamiento del lenguaje natural.

Al comprender y reconocer las limitaciones de los modelos de bolsa de palabras, estás equipado para tomar decisiones informadas sobre cuándo usar BoW y cuándo necesitas más avanzados modelos.

Contacto

Indica tu objetivo (ChatGPT, RAG, agentes, automatización) y tu stack (web/backend).