Cambio de paradigma: Por qué surge el Transformer Introducción Los modelos pre-transformer, como los n-gram y los modelos recurrentes (RNNs), han sido la base para muchas aplicaciones de procesamiento del lenguaje natural (NLP) durante déca…
Atención al contexto completo Introducción Los modelos de lenguaje pre-transformer, aunque revolucionarios para su época, tienen sus limitaciones. La arquitectura basada en RNNs (Redes Neuronales Recurrentes) es poderosa pero computacionalm…
Necesidad de paralelismo: Por qué surge el Transformer Introducción Los modelos de lenguaje pre-transformer, como los modelos RNN (Red Neuronal Recurrente) y LSTM (Long Short-Term Memory), fueron fundamentales en la evolución del procesamie…
Memoria limitada: Limitaciones de los modelos pre-transformer Introducción La memoria limitada es una de las principales barreras que enfrentan los modelos de lenguaje basados en redes neuronales antes de la llegada de arquitecturas como el…
Coste temporal Introducción El coste temporal es un problema fundamental que enfrentan los modelos de lenguaje basados en procesamiento secuencial, como las RNN (Redes Neuronales Recurrentes). Estos modelos procesan una secuencia de tokens …
Procesamiento secuencial: Limitaciones de los modelos pre-transformer Introducción El procesamiento secuencial es una técnica fundamental en la modelización del lenguaje, donde cada token se procesa uno tras otro. Sin embargo, este enfoque …
Casos sensibles Introducción Los modelos de lenguaje modernos, especialmente los sistemas de aprendizaje profundo (LLM), son herramientas poderosas pero también pueden reflejar y perpetuar sesgos presentes en sus datos de entrenamiento. Est…
Validación humana Introducción Los modelos de lenguaje modernos, basados en aprendizaje profundo y entrenamiento con grandes conjuntos de datos, han revolucionado la forma en que procesamos y generamos texto. Sin embargo, estos modelos no s…