Prompt engineering avanzado, Unidad 10 — Coste y eficiencia, 10.1 — Prompts y consumo de tokens · 13/01/2026

Longitud del prompt

Longitud del prompt: Impacto en el consumo de tokens

Introducción

La longitud del prompt es un factor crítico a la hora de optimizar el uso de recursos en sistemas que utilizan modelos de lenguaje de gran modelo (LLM, por sus siglas en inglés). En este artículo, exploraremos cómo la longitud del prompt afecta el consumo de tokens y proporcionaremos consejos prácticos para minimizar los costos sin comprometer la calidad del resultado.

Explicación principal

En sistemas basados en LLMs, un prompt es una entrada que se proporciona al modelo para generar una respuesta. El costo de uso de estos modelos está directamente relacionado con el número de tokens consumidos. Un token puede ser una palabra entera o parte de una palabra, dependiendo del tokenizer utilizado. En la mayoría de los casos, cada palabra en un prompt se traduce a un token.

A continuación, presentamos un ejemplo simple utilizando el modelo LLaMA:

from transformers import AutoTokenizer

# Carga el tokenizer para el modelo LLaMA
tokenizer = AutoTokenizer.from_pretrained("decapoda/llama-7b")

# Prompt inicial
prompt_initial = "El clima en Madrid es:"

# Tokenización del prompt
tokens_initial = tokenizer.tokenize(prompt_initial)
print(f"Longitud del prompt inicial: {len(tokens_initial)} tokens")

En este ejemplo, el prompt "El clima en Madrid es:" se tokeniza en una serie de palabras. Si intentamos generar una respuesta a partir de este prompt, el modelo consumirá tantos tokens como haya en la entrada más los tokens generados por la salida.

Errores típicos / trampas

Ignorar el tokenizer: No todos los LLMs usan un tokenizer que se ajusta al espacio de palabras estándar. Ignorar esto puede llevar a una desproporción en el uso de tokens.
Prompts demasiado largos: Los prompts muy extensos pueden consumir más tokens del necesario, lo que aumenta los costos innecesariamente.
No considerar la longitud de respuesta: Algunas implementaciones permiten especificar una cantidad máxima de tokens para la salida generada por el modelo. Si este valor es muy alto sin necesidad, también se incrementará el costo.

Checklist accionable

Analiza tu prompt en términos de tokens: Utiliza los tokenizadores disponibles para convertir tus prompts a tokens y medir su longitud.
Optimiza la estructura del prompt: Elimina redundancias innecesarias y simplifica las instrucciones cuando sea posible.
Ajusta el tamaño del prompt: Reduce gradualmente la longitud del prompt hasta que notices un impacto significativo en el coste sin afectar la calidad de la salida.
Usa prompts cortos para datos estándar: Para datos predefinidos y comunes, considera usar prompts más cortos para minimizar los costes.
Especifica limitaciones claras: Asegúrate de que tu prompt no solicite una respuesta demasiado larga, limitando explícitamente la cantidad máxima de tokens que se esperan en la salida.

Cierre: Siguientes pasos

Ajuste iterativo: Continúa ajustando y optimizando tus prompts a través de pruebas y ajustes iterativos.
Monitoreo del coste: Implementa un sistema para monitorear el uso de tokens y ajusta dinámicamente los prompts según sea necesario.
Documentación: Documenta las longitudes óptimas de los prompts utilizados en tu proyecto para facilitar la comprensión y mantenimiento.

Siguiendo estos consejos, podrás optimizar significativamente el consumo de tokens en tus sistemas basados en LLMs, asegurando una eficiencia operativa y reduciendo costos.