ChatGPT, Claude o Gemini cobran por cada token que entra y por cada token que sale. Los límites de la IA tienen lógica económica antes que técnica. Casi nadie entiende cómo funciona.
Cada vez que un modelo responde, lo que hace es predecir cuál es la siguiente unidad más probable. Una tras otra. Hasta completar la respuesta.
La unidad mínima de esa operación se llama token. Puede ser una sílaba, una palabra completa, parte de una palabra o un signo de puntuación. Para el modelo, todo lo que ves como texto es una secuencia de tokens convertidos a números.
Esa traducción cambia todo. Pagas por token, no por palabra. Y la ventana de contexto se mide en tokens, no en caracteres.
La mayoría conoce tres: input, output y cache. Los manuales oficiales de Anthropic, OpenAI y Google documentan cuatro más que casi nadie discute. Y son justo los que más facturan en sistemas mal diseñados.
Aquí están los siete tipos verificados en las docs oficiales. Cada uno tiene su propia lógica de precio. Conocerlos cambia la economía de tu operación con IA.
Todo lo que envías al modelo. Tu pregunta, los documentos adjuntos, el historial de la conversación, las instrucciones del sistema. Es el precio base de referencia.
Lo que el modelo genera y te devuelve. Cuesta cinco veces más que el input en Claude. Si tu sistema produce respuestas largas innecesarias, este es el gasto que se dispara.
Tokens cobrados la primera vez que guardas un bloque en caché. 1.25× input para TTL de 5 minutos. 2.0× para TTL de 1 hora. Se paga una sola vez.
Lecturas posteriores al primer write. Cuestan el 10% del precio estándar. Anthropic te permite guardar partes del prompt que se repiten para no cobrarlas cada vez.
Tokens internos que el modelo gasta razonando antes de responder. Disponible en Claude Opus 4.6+ Sonnet 4.5+ OpenAI o1, GPT-5.4 y Gemini Deep Think. Una sola llamada con thinking puede gastar 3 a 10× los tokens de una respuesta normal.
Cuando subes una imagen, el modelo la divide en parches o tiles. En GPT-5.5 son parches de 32×32 píxeles. En GPT-4o, 85 base + 170 por tile de 512×512. Una imagen high detail puede costar miles de tokens.
Cuando defines herramientas en la API, Anthropic agrega un system prompt automático y cobra por cada definición. Más los bloques de tool_use y tool_result que van y vienen. Cinco herramientas suman ~750 tokens fijos por request.
Los modelos Realtime de OpenAI cobran audio como tokens. La entrada cuesta $32 por millón, la salida $64 por millón. Casi 10× más caro que el audio convertido a texto. Si quieres economía, transcribe primero y luego procesa.
Equipos que arman agentes con prompts gigantes, dejan que el modelo se explaye sin necesidad, activan extended thinking sin pensar, y nunca usan caching. Resultado: facturas que se triplican sin que mejore la calidad del output. Lo he visto en tres proyectos distintos el último trimestre.
Tres modelos actuales. Todos comparten la misma proporción 1:5 entre input y output.
| Modelo | Input (1M tok) | Output (1M tok) | Cache hit | Ratio |
|---|---|---|---|---|
| Anthropic · Haiku 4.5 | $1.00 | $5.00 | $0.10 | 1:5 |
| Anthropic · Sonnet 4.6 | $3.00 | $15.00 | $0.30 | 1:5 |
| Anthropic · Opus 4.7 | $5.00 | $25.00 | $0.50 | 1:5 |
Pega cualquier texto y verás cuántos tokens son y cuánto cuesta procesarlos en los tres modelos de Claude. Asume una respuesta proporcional al input (factor 1×) para una conversación tipo y respuestas largas (factor 3×) para reportes o briefings completos.
Los conteos son estimaciones cercanas al tokenizer real. Para el conteo oficial usa el Tokenizer de OpenAI o la API count_tokens de Anthropic.
// El conteo asume tokenización tipo Claude/GPT promedio para español (~3.7 caracteres por token). El cálculo asume respuesta del modelo con tokens output equivalentes a 1.5× los tokens input. Los precios son rates de Anthropic vigentes en mayo 2026 sin descuentos por caching ni batch. Para conteo oficial: platform.openai.com/tokenizer o docs.anthropic.com/token-counting.
Un prompt de 200 palabras en Sonnet 4.6 cuesta menos de $0.005 USD. Una conversación de cien turnos con thinking activado puede llegar a $1 o $2. Un agente que procesa documentos largos sin caching, varios cientos al mes. La diferencia entre un sistema bien diseñado y uno mal diseñado es un orden de magnitud.
"Un millón de tokens" o "diez millones" suenan a cifras abstractas. Cuando se traducen a obras conocidas, recién toman dimensión real.
Aquí están las equivalencias literarias verificadas. Una unidad de medida con la que sí podemos pensar.
Las palabras reales de obras conocidas que cabrían en cada ventana.
| Ventana | Palabras aprox. | Qué cabe ahí dentro |
|---|---|---|
| 4K | ~3,000 palabras | Un email corporativo extenso, un brief de campaña, una nota de prensa con anexos. |
| 32K | ~24,000 palabras | Un capítulo entero de novela, un paper académico con bibliografía, un manual de usuario corto. |
| 128K | ~96,000 palabras | "1984" de George Orwell (88K palabras reales) o "Pedro Páramo" de Juan Rulfo varias veces. |
| 200K | ~150,000 palabras | "Cien años de soledad" de García Márquez (144K palabras reales). Una tesis de doctorado completa. |
| 1M | ~750,000 palabras | "El Quijote" + "El Señor de los Anillos" juntos (382K + 481K = 863K palabras reales). Toda la trilogía original de Tolkien con espacio sobrando para Cervantes. |
| 2M | ~1.5M palabras | La saga completa de Harry Potter (1,084,170 palabras reales) más medio "Quijote" extra. |
| 10M | ~7.5M palabras | Siete sagas completas de Harry Potter. Equivale a unas 15,000 páginas o un año entero de lectura intensiva. |
Tener una ventana de un millón o diez millones de tokens no garantiza que el modelo use bien todo ese espacio. La información crítica conviene ponerla al inicio o al final del prompt. Lo del medio se difumina. Por eso, para casos reales con bases de conocimiento grandes, RAG sigue siendo la mejor estrategia.
La carrera por la ventana más grande llegó a niveles inimaginables hace dos años. Esta es la foto actual con fuentes oficiales de cada proveedor.
Meta lidera en tamaño con Llama 4 Scout. Google se mueve a dos millones. Anthropic alcanzó el millón el 13 de marzo de 2026 con Sonnet 4.6 y Opus 4.6, sin recargo por contexto largo. Eso cambió la economía del juego.
| Proveedor | Modelo | Ventana de contexto | Disponibilidad |
|---|---|---|---|
| Meta | Llama 4 Scout | 10,000,000 MAX | API · open weights |
| Gemini 3.1 Pro | 2,000,000 | Vertex AI Enterprise | |
| Anthropic | Claude Opus 4.7 / Sonnet 4.6 | 1,000,000 GA · 13 MAR 2026 | API · sin recargo |
| OpenAI | GPT-5.5 / GPT-5.4 | 1,000,000 | API · Codex 400K |
| OpenAI | GPT-5.2 (legacy) | 400,000 | API |
La columna de ventana representa el máximo teórico que admite el modelo, no la cantidad óptima de trabajo. Los recargos por contexto largo varían por proveedor. Anthropic los eliminó por completo el 13 de marzo. Google y OpenAI mantienen estructuras de pricing por capas.
RAG significa Retrieval-Augmented Generation. Generación aumentada por recuperación. En lugar de meter todos tus documentos en la ventana, el sistema busca automáticamente los fragmentos más relevantes y se los inyecta al modelo justo antes de responder.
El modelo carga solo lo que necesita para esa pregunta específica. Más rápido. Más barato. Más preciso.
El sistema busca solo en tus documentos. PDFs, manuales, transcripciones, políticas internas. Busca en tu base de conocimiento privada, no en internet.
La pregunta del usuario se complementa con los fragmentos exactos recuperados. El prompt original se enriquece antes de llegar al modelo.
El LLM responde con base en los datos recuperados, ancla la respuesta en evidencia documental, y puede citar la fuente. Reduce las alucinaciones de forma drástica.
Cuando subes documentos a un Project de Claude y el contenido supera el límite de ventana, el sistema activa recuperación inteligente sin que toques nada. Sin código. Sin base de datos vectorial. Sin pipeline propio.
Según Anthropic, Claude Projects con RAG activado puede manejar hasta 10 veces más contenido que el que cabría directamente en la ventana del modelo. Disponible desde los planes Pro.
Ya sabes qué significa cada token. Lo que entra. Lo que sale. Lo que se cachea. Lo que cabe. Y cuándo conviene dejar de llenar la ventana y empezar a recuperar. Genera prompts de calidad, mide tu consumo, y no gastarás tokens innecesariamente.
Conferencias, consultoría y mentoría de inteligencia artificial, en español, para equipos directivos en Perú y Latinoamérica.