Inteligencia Artificial Generativa para Marketing

Cada palabra que envías
tiene un
precio.

ChatGPT, Claude o Gemini cobran por cada token que entra y por cada token que sale. Los límites de la IA tienen lógica económica antes que técnica. Casi nadie entiende cómo funciona. Tesis de la sesión

Anatomía de un prompt · Cómo cobra un LLM

Siete tipos de token. Cada uno con su propio precio.

7 tipos · 7 precios

Output vs Input

5×

El output cuesta 5 veces más que el input en Claude. $3 vs $15 por millón en Sonnet 4.6.

Prompt caching

−90%

El cache hit cuesta el 10% del precio estándar de input. Ahorro de hasta 90% en lecturas repetidas.

Ventana más grande

10M

Llama 4 Scout. Equivale a unas 7,5 millones de palabras o 15,000 páginas.

Claude · 1M GA

13 mar

Sonnet 4.6 y Opus 4.6 con 1M de contexto al precio estándar desde el 13 de marzo de 2026.

Anthropic Pricing (claude.com/pricing); Meta AI Llama 4 (ai.meta.com/blog/llama-4-multimodal-intelligence); Claude 1M GA (claude.com/blog/1m-context-ga, 13 mar 2026).

01Punto de partida

Un LLM predice. Token por token.

Cada vez que un modelo responde, lo que hace es predecir cuál es la siguiente unidad más probable. Una tras otra. Hasta completar la respuesta.

La unidad mínima de esa operación se llama token. Puede ser una sílaba, una palabra completa, parte de una palabra o un signo de puntuación. Para el modelo, todo lo que ves como texto es una secuencia de tokens convertidos a números.

Esa traducción cambia todo. Pagas por token, no por palabra. Y la ventana de contexto se mide en tokens, no en caracteres.

// visualización · cómo se parte una frase en tokens

Hola, me llamo Julio Talledo.

7 tokens · 19 caracteres. Cada color es un token distinto. "Talledo" se parte en dos. Mi nombre cuesta más que "Julio".

"Un LLM convierte tu texto en números, predice los siguientes números más probables, y los traduce a texto." Idea base de los Transformers · Vaswani et al., 2017

02Anatomía del costo

Siete tipos de token. Siete precios.

La mayoría conoce tres: input, output y cache. Los manuales oficiales de Anthropic, OpenAI y Google documentan cuatro más que casi nadie discute. Y son justo los que más facturan en sistemas mal diseñados.

Aquí están los siete tipos verificados en las docs oficiales. Cada uno tiene su propia lógica de precio. Conocerlos cambia la economía de tu operación con IA.

01 · BÁSICO

Input tokens

input · prompt tokens

Todo lo que envías al modelo. Tu pregunta, los documentos adjuntos, el historial de la conversación, las instrucciones del sistema. Es el precio base de referencia.

1× precio base

docs.anthropic.com · openai.com/api/pricing

02 · BÁSICO

Output tokens

output · completion tokens

Lo que el modelo genera y te devuelve. Cuesta cinco veces más que el input en Claude. Si tu sistema produce respuestas largas innecesarias, este es el gasto que se dispara.

5× cinco veces el input

Anthropic Pricing · Sonnet 4.6 · $3/$15

03 · CACHE

Cache write

cache creation tokens

Tokens cobrados la primera vez que guardas un bloque en caché. 1.25× input para TTL de 5 minutos. 2.0× para TTL de 1 hora. Se paga una sola vez.

1.25×-2× según TTL

docs.anthropic.com · prompt caching

04 · CACHE

Cache read

cache hit · cached input

Lecturas posteriores al primer write. Cuestan el 10% del precio estándar. Anthropic te permite guardar partes del prompt que se repiten para no cobrarlas cada vez.

0.1× 90% de ahorro

claude.com/pricing · cache hits

05 · RAZONAMIENTO

Thinking tokens

extended thinking · reasoning

Tokens internos que el modelo gasta razonando antes de responder. Disponible en Claude Opus 4.6+ Sonnet 4.5+ OpenAI o1, GPT-5.4 y Gemini Deep Think. Una sola llamada con thinking puede gastar 3 a 10× los tokens de una respuesta normal.

5× cobrados como output

docs.anthropic.com/extended-thinking

06 · MULTIMODAL

Vision tokens

image input tokens

Cuando subes una imagen, el modelo la divide en parches o tiles. En GPT-5.5 son parches de 32×32 píxeles. En GPT-4o, 85 base + 170 por tile de 512×512. Una imagen high detail puede costar miles de tokens.

85-6,000+ por imagen

openai.com/api/docs/guides/images-vision

07 · HERRAMIENTAS

Tool use tokens

function calling tokens

Cuando defines herramientas en la API, Anthropic agrega un system prompt automático y cobra por cada definición. Más los bloques de tool_use y tool_result que van y vienen. Cinco herramientas suman ~750 tokens fijos por request.

346+ tokens base · Sonnet 4.6

docs.anthropic.com/tool-use

08 · AUDIO · BONUS

Audio tokens

realtime audio tokens

Los modelos Realtime de OpenAI cobran audio como tokens. La entrada cuesta $32 por millón, la salida $64 por millón. Casi 10× más caro que el audio convertido a texto. Si quieres economía, transcribe primero y luego procesa.

$32/$64 por millón

openai.com/api/pricing

El error más común que veo en consultorías

Equipos que arman agentes con prompts gigantes, dejan que el modelo se explaye sin necesidad, activan extended thinking sin pensar, y nunca usan caching. Resultado: facturas que se triplican sin que mejore la calidad del output. Lo he visto en tres proyectos distintos el último trimestre.

Precios reales · Anthropic Claude

Tres modelos actuales. Todos comparten la misma proporción 1:5 entre input y output.

Modelo	Input (1M tok)	Output (1M tok)	Cache hit	Ratio
Anthropic · Haiku 4.5	$1.00	$5.00	$0.10	1:5
Anthropic · Sonnet 4.6	$3.00	$15.00	$0.30	1:5
Anthropic · Opus 4.7	$5.00	$25.00	$0.50	1:5

claude.com/pricing · verificado en docs oficiales · precios en USD por millón de tokens.

Sin caching

Lo que paga la mayoría

System prompt se reenvía completo en cada llamada
El mismo documento se cobra una y otra vez como input
El costo crece de forma lineal con el uso
En agentes con muchas llamadas, la factura explota

Con caching activado
Lo que paga quien sabeEl system prompt se cachea una sola vez
Documentos largos se almacenan a 10% del precio
Cada lectura posterior cuesta el 10% del estándar
En workloads repetitivos, ahorro de hasta 90% en input

"Output tokens cuestan 5 veces más que input. Un sistema mal diseñado puede triplicar tu factura con respuestas largas innecesarias." Anthropic API Pricing Documentation

03Cuánto cuesta lo que escribes

Calculadora interactiva. Estima antes de pagar.

Pega cualquier texto y verás cuántos tokens son y cuánto cuesta procesarlos en los tres modelos de Claude. Asume una respuesta proporcional al input (factor 1×) para una conversación tipo y respuestas largas (factor 3×) para reportes o briefings completos.

Los conteos son estimaciones cercanas al tokenizer real. Para el conteo oficial usa el Tokenizer de OpenAI o la API count_tokens de Anthropic.

Estimador de tokens y costo

Calcula en tiempo real · Sin enviar nada a la nube

Visualización por tokens (colores rotativos)

Tokens estimados

0 caracteres · 0 palabras

Equivale aproximadamente a

0 páginas

1,500 tokens ≈ 1 página

Tokenizer ratio

chars/token

Español: ~3.5-4 chars por token

Haiku 4.5 · $1/$5

$0.00000

input + output

Sonnet 4.6 · $3/$15

$0.00000

input + output

Opus 4.7 · $5/$25

$0.00000

input + output

// El conteo asume tokenización tipo Claude/GPT promedio para español (~3.7 caracteres por token). El cálculo asume respuesta del modelo con tokens output equivalentes a 1.5× los tokens input. Los precios son rates de Anthropic vigentes en mayo 2026 sin descuentos por caching ni batch. Para conteo oficial: platform.openai.com/tokenizer o docs.anthropic.com/token-counting.

Cómo leer estos números

Un prompt de 200 palabras en Sonnet 4.6 cuesta menos de $0.005 USD. Una conversación de cien turnos con thinking activado puede llegar a $1 o $2. Un agente que procesa documentos largos sin caching, varios cientos al mes. La diferencia entre un sistema bien diseñado y uno mal diseñado es un orden de magnitud.

"Los modelos no leen texto. Leen secuencias de tokens. Por eso pagas por token, no por palabra." OpenAI · Tokenizer documentation

04Qué cabe en la ventana

Cuando hablamos de un millón de tokens, ¿qué tan grande es eso?

"Un millón de tokens" o "diez millones" suenan a cifras abstractas. Cuando se traducen a obras conocidas, recién toman dimensión real.

Aquí están las equivalencias literarias verificadas. Una unidad de medida con la que sí podemos pensar.

Capacidad

Representación visual

Equivalente concreto

4K GPT-2 · Llama 1

Un brief de campaña

~3,000 palabras · 6 páginas

32K GPT-4 · Claude 2

Un capítulo de novela

~24,000 palabras · 50 páginas

128K GPT-4 Turbo · Haiku 4.5

"1984" de Orwell entero

~96,000 palabras · obra de 88K reales

200K Claude Sonnet 4.5

"Cien años de soledad" entero

~150,000 palabras · obra de 144K reales

1M Claude 4.6 · GPT-5.4 · Gemini 3

"El Quijote" + "El Señor de los Anillos"

~750,000 palabras · 382K + 481K = 863K reales

2M Gemini 3.1 Pro

Saga "Harry Potter" completa

~1.5M palabras · 7 libros = 1,084,170 reales

10M Llama 4 Scout

Siete sagas de "Harry Potter" juntas

~7.5M palabras · una vida entera de lectura

Conversión usada: 1 token ≈ 0.75 palabras en español. Word counts verificados: Harry Potter saga (wordcounter.io, harrypotterinsider.com); "1984" Orwell; "Cien años de soledad" García Márquez; "El Quijote" Cervantes; "Lord of the Rings" Tolkien.

El detalle en cifras.

Las palabras reales de obras conocidas que cabrían en cada ventana.

Ventana	Palabras aprox.	Qué cabe ahí dentro
4K	~3,000 palabras	Un email corporativo extenso, un brief de campaña, una nota de prensa con anexos.
32K	~24,000 palabras	Un capítulo entero de novela, un paper académico con bibliografía, un manual de usuario corto.
128K	~96,000 palabras	"1984" de George Orwell (88K palabras reales) o "Pedro Páramo" de Juan Rulfo varias veces.
200K	~150,000 palabras	"Cien años de soledad" de García Márquez (144K palabras reales). Una tesis de doctorado completa.
1M	~750,000 palabras	"El Quijote" + "El Señor de los Anillos" juntos (382K + 481K = 863K palabras reales). Toda la trilogía original de Tolkien con espacio sobrando para Cervantes.
2M	~1.5M palabras	La saga completa de Harry Potter (1,084,170 palabras reales) más medio "Quijote" extra.
10M	~7.5M palabras	Siete sagas completas de Harry Potter. Equivale a unas 15,000 páginas o un año entero de lectura intensiva.

Word counts verificados: Harry Potter total: 1,084,170 palabras (wordcounter.io, harrypotterinsider.com, fan-verified consistent across editions); LOTR trilogía: ~481K palabras; El Quijote: ~382K palabras; "1984": 88K palabras; "Cien años de soledad": ~144K palabras.

Diagrama · Qué entra en la ventana

Todo cuenta. Todo ocupa espacio.

La ventana abarca todo lo compartido entre instrucciones del sistema, historial de la conversación, archivos adjuntos, definiciones de herramientas y la respuesta que el modelo está construyendo en ese mismo momento.

Investigación documentada · Liu et al., 2023

Lost in the middle.

Cuando un modelo procesa un contexto muy largo, la precisión para recuperar información cae con lo que está en el medio. Sube otra vez con lo que está al inicio y al final. El gráfico abajo muestra el comportamiento documentado en research.

// Datos basados en Liu et al., 2023, "Lost in the Middle: How Language Models Use Long Contexts" (arXiv:2307.03172). El efecto se confirma en evaluaciones MRCR v2 publicadas por Anthropic en marzo 2026, donde Opus 4.6 alcanza 78.3% de recall a 1M tokens, el mejor del mercado a esa longitud.

Implicación práctica

Tener una ventana de un millón o diez millones de tokens no garantiza que el modelo use bien todo ese espacio. La información crítica conviene ponerla al inicio o al final del prompt. Lo del medio se difumina. Por eso, para casos reales con bases de conocimiento grandes, RAG sigue siendo la mejor estrategia.

"Opus 4.6 scores 78.3% on MRCR v2 at 1 million tokens, highest among frontier models." Anthropic Blog · 1M context GA · 13 marzo 2026

05Estado del arte

Ventanas de contexto hoy.

La carrera por la ventana más grande llegó a niveles inimaginables hace dos años. Esta es la foto actual con fuentes oficiales de cada proveedor.

Meta lidera en tamaño con Llama 4 Scout. Google se mueve a dos millones. Anthropic alcanzó el millón el 13 de marzo de 2026 con Sonnet 4.6 y Opus 4.6, sin recargo por contexto largo. Eso cambió la economía del juego.

Proveedor	Modelo	Ventana de contexto	Disponibilidad
Meta	Llama 4 Scout	10,000,000 MAX	API · open weights
Google	Gemini 3.1 Pro	2,000,000	Vertex AI Enterprise
Anthropic	Claude Opus 4.7 / Sonnet 4.6	1,000,000 GA · 13 MAR 2026	API · sin recargo
OpenAI	GPT-5.5 / GPT-5.4	1,000,000	API · Codex 400K
OpenAI	GPT-5.2 (legacy)	400,000	API

Llama 4 Scout: ai.meta.com/blog/llama-4-multimodal-intelligence; Gemini 3.1 Pro: cloud.google.com/vertex-ai; Claude 1M GA: claude.com/blog/1m-context-ga (13 mar 2026); GPT-5.4/5.5: openai.com (mar-abr 2026).

Ventaja Claude · marzo 2026
1M sin recargoUn request de 900K tokens cuesta lo mismo por token que uno de 9K
Sin "long-context premium" como cobran otros proveedores
Hasta 600 imágenes o páginas PDF por request
Disponible en API, Microsoft Foundry y Google Cloud Vertex AI
Performance medida en MRCR v2: 78,3% a 1M tokens

Realidad operativa

El otro lado de la moneda

Mayor ventana no es lo mismo que mejor precisión
El efecto lost in the middle afecta a todos los modelos
Llenar 10M tokens es lento, costoso e impreciso
Sonnet 4.5 cae a 18,5% de precisión en MRCR a 1M tokens
Para casos reales, RAG sigue ganando

Cómo leer esta tabla

La columna de ventana representa el máximo teórico que admite el modelo, no la cantidad óptima de trabajo. Los recargos por contexto largo varían por proveedor. Anthropic los eliminó por completo el 13 de marzo. Google y OpenAI mantienen estructuras de pricing por capas.

06La solución inteligente

RAG. Dejar de llenar la ventana.

RAG significa Retrieval-Augmented Generation. Generación aumentada por recuperación. En lugar de meter todos tus documentos en la ventana, el sistema busca automáticamente los fragmentos más relevantes y se los inyecta al modelo justo antes de responder.

El modelo carga solo lo que necesita para esa pregunta específica. Más rápido. Más barato. Más preciso.

Retrieval · Recuperación

El sistema busca solo en tus documentos. PDFs, manuales, transcripciones, políticas internas. Busca en tu base de conocimiento privada, no en internet.

Augmented · Aumentada

La pregunta del usuario se complementa con los fragmentos exactos recuperados. El prompt original se enriquece antes de llegar al modelo.

Generation · Generación

El LLM responde con base en los datos recuperados, ancla la respuesta en evidencia documental, y puede citar la fuente. Reduce las alucinaciones de forma drástica.

Claude Projects activa RAG automáticamente

Cuando subes documentos a un Project de Claude y el contenido supera el límite de ventana, el sistema activa recuperación inteligente sin que toques nada. Sin código. Sin base de datos vectorial. Sin pipeline propio.

Según Anthropic, Claude Projects con RAG activado puede manejar hasta 10 veces más contenido que el que cabría directamente en la ventana del modelo. Disponible desde los planes Pro.

Activación

Automática al superar el límite de contexto

Capacidad

Hasta 10× más que la ventana directa

Disponibilidad

Planes Pro, Max, Team y Enterprise

Sin RAG · contexto largo bruto

Pegas todos los documentos

El modelo lee todo cada vez que respondes algo
Costo escala con cada token del documento
Pierde atención en el medio del contexto
Si supera el límite, simplemente no entra

Con RAG · recuperación inteligente
El sistema busca por tiEl modelo solo lee los fragmentos relevantes a tu pregunta
Pagas por lo que realmente necesitas
Mejor precisión porque hay menos ruido en el contexto
Escala con bases de conocimiento ilimitadas

"Pagas por token. Más tokens es más costo y más latencia. RAG busca solo lo relevante y lo inyecta de forma quirúrgica." Principio operativo de RAG en producción

Implicación práctica

Ya sabes qué significa cada token. Lo que entra. Lo que sale. Lo que se cachea. Lo que cabe. Y cuándo conviene dejar de llenar la ventana y empezar a recuperar. Genera prompts de calidad, mide tu consumo, y no gastarás tokens innecesariamente.

Cada palabra que envíastiene unprecio.

Un LLM predice. Token por token.

Siete tipos de token. Siete precios.

Precios reales · Anthropic Claude

Lo que paga la mayoría

Lo que paga quien sabe

Calculadora interactiva. Estima antes de pagar.

Cuando hablamos de un millón de tokens, ¿qué tan grande es eso?

El detalle en cifras.

Ventanas de contexto hoy.

1M sin recargo

El otro lado de la moneda

RAG. Dejar de llenar la ventana.

Retrieval · Recuperación

Augmented · Aumentada

Generation · Generación

Claude Projects activa RAG automáticamente

Pegas todos los documentos

El sistema busca por ti

¿Quieres llevar esto a tu empresa?

Cada palabra que envías
tiene un
precio.