Inteligencia Artificial Generativa para Marketing

Cada palabra que envías
tiene un
precio.

ChatGPT, Claude o Gemini cobran por cada token que entra y por cada token que sale. Los límites de la IA tienen lógica económica antes que técnica. Casi nadie entiende cómo funciona. Tesis de la sesión

Anatomía de un prompt · Cómo cobra un LLM
Siete tipos de token. Cada uno con su propio precio.
Usuario INPUT TOKENS prompt + adjuntos + historial precio base CACHE TOKENS contenido reutilizable hasta 90% de descuento LLM predicción token a token OUTPUT TOKENS respuesta generada 5x el precio del input Respuesta
7 tipos · 7 precios
Output vs Input
5×
El output cuesta 5 veces más que el input en Claude. $3 vs $15 por millón en Sonnet 4.6.
Prompt caching
−90%
El cache hit cuesta el 10% del precio estándar de input. Ahorro de hasta 90% en lecturas repetidas.
Ventana más grande
10M
Llama 4 Scout. Equivale a unas 7,5 millones de palabras o 15,000 páginas.
Claude · 1M GA
13 mar
Sonnet 4.6 y Opus 4.6 con 1M de contexto al precio estándar desde el 13 de marzo de 2026.
Anthropic Pricing (claude.com/pricing); Meta AI Llama 4 (ai.meta.com/blog/llama-4-multimodal-intelligence); Claude 1M GA (claude.com/blog/1m-context-ga, 13 mar 2026).

Un LLM predice. Token por token.

Cada vez que un modelo responde, lo que hace es predecir cuál es la siguiente unidad más probable. Una tras otra. Hasta completar la respuesta.

La unidad mínima de esa operación se llama token. Puede ser una sílaba, una palabra completa, parte de una palabra o un signo de puntuación. Para el modelo, todo lo que ves como texto es una secuencia de tokens convertidos a números.

Esa traducción cambia todo. Pagas por token, no por palabra. Y la ventana de contexto se mide en tokens, no en caracteres.

// visualización · cómo se parte una frase en tokens
Hola, me llamo Julio Talledo.
7 tokens · 19 caracteres. Cada color es un token distinto. "Talledo" se parte en dos. Mi nombre cuesta más que "Julio".
"Un LLM convierte tu texto en números, predice los siguientes números más probables, y los traduce a texto." Idea base de los Transformers · Vaswani et al., 2017

Siete tipos de token. Siete precios.

La mayoría conoce tres: input, output y cache. Los manuales oficiales de Anthropic, OpenAI y Google documentan cuatro más que casi nadie discute. Y son justo los que más facturan en sistemas mal diseñados.

Aquí están los siete tipos verificados en las docs oficiales. Cada uno tiene su propia lógica de precio. Conocerlos cambia la economía de tu operación con IA.

01 · BÁSICO
Input tokens
input · prompt tokens

Todo lo que envías al modelo. Tu pregunta, los documentos adjuntos, el historial de la conversación, las instrucciones del sistema. Es el precio base de referencia.

precio base
docs.anthropic.com · openai.com/api/pricing
03 · CACHE
Cache write
cache creation tokens

Tokens cobrados la primera vez que guardas un bloque en caché. 1.25× input para TTL de 5 minutos. 2.0× para TTL de 1 hora. Se paga una sola vez.

1.25×-2× según TTL
docs.anthropic.com · prompt caching
04 · CACHE
Cache read
cache hit · cached input

Lecturas posteriores al primer write. Cuestan el 10% del precio estándar. Anthropic te permite guardar partes del prompt que se repiten para no cobrarlas cada vez.

0.1× 90% de ahorro
claude.com/pricing · cache hits
06 · MULTIMODAL
Vision tokens
image input tokens

Cuando subes una imagen, el modelo la divide en parches o tiles. En GPT-5.5 son parches de 32×32 píxeles. En GPT-4o, 85 base + 170 por tile de 512×512. Una imagen high detail puede costar miles de tokens.

85-6,000+ por imagen
openai.com/api/docs/guides/images-vision
07 · HERRAMIENTAS
Tool use tokens
function calling tokens

Cuando defines herramientas en la API, Anthropic agrega un system prompt automático y cobra por cada definición. Más los bloques de tool_use y tool_result que van y vienen. Cinco herramientas suman ~750 tokens fijos por request.

346+ tokens base · Sonnet 4.6
docs.anthropic.com/tool-use
El error más común que veo en consultorías

Equipos que arman agentes con prompts gigantes, dejan que el modelo se explaye sin necesidad, activan extended thinking sin pensar, y nunca usan caching. Resultado: facturas que se triplican sin que mejore la calidad del output. Lo he visto en tres proyectos distintos el último trimestre.

Precios reales · Anthropic Claude

Tres modelos actuales. Todos comparten la misma proporción 1:5 entre input y output.

ModeloInput (1M tok)Output (1M tok)Cache hitRatio
Anthropic · Haiku 4.5 $1.00 $5.00 $0.10 1:5
Anthropic · Opus 4.7 $5.00 $25.00 $0.50 1:5
claude.com/pricing · verificado en docs oficiales · precios en USD por millón de tokens.
Sin caching

Lo que paga la mayoría

  • System prompt se reenvía completo en cada llamada
  • El mismo documento se cobra una y otra vez como input
  • El costo crece de forma lineal con el uso
  • En agentes con muchas llamadas, la factura explota
Con caching activado

Lo que paga quien sabe

  • El system prompt se cachea una sola vez
  • Documentos largos se almacenan a 10% del precio
  • Cada lectura posterior cuesta el 10% del estándar
  • En workloads repetitivos, ahorro de hasta 90% en input
"Output tokens cuestan 5 veces más que input. Un sistema mal diseñado puede triplicar tu factura con respuestas largas innecesarias." Anthropic API Pricing Documentation

Calculadora interactiva. Estima antes de pagar.

Pega cualquier texto y verás cuántos tokens son y cuánto cuesta procesarlos en los tres modelos de Claude. Asume una respuesta proporcional al input (factor 1×) para una conversación tipo y respuestas largas (factor 3×) para reportes o briefings completos.

Los conteos son estimaciones cercanas al tokenizer real. Para el conteo oficial usa el Tokenizer de OpenAI o la API count_tokens de Anthropic.

Estimador de tokens y costo
Calcula en tiempo real · Sin enviar nada a la nube
Visualización por tokens (colores rotativos)
Tokens estimados
0
0 caracteres · 0 palabras
Equivale aproximadamente a
0 páginas
1,500 tokens ≈ 1 página
Tokenizer ratio
chars/token
Español: ~3.5-4 chars por token
Haiku 4.5 · $1/$5
$0.00000
input + output
Sonnet 4.6 · $3/$15
$0.00000
input + output
Opus 4.7 · $5/$25
$0.00000
input + output

// El conteo asume tokenización tipo Claude/GPT promedio para español (~3.7 caracteres por token). El cálculo asume respuesta del modelo con tokens output equivalentes a 1.5× los tokens input. Los precios son rates de Anthropic vigentes en mayo 2026 sin descuentos por caching ni batch. Para conteo oficial: platform.openai.com/tokenizer o docs.anthropic.com/token-counting.

Cómo leer estos números

Un prompt de 200 palabras en Sonnet 4.6 cuesta menos de $0.005 USD. Una conversación de cien turnos con thinking activado puede llegar a $1 o $2. Un agente que procesa documentos largos sin caching, varios cientos al mes. La diferencia entre un sistema bien diseñado y uno mal diseñado es un orden de magnitud.

"Los modelos no leen texto. Leen secuencias de tokens. Por eso pagas por token, no por palabra." OpenAI · Tokenizer documentation

Cuando hablamos de un millón de tokens, ¿qué tan grande es eso?

"Un millón de tokens" o "diez millones" suenan a cifras abstractas. Cuando se traducen a obras conocidas, recién toman dimensión real.

Aquí están las equivalencias literarias verificadas. Una unidad de medida con la que sí podemos pensar.

Capacidad
Representación visual
Equivalente concreto
4K GPT-2 · Llama 1
Un brief de campaña
~3,000 palabras · 6 páginas
32K GPT-4 · Claude 2
Un capítulo de novela
~24,000 palabras · 50 páginas
128K GPT-4 Turbo · Haiku 4.5
"1984" de Orwell entero
~96,000 palabras · obra de 88K reales
200K Claude Sonnet 4.5
"Cien años de soledad" entero
~150,000 palabras · obra de 144K reales
2M Gemini 3.1 Pro
Saga "Harry Potter" completa
~1.5M palabras · 7 libros = 1,084,170 reales
10M Llama 4 Scout
Siete sagas de "Harry Potter" juntas
~7.5M palabras · una vida entera de lectura
Conversión usada: 1 token ≈ 0.75 palabras en español. Word counts verificados: Harry Potter saga (wordcounter.io, harrypotterinsider.com); "1984" Orwell; "Cien años de soledad" García Márquez; "El Quijote" Cervantes; "Lord of the Rings" Tolkien.

El detalle en cifras.

Las palabras reales de obras conocidas que cabrían en cada ventana.

Ventana Palabras aprox. Qué cabe ahí dentro
4K ~3,000 palabras Un email corporativo extenso, un brief de campaña, una nota de prensa con anexos.
32K ~24,000 palabras Un capítulo entero de novela, un paper académico con bibliografía, un manual de usuario corto.
128K ~96,000 palabras "1984" de George Orwell (88K palabras reales) o "Pedro Páramo" de Juan Rulfo varias veces.
200K ~150,000 palabras "Cien años de soledad" de García Márquez (144K palabras reales). Una tesis de doctorado completa.
1M ~750,000 palabras "El Quijote" + "El Señor de los Anillos" juntos (382K + 481K = 863K palabras reales). Toda la trilogía original de Tolkien con espacio sobrando para Cervantes.
2M ~1.5M palabras La saga completa de Harry Potter (1,084,170 palabras reales) más medio "Quijote" extra.
10M ~7.5M palabras Siete sagas completas de Harry Potter. Equivale a unas 15,000 páginas o un año entero de lectura intensiva.
Word counts verificados: Harry Potter total: 1,084,170 palabras (wordcounter.io, harrypotterinsider.com, fan-verified consistent across editions); LOTR trilogía: ~481K palabras; El Quijote: ~382K palabras; "1984": 88K palabras; "Cien años de soledad": ~144K palabras.
Diagrama · Qué entra en la ventana
Todo cuenta. Todo ocupa espacio.
La ventana abarca todo lo compartido entre instrucciones del sistema, historial de la conversación, archivos adjuntos, definiciones de herramientas y la respuesta que el modelo está construyendo en ese mismo momento.
VENTANA DE CONTEXTO TOTAL SYSTEM Instrucciones ~500 tokens HISTORIAL Mensajes anteriores crece con la conversación ADJUNTOS PDFs, imágenes, code lo más pesado PREGUNTA Tu prompt la parte visible RESPUESTA En construcción también ocupa Cuando la suma supera el límite, el modelo empieza a olvidar la parte más antigua.
Investigación documentada · Liu et al., 2023
Lost in the middle.
Cuando un modelo procesa un contexto muy largo, la precisión para recuperar información cae con lo que está en el medio. Sube otra vez con lo que está al inicio y al final. El gráfico abajo muestra el comportamiento documentado en research.
100% 75% 50% 25% 0% INICIO MEDIO DEL CONTEXTO FINAL 78% recall inicio 50-55% recall en el medio 75% recall final La atención del modelo no es uniforme. El medio del contexto es donde más se pierde.
// Datos basados en Liu et al., 2023, "Lost in the Middle: How Language Models Use Long Contexts" (arXiv:2307.03172). El efecto se confirma en evaluaciones MRCR v2 publicadas por Anthropic en marzo 2026, donde Opus 4.6 alcanza 78.3% de recall a 1M tokens, el mejor del mercado a esa longitud.
Implicación práctica

Tener una ventana de un millón o diez millones de tokens no garantiza que el modelo use bien todo ese espacio. La información crítica conviene ponerla al inicio o al final del prompt. Lo del medio se difumina. Por eso, para casos reales con bases de conocimiento grandes, RAG sigue siendo la mejor estrategia.

"Opus 4.6 scores 78.3% on MRCR v2 at 1 million tokens, highest among frontier models." Anthropic Blog · 1M context GA · 13 marzo 2026

Ventanas de contexto hoy.

La carrera por la ventana más grande llegó a niveles inimaginables hace dos años. Esta es la foto actual con fuentes oficiales de cada proveedor.

Meta lidera en tamaño con Llama 4 Scout. Google se mueve a dos millones. Anthropic alcanzó el millón el 13 de marzo de 2026 con Sonnet 4.6 y Opus 4.6, sin recargo por contexto largo. Eso cambió la economía del juego.

ProveedorModeloVentana de contextoDisponibilidad
Meta Llama 4 Scout 10,000,000 MAX API · open weights
Google Gemini 3.1 Pro 2,000,000 Vertex AI Enterprise
OpenAI GPT-5.5 / GPT-5.4 1,000,000 API · Codex 400K
OpenAI GPT-5.2 (legacy) 400,000 API
Llama 4 Scout: ai.meta.com/blog/llama-4-multimodal-intelligence; Gemini 3.1 Pro: cloud.google.com/vertex-ai; Claude 1M GA: claude.com/blog/1m-context-ga (13 mar 2026); GPT-5.4/5.5: openai.com (mar-abr 2026).
Ventaja Claude · marzo 2026

1M sin recargo

  • Un request de 900K tokens cuesta lo mismo por token que uno de 9K
  • Sin "long-context premium" como cobran otros proveedores
  • Hasta 600 imágenes o páginas PDF por request
  • Disponible en API, Microsoft Foundry y Google Cloud Vertex AI
  • Performance medida en MRCR v2: 78,3% a 1M tokens
Realidad operativa

El otro lado de la moneda

  • Mayor ventana no es lo mismo que mejor precisión
  • El efecto lost in the middle afecta a todos los modelos
  • Llenar 10M tokens es lento, costoso e impreciso
  • Sonnet 4.5 cae a 18,5% de precisión en MRCR a 1M tokens
  • Para casos reales, RAG sigue ganando
Cómo leer esta tabla

La columna de ventana representa el máximo teórico que admite el modelo, no la cantidad óptima de trabajo. Los recargos por contexto largo varían por proveedor. Anthropic los eliminó por completo el 13 de marzo. Google y OpenAI mantienen estructuras de pricing por capas.

RAG. Dejar de llenar la ventana.

RAG significa Retrieval-Augmented Generation. Generación aumentada por recuperación. En lugar de meter todos tus documentos en la ventana, el sistema busca automáticamente los fragmentos más relevantes y se los inyecta al modelo justo antes de responder.

El modelo carga solo lo que necesita para esa pregunta específica. Más rápido. Más barato. Más preciso.

R

Retrieval · Recuperación

El sistema busca solo en tus documentos. PDFs, manuales, transcripciones, políticas internas. Busca en tu base de conocimiento privada, no en internet.

A

Augmented · Aumentada

La pregunta del usuario se complementa con los fragmentos exactos recuperados. El prompt original se enriquece antes de llegar al modelo.

G

Generation · Generación

El LLM responde con base en los datos recuperados, ancla la respuesta en evidencia documental, y puede citar la fuente. Reduce las alucinaciones de forma drástica.

Claude Projects activa RAG automáticamente

Cuando subes documentos a un Project de Claude y el contenido supera el límite de ventana, el sistema activa recuperación inteligente sin que toques nada. Sin código. Sin base de datos vectorial. Sin pipeline propio.

Según Anthropic, Claude Projects con RAG activado puede manejar hasta 10 veces más contenido que el que cabría directamente en la ventana del modelo. Disponible desde los planes Pro.

Activación
Automática al superar el límite de contexto
Capacidad
Hasta 10× más que la ventana directa
Disponibilidad
Planes Pro, Max, Team y Enterprise
Sin RAG · contexto largo bruto

Pegas todos los documentos

  • El modelo lee todo cada vez que respondes algo
  • Costo escala con cada token del documento
  • Pierde atención en el medio del contexto
  • Si supera el límite, simplemente no entra
Con RAG · recuperación inteligente

El sistema busca por ti

  • El modelo solo lee los fragmentos relevantes a tu pregunta
  • Pagas por lo que realmente necesitas
  • Mejor precisión porque hay menos ruido en el contexto
  • Escala con bases de conocimiento ilimitadas
"Pagas por token. Más tokens es más costo y más latencia. RAG busca solo lo relevante y lo inyecta de forma quirúrgica." Principio operativo de RAG en producción
Implicación práctica

Ya sabes qué significa cada token. Lo que entra. Lo que sale. Lo que se cachea. Lo que cabe. Y cuándo conviene dejar de llenar la ventana y empezar a recuperar. Genera prompts de calidad, mide tu consumo, y no gastarás tokens innecesariamente.

← Volver al Centro de Conocimiento
Julio Talledo, especialista en inteligencia artificial
Julio Talledo
Especialista en inteligencia artificial aplicada al marketing y los negocios, con más de 15 años de experiencia. Conoce más sobre Julio →

¿Quieres llevar esto a tu empresa?

Conferencias, consultoría y mentoría de inteligencia artificial, en español, para equipos directivos en Perú y Latinoamérica.

Hablemos →