Los LLMs se entrenan con datos públicos. No conocen tu empresa, tus clientes, tus precios. Y cuando no saben algo, lo inventan con total confianza.
Imaginen que contratan al analista más brillante del mundo.
Habla 10 idiomas. Entiende de finanzas, derecho, medicina y marketing. Puede producir en segundos lo que a un equipo le toma días.
Pero tiene un problema: no sabe nada de su empresa. No conoce sus productos, sus clientes, sus precios, sus políticas.
Y cuando no sabe algo, lo inventa con total confianza.
Seis pestañas con sus diagramas. Recorre el orden o salta a lo que te interese desde el menú superior.
Retrieval-Augmented Generation. Generación aumentada por recuperación. El estándar de facto para llevar IA generativa al negocio.
El problema con los LLMs es doble. Uno: su conocimiento está congelado en una fecha de entrenamiento. Dos: cuando no saben algo, lo inventan. Ahí entra RAG. Antes de que el modelo responda, el sistema busca en tus propios documentos, extrae lo relevante y se lo inyecta al modelo como contexto. El LLM ya no genera desde cero. Genera a partir de tu información real.
El sistema busca información relevante solo en tus documentos privados. PDFs, CRM, manuales, catálogos, políticas comerciales. No busca en internet. Busca en tu casa.
La pregunta del usuario se complementa con el contexto exacto que el sistema recuperó. El prompt se enriquece antes de llegar al modelo.
La IA formula una respuesta precisa basada únicamente en los datos recuperados, no en su entrenamiento general. Y puede citar la fuente.
Mucha gente me pregunta lo mismo. Si las ventanas de contexto ya son enormes, para qué sigo necesitando RAG. Respuesta corta. Porque llenar la ventana con todos tus documentos es caro, lento, impreciso y no escala.
| Proveedor | Modelo | Ventana de contexto | Costo input (1M tokens) |
|---|---|---|---|
| Meta | Llama 4 Scout | 10,000,000 | $0.11 |
| Gemini 3 Pro | 2,000,000 | $1.25 | |
| xAI | Grok (SuperGrok) | 2,000,000 | |
| Gemini 1.5 Flash | 1,000,000 | $0.075 | |
| OpenAI | GPT-5.4 / GPT-5.2 | 400,000 | $1.50 |
| Anthropic | Claude Opus 4.6 | 200,000 | $15.00 |
| Anthropic | Claude Sonnet 4.6 | 200,000 | $3.00 |
| OpenAI | GPT-4o | 128,000 | $2.50 |
Pagas por token. Más tokens es más costo y más latencia. Y los modelos pierden atención con lo que está en el medio de un contexto muy largo. RAG busca solo lo relevante y lo inyecta de forma quirúrgica. Más rápido, más barato, más preciso.
El flujo de RAG no es magia. Es un pipeline ordenado donde cada paso tiene una función específica.
Lo importante. El LLM no genera desde cero. Genera a partir de información real y actualizada de tu negocio. Por eso el sistema puede citar la fuente. Por eso reduce alucinaciones. Por eso funciona en producción.
Tu repositorio. Documentos internos, manuales, catálogos actualizados, historial de CRM, políticas comerciales, reportes de mercado, brand books. Todo lo que tu empresa sabe y que el LLM no.
El motor de búsqueda inteligente. Convierte texto en embeddings. Busca por similitud semántica, no solo por palabras clave. Recupera los fragmentos más relevantes. Ordena por relevancia. Si preguntas por "clientes que dejaron de comprar", encuentra patrones aunque no uses esas palabras exactas.
El cerebro que redacta y razona. Recibe la pregunta más el contexto recuperado. Genera respuesta fundamentada. Puede citar la fuente. Dice "no sé" si el contexto no es suficiente. Y no necesita ser reentrenado cuando cambian tus documentos.
Un token es la unidad mínima que procesa un LLM. No es una palabra completa. Puede ser una sílaba, una palabra, un signo de puntuación. En español usamos más tokens que en inglés para decir lo mismo, lo que tiene impacto directo en costo. La ventana de contexto es la cantidad máxima de tokens que el modelo puede ver al mismo tiempo. Cuando se llena, el modelo empieza a olvidar.
GPT-3 original (2020). Solo caben tres hojas a la vez. Si necesitas un contrato largo, sacas una hoja para meter otra. Visión parcial.
Gemini 3 Pro (2026). Caben más de 3,000 páginas simultáneas. Manual de productos, historial del cliente, política comercial y brief de campaña. Todo junto.
No requiere reentrenar el modelo. Reemplazas el PDF y el sistema ya tiene la nueva versión.
El sistema cita de qué documento extrajo la información. Auditable.
Al anclar la generación en evidencia documental, el modelo queda consistente.
Si la pregunta no se puede responder con los documentos disponibles, lo indica en vez de inventar.
Los documentos se quedan en tu infraestructura. No se usan para entrenar modelos de terceros.
Mucho más barato que fine-tuning. Actualizar documentos no tiene costo de cómputo.
RAG es tan bueno como la base de conocimiento que lo alimenta y como el retriever que busca en ella. Si los documentos están desactualizados, el sistema reproducirá esos errores con la autoridad que le da la IA. Y para consultas que requieren razonar sobre múltiples fuentes y aplicar reglas de negocio, el RAG básico se queda corto. Ahí entra el RAG Agéntico.
No es un nuevo concepto. Es una nueva forma de ejecutar RAG. Un sistema que actúa como un equipo de trabajo. Analiza, busca, revisa, combina y decide.
El RAG básico funciona para consultas simples. Pero falla cuando el problema requiere filtrar según políticas, combinar múltiples fuentes, aplicar reglas de operación, razonar y actuar con el cliente. Necesitamos un RAG que no solo recupere, sino que razone.
El agente sabe que ciertos datos son confidenciales, que hay políticas de descuento por segmento, que hay reglas de derivación cuando no tiene la respuesta. No es solo búsqueda. Es búsqueda con criterio.
Una sola consulta del usuario puede gatillar tres búsquedas paralelas. Una en el CRM, otra en el catálogo, otra en políticas. El agente combina los resultados antes de responder.
Antes de responder al cliente, el agente revisa. ¿Es coherente con el contexto recuperado? ¿Cumple con las políticas? ¿Hay riesgo de alucinación? Si no pasa el filtro, replanifica.
Seguras, medibles, con observabilidad. Cada respuesta queda etiquetada con métricas que alimentan el dashboard y un agente de mejora continua. Esto no es un piloto. Es arquitectura empresarial.
El día a día de un equipo de marketing está lleno de tareas que dependen de información dispersa. Brand book aquí, FAQs allá, análisis de mercado en otro lado. RAG centraliza el conocimiento y lo pone al servicio de cada decisión.
Lo que cambia con RAG no es la herramienta. Es la capacidad de generar contenido y decisiones que respeten siempre la identidad de marca y los datos reales del negocio. Sin alucinaciones. Sin reinventar la rueda en cada brief.
Chatbots que responden consultas complejas basándose estrictamente en políticas reales y FAQs actualizadas. Derivan a humanos solo cuando es necesario. Siempre actualizados, sin riesgo de inventar respuestas. La diferencia con los chatbots tontos del 2018 es que este sí entiende el contexto.
Redacción de artículos, correos y posts inyectando el Brand Book y el tono de voz directamente en el prompt mediante RAG. Cada pieza respeta la identidad. Si el brand book dice "no usar emojis en piezas B2B", el sistema lo cumple. Si la marca tiene un glosario propio, lo respeta.
Integra informes internos, dashboards y fuentes de mercado para crear resúmenes ejecutivos, previsiones y alertas de competencia. El equipo pregunta en lenguaje natural y obtiene insights con fuente. "¿Cómo nos comparamos con la competencia en el segmento premium del último trimestre?" y la respuesta cita el reporte exacto.
El sistema accede al historial del cliente en CRM, sus preferencias y el contexto de campaña, y genera mensajes personalizados que se sienten escritos a mano. No es mass mailing con campos rellenados. Es contenido que entiende a quién le habla.
Aliméntalo con tus reportes de SEO, GEO, social listening y métricas de campañas. Pregunta "¿cuáles son los tres temas con más oportunidad de posicionamiento orgánico este trimestre?" y te lo responde citando los datos. Útil para todo el ciclo de planning.
Asistente virtual oficial del Centro de Formación en Turismo del Perú. Diseñado con RAG para atender postulantes 24/7 con información oficial verificada. Cuando no encuentra una respuesta sustentada, deriva al asesor humano. No inventa precios, no inventa fechas, no inventa políticas.
El sistema accede al brochure de las cuatro carreras (Administración Hotelera, Turística, Guía Oficial, Gastronomía), al reglamento académico, al mapa de procesos institucional y al histórico de FAQs.
Brand book, FAQs, políticas, catálogos, casos de éxito. No un Drive con 4,000 PDFs duplicados. Una base limpia, etiquetada, con responsable de actualización.
No quieras resolver todo el área de marketing en el primer sprint. Elige una tarea repetitiva, costosa y medible. Demuestra el valor ahí. Después escalas.
Tiempo ahorrado, tasa de resolución, conversión, errores reducidos, costo por lead. Si no puedes medirlo, no puedes defenderlo cuando llegue el comité.
Un copiloto para ejecutivos de cuenta que busca instantáneamente en miles de documentos mientras están en una videollamada. Especificaciones técnicas, casos de éxito, historial del cliente. Todo a la mano.
El equipo comercial es donde más rápido se ve el ROI de RAG. Reduce el tiempo de preparación, mejora la calidad de las propuestas y le da al vendedor argumentos con respaldo. Pasamos de horas a minutos en tareas que antes parecían parte del trabajo.
Antes de cada reunión, el vendedor pregunta al sistema. El LLM extrae del CRM todo el historial del cliente, objeciones anteriores, productos que tiene, noticias recientes y contexto de mercado. El vendedor llega con inteligencia de cuenta actualizada en minutos, no en horas.
El vendedor describe la necesidad del cliente. El sistema genera una propuesta usando la plantilla corporativa, los precios actualizados del catálogo y casos de éxito relevantes del mismo sector. Todo fundamentado y citable. La propuesta sale on-brand y con datos reales.
El LLM tiene acceso al playbook de ventas completo y a casos de éxito documentados. Ante cualquier objeción del cliente, sugiere la mejor respuesta basada en lo que ya funcionó antes. "El cliente dice que somos caros" → respuesta con casos similares y argumentos validados por el equipo.
Las grabaciones de llamadas comerciales son una mina de oro que casi nadie aprovecha. Con RAG y mi metodología de Speech IA Analytics, el sistema identifica patrones de objeciones, picos de interés, momentos de fricción y oportunidades de cross-sell. El gerente comercial obtiene insights accionables sin escuchar 200 horas de audio.
El sistema cruza información del lead con el ICP (Ideal Customer Profile), el comportamiento digital del prospecto y casos de éxito previos. Le dice al vendedor cuál lead trabajar primero y por qué. No es un score genérico. Es una recomendación con razón.
Historial de interacciones, contactos, oportunidades, productos comprados, montos, tiempos de cierre.
Especificaciones técnicas, lista de precios actualizada, descuentos por volumen, condiciones comerciales.
Argumentos validados, manejo de objeciones documentado, scripts por etapa del funnel, casos de éxito por sector.
Reportes de competencia, tendencias del sector, noticias de cuentas clave, benchmarks.
Diseñé este Canvas inspirado en el Business Model Canvas de Osterwalder y Pigneur. Diez bloques para diseñar un sistema RAG en tu organización antes de escribir una sola línea de código.
Lo uso en mis cursos en UDEP, en CENTRUM y en consultorías. La idea es simple. Antes de implementar, hay que pensar. La mayoría de proyectos fallan porque saltan al código sin tener claro el problema que resuelven, los usuarios reales o las métricas de éxito.
¿Qué tarea repetitiva resolverá? ¿Cuánto le cuesta a la organización no tenerlo?
¿Qué hace mejor que un LLM genérico o búsqueda tradicional? ¿Qué beneficio medible y verificable genera?
¿Quién consulta el sistema? B2C, B2B o interno. ¿Qué preguntas recibe con más frecuencia?
¿Qué documentos o datos alimentan el sistema? ¿Con qué frecuencia se actualizan?
¿Cómo se divide la información en fragmentos? ¿Qué metadatos permiten filtrar?
¿Qué tipo de búsqueda se usa, semántica o híbrida? ¿Cuántos fragmentos por consulta?
¿Qué modelo genera la respuesta? ¿Cuál es la instrucción base del sistema?
¿En qué formato llega la respuesta al usuario? ¿Por qué canal o interfaz se accede?
¿Cómo mides que el sistema responde correctamente? ¿Cuál es tu KPI principal de desempeño?
¿Qué datos son confidenciales? ¿Quién aprueba los cambios en la base de conocimiento?
Bloque 1, problema. Si no logramos articular el problema en una frase, no hay proyecto. "Mejorar la atención al cliente" no es problema. "Reducir el tiempo de respuesta a postulantes de 24 horas a menos de 5 minutos" sí lo es.
Bloque 3. ¿Quién pregunta? ¿Qué pregunta? Aquí me gusta escarbar conversaciones de WhatsApp, llamadas grabadas, tickets de soporte. La realidad de las consultas casi nunca coincide con lo que el cliente cree que pregunta su gente.
Bloques 4 al 8. Fuentes, chunking, búsqueda, LLM, canal de entrega. Esto es ingeniería. Aquí entran los técnicos. Pero las decisiones se anclan en lo que ya definimos en los primeros tres bloques.
Bloques 9 y 10. Sin esto, el proyecto muere a los seis meses. ¿Cómo sabemos que funciona? ¿Quién mantiene los documentos al día? ¿Quién aprueba los cambios? Si no hay un dueño claro, no hay proyecto.
El Canvas no garantiza el éxito. Pero garantiza que las preguntas correctas se hagan antes de invertir. Y eso, en proyectos de IA empresarial, es la mitad del camino. Lo otro es ejecución y disciplina, que es donde Verne y nuestros aliados como LinkHub aportamos.
Conferencias, consultoría y mentoría de inteligencia artificial, en español, para equipos directivos en Perú y Latinoamérica.