RAG · Guía interactiva · Julio Talledo

La guía completa

Seis pestañas con sus diagramas. Recorre el orden o salta a lo que te interese desde el menú superior.

01 Fundamentos

RAG es darle a la IA tu propio conocimiento.

Retrieval-Augmented Generation. Generación aumentada por recuperación. El estándar de facto para llevar IA generativa al negocio.

El problema con los LLMs es doble. Uno: su conocimiento está congelado en una fecha de entrenamiento. Dos: cuando no saben algo, lo inventan. Ahí entra RAG. Antes de que el modelo responda, el sistema busca en tus propios documentos, extrae lo relevante y se lo inyecta al modelo como contexto. El LLM ya no genera desde cero. Genera a partir de tu información real.

Diagrama 01 · Antes y después

LLM solo vs LLM con RAG

A la izquierda, la IA responde con lo que recuerda de su entrenamiento. A la derecha, la IA responde anclada en tus documentos. La diferencia se nota en producción.

Origen del concepto

2020

Lewis et al., Facebook AI Research. "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks".

Mercado RAG global

$3.33B

Tamaño del mercado de RAG estimado para 2026 según NextMSC Research.

Impacto en alucinaciones

↓ drástica

Anclar la generación en evidencia documental reduce alucinaciones de forma significativa.

Retrieval, Recuperación

El sistema busca información relevante solo en tus documentos privados. PDFs, CRM, manuales, catálogos, políticas comerciales. No busca en internet. Busca en tu casa.

Augmented, Aumentada

La pregunta del usuario se complementa con el contexto exacto que el sistema recuperó. El prompt se enriquece antes de llegar al modelo.

Generation, Generación

La IA formula una respuesta precisa basada únicamente en los datos recuperados, no en su entrenamiento general. Y puede citar la fuente.

¿Por qué RAG sigue siendo necesario en 2026?

Mucha gente me pregunta lo mismo. Si las ventanas de contexto ya son enormes, para qué sigo necesitando RAG. Respuesta corta. Porque llenar la ventana con todos tus documentos es caro, lento, impreciso y no escala.

Proveedor	Modelo	Ventana de contexto	Costo input (1M tokens)
Meta	Llama 4 Scout	10,000,000	$0.11
Google	Gemini 3 Pro	2,000,000	$1.25
xAI	Grok (SuperGrok)	2,000,000
Google	Gemini 1.5 Flash	1,000,000	$0.075
OpenAI	GPT-5.4 / GPT-5.2	400,000	$1.50
Anthropic	Claude Opus 4.6	200,000	$15.00
Anthropic	Claude Sonnet 4.6	200,000	$3.00
OpenAI	GPT-4o	128,000	$2.50

elvex.com, morphllm.com, aimultiple.com, comparativa marzo 2026.

Por qué RAG sigue ganando

Pagas por token. Más tokens es más costo y más latencia. Y los modelos pierden atención con lo que está en el medio de un contexto muy largo. RAG busca solo lo relevante y lo inyecta de forma quirúrgica. Más rápido, más barato, más preciso.

02 Anatomía

Cinco pasos. Sin misterio.

El flujo de RAG no es magia. Es un pipeline ordenado donde cada paso tiene una función específica.

Lo importante. El LLM no genera desde cero. Genera a partir de información real y actualizada de tu negocio. Por eso el sistema puede citar la fuente. Por eso reduce alucinaciones. Por eso funciona en producción.

Diagrama 02 · Pipeline paso a paso

El flujo en cinco movimientos

Una consulta entra. Cinco pasos después, sale una respuesta fundamentada. Esto es RAG en su forma más limpia.

Los tres componentes que hacen funcionar RAG

La base de conocimiento

Tu repositorio. Documentos internos, manuales, catálogos actualizados, historial de CRM, políticas comerciales, reportes de mercado, brand books. Todo lo que tu empresa sabe y que el LLM no.

El recuperador (retriever)

El motor de búsqueda inteligente. Convierte texto en embeddings. Busca por similitud semántica, no solo por palabras clave. Recupera los fragmentos más relevantes. Ordena por relevancia. Si preguntas por "clientes que dejaron de comprar", encuentra patrones aunque no uses esas palabras exactas.

El generador (el LLM)

El cerebro que redacta y razona. Recibe la pregunta más el contexto recuperado. Genera respuesta fundamentada. Puede citar la fuente. Dice "no sé" si el contexto no es suficiente. Y no necesita ser reentrenado cuando cambian tus documentos.

Diagrama 03 · Embeddings y agrupación por significado

Cómo busca un retriever de verdad

El retriever no busca por palabras clave. Busca por significado. Convierte cada documento en un vector y los agrupa en un espacio matemático. Los temas parecidos quedan cerca. Los temas distintos quedan lejos. Cuando llega una consulta, encuentra los puntos más cercanos en ese espacio.

Analogía adaptada de la clínica veterinaria · Sesión 5 curso UDEP.

Tokens y ventana de contexto: la base que casi nadie entiende

Un token es la unidad mínima que procesa un LLM. No es una palabra completa. Puede ser una sílaba, una palabra, un signo de puntuación. En español usamos más tokens que en inglés para decir lo mismo, lo que tiene impacto directo en costo. La ventana de contexto es la cantidad máxima de tokens que el modelo puede ver al mismo tiempo. Cuando se llena, el modelo empieza a olvidar.

Escritorio pequeño

4K tokens

GPT-3 original (2020). Solo caben tres hojas a la vez. Si necesitas un contrato largo, sacas una hoja para meter otra. Visión parcial.

Escritorio enorme

2M tokens

Gemini 3 Pro (2026). Caben más de 3,000 páginas simultáneas. Manual de productos, historial del cliente, política comercial y brief de campaña. Todo junto.

Las ventajas claras

VENTAJA 01

Información siempre actualizada

No requiere reentrenar el modelo. Reemplazas el PDF y el sistema ya tiene la nueva versión.

VENTAJA 02

Respuestas con fuente verificable

El sistema cita de qué documento extrajo la información. Auditable.

VENTAJA 03

Reducción de alucinaciones

Al anclar la generación en evidencia documental, el modelo queda consistente.

VENTAJA 04

Sabe decir "no sé"

Si la pregunta no se puede responder con los documentos disponibles, lo indica en vez de inventar.

VENTAJA 05

Seguridad y privacidad

Los documentos se quedan en tu infraestructura. No se usan para entrenar modelos de terceros.

VENTAJA 06

Costo-efectivo y escalable

Mucho más barato que fine-tuning. Actualizar documentos no tiene costo de cómputo.

El límite del RAG básico

RAG es tan bueno como la base de conocimiento que lo alimenta y como el retriever que busca en ella. Si los documentos están desactualizados, el sistema reproducirá esos errores con la autoridad que le da la IA. Y para consultas que requieren razonar sobre múltiples fuentes y aplicar reglas de negocio, el RAG básico se queda corto. Ahí entra el RAG Agéntico.

IBM Research · Lewis et al. (2020) Facebook AI Research · AWS Bedrock documentation.

03 Evolución

Del RAG tradicional al RAG Agéntico.

No es un nuevo concepto. Es una nueva forma de ejecutar RAG. Un sistema que actúa como un equipo de trabajo. Analiza, busca, revisa, combina y decide.

El RAG básico funciona para consultas simples. Pero falla cuando el problema requiere filtrar según políticas, combinar múltiples fuentes, aplicar reglas de operación, razonar y actuar con el cliente. Necesitamos un RAG que no solo recupere, sino que razone.

Diagrama 04 · Naive Retrieval vs Agentic Retrieval

Una consulta. Dos arquitecturas. Resultados muy distintos.

Misma pregunta, "busca smartphones ecológicos por menos de 500€ con buena valoración". El RAG simple recupera y reza para que el LLM no la riegue. El agéntico descompone la consulta, planifica, filtra y entrega calidad de producción.

Adaptado de LinkHub AI · "Del RAG Tradicional al RAG Agéntico" 2026.

Diagrama 05 · El loop agéntico

Plan · Execute · Reflect

Un agente RAG no recupera y se va. Razona, planea, ejecuta y reflexiona. Si el resultado no pasa el filtro, vuelve al plan. Esto es lo que separa un chatbot de un Agente de IA que ejecuta tareas end-to-end.

Adaptado del flujo Plan-Execute-Reflect · LinkHub AI 2026.

Capacidades de un agente RAG en producción

Comprende esquemas y políticas internas

El agente sabe que ciertos datos son confidenciales, que hay políticas de descuento por segmento, que hay reglas de derivación cuando no tiene la respuesta. No es solo búsqueda. Es búsqueda con criterio.

Orquesta búsquedas en múltiples fuentes

Una sola consulta del usuario puede gatillar tres búsquedas paralelas. Una en el CRM, otra en el catálogo, otra en políticas. El agente combina los resultados antes de responder.

Evalúa la respuesta antes de entregarla

Antes de responder al cliente, el agente revisa. ¿Es coherente con el contexto recuperado? ¿Cumple con las políticas? ¿Hay riesgo de alucinación? Si no pasa el filtro, replanifica.

Genera respuestas listas para producción

Seguras, medibles, con observabilidad. Cada respuesta queda etiquetada con métricas que alimentan el dashboard y un agente de mejora continua. Esto no es un piloto. Es arquitectura empresarial.

"La IA empresarial no depende solo del modelo, sino de la arquitectura que lo sostiene." LinkHub AI · Socio estratégico de Verne en Perú

04 Aplicación · Marketing

RAG en Marketing.

El día a día de un equipo de marketing está lleno de tareas que dependen de información dispersa. Brand book aquí, FAQs allá, análisis de mercado en otro lado. RAG centraliza el conocimiento y lo pone al servicio de cada decisión.

Lo que cambia con RAG no es la herramienta. Es la capacidad de generar contenido y decisiones que respeten siempre la identidad de marca y los datos reales del negocio. Sin alucinaciones. Sin reinventar la rueda en cada brief.

Diagrama 06 · Arquitectura RAG en Marketing

Cómo se conectan tus activos de marketing

El sistema accede a tus fuentes en paralelo, no en secuencia. Brand book, CRM, reportes de mercado, catálogo. Cada consulta del equipo dispara las búsquedas que correspondan y consolida la respuesta.

Cinco use cases que ya están funcionando

USE CASE 01

Asistentes virtuales de atención al cliente

Chatbots que responden consultas complejas basándose estrictamente en políticas reales y FAQs actualizadas. Derivan a humanos solo cuando es necesario. Siempre actualizados, sin riesgo de inventar respuestas. La diferencia con los chatbots tontos del 2018 es que este sí entiende el contexto.

ImpactoAtención 24/7 con información oficial. Reducción drástica de tickets escalados.

USE CASE 02

Generación de contenido on-brand

Redacción de artículos, correos y posts inyectando el Brand Book y el tono de voz directamente en el prompt mediante RAG. Cada pieza respeta la identidad. Si el brand book dice "no usar emojis en piezas B2B", el sistema lo cumple. Si la marca tiene un glosario propio, lo respeta.

ImpactoEquipos producen 5x más contenido sin perder consistencia de marca.

USE CASE 03

Inteligencia de marketing

Integra informes internos, dashboards y fuentes de mercado para crear resúmenes ejecutivos, previsiones y alertas de competencia. El equipo pregunta en lenguaje natural y obtiene insights con fuente. "¿Cómo nos comparamos con la competencia en el segmento premium del último trimestre?" y la respuesta cita el reporte exacto.

ImpactoDe horas analizando dashboards a minutos con respuestas accionables.

USE CASE 04

Personalización de campañas y mensajes

El sistema accede al historial del cliente en CRM, sus preferencias y el contexto de campaña, y genera mensajes personalizados que se sienten escritos a mano. No es mass mailing con campos rellenados. Es contenido que entiende a quién le habla.

ImpactoTasas de apertura y conversión significativamente más altas.

USE CASE 05

Auditoría y diagnóstico de presencia digital

Aliméntalo con tus reportes de SEO, GEO, social listening y métricas de campañas. Pregunta "¿cuáles son los tres temas con más oportunidad de posicionamiento orgánico este trimestre?" y te lo responde citando los datos. Útil para todo el ciclo de planning.

ImpactoDecisiones basadas en evidencia de tu propia data, no en intuición.

Chatbot Fito · CENFOTUR

Asistente virtual oficial del Centro de Formación en Turismo del Perú. Diseñado con RAG para atender postulantes 24/7 con información oficial verificada. Cuando no encuentra una respuesta sustentada, deriva al asesor humano. No inventa precios, no inventa fechas, no inventa políticas.

El sistema accede al brochure de las cuatro carreras (Administración Hotelera, Turística, Guía Oficial, Gastronomía), al reglamento académico, al mapa de procesos institucional y al histórico de FAQs.

Meta de resolución

80% de consultas sin intervención humana

Canales

WhatsApp Business + sección web

Audiencia

Postulantes B2C entre 17 y 25 años

Lo que tienes que tener listo antes de implementar

Tu base de conocimiento ordenada

Brand book, FAQs, políticas, catálogos, casos de éxito. No un Drive con 4,000 PDFs duplicados. Una base limpia, etiquetada, con responsable de actualización.

Un caso de uso específico para empezar

No quieras resolver todo el área de marketing en el primer sprint. Elige una tarea repetitiva, costosa y medible. Demuestra el valor ahí. Después escalas.

Métricas claras de éxito

Tiempo ahorrado, tasa de resolución, conversión, errores reducidos, costo por lead. Si no puedes medirlo, no puedes defenderlo cuando llegue el comité.

05 Aplicación · Ventas

RAG en Ventas.

Un copiloto para ejecutivos de cuenta que busca instantáneamente en miles de documentos mientras están en una videollamada. Especificaciones técnicas, casos de éxito, historial del cliente. Todo a la mano.

El equipo comercial es donde más rápido se ve el ROI de RAG. Reduce el tiempo de preparación, mejora la calidad de las propuestas y le da al vendedor argumentos con respaldo. Pasamos de horas a minutos en tareas que antes parecían parte del trabajo.

Diagrama 07 · Copiloto comercial en acción

El vendedor antes y después

Mismo vendedor. Misma reunión. La diferencia es lo que le tomó preparar la cuenta y cómo responde a las objeciones en vivo.

Cinco use cases que ya están funcionando

USE CASE 01

Preparación de citas e inteligencia comercial

Antes de cada reunión, el vendedor pregunta al sistema. El LLM extrae del CRM todo el historial del cliente, objeciones anteriores, productos que tiene, noticias recientes y contexto de mercado. El vendedor llega con inteligencia de cuenta actualizada en minutos, no en horas.

ImpactoConversaciones más estratégicas. Mejores tasas de cierre en cuentas grandes.

USE CASE 02

Generador de propuestas comerciales

El vendedor describe la necesidad del cliente. El sistema genera una propuesta usando la plantilla corporativa, los precios actualizados del catálogo y casos de éxito relevantes del mismo sector. Todo fundamentado y citable. La propuesta sale on-brand y con datos reales.

ImpactoDe tres horas armando propuestas a veinte minutos revisando una bien hecha.

USE CASE 03

Entrenador de manejo de objeciones

El LLM tiene acceso al playbook de ventas completo y a casos de éxito documentados. Ante cualquier objeción del cliente, sugiere la mejor respuesta basada en lo que ya funcionó antes. "El cliente dice que somos caros" → respuesta con casos similares y argumentos validados por el equipo.

ImpactoVendedores junior con argumentos de senior. Curva de aprendizaje mucho más corta.

USE CASE 04

Análisis de llamadas y Speech IA Analytics

Las grabaciones de llamadas comerciales son una mina de oro que casi nadie aprovecha. Con RAG y mi metodología de Speech IA Analytics, el sistema identifica patrones de objeciones, picos de interés, momentos de fricción y oportunidades de cross-sell. El gerente comercial obtiene insights accionables sin escuchar 200 horas de audio.

ImpactoDecisiones de coaching basadas en data real, no en lo que el supervisor recuerda.

USE CASE 05

Calificación inteligente de leads

El sistema cruza información del lead con el ICP (Ideal Customer Profile), el comportamiento digital del prospecto y casos de éxito previos. Le dice al vendedor cuál lead trabajar primero y por qué. No es un score genérico. Es una recomendación con razón.

ImpactoVendedores enfocados en los leads correctos. Pipeline más limpio y predecible.

"RAG no automatiza el criterio del vendedor. Automatiza la ejecución que le robaba tiempo al criterio." Tesis aplicada de la sesión

El stack mínimo para arrancar en ventas

CAPA 01

Datos del CRM

Historial de interacciones, contactos, oportunidades, productos comprados, montos, tiempos de cierre.

CAPA 02

Catálogo y pricing

Especificaciones técnicas, lista de precios actualizada, descuentos por volumen, condiciones comerciales.

CAPA 03

Playbook de ventas

Argumentos validados, manejo de objeciones documentado, scripts por etapa del funnel, casos de éxito por sector.

CAPA 04

Inteligencia de mercado

Reportes de competencia, tendencias del sector, noticias de cuentas clave, benchmarks.

06 Mi framework

RAG Canvas. Tu hoja de ruta.

Diseñé este Canvas inspirado en el Business Model Canvas de Osterwalder y Pigneur. Diez bloques para diseñar un sistema RAG en tu organización antes de escribir una sola línea de código.

Lo uso en mis cursos en UDEP, en CENTRUM y en consultorías. La idea es simple. Antes de implementar, hay que pensar. La mayoría de proyectos fallan porque saltan al código sin tener claro el problema que resuelven, los usuarios reales o las métricas de éxito.

Problema y caso de uso

¿Qué tarea repetitiva resolverá? ¿Cuánto le cuesta a la organización no tenerlo?

Propuesta de valor del RAG

¿Qué hace mejor que un LLM genérico o búsqueda tradicional? ¿Qué beneficio medible y verificable genera?

Usuarios y consultas clave

¿Quién consulta el sistema? B2C, B2B o interno. ¿Qué preguntas recibe con más frecuencia?

Fuentes de conocimiento

¿Qué documentos o datos alimentan el sistema? ¿Con qué frecuencia se actualizan?

Ingesta y chunking

¿Cómo se divide la información en fragmentos? ¿Qué metadatos permiten filtrar?

Búsqueda y recuperación

¿Qué tipo de búsqueda se usa, semántica o híbrida? ¿Cuántos fragmentos por consulta?

LLM y prompt

¿Qué modelo genera la respuesta? ¿Cuál es la instrucción base del sistema?

Canal de entrega

¿En qué formato llega la respuesta al usuario? ¿Por qué canal o interfaz se accede?

Métricas de éxito

¿Cómo mides que el sistema responde correctamente? ¿Cuál es tu KPI principal de desempeño?

Privacidad y gobernanza

¿Qué datos son confidenciales? ¿Quién aprueba los cambios en la base de conocimiento?

RAG Canvas · Diseñado por Julio Talledo · Universidad de Piura 2026 · Inspirado en Business Model Canvas (Osterwalder y Pigneur).

Cómo trabajo el Canvas con un cliente

Empiezo por arriba a la izquierda

Bloque 1, problema. Si no logramos articular el problema en una frase, no hay proyecto. "Mejorar la atención al cliente" no es problema. "Reducir el tiempo de respuesta a postulantes de 24 horas a menos de 5 minutos" sí lo es.

Bajamos a usuarios y consultas reales

Bloque 3. ¿Quién pregunta? ¿Qué pregunta? Aquí me gusta escarbar conversaciones de WhatsApp, llamadas grabadas, tickets de soporte. La realidad de las consultas casi nunca coincide con lo que el cliente cree que pregunta su gente.

Después diseñamos la arquitectura

Bloques 4 al 8. Fuentes, chunking, búsqueda, LLM, canal de entrega. Esto es ingeniería. Aquí entran los técnicos. Pero las decisiones se anclan en lo que ya definimos en los primeros tres bloques.

Cerramos con métricas y gobernanza

Bloques 9 y 10. Sin esto, el proyecto muere a los seis meses. ¿Cómo sabemos que funciona? ¿Quién mantiene los documentos al día? ¿Quién aprueba los cambios? Si no hay un dueño claro, no hay proyecto.

Una observación honesta

El Canvas no garantiza el éxito. Pero garantiza que las preguntas correctas se hagan antes de invertir. Y eso, en proyectos de IA empresarial, es la mitad del camino. Lo otro es ejecución y disciplina, que es donde Verne y nuestros aliados como LinkHub aportamos.

La IAcon tu propioconocimiento

La guía completa

RAG es darle a la IA tu propio conocimiento.

Retrieval, Recuperación

Augmented, Aumentada

Generation, Generación

¿Por qué RAG sigue siendo necesario en 2026?

Cinco pasos. Sin misterio.

Los tres componentes que hacen funcionar RAG

La base de conocimiento

El recuperador (retriever)

El generador (el LLM)

Tokens y ventana de contexto: la base que casi nadie entiende

4K tokens

2M tokens

Las ventajas claras

Información siempre actualizada

Respuestas con fuente verificable

Reducción de alucinaciones

Sabe decir "no sé"

Seguridad y privacidad

Costo-efectivo y escalable

Del RAG tradicional al RAG Agéntico.

Capacidades de un agente RAG en producción

Comprende esquemas y políticas internas

Orquesta búsquedas en múltiples fuentes

Evalúa la respuesta antes de entregarla

Genera respuestas listas para producción

RAG en Marketing.

Cinco use cases que ya están funcionando

Asistentes virtuales de atención al cliente

Generación de contenido on-brand

Inteligencia de marketing

Personalización de campañas y mensajes

Auditoría y diagnóstico de presencia digital

Chatbot Fito · CENFOTUR

Lo que tienes que tener listo antes de implementar

Tu base de conocimiento ordenada

Un caso de uso específico para empezar

Métricas claras de éxito

RAG en Ventas.

Cinco use cases que ya están funcionando

Preparación de citas e inteligencia comercial

Generador de propuestas comerciales

Entrenador de manejo de objeciones

Análisis de llamadas y Speech IA Analytics

Calificación inteligente de leads

El stack mínimo para arrancar en ventas

Datos del CRM

Catálogo y pricing

Playbook de ventas

Inteligencia de mercado

RAG Canvas. Tu hoja de ruta.

Problema y caso de uso

Propuesta de valor del RAG

Usuarios y consultas clave

Fuentes de conocimiento

Ingesta y chunking

Búsqueda y recuperación

LLM y prompt

Canal de entrega

Métricas de éxito

Privacidad y gobernanza

Cómo trabajo el Canvas con un cliente

Empiezo por arriba a la izquierda

Bajamos a usuarios y consultas reales

Después diseñamos la arquitectura

Cerramos con métricas y gobernanza

¿Quieres llevar esto a tu empresa?

La IA
con tu propio
conocimiento