RAG

Asistentes IA

LLM

Arquitectura RAG: Cómo Funcionan los Asistentes de IA con Bases de Conocimiento

FFormación Profesional Ucademy

Workcamp IA for Business

14:40

20 de junio de 2025

14:40

Momentos clave del video

Respuesta rápida

La arquitectura RAG (Retrieval Augmented Generation) permite que los asistentes de IA utilicen información específica de una base de conocimiento propia en lugar de depender únicamente de sus datos de preentrenamiento, logrando respuestas más precisas y actualizadas mediante la combinación de vectorización de consultas, búsqueda semántica y prompt engineering.

Puntos clave

🤖

Evolución de Chatbots a LLM

Los asistentes de IA actuales usan modelos LLM entrenados con trillones de datos, superando ampliamente a los chatbots tradicionales

🏗️

Arquitectura RAG

Retrieval Augmented Generation permite usar información propia en lugar del preentrenamiento del modelo

🔍

Vectorización y Búsqueda Semántica

Las consultas se convierten en vectores para encontrar información por significado, no por palabras exactas

🛠️

Ingeniería del Prompt

Las instrucciones precisas al modelo son críticas para que use solo la información de la base de conocimiento

✅

Ventajas de RAG

Control de información, extensión de capacidades del modelo y adaptabilidad a casos de uso específicos

⚠️

Riesgo de Alucinaciones

Los modelos pueden inventar información; las referencias a fuentes son esenciales para verificación

📏

Límite de Tokens

El contexto limitado justifica el chunking: dar al modelo solo la información justa y necesaria

Paso a paso

Preparar la base de conocimiento con información troceada (chunking) y vectorizada

Por qué funciona: El chunking permite que la información quepa dentro del límite de contexto del modelo LLM

Error común: No hacer chunking de la información y exceder el límite de tokens del modelo

Vectorizar la pregunta del usuario con el mismo modelo de embedding usado en la base de conocimiento

Por qué funciona: Usar el mismo modelo garantiza compatibilidad semántica entre la consulta y los datos almacenados

Error común: Usar modelos de embedding diferentes para la pregunta y la base de conocimiento

Realizar búsqueda semántica (o híbrida) para recuperar los fragmentos más relevantes

Por qué funciona: La búsqueda semántica encuentra información conceptualmente relacionada, no solo coincidencias exactas de palabras

Error común: Recuperar demasiados fragmentos, sobrecargando el contexto del modelo

Construir el prompt con instrucciones claras y la información recuperada

Por qué funciona: El prompt guía al modelo para que use SOLO la información proporcionada y no su conocimiento preentrenado

Error común: No instruir explícitamente al modelo para que ignore su conocimiento previo

Incluir referencias a las fuentes originales en la respuesta generada

Por qué funciona: Las referencias permiten verificar la información y reducen el impacto de posibles alucinaciones

Error común: Generar respuestas sin indicar de dónde proviene la información

Ejemplo resuelto

Problema

Crear un asistente RAG para responder preguntas sobre políticas internas de una empresa

Solución:

1Recopilar todos los documentos de políticas internas mediante web scraping o carga manual
2Trocear los documentos en fragmentos de tamaño apropiado (chunks)
3Vectorizar cada chunk con un modelo de embedding y almacenarlos en la base de conocimiento
4Configurar el prompt con instrucciones: 'Responde SOLO usando la información proporcionada. Si no encuentras la respuesta, indica que no tienes esa información.'
5Cuando el usuario pregunte, vectorizar su consulta, buscar chunks relevantes e incluirlos en el prompt
6Generar la respuesta e incluir la referencia al documento original

Respuesta

El asistente responde preguntas sobre políticas usando únicamente los documentos internos, citando la fuente específica

Verificación: Verificar que la respuesta coincide con el contenido del documento original citado

Arquitectura RAG: Guía Completa para Crear Asistentes de IA con Bases de Conocimiento

La inteligencia artificial generativa ha transformado la forma en que interactuamos con la tecnología. Sin embargo, los modelos como ChatGPT tienen una limitación fundamental: su conocimiento está congelado en el momento de su entrenamiento. La arquitectura RAG (Retrieval Augmented Generation) resuelve este problema, permitiendo crear asistentes de IA que utilizan información específica y actualizada de tus propias fuentes.

¿Qué es un Asistente de Inteligencia Artificial?

Los asistentes de inteligencia artificial representan una evolución significativa respecto a los chatbots tradicionales. Mientras que los chatbots de hace unos años funcionaban con procesamiento de lenguaje natural básico y reglas predefinidas, los asistentes actuales están basados en modelos LLM (Large Language Models) como ChatGPT, Copilot de Microsoft o Google Gemini.

Estos modelos están preentrenados con trillones de datos, lo que les permite interpretar y generar texto con una precisión sin precedentes. La experiencia de interacción es tan natural que parece una conversación con una persona real.

Características de los Asistentes Modernos

Multicanal: Funcionan en aplicaciones web, móviles, Microsoft Teams, WhatsApp y otros canales
Multimodal: Procesan texto, voz e incluso imágenes
Evolutivos: Ya existen prototipos con avatares humanoides y robots físicos

La Arquitectura RAG: Retrieval Augmented Generation

La arquitectura RAG es un enfoque innovador que permite que los asistentes de IA no dependan únicamente de su preentrenamiento, sino que utilicen información específica proporcionada por el usuario a través de una base de conocimiento.

El Círculo Completo del Web Scraping

RAG completa el flujo de trabajo de obtención y explotación de información:

Web Scraping: Accedemos a fuentes públicas de Internet y extraemos información
Base de Conocimiento: Procesamos, troceamos y vectorizamos la información
Asistente RAG: Las preguntas se responden usando ESA información específica

Esta arquitectura garantiza que las respuestas se basen en datos actualizados y verificables, no en el conocimiento genérico y potencialmente desactualizado del modelo.

Cómo Funciona el Proceso RAG

1. Vectorización de la Consulta

Cuando un usuario hace una pregunta, esta se vectoriza (convierte en una representación numérica) usando el mismo modelo de embedding con el que se procesó la base de conocimiento. Esto es crucial: usar modelos diferentes produciría resultados incoherentes.

2. Búsqueda Semántica

Con la consulta vectorizada, se realiza una búsqueda semántica en la base de conocimiento. Esta búsqueda puede ser:

Semántica pura: Encuentra información por significado conceptual
Híbrida: Combina semántica con metadatos (fechas, categorías, etc.)

La búsqueda híbrida es especialmente útil cuando necesitas información reciente o filtrada por atributos específicos.

3. Construcción del Prompt

El prompt es el conjunto de instrucciones que se envía al modelo LLM. En RAG, el prompt incluye:

Instrucciones de comportamiento: Cómo debe actuar el modelo
Información recuperada: Los fragmentos relevantes de la base de conocimiento
La pregunta del usuario: Lo que realmente quiere saber

La Ingeniería del Prompt es Crítica

La ingeniería del prompt consiste en diseñar instrucciones precisas para que el modelo:

Use SOLO la información proporcionada
Ignore su conocimiento preentrenado
Indique cuando no tiene información suficiente para responder
Cite las fuentes de sus respuestas

Un prompt mal configurado puede hacer que el modelo ignore la base de conocimiento o genere alucinaciones.

Ventajas de la Arquitectura RAG

1. Control Total sobre la Información

Sin RAG, cuando usas un modelo LLM directamente, no sabes de qué fuentes está extrayendo la información. Con RAG, conoces exactamente las fuentes de cada respuesta porque tú las proporcionas.

2. Extensión de las Capacidades del Modelo

Los modelos LLM tienen limitaciones importantes:

No conocen información privada de tu empresa
Su conocimiento tiene fecha de corte: No saben nada posterior a su entrenamiento

RAG permite aportar información propia y actualizada que el modelo no tendría de otra forma. Puedes incluir:

Documentación interna de la empresa
Información obtenida mediante web scraping actualizado
Datos específicos de tu sector o negocio

3. Adaptabilidad a Casos de Uso Específicos

Los modelos LLM son generalistas por diseño, pero con RAG los adaptas a necesidades concretas:

Caso de Uso	Información de Base de Conocimiento
Formación de empleados	Manuales internos, procedimientos
Atención al cliente	Catálogo de productos, FAQs, políticas
Marketing	Datos de campañas, perfiles de cliente
Desarrollo de software	Mejores prácticas, documentación de código

Limitaciones y Desafíos de RAG

1. Dependencia de la Ingeniería del Prompt

La efectividad de RAG depende completamente de cómo configures el prompt. El modelo necesita instrucciones claras y precisas. Si no las recibe correctamente, puede:

Ignorar la base de conocimiento
Mezclar información propia con preentrenamiento
Responder de forma inconsistente

2. El Problema de las Alucinaciones

Los modelos LLM pueden inventar información con total confianza. Este fenómeno se llama "alucinación" y es uno de los mayores riesgos de cualquier sistema basado en IA generativa.

Para mitigar las alucinaciones en RAG:

Instrucción explícita: Ordenar al modelo que use solo la información proporcionada
Referencias obligatorias: Siempre incluir la fuente del contenido original
Opción de "no sé": Permitir que el modelo indique cuando no tiene información suficiente

Las referencias son fundamentales: permiten al usuario verificar que la respuesta está basada en información real de la base de conocimiento.

3. Límite de Contexto (Tokens)

Una de las limitaciones técnicas más importantes es el límite de tokens que cada modelo puede procesar. Los tokens son las unidades de texto que el modelo maneja, y cada modelo tiene un máximo.

Este límite justifica:

El chunking: Trocear la información en fragmentos manejables
La selectividad: Recuperar solo los fragmentos más relevantes
La eficiencia: Dar al modelo "la información justa y necesaria"

No queremos inundar al modelo con toda la base de conocimiento. Queremos darle exactamente lo que necesita para responder la pregunta específica del usuario.

Implementación Práctica de RAG

Preparación de la Base de Conocimiento

Recopilación: Obtener información mediante web scraping u otras fuentes
Chunking: Dividir documentos en fragmentos de tamaño apropiado
Metadatado: Añadir información contextual (fecha, fuente, categoría)
Vectorización: Convertir cada chunk en vectores con un modelo de embedding
Almacenamiento: Guardar en una base de datos vectorial

Configuración del Asistente

Definir el prompt base: Instrucciones de comportamiento y restricciones
Configurar la búsqueda: Semántica, híbrida, número de resultados
Establecer el formato de respuesta: Incluir fuentes, formato de texto
Implementar validaciones: Manejo de casos sin información

Conclusión

La arquitectura RAG representa un avance fundamental en la creación de asistentes de IA útiles y confiables. Al combinar el poder de los modelos LLM con información específica y controlada, podemos crear soluciones que:

Responden con información verificable
Se mantienen actualizadas
Se adaptan a necesidades específicas de negocio
Minimizan el riesgo de alucinaciones

Sin embargo, el éxito de RAG depende de una implementación cuidadosa: chunking adecuado, ingeniería del prompt precisa y validación constante de las respuestas. Con estos elementos bien configurados, RAG permite explotar todo el potencial de la información obtenida mediante web scraping en asistentes de IA verdaderamente útiles.

Errores comunes

Error

No limitar al modelo para que use solo la información de la base de conocimiento

Cómo detectarlo

El modelo responde con información que no existe en tus documentos o datos muy genéricos

Cómo corregirlo

Incluir en el prompt instrucciones explícitas como 'Utiliza ÚNICAMENTE la información proporcionada a continuación'

Error

Exceder el límite de tokens de contexto del modelo

Cómo detectarlo

El modelo devuelve errores o ignora parte de la información proporcionada

Cómo corregirlo

Implementar chunking adecuado y recuperar solo los fragmentos más relevantes, no toda la base de conocimiento

Error

No validar las respuestas con referencias a fuentes

Cómo detectarlo

El usuario no puede verificar si la información es correcta o si es una alucinación

Cómo corregirlo

Siempre incluir la referencia al contenido original usado para generar la respuesta

Error

Usar modelos de embedding diferentes para la consulta y la base de conocimiento

Cómo detectarlo

La búsqueda semántica devuelve resultados poco relevantes o incoherentes

Cómo corregirlo

Asegurar que el mismo modelo de embedding se usa tanto para vectorizar la base de conocimiento como las consultas

Error

No actualizar la base de conocimiento con información reciente

Cómo detectarlo

El asistente no puede responder sobre eventos o cambios posteriores a la fecha de carga inicial

Cómo corregirlo

Establecer procesos de actualización periódica de la base de conocimiento

Glosario

RAG (Retrieval Augmented Generation): Arquitectura de asistentes de IA que combina la recuperación de información de una base de conocimiento con la generación de respuestas mediante modelos de lenguaje, en lugar de depender solo del preentrenamiento del modelo.
LLM (Large Language Model): Modelo de lenguaje de gran tamaño entrenado con trillones de datos que puede interpretar y generar texto con alta precisión. Ejemplos: ChatGPT, Copilot, Gemini.
Vectorización: Proceso de convertir texto (preguntas o documentos) en representaciones numéricas (vectores) que capturan su significado semántico, permitiendo búsquedas por similitud.
Modelo de Embedding: Modelo de IA especializado en convertir texto en vectores numéricos que representan su significado semántico.
Prompt: Conjunto de instrucciones que se proporcionan a un modelo de IA generativa para guiar su comportamiento y las respuestas que genera.
Ingeniería del Prompt: Disciplina de diseñar y optimizar las instrucciones (prompts) para que los modelos LLM comprendan y ejecuten correctamente las tareas solicitadas.
Alucinación: Error de un modelo LLM cuando genera información falsa o inventada que no está respaldada por datos reales.
Tokens: Unidades de texto (palabras o fragmentos de palabras) que los modelos LLM procesan. El límite de tokens determina cuánta información puede recibir el modelo en una sola consulta.
Límite de Contexto: Cantidad máxima de tokens que un modelo LLM puede procesar en una sola interacción, limitando la información que se le puede proporcionar.
Búsqueda Semántica: Método de búsqueda que encuentra información basándose en el significado conceptual, no solo en coincidencias exactas de palabras.

Preguntas frecuentes

¿Cuál es la diferencia entre un chatbot tradicional y un asistente de IA basado en RAG?

Los chatbots tradicionales usan procesamiento de lenguaje natural básico, mientras que RAG combina modelos LLM con bases de conocimiento propias para respuestas más precisas y contextualizadas.

Los chatbots de hace unos años estaban basados en procesamiento de lenguaje natural tradicional con reglas predefinidas. Los asistentes RAG utilizan modelos de inteligencia artificial generativa (como ChatGPT) entrenados con trillones de datos, pero además permiten alimentarlos con información específica de una base de conocimiento propia, logrando respuestas más relevantes y actualizadas.

¿Por qué necesito usar RAG si ChatGPT ya tiene mucho conocimiento?

Porque ChatGPT no tiene información de tu empresa ni datos posteriores a su fecha de entrenamiento. RAG permite usar información propia y actualizada.

Los modelos LLM como ChatGPT están preentrenados hasta una fecha específica y no conocen información interna de organizaciones. Con RAG puedes proporcionar documentos propios, políticas internas o datos actualizados obtenidos mediante web scraping, garantizando que las respuestas se basen en información relevante y actual para tu caso de uso.

¿Qué es la vectorización y por qué es importante en RAG?

La vectorización convierte texto en representaciones numéricas que capturan su significado, permitiendo encontrar información semánticamente similar.

Cuando vectorizas tanto la pregunta del usuario como los documentos de tu base de conocimiento con el mismo modelo de embedding, puedes realizar búsquedas semánticas. Esto significa que aunque el usuario no use las mismas palabras exactas que aparecen en tus documentos, el sistema encontrará la información relevante porque entiende el significado de la consulta.

¿Qué son las alucinaciones en IA y cómo las evito con RAG?

Las alucinaciones son respuestas inventadas por el modelo. RAG las reduce instruyendo al modelo para usar solo información verificada y citando fuentes.

Los modelos LLM pueden generar información falsa con gran confianza. Para mitigar esto en RAG: 1) Configura el prompt para que el modelo use SOLO la información proporcionada, 2) Incluye siempre referencias a las fuentes originales en las respuestas, permitiendo al usuario verificar la información. Si no encuentra datos relevantes, debe indicar que no tiene esa información en lugar de inventarla.

¿Qué es el límite de contexto y cómo afecta a mi asistente RAG?

Es la cantidad máxima de texto (tokens) que el modelo puede procesar. Excederlo causa errores o respuestas incompletas.

Los modelos LLM solo pueden procesar un número limitado de tokens por consulta. Por eso es crucial hacer chunking (troceado) de la información en la base de conocimiento y recuperar solo los fragmentos más relevantes para cada pregunta. No puedes enviar toda tu base de conocimiento al modelo; debes darle 'la información justa y necesaria' para responder.

¿Qué es el prompt engineering y por qué es crítico para RAG?

Es el diseño de instrucciones precisas para que el modelo LLM se comporte correctamente y use la información proporcionada.

La ingeniería del prompt consiste en redactar instrucciones claras que guíen al modelo. En RAG, el prompt no es solo la pregunta del usuario, sino también las instrucciones previas que le indican al modelo cómo comportarse, qué información usar y cómo formatear las respuestas. Una mala configuración del prompt puede hacer que el modelo ignore la base de conocimiento o genere alucinaciones.

¿Qué tipos de búsqueda puedo usar en RAG?

Búsqueda semántica pura o búsqueda híbrida que combina semántica con metadatos como fechas.

La búsqueda semántica encuentra información por significado conceptual. La búsqueda híbrida añade filtros por metadatos, como fechas (para recuperar solo información reciente) o categorías. Esto mejora la relevancia de los resultados cuando tienes información temporal o necesitas filtrar por atributos específicos.

¿Para qué casos de uso puedo adaptar un asistente RAG?

Formación de empleados, atención al cliente, personalización de marketing y asistencia en desarrollo de software.

Los modelos LLM son generalistas, pero RAG permite adaptarlos a casos específicos proporcionando la información correcta y las instrucciones adecuadas. Puedes crear asistentes que formen a nuevos empleados usando manuales internos, respondan a clientes con información de productos, personalicen campañas de marketing o ayuden a programadores siguiendo las mejores prácticas de tu organización.

¿Quieres aprender más sobre este tema?

Este contenido es parte del curso Workcamp IA for Business de Formación Profesional Ucademy. Contacta con nosotros para más información o descarga este artículo en PDF.

Respuesta rápida

Puntos clave

Evolución de Chatbots a LLM

Arquitectura RAG

Vectorización y Búsqueda Semántica

Ingeniería del Prompt

Ventajas de RAG

Riesgo de Alucinaciones

Límite de Tokens

Paso a paso

Ejemplo resuelto

Solución:

Errores comunes

Glosario

Preguntas frecuentes

Artículos relacionados

Inteligencia Artificial para Oposiciones: ChatGPT y Bing en Educación

¿Quieres aprender más sobre este tema?

Categorías populares