¿Te imaginas tener un chatbot que responda preguntas directamente desde tus propios documentos, sin inventar nada? Eso es exactamente lo que puedes lograr con un n8n RAG sistema de preguntas. RAG (Retrieval Augmented Generation) es la técnica que permite a una IA responder consultas basándose en tu información real, sin necesidad de reentrenar ningún modelo. En este tutorial completo vas a aprender paso a paso cómo implementar tu propio sistema RAG en n8n usando embeddings, vector stores y un LLM como GPT-4 o Claude. Al final, tendrás un asistente inteligente que conoce tus documentos mejor que nadie.
¿Qué es RAG y por qué n8n RAG sistema preguntas es tan poderoso?
Antes de meternos en la configuración, necesitas entender por qué RAG cambió las reglas del juego en la inteligencia artificial aplicada. Los modelos como GPT-4 son brillantes, pero tienen un problema: no conocen tus documentos internos. Ahí es donde entra RAG.
El flujo básico de un n8n RAG sistema de preguntas funciona así:
- Ingestar documentos: dividir tus documentos en fragmentos pequeños y convertirlos en vectores (embeddings)
- Almacenar en vector store: guardar esos vectores en una base de datos especializada como Pinecone o Qdrant
- Recuperar contexto: cuando llega una pregunta, buscar los fragmentos más relevantes automáticamente
- Generar respuesta: enviar al LLM la pregunta junto con los fragmentos relevantes para obtener una respuesta precisa
Lo increíble de n8n es que tiene nodos nativos para cada uno de estos pasos. Esto significa que puedes implementar RAG sin escribir código complejo, usando solo la interfaz visual de arrastrar y soltar.

Arquitectura completa del sistema RAG en n8n
Tu n8n RAG sistema de preguntas se compone de dos workflows independientes que trabajan en conjunto. Entender esta separación es clave para que todo funcione correctamente.
Workflow 1: Ingestión de documentos
Este workflow se encarga de preparar tus documentos para que la IA pueda consultarlos:
PDF/Doc Upload → Extract Text → Split in Chunks → Create Embeddings → Store in Vector DBPiensa en este workflow como el proceso de «enseñarle» a tu sistema qué información tiene disponible. Solo necesitas ejecutarlo cada vez que agregues o actualices documentos.
Workflow 2: Consulta (chat)
Este es el workflow que tus usuarios van a utilizar para hacer preguntas:
User Question → Create Embedding → Search Vector DB → Get Relevant Chunks → LLM → ResponseLa magia está en que el sistema no le envía todo el documento al LLM, sino únicamente los fragmentos más relevantes para la pregunta específica. Esto reduce costos y mejora la precisión de las respuestas.
Herramientas necesarias para tu n8n RAG sistema preguntas
Antes de empezar a construir, asegúrate de tener estas herramientas listas:
- Embeddings: OpenAI Embeddings (text-embedding-3-small) o alternativas locales como Ollama
- Vector Store: Pinecone (cloud, tiene plan gratuito) o Qdrant (self-hosted, completamente gratuito)
- LLM: GPT-4o o Claude para generar la respuesta final con contexto
- n8n: versión 1.0 o superior con los nodos de IA disponibles
Mi recomendación si estás empezando: usa OpenAI para embeddings y LLM, y Pinecone como vector store. Es la combinación más sencilla de configurar y tiene costos muy bajos para proyectos pequeños y medianos.
Workflow 1: Cómo ingestar documentos paso a paso
Vamos a construir el primer workflow de tu n8n RAG sistema de preguntas. Este es el que prepara tus documentos.
Paso 1: Trigger y lectura del documento
Tienes varias opciones según dónde estén tus documentos:
Opción A – Descarga directa:
Manual Trigger → HTTP Request (descarga el PDF) → Extract from FileOpción B – Desde Google Drive:
Google Drive Trigger → Download File → Extract from FileLa opción B es genial porque puedes automatizar completamente el proceso: cada vez que alguien sube un documento nuevo a una carpeta específica de Drive, el sistema lo procesa automáticamente.
Paso 2: Dividir el documento en chunks
Este paso es crítico y muchas personas lo subestiman. Añade el nodo Recursive Character Text Splitter con esta configuración:
- Chunk Size: 1000 caracteres (es un buen equilibrio entre contexto suficiente y precisión en la búsqueda)
- Chunk Overlap: 200 caracteres (los chunks se solapan para no perder contexto en los bordes)
¿Por qué 1000 y no 500 o 2000? Con chunks muy pequeños pierdes contexto y las respuestas quedan incompletas. Con chunks muy grandes, el sistema pierde precisión al buscar información específica. 1000 caracteres es el punto dulce para la mayoría de casos.
Paso 3: Crear embeddings y guardar en el vector store
Añade el nodo Embeddings OpenAI con esta configuración:
- Modelo:
text-embedding-3-small(económico y efectivo para la mayoría de casos)
Conecta a Pinecone Vector Store en modo Insert:
- Configura tus credenciales de Pinecone desde el panel de n8n
- Índice: crea uno con dimensión 1536 (compatible con text-embedding-3-small)
- Metric: cosine (la más utilizada para búsqueda semántica)
Un tip importante: añade metadatos útiles como el nombre del documento, la fecha de ingestión y la categoría. Estos metadatos te permiten filtrar búsquedas después, por ejemplo, para buscar solo en documentos de un departamento específico.
Ejecutar la ingestión y verificar resultados
Cuando ejecutes este workflow, podrás ver en el dashboard de Pinecone cómo se van añadiendo vectores progresivamente. Para que tengas una referencia:
- Un PDF de 50 páginas genera aproximadamente 200-300 chunks
- Un manual de 200 páginas puede generar entre 800 y 1200 chunks
- El proceso completo tarda entre 2 y 5 minutos dependiendo del tamaño

Workflow 2: Chat con documentos usando n8n RAG
Ahora viene la parte más emocionante: construir la interfaz de preguntas y respuestas de tu n8n RAG sistema de preguntas.
Paso 1: Recibir la pregunta del usuario
Tienes dos opciones principales:
- Chat Trigger: si quieres usar el chat integrado de n8n (ideal para pruebas internas)
- Webhook: si quieres integrar el chat en tu propia aplicación, sitio web o plataforma como Slack o WhatsApp
Para empezar, te recomiendo el Chat Trigger. Una vez que todo funcione bien, puedes migrar a Webhook para conectarlo con tu app.
Paso 2: Configurar el nodo AI Agent con RAG
n8n tiene soporte nativo para RAG a través del nodo Vector Store Tool dentro del AI Agent. Así se configura:
- Añade el nodo AI Agent y conéctalo al trigger
- Configura el Chat Model seleccionando GPT-4o o Claude como LLM
- En el slot Tools, añade Vector Store Tool con esta configuración:
- Conecta a tu Pinecone Vector Store (el mismo índice que usaste en la ingestión)
- Embeddings: OpenAI Embeddings con el mismo modelo text-embedding-3-small
- Descripción de la herramienta: «Busca información en los documentos de la empresa. Úsala cuando necesites responder preguntas basadas en documentos internos.»
- Activa la memoria (Window Buffer Memory) si quieres que el chat recuerde la conversación anterior y permita preguntas de seguimiento
La descripción de la herramienta es más importante de lo que parece. El AI Agent usa esa descripción para decidir cuándo buscar en los documentos, así que sé específico sobre qué tipo de información contiene tu vector store.
Sistema prompt optimizado para el agente RAG
El prompt del sistema determina cómo se comporta tu asistente. Acá te dejo uno que funciona muy bien en la práctica:
Eres un asistente experto en los documentos de la empresa.
INSTRUCCIONES:
- Responde SIEMPRE usando la información de los documentos disponibles
- Si no encuentras la información en los documentos, dilo claramente: "No encontré esa información en los documentos disponibles"
- Cita el documento de origen cuando sea posible
- No inventes información que no esté en los documentos
- Responde en español de forma clara y directa
Si el usuario hace una pregunta, busca primero en los documentos antes de responder.La instrucción de «no inventes» es crucial. Sin ella, el LLM tiende a «alucinar» respuestas que suenan convincentes pero no están en tus documentos.

Alternativa gratuita: Qdrant como vector store self-hosted
Si no quieres pagar por Pinecone o prefieres mantener tus datos en tu propia infraestructura, Qdrant es una excelente alternativa. Lo levantas con un solo comando de Docker:
docker run -p 6333:6333 qdrant/qdrantn8n tiene un nodo nativo de Qdrant, así que la configuración es prácticamente idéntica a Pinecone. Solo cambia la conexión apuntando a http://localhost:6333 en lugar de las credenciales de Pinecone.
¿Cuándo elegir Qdrant sobre Pinecone?
- Cuando manejas datos sensibles que no pueden salir de tu infraestructura
- Cuando necesitas escalar sin depender de costos variables
- Cuando ya tienes un servidor con Docker disponible
Caso de uso práctico: Manual de empleados con n8n RAG
Para que veas el potencial real de un n8n RAG sistema de preguntas, te comparto un caso de uso que he visto implementar con mucho éxito.
Una empresa con un manual de empleados de 200 páginas implementó un chatbot interno que responde preguntas como:
- «¿Cuántos días de vacaciones tengo al año?»
- «¿Cuál es la política de trabajo remoto?»
- «¿Cómo solicito una baja médica?»
- «¿Qué beneficios tengo después de 2 años en la empresa?»
- «¿Cuál es el proceso para solicitar un ascenso?»
El resultado fue que el equipo de recursos humanos redujo las consultas repetitivas en un porcentaje significativo, liberando tiempo para tareas más estratégicas.
Costos estimados de este caso:
- Ingestar 200 páginas con text-embedding-3-small: menos de $0.10 USD
- Cada consulta con GPT-4o: entre $0.01 y $0.05 USD dependiendo de la longitud
- Pinecone plan gratuito: hasta 100,000 vectores sin costo
Estamos hablando de un sistema empresarial funcional por centavos al día.
Cómo actualizar documentos en tu sistema RAG
Los documentos cambian, y tu sistema necesita mantenerse actualizado. Cuando el manual u otros documentos se actualicen, sigue este proceso:
- Elimina los vectores antiguos en Pinecone filtrando por el metadato
doc_nameque configuraste durante la ingestión - Ejecuta de nuevo el workflow de ingestión con el nuevo PDF o documento actualizado
- Verifica haciendo algunas preguntas de prueba sobre la información que cambió
¿Quieres automatizar esto completamente? Configura un trigger de Google Drive que detecte cambios en el documento. Cuando alguien reemplaza el archivo, el workflow automáticamente elimina los vectores anteriores y vuelve a ingestar la versión nueva.
Errores comunes al implementar n8n RAG y cómo evitarlos
Después de ver múltiples implementaciones de n8n RAG sistema de preguntas, estos son los errores más frecuentes:
- Chunks demasiado grandes o pequeños: empieza con 1000 caracteres y ajusta según los resultados que obtengas
- No agregar metadatos: sin metadatos no puedes filtrar ni actualizar documentos específicos
- Usar el mismo modelo para todo: text-embedding-3-small para embeddings y GPT-4o para respuestas es la combinación óptima costo-rendimiento
- No incluir instrucción anti-alucinación: siempre dile al LLM que admita cuando no encuentra la información en los documentos
- Olvidar la memoria conversacional: sin memoria, cada pregunta es independiente y el usuario no puede hacer seguimiento natural
Optimizaciones avanzadas para tu sistema RAG
Una vez que tengas el sistema básico funcionando, puedes implementar estas mejoras:
- Reranking: añade un paso adicional que reordene los chunks recuperados por relevancia real antes de enviarlos al LLM
- Hybrid search: combina búsqueda semántica (vectores) con búsqueda por keywords para mejorar la precisión
- Multiple vector stores: separa documentos por categoría en diferentes índices y deja que el agente elija dónde buscar
- Feedback loop: registra las preguntas que el sistema no pudo responder para identificar gaps en tu documentación
Preguntas frecuentes sobre n8n RAG sistema de preguntas
¿Cuántos documentos puedo ingestar en un sistema n8n RAG?
Depende de tu vector store. Pinecone en su plan gratuito permite hasta 100,000 vectores, lo que equivale aproximadamente a 500-1000 páginas de documentos. Qdrant self-hosted no tiene límite más allá de tu almacenamiento disponible. Para la mayoría de empresas pequeñas y medianas, el plan gratuito es más que suficiente.
¿Es seguro usar n8n RAG con documentos confidenciales?
Si usas Qdrant self-hosted, tus datos nunca salen de tu servidor. Con Pinecone y OpenAI, los datos pasan por sus servidores. Para documentos altamente confidenciales, la opción más segura es usar Qdrant local combinado con un modelo de embeddings local a través de Ollama, eliminando cualquier dependencia de servicios externos.
¿Qué diferencia hay entre RAG y fine-tuning de un modelo?
RAG busca información relevante en tus documentos y la envía como contexto al LLM en cada consulta. Fine-tuning modifica el propio modelo con tus datos. RAG es más barato, más fácil de actualizar y no requiere conocimientos de machine learning. Para la mayoría de casos de preguntas sobre documentos, RAG es la opción recomendada.
¿Puedo conectar el chat RAG de n8n a WhatsApp o Slack?
Sí. En lugar de usar Chat Trigger, utiliza un nodo Webhook como entrada y conecta tu canal de mensajería. n8n tiene nodos nativos para Slack, y para WhatsApp puedes usar la API de WhatsApp Business o servicios como Twilio. El workflow de RAG se mantiene igual, solo cambia el punto de entrada y salida.
¿Cuánto cuesta mantener un sistema n8n RAG funcionando?
Con las opciones más económicas (text-embedding-3-small + Pinecone gratuito + GPT-4o-mini), el costo por consulta es menor a $0.01 USD. Para una empresa con 100 consultas diarias, eso representa menos de $30 USD al mes. Si usas n8n self-hosted y Qdrant local, el único costo variable son las llamadas al LLM.
¿Vale la pena? Nuestra opinión
Implementar un n8n RAG sistema de preguntas es una de las formas más prácticas y accesibles de aprovechar la inteligencia artificial en tu empresa o proyecto. Con dos workflows relativamente simples, puedes tener un asistente que conoce todos tus documentos y responde preguntas con información real y verificable.
Lo mejor de todo es que no necesitas ser programador para lograrlo. Los nodos nativos de n8n para embeddings, vector stores y agentes de IA hacen todo el trabajo pesado. Y con costos que se miden en centavos, no hay excusa para no empezar.
Mi recomendación: empieza con un solo documento (tu FAQ, manual de producto o política interna), configura los dos workflows siguiendo esta guía, y prueba el sistema. Una vez que veas los resultados, vas a querer agregar todos tus documentos.
Si quieres aprender más sobre automatización con n8n, revisa nuestras otras guías donde cubrimos desde los conceptos básicos hasta integraciones avanzadas con APIs y bases de datos.