n8n RAG: Cómo Crear un Sistema de Preguntas sobre tus Documentos

N8n RAG sistema documentos es uno de los usos más prácticos de n8n. RAG (Retrieval Augmented Generation) es la técnica que permite a una IA responder preguntas basadas en tus propios documentos, sin necesidad de reentrenar el modelo. En este tutorial aprenderás a implementar un sistema RAG en n8n usando embeddings, vector stores y un LLM como GPT-4 o Claude.

¿Qué es RAG y por qué necesitas n8n para implementarlo?

El flujo básico de RAG es:

  1. Ingestar documentos: dividir tus documentos en fragmentos y convertirlos en vectores (embeddings)
  2. Almacenar en vector store: guardar esos vectores en una base de datos especializada
  3. Recuperar contexto: cuando llega una pregunta, buscar los fragmentos más relevantes
  4. Generar respuesta: enviar al LLM la pregunta + los fragmentos relevantes

n8n tiene nodos nativos para cada uno de estos pasos, haciendo que implementar RAG sea accesible sin escribir código complejo.

Arquitectura del sistema RAG en n8n

El sistema se compone de dos workflows:

Workflow 1: Ingestión de documentos

PDF/Doc Upload → Extract Text → Split in Chunks → Create Embeddings → Store in Vector DB

Workflow 2: Consulta (chat)

User Question → Create Embedding → Search Vector DB → Get Relevant Chunks → LLM → Response

Herramientas necesarias

  • Embeddings: OpenAI Embeddings (text-embedding-3-small) o alternativas locales
  • Vector Store: Pinecone (cloud) o Qdrant (self-hosted, gratuito)
  • LLM: GPT-4o o Claude para generar la respuesta final
  • n8n: 1.0+ con los nodos de IA disponibles

Workflow 1: Ingestión de documentos

Paso 1: Trigger y lectura del documento

Manual Trigger → HTTP Request (descarga el PDF) → Extract from File

O si los documentos están en Google Drive:

Google Drive Trigger → Download File → Extract from File

Paso 2: Dividir el documento en chunks

Añade el nodo Recursive Character Text Splitter:

  • Chunk Size: 1000 caracteres (equilibrio entre contexto y precisión)
  • Chunk Overlap: 200 (los chunks se solapan para no perder contexto)

Paso 3: Crear embeddings y guardar en Pinecone

Añade el nodo Embeddings OpenAI:

  • Modelo: text-embedding-3-small (barato y efectivo)

Conecta a Pinecone Vector Store (modo Insert):

  • Configura tus credenciales de Pinecone
  • Índice: crea uno con dimensión 1536 (compatible con text-embedding-3-small)
  • Metric: cosine

Añade metadatos útiles como el nombre del documento o la fecha, que luego podrás usar para filtrar.

Ejecutar la ingestión

Cuando ejecutes este workflow, verás en Pinecone cómo se van añadiendo vectores. Un PDF de 50 páginas genera aproximadamente 200-300 chunks.

Workflow 2: Chat con documentos

Paso 1: Recibir la pregunta

Usa un Chat Trigger o un Webhook según si quieres integrar el chat en n8n o en tu aplicación.

Paso 2: Usar el nodo AI Agent con RAG

n8n tiene soporte nativo para RAG a través del nodo Vector Store Tool dentro del AI Agent:

  1. Añade el nodo AI Agent
  2. Configura el Chat Model (GPT-4o o Claude)
  3. En el slot Tools, añade Vector Store Tool:
    • Conecta a tu Pinecone Vector Store
    • Embeddings: OpenAI Embeddings
    • Descripción de la herramienta: "Busca información en los documentos de la empresa. Úsala cuando necesites responder preguntas basadas en documentos internos."
  4. Activa la memoria si quieres conversación multi-turno

Sistema prompt para el agente RAG

Eres un asistente experto en los documentos de la empresa.

INSTRUCCIONES:
- Responde SIEMPRE usando la información de los documentos disponibles
- Si no encuentras la información en los documentos, dilo claramente
- Cita el documento de origen cuando sea posible
- No inventes información que no esté en los documentos

Si el usuario hace una pregunta, busca primero en los documentos antes de responder.

Alternativa: Qdrant (vector store self-hosted gratuito)

Si no quieres pagar por Pinecone, puedes usar Qdrant con Docker:

docker run -p 6333:6333 qdrant/qdrant

n8n tiene nodo nativo de Qdrant. La configuración es idéntica a Pinecone pero apuntando a http://localhost:6333.

Caso de uso práctico: Manual de empleados

Una empresa con un manual de empleados de 200 páginas puede implementar un chatbot que responda preguntas como:

  • "¿Cuántos días de vacaciones tengo al año?"
  • "¿Cuál es la política de trabajo remoto?"
  • "¿Cómo solicito una baja médica?"

Coste estimado: ingestar 200 páginas cuesta menos de $0.10 con text-embedding-3-small. Las consultas cuestan centavos por respuesta.

Actualizar documentos

Cuando el manual se actualice:

  1. Elimina los vectores antiguos en Pinecone (filtrando por doc_name)
  2. Ejecuta de nuevo el workflow de ingestión con el nuevo PDF

Puedes automatizar esto con un trigger de Google Drive que detecte cambios en el documento.

Conclusión

Implementar un sistema RAG en n8n permite crear chatbots que responden preguntas sobre tus propios documentos sin exponer información a modelos de IA de forma permanente. Con el nodo AI Agent de n8n y un vector store como Pinecone o Qdrant, tienes todos los componentes necesarios listos para usar. El coste total es mínimo y el valor para una empresa es enorme.