n8n con Ollama: IA local gratuita sin enviar datos a la nube es una de las combinaciones más poderosas para automatizar con inteligencia artificial. Si buscas ejecutar modelos como Llama 3, Mistral o Phi directamente en tu servidor, sin pagar por token y sin que tus datos salgan de tu infraestructura, esta guía es para ti. n8n con Ollama te da privacidad total y cero facturas de OpenAI. A continuación te explico paso a paso cómo configurar todo desde cero.
¿Qué es Ollama y por qué usarlo con n8n?
Ollama es una herramienta que permite ejecutar modelos de lenguaje grandes (LLMs) localmente en tu máquina o servidor. La combinación de n8n con Ollama te permite crear workflows de IA completamente privados. Con un solo comando tienes corriendo modelos como:
- Llama 3.2 (Meta) — excelente para tareas generales
- Mistral 7B — muy buena relación rendimiento/recursos
- Phi-3.5 (Microsoft) — ligero y rápido para tareas simples
- Gemma 2 (Google) — buena alternativa open source
- Qwen 2.5 — especialmente bueno para código
La ventaja principal: una vez descargado el modelo, el coste es cero y los datos no salen de tu infraestructura. Esto hace que n8n con Ollama: IA local gratuita sin enviar datos sea la opción ideal para empresas con requisitos estrictos de privacidad.

Requisitos de hardware para n8n con Ollama
Antes de instalar, necesitas saber qué recursos requiere cada modelo. Aquí tienes una tabla con los requisitos mínimos:
| Modelo | RAM mínima | GPU recomendada |
|---|---|---|
| Phi-3.5 (3.8B) | 4 GB | No necesaria |
| Llama 3.2 (7B) | 8 GB | Opcional |
| Mistral 7B | 8 GB | Opcional |
| Llama 3.1 (70B) | 64 GB | Necesaria |
Para la mayoría de casos de uso empresariales, Llama 3.2 7B o Mistral 7B en un servidor con 8-16 GB de RAM son suficientes. Si apenas estás empezando con n8n con Ollama, te recomiendo Phi-3.5 porque corre incluso en laptops modestas.
Paso 1: Instalar Ollama en tu servidor
En Linux/VPS:
curl -fsSL https://ollama.com/install.sh | shCon Docker (recomendado para servidores de producción):
docker run -d \
--name ollama \
-p 11434:11434 \
-v ollama:/root/.ollama \
ollama/ollamaCon GPU NVIDIA (para mayor velocidad de inferencia):
docker run -d \
--name ollama \
--gpus=all \
-p 11434:11434 \
-v ollama:/root/.ollama \
ollama/ollamaPaso 2: Descargar un modelo de IA
# En el contenedor Docker
docker exec -it ollama ollama pull llama3.2
# O si instalaste Ollama directamente
ollama pull llama3.2La descarga de Llama 3.2 (7B) ocupa unos 4.7 GB. Después podrás usar el modelo sin conexión a internet, lo cual refuerza la ventaja de privacidad de usar n8n con Ollama.
Verifica que funciona correctamente:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Hola, ¿cómo estás?",
"stream": false
}'Si recibes una respuesta del modelo, todo está listo para el siguiente paso.

Paso 3: Configurar Ollama como credencial en n8n
n8n tiene un nodo nativo de Ollama, lo que hace la integración súper sencilla. Para configurarlo:
- Ve a Credentials → Add Credential
- Busca Ollama
- Configura la URL base:
http://localhost:11434(o la IP del servidor donde corre Ollama) - Guarda la credencial
Si n8n y Ollama están en el mismo servidor con Docker Compose, usa el nombre del servicio en lugar de localhost:
http://ollama:11434Este detalle es clave para que la comunicación entre contenedores funcione correctamente.
Paso 4: Crear tu primer workflow de n8n con Ollama
Caso simple: Clasificar un texto con IA local
- Añade un nodo Ollama Chat Model
- Selecciona el modelo:
llama3.2 - Temperatura: 0 (para clasificación determinista)
Ejemplo de workflow de clasificación de soporte:
Webhook → Ollama Chat Model → Switch → ResponsePrompt en el nodo Ollama:
Clasifica el siguiente mensaje de soporte en una categoría: "tecnico", "facturacion" o "consulta".
Responde SOLO con la categoría.
Mensaje: {{ $json.body.mensaje }}Usando n8n con Ollama en el nodo AI Agent
Para agentes más complejos con herramientas:
- Añade un nodo AI Agent
- En el slot Chat Model, conecta Ollama Chat Model
- Añade las herramientas que necesites (búsqueda, base de datos, etc.)
Nota importante: Los modelos de Ollama son menos capaces que GPT-4 para el uso de herramientas (function calling). Para agentes con múltiples herramientas complejas, usa modelos más grandes como llama3.1:70b o considera complementar con OpenAI/Anthropic según la documentación oficial de n8n.

Caso de uso real: Resumen automático de emails con privacidad total
Imagina una empresa de salud que no puede enviar emails de pacientes a APIs externas por regulaciones de privacidad. Con n8n con Ollama la solución es elegante:
- Gmail Trigger — recibe email nuevo
- Ollama Chat Model — resume el email localmente
- Postgres — guarda el resumen en base de datos interna
- Slack — notifica al equipo con el resumen (sin datos sensibles)
El email completo nunca sale de la infraestructura de la empresa. Esto es exactamente lo que hace tan valioso usar n8n con Ollama: IA local gratuita sin enviar datos a terceros.
Rendimiento y limitaciones de Ollama con n8n
Velocidad: En CPU, Llama 3.2 genera entre 5-15 tokens/segundo. Para texto conversacional es aceptable; para generación de documentos largos puede ser lento. Con GPU, la velocidad mejora dramáticamente.
Calidad: Los modelos locales de 7B son comparables a GPT-3.5 para tareas simples. Para análisis complejo o razonamiento avanzado, GPT-4 o Claude siguen siendo superiores.
¿Cuándo usar n8n con Ollama vs OpenAI/Claude?
- Usa n8n con Ollama cuando: la privacidad de datos es crítica, tienes volumen alto de peticiones, o necesitas tareas simples como clasificación y extracción básica de información
- Usa OpenAI/Claude cuando: necesitas calidad máxima, razonamiento complejo, o agentes con muchas herramientas avanzadas
Lo mejor es que con n8n puedes combinar ambos enfoques: usar Ollama para tareas donde la privacidad es prioritaria y OpenAI para las que requieren máxima capacidad.
Docker Compose completo: n8n con Ollama listo para producción
Aquí tienes un archivo Docker Compose que levanta ambos servicios juntos:
version: '3.8'
services:
n8n:
image: n8nio/n8n
ports:
- "5678:5678"
environment:
- N8N_BASIC_AUTH_ACTIVE=true
- N8N_BASIC_AUTH_USER=admin
- N8N_BASIC_AUTH_PASSWORD=tu_password_seguro
volumes:
- n8n_data:/home/node/.n8n
depends_on:
- ollama
restart: unless-stopped
ollama:
image: ollama/ollama
ports:
- "11434:11434"
volumes:
- ollama_data:/root/.ollama
restart: unless-stopped
volumes:
n8n_data:
ollama_data:Con este archivo, ejecutas docker compose up -d y tienes ambos servicios corriendo. Recuerda que en n8n la URL de Ollama será http://ollama:11434 porque Docker Compose crea una red interna entre los servicios.
Después de levantar los contenedores, descarga tu modelo preferido:
docker exec -it ollama ollama pull llama3.2Consejos para optimizar n8n con Ollama en producción
Después de implementar esta solución en varios proyectos, estos son mis consejos prácticos:
- Elige el modelo correcto: No uses Llama 70B si tu tarea es clasificar textos simples. Phi-3.5 consume menos recursos y es suficiente para muchas tareas.
- Configura timeouts adecuados: Los modelos locales en CPU pueden tardar más que las APIs. Ajusta los timeouts de n8n para evitar errores.
- Monitorea el uso de RAM: Ollama carga el modelo completo en memoria. Si tu servidor se queda sin RAM, todo se vuelve lento.
- Usa prompts claros y cortos: Los modelos de 7B responden mejor a instrucciones directas y específicas.
- Haz warm-up del modelo: La primera petición después de un reinicio tarda más porque Ollama necesita cargar el modelo en memoria.
Preguntas frecuentes sobre n8n con Ollama
¿Es realmente gratis usar n8n con Ollama?
Sí. Tanto n8n (versión community) como Ollama son open source y gratuitos. El único costo es el servidor donde los ejecutes. No pagas por token ni por llamada a la API, lo que lo convierte en una solución muy económica para alto volumen de peticiones.
¿Puedo usar n8n con Ollama sin GPU?
Absolutamente. Modelos como Phi-3.5 y Llama 3.2 7B corren en CPU sin problemas. La velocidad será menor (5-15 tokens/segundo vs 50+ con GPU), pero para la mayoría de workflows de automatización es perfectamente funcional.
¿Qué modelo de Ollama es mejor para usar con n8n?
Depende de tu caso de uso. Para clasificación y extracción de datos, Phi-3.5 es suficiente y consume pocos recursos. Para tareas más complejas como generación de contenido o análisis, Llama 3.2 7B o Mistral 7B ofrecen mejor calidad. Para agentes con function calling, necesitarás modelos de 13B o más.
¿Mis datos están realmente seguros con esta configuración?
Sí, esa es la principal ventaja de n8n con Ollama. Todo el procesamiento ocurre en tu servidor. Los datos nunca salen de tu infraestructura, no se envían a APIs externas ni se usan para entrenar modelos de terceros. Es la solución ideal para cumplir con regulaciones de privacidad como GDPR o HIPAA.
¿Puedo usar varios modelos de Ollama en el mismo workflow de n8n?
Sí. Puedes tener múltiples modelos descargados en Ollama y usar diferentes nodos Ollama Chat Model en el mismo workflow, cada uno apuntando a un modelo distinto. Por ejemplo, Phi-3.5 para una clasificación rápida y Llama 3.2 para generar una respuesta más elaborada.
¿Vale la pena? Nuestra opinión
Si la privacidad de datos es importante para tu empresa o proyecto, n8n con Ollama: IA local gratuita sin enviar datos a la nube es una de las mejores soluciones disponibles hoy. La configuración es relativamente simple, el costo operativo es mínimo y la integración nativa de n8n con Ollama hace que crear workflows de IA sea accesible para cualquiera.
¿Ya probaste esta combinación? Si tienes dudas sobre la configuración o quieres que profundice en algún caso de uso específico, déjame un comentario. Y si te interesa explorar más sobre automatización con IA, revisa nuestra guía completa de n8n para entender todas las posibilidades que tienes disponibles.