N8n con Ollama IA local es uno de los usos más prácticos de n8n. n8n con Ollama permite ejecutar modelos de IA como Llama 3, Mistral o Phi directamente en tu servidor, sin coste por token y sin enviar ningún dato a APIs externas. Es la solución perfecta para empresas con requisitos de privacidad o para quienes quieren usar IA sin facturas de OpenAI. En esta guía te explico cómo configurarlo.
¿Qué es Ollama?
Ollama es una herramienta que permite ejecutar modelos de lenguaje grandes (LLMs) localmente en tu máquina o servidor. Con un solo comando tienes corriendo modelos como:
- Llama 3.2 (Meta) — excelente para tareas generales
- Mistral 7B — muy buena relación rendimiento/recursos
- Phi-3.5 (Microsoft) — ligero y rápido para tareas simples
- Gemma 2 (Google) — buena alternativa open source
- Qwen 2.5 — especialmente bueno para código
La ventaja principal: una vez descargado el modelo, el coste es cero y los datos no salen de tu infraestructura.
Requisitos de hardware
| Modelo | RAM mínima | GPU recomendada |
|---|---|---|
| Phi-3.5 (3.8B) | 4 GB | No necesaria |
| Llama 3.2 (7B) | 8 GB | Opcional |
| Mistral 7B | 8 GB | Opcional |
| Llama 3.1 (70B) | 64 GB | Necesaria |
Para la mayoría de casos de uso empresariales, Llama 3.2 7B o Mistral 7B en un servidor con 8-16 GB de RAM son suficientes.
Paso 1: Instalar Ollama
En Linux/VPS:
curl -fsSL https://ollama.com/install.sh | sh
Con Docker (recomendado para servidores):
docker run -d \
--name ollama \
-p 11434:11434 \
-v ollama:/root/.ollama \
ollama/ollama
Con GPU NVIDIA:
docker run -d \
--name ollama \
--gpus=all \
-p 11434:11434 \
-v ollama:/root/.ollama \
ollama/ollama
Paso 2: Descargar un modelo
# En el contenedor Docker
docker exec -it ollama ollama pull llama3.2
# O si instalaste Ollama directamente
ollama pull llama3.2
La descarga de Llama 3.2 (7B) ocupa unos 4.7 GB. Después podrás usar el modelo sin conexión a internet.
Verifica que funciona:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Hola, ¿cómo estás?",
"stream": false
}'
Paso 3: Configurar Ollama en n8n
n8n tiene un nodo nativo de Ollama. Para configurarlo:
- Ve a Credentials → Add Credential
- Busca Ollama
- Configura la URL base:
http://localhost:11434(o la IP del servidor donde corre Ollama) - Guarda
Si n8n y Ollama están en el mismo servidor Docker Compose, usa el nombre del servicio:
http://ollama:11434
Paso 4: Usar Ollama en un workflow
Caso simple: Clasificar un texto
- Añade un nodo Ollama Chat Model
- Selecciona el modelo:
llama3.2 - Temperatura: 0 (para clasificación determinista)
Ejemplo de workflow de clasificación de soporte:
Webhook → Ollama Chat Model → Switch → Response
Prompt en el nodo Ollama:
Clasifica el siguiente mensaje de soporte en una categoría: "tecnico", "facturacion" o "consulta".
Responde SOLO con la categoría.
Mensaje: {{ $json.body.mensaje }}
Con el nodo AI Agent
Para agentes más complejos con herramientas:
- Añade un nodo AI Agent
- En el slot Chat Model, conecta Ollama Chat Model
- Añade las herramientas que necesites
Nota importante: Los modelos de Ollama son menos capaces que GPT-4 para el uso de herramientas (function calling). Para agentes con múltiples herramientas complejas, usa modelos más grandes como llama3.1:70b o considera volver a OpenAI/Anthropic.
Caso de uso: Resumen automático de emails con privacidad
Una empresa de salud no puede enviar emails de pacientes a APIs externas. Con n8n + Ollama:
- Gmail Trigger — recibe email nuevo
- Ollama — resume el email localmente
- Postgres — guarda el resumen
- Slack — notifica al equipo con el resumen
El email nunca sale de la infraestructura de la empresa.
Rendimiento y limitaciones
Velocidad: En CPU, Llama 3.2 genera entre 5-15 tokens/segundo. Para texto conversacional es aceptable; para generación de documentos largos puede ser lento.
Calidad: Los modelos locales de 7B son comparables a GPT-3.5 para tareas simples. Para análisis complejo o razonamiento avanzado, GPT-4 o Claude siguen siendo superiores.
Cuándo usar Ollama vs OpenAI/Claude:
- Usa Ollama cuando: privacidad de datos es crítica, volumen alto de peticiones, tareas simples (clasificación, extracción básica)
- Usa OpenAI/Claude cuando: calidad máxima, razonamiento complejo, agentes con muchas herramientas
Docker Compose con n8n + Ollama
Si quieres todo en el mismo stack:
version: "3.8"
services:
n8n:
image: n8nio/n8n
ports:
- "5678:5678"
environment:
- N8N_HOST=localhost
volumes:
- n8n_data:/home/node/.n8n
ollama:
image: ollama/ollama
ports:
- "11434:11434"
volumes:
- ollama_data:/root/.ollama
volumes:
n8n_data:
ollama_data:
Con esta configuración, en n8n configuras Ollama con la URL http://ollama:11434.
Conclusión
n8n con Ollama es la combinación perfecta para automatizaciones con IA que necesitan privacidad, sin coste por token o con alto volumen de peticiones. Aunque los modelos locales no alcanzan todavía la calidad de GPT-4, para muchos casos de uso empresariales son más que suficientes. Y el coste cero a largo plazo es un argumento muy poderoso.


