n8n con Ollama: IA Local Gratuita sin Enviar Datos a la Nube

N8n con Ollama IA local es uno de los usos más prácticos de n8n. n8n con Ollama permite ejecutar modelos de IA como Llama 3, Mistral o Phi directamente en tu servidor, sin coste por token y sin enviar ningún dato a APIs externas. Es la solución perfecta para empresas con requisitos de privacidad o para quienes quieren usar IA sin facturas de OpenAI. En esta guía te explico cómo configurarlo.

¿Qué es Ollama?

Ollama es una herramienta que permite ejecutar modelos de lenguaje grandes (LLMs) localmente en tu máquina o servidor. Con un solo comando tienes corriendo modelos como:

  • Llama 3.2 (Meta) — excelente para tareas generales
  • Mistral 7B — muy buena relación rendimiento/recursos
  • Phi-3.5 (Microsoft) — ligero y rápido para tareas simples
  • Gemma 2 (Google) — buena alternativa open source
  • Qwen 2.5 — especialmente bueno para código

La ventaja principal: una vez descargado el modelo, el coste es cero y los datos no salen de tu infraestructura.

Requisitos de hardware

Modelo RAM mínima GPU recomendada
Phi-3.5 (3.8B) 4 GB No necesaria
Llama 3.2 (7B) 8 GB Opcional
Mistral 7B 8 GB Opcional
Llama 3.1 (70B) 64 GB Necesaria

Para la mayoría de casos de uso empresariales, Llama 3.2 7B o Mistral 7B en un servidor con 8-16 GB de RAM son suficientes.

Paso 1: Instalar Ollama

En Linux/VPS:

curl -fsSL https://ollama.com/install.sh | sh

Con Docker (recomendado para servidores):

docker run -d \
  --name ollama \
  -p 11434:11434 \
  -v ollama:/root/.ollama \
  ollama/ollama

Con GPU NVIDIA:

docker run -d \
  --name ollama \
  --gpus=all \
  -p 11434:11434 \
  -v ollama:/root/.ollama \
  ollama/ollama

Paso 2: Descargar un modelo

# En el contenedor Docker
docker exec -it ollama ollama pull llama3.2

# O si instalaste Ollama directamente
ollama pull llama3.2

La descarga de Llama 3.2 (7B) ocupa unos 4.7 GB. Después podrás usar el modelo sin conexión a internet.

Verifica que funciona:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Hola, ¿cómo estás?",
  "stream": false
}'

Paso 3: Configurar Ollama en n8n

n8n tiene un nodo nativo de Ollama. Para configurarlo:

  1. Ve a CredentialsAdd Credential
  2. Busca Ollama
  3. Configura la URL base: http://localhost:11434 (o la IP del servidor donde corre Ollama)
  4. Guarda

Si n8n y Ollama están en el mismo servidor Docker Compose, usa el nombre del servicio:

http://ollama:11434

Paso 4: Usar Ollama en un workflow

Caso simple: Clasificar un texto

  1. Añade un nodo Ollama Chat Model
  2. Selecciona el modelo: llama3.2
  3. Temperatura: 0 (para clasificación determinista)

Ejemplo de workflow de clasificación de soporte:

Webhook → Ollama Chat Model → Switch → Response

Prompt en el nodo Ollama:

Clasifica el siguiente mensaje de soporte en una categoría: "tecnico", "facturacion" o "consulta".
Responde SOLO con la categoría.

Mensaje: {{ $json.body.mensaje }}

Con el nodo AI Agent

Para agentes más complejos con herramientas:

  1. Añade un nodo AI Agent
  2. En el slot Chat Model, conecta Ollama Chat Model
  3. Añade las herramientas que necesites

Nota importante: Los modelos de Ollama son menos capaces que GPT-4 para el uso de herramientas (function calling). Para agentes con múltiples herramientas complejas, usa modelos más grandes como llama3.1:70b o considera volver a OpenAI/Anthropic.

Caso de uso: Resumen automático de emails con privacidad

Una empresa de salud no puede enviar emails de pacientes a APIs externas. Con n8n + Ollama:

  1. Gmail Trigger — recibe email nuevo
  2. Ollama — resume el email localmente
  3. Postgres — guarda el resumen
  4. Slack — notifica al equipo con el resumen

El email nunca sale de la infraestructura de la empresa.

Rendimiento y limitaciones

Velocidad: En CPU, Llama 3.2 genera entre 5-15 tokens/segundo. Para texto conversacional es aceptable; para generación de documentos largos puede ser lento.

Calidad: Los modelos locales de 7B son comparables a GPT-3.5 para tareas simples. Para análisis complejo o razonamiento avanzado, GPT-4 o Claude siguen siendo superiores.

Cuándo usar Ollama vs OpenAI/Claude:

  • Usa Ollama cuando: privacidad de datos es crítica, volumen alto de peticiones, tareas simples (clasificación, extracción básica)
  • Usa OpenAI/Claude cuando: calidad máxima, razonamiento complejo, agentes con muchas herramientas

Docker Compose con n8n + Ollama

Si quieres todo en el mismo stack:

version: "3.8"

services:
  n8n:
    image: n8nio/n8n
    ports:
      - "5678:5678"
    environment:
      - N8N_HOST=localhost
    volumes:
      - n8n_data:/home/node/.n8n

  ollama:
    image: ollama/ollama
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama

volumes:
  n8n_data:
  ollama_data:

Con esta configuración, en n8n configuras Ollama con la URL http://ollama:11434.

Conclusión

n8n con Ollama es la combinación perfecta para automatizaciones con IA que necesitan privacidad, sin coste por token o con alto volumen de peticiones. Aunque los modelos locales no alcanzan todavía la calidad de GPT-4, para muchos casos de uso empresariales son más que suficientes. Y el coste cero a largo plazo es un argumento muy poderoso.