n8n con Ollama: IA Local Gratuita sin Enviar Datos

n8n con Ollama: IA local gratuita sin enviar datos a la nube es una de las combinaciones más poderosas para automatizar con inteligencia artificial. Si buscas ejecutar modelos como Llama 3, Mistral o Phi directamente en tu servidor, sin pagar por token y sin que tus datos salgan de tu infraestructura, esta guía es para ti. n8n con Ollama te da privacidad total y cero facturas de OpenAI. A continuación te explico paso a paso cómo configurar todo desde cero.

¿Qué es Ollama y por qué usarlo con n8n?

Ollama es una herramienta que permite ejecutar modelos de lenguaje grandes (LLMs) localmente en tu máquina o servidor. La combinación de n8n con Ollama te permite crear workflows de IA completamente privados. Con un solo comando tienes corriendo modelos como:

Llama 3.2 (Meta) — excelente para tareas generales
Mistral 7B — muy buena relación rendimiento/recursos
Phi-3.5 (Microsoft) — ligero y rápido para tareas simples
Gemma 2 (Google) — buena alternativa open source
Qwen 2.5 — especialmente bueno para código

La ventaja principal: una vez descargado el modelo, el coste es cero y los datos no salen de tu infraestructura. Esto hace que n8n con Ollama: IA local gratuita sin enviar datos sea la opción ideal para empresas con requisitos estrictos de privacidad.

¿Qué es Ollama y por qué usarlo con n8n?

Requisitos de hardware para n8n con Ollama

Antes de instalar, necesitas saber qué recursos requiere cada modelo. Aquí tienes una tabla con los requisitos mínimos:

Modelo	RAM mínima	GPU recomendada
Phi-3.5 (3.8B)	4 GB	No necesaria
Llama 3.2 (7B)	8 GB	Opcional
Mistral 7B	8 GB	Opcional
Llama 3.1 (70B)	64 GB	Necesaria

Para la mayoría de casos de uso empresariales, Llama 3.2 7B o Mistral 7B en un servidor con 8-16 GB de RAM son suficientes. Si apenas estás empezando con n8n con Ollama, te recomiendo Phi-3.5 porque corre incluso en laptops modestas.

Paso 1: Instalar Ollama en tu servidor

En Linux/VPS:

curl -fsSL https://ollama.com/install.sh | sh

Con Docker (recomendado para servidores de producción):

docker run -d \
  --name ollama \
  -p 11434:11434 \
  -v ollama:/root/.ollama \
  ollama/ollama

Con GPU NVIDIA (para mayor velocidad de inferencia):

docker run -d \
  --name ollama \
  --gpus=all \
  -p 11434:11434 \
  -v ollama:/root/.ollama \
  ollama/ollama

Paso 2: Descargar un modelo de IA

# En el contenedor Docker
docker exec -it ollama ollama pull llama3.2

# O si instalaste Ollama directamente
ollama pull llama3.2

La descarga de Llama 3.2 (7B) ocupa unos 4.7 GB. Después podrás usar el modelo sin conexión a internet, lo cual refuerza la ventaja de privacidad de usar n8n con Ollama.

Verifica que funciona correctamente:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Hola, ¿cómo estás?",
  "stream": false
}'

Si recibes una respuesta del modelo, todo está listo para el siguiente paso.

Paso 3: Configurar Ollama como credencial en n8n

n8n tiene un nodo nativo de Ollama, lo que hace la integración súper sencilla. Para configurarlo:

Ve a Credentials → Add Credential
Busca Ollama
Configura la URL base: http://localhost:11434 (o la IP del servidor donde corre Ollama)
Guarda la credencial

Si n8n y Ollama están en el mismo servidor con Docker Compose, usa el nombre del servicio en lugar de localhost:

http://ollama:11434

Este detalle es clave para que la comunicación entre contenedores funcione correctamente.

Paso 4: Crear tu primer workflow de n8n con Ollama

Caso simple: Clasificar un texto con IA local

Añade un nodo Ollama Chat Model
Selecciona el modelo: llama3.2
Temperatura: 0 (para clasificación determinista)

Ejemplo de workflow de clasificación de soporte:

Webhook → Ollama Chat Model → Switch → Response

Prompt en el nodo Ollama:

Clasifica el siguiente mensaje de soporte en una categoría: "tecnico", "facturacion" o "consulta".
Responde SOLO con la categoría.

Mensaje: {{ $json.body.mensaje }}

Usando n8n con Ollama en el nodo AI Agent

Para agentes más complejos con herramientas:

Añade un nodo AI Agent
En el slot Chat Model, conecta Ollama Chat Model
Añade las herramientas que necesites (búsqueda, base de datos, etc.)

Nota importante: Los modelos de Ollama son menos capaces que GPT-4 para el uso de herramientas (function calling). Para agentes con múltiples herramientas complejas, usa modelos más grandes como llama3.1:70b o considera complementar con OpenAI/Anthropic según la documentación oficial de n8n.

Paso 4: Crear tu primer workflow de n8n con Ollama

Caso de uso real: Resumen automático de emails con privacidad total

Imagina una empresa de salud que no puede enviar emails de pacientes a APIs externas por regulaciones de privacidad. Con n8n con Ollama la solución es elegante:

Gmail Trigger — recibe email nuevo
Ollama Chat Model — resume el email localmente
Postgres — guarda el resumen en base de datos interna
Slack — notifica al equipo con el resumen (sin datos sensibles)

El email completo nunca sale de la infraestructura de la empresa. Esto es exactamente lo que hace tan valioso usar n8n con Ollama: IA local gratuita sin enviar datos a terceros.

Rendimiento y limitaciones de Ollama con n8n

Velocidad: En CPU, Llama 3.2 genera entre 5-15 tokens/segundo. Para texto conversacional es aceptable; para generación de documentos largos puede ser lento. Con GPU, la velocidad mejora dramáticamente.

Calidad: Los modelos locales de 7B son comparables a GPT-3.5 para tareas simples. Para análisis complejo o razonamiento avanzado, GPT-4 o Claude siguen siendo superiores.

¿Cuándo usar n8n con Ollama vs OpenAI/Claude?

Usa n8n con Ollama cuando: la privacidad de datos es crítica, tienes volumen alto de peticiones, o necesitas tareas simples como clasificación y extracción básica de información
Usa OpenAI/Claude cuando: necesitas calidad máxima, razonamiento complejo, o agentes con muchas herramientas avanzadas

Lo mejor es que con n8n puedes combinar ambos enfoques: usar Ollama para tareas donde la privacidad es prioritaria y OpenAI para las que requieren máxima capacidad.

Docker Compose completo: n8n con Ollama listo para producción

Aquí tienes un archivo Docker Compose que levanta ambos servicios juntos:

version: '3.8'
services:
  n8n:
    image: n8nio/n8n
    ports:
      - "5678:5678"
    environment:
      - N8N_BASIC_AUTH_ACTIVE=true
      - N8N_BASIC_AUTH_USER=admin
      - N8N_BASIC_AUTH_PASSWORD=tu_password_seguro
    volumes:
      - n8n_data:/home/node/.n8n
    depends_on:
      - ollama
    restart: unless-stopped

  ollama:
    image: ollama/ollama
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
    restart: unless-stopped

volumes:
  n8n_data:
  ollama_data:

Con este archivo, ejecutas docker compose up -d y tienes ambos servicios corriendo. Recuerda que en n8n la URL de Ollama será http://ollama:11434 porque Docker Compose crea una red interna entre los servicios.

Después de levantar los contenedores, descarga tu modelo preferido:

docker exec -it ollama ollama pull llama3.2

Consejos para optimizar n8n con Ollama en producción

Después de implementar esta solución en varios proyectos, estos son mis consejos prácticos:

Elige el modelo correcto: No uses Llama 70B si tu tarea es clasificar textos simples. Phi-3.5 consume menos recursos y es suficiente para muchas tareas.
Configura timeouts adecuados: Los modelos locales en CPU pueden tardar más que las APIs. Ajusta los timeouts de n8n para evitar errores.
Monitorea el uso de RAM: Ollama carga el modelo completo en memoria. Si tu servidor se queda sin RAM, todo se vuelve lento.
Usa prompts claros y cortos: Los modelos de 7B responden mejor a instrucciones directas y específicas.
Haz warm-up del modelo: La primera petición después de un reinicio tarda más porque Ollama necesita cargar el modelo en memoria.

Preguntas frecuentes sobre n8n con Ollama

¿Es realmente gratis usar n8n con Ollama?

Sí. Tanto n8n (versión community) como Ollama son open source y gratuitos. El único costo es el servidor donde los ejecutes. No pagas por token ni por llamada a la API, lo que lo convierte en una solución muy económica para alto volumen de peticiones.

¿Puedo usar n8n con Ollama sin GPU?

Absolutamente. Modelos como Phi-3.5 y Llama 3.2 7B corren en CPU sin problemas. La velocidad será menor (5-15 tokens/segundo vs 50+ con GPU), pero para la mayoría de workflows de automatización es perfectamente funcional.

¿Qué modelo de Ollama es mejor para usar con n8n?

Depende de tu caso de uso. Para clasificación y extracción de datos, Phi-3.5 es suficiente y consume pocos recursos. Para tareas más complejas como generación de contenido o análisis, Llama 3.2 7B o Mistral 7B ofrecen mejor calidad. Para agentes con function calling, necesitarás modelos de 13B o más.

¿Mis datos están realmente seguros con esta configuración?

Sí, esa es la principal ventaja de n8n con Ollama. Todo el procesamiento ocurre en tu servidor. Los datos nunca salen de tu infraestructura, no se envían a APIs externas ni se usan para entrenar modelos de terceros. Es la solución ideal para cumplir con regulaciones de privacidad como GDPR o HIPAA.

¿Puedo usar varios modelos de Ollama en el mismo workflow de n8n?

Sí. Puedes tener múltiples modelos descargados en Ollama y usar diferentes nodos Ollama Chat Model en el mismo workflow, cada uno apuntando a un modelo distinto. Por ejemplo, Phi-3.5 para una clasificación rápida y Llama 3.2 para generar una respuesta más elaborada.

¿Vale la pena? Nuestra opinión

Si la privacidad de datos es importante para tu empresa o proyecto, n8n con Ollama: IA local gratuita sin enviar datos a la nube es una de las mejores soluciones disponibles hoy. La configuración es relativamente simple, el costo operativo es mínimo y la integración nativa de n8n con Ollama hace que crear workflows de IA sea accesible para cualquiera.

¿Ya probaste esta combinación? Si tienes dudas sobre la configuración o quieres que profundice en algún caso de uso específico, déjame un comentario. Y si te interesa explorar más sobre automatización con IA, revisa nuestra guía completa de n8n para entender todas las posibilidades que tienes disponibles.

También te puede interesar

Resumir con: