n8n Scraping Web: Cómo Extraer Datos Automáticamente

n8n scraping web es una de las habilidades más valiosas que puedes dominar si trabajas con automatización. ¿Te imaginas poder extraer datos de cualquier página web de forma automática, sin escribir código complejo? Eso es exactamente lo que vas a aprender en esta guía. Desde monitorizar precios de competidores hasta extraer leads de directorios, el n8n scraping web te permite convertir información pública en datos estructurados que puedes usar en tus flujos de trabajo. Vamos a ver los tres métodos principales, con ejemplos prácticos que puedes replicar hoy mismo.

¿Qué es el n8n scraping web y por qué usarlo?

El n8n scraping web consiste en utilizar la plataforma de automatización n8n para descargar páginas web, extraer información específica y procesarla dentro de tus workflows. A diferencia de herramientas de scraping tradicionales que requieren programación, n8n te ofrece una interfaz visual donde conectas nodos y configuras todo sin tocar una línea de código (o muy pocas).

Las ventajas principales son:

Sin código avanzado: la interfaz drag-and-drop hace accesible el scraping para cualquier persona.
Automatización completa: puedes programar extracciones diarias, semanales o en tiempo real.
Integración directa: los datos extraídos se conectan con Google Sheets, bases de datos, CRMs y más de 400 apps.
Múltiples métodos: desde scraping básico con HTML hasta extracción con inteligencia artificial.

¿Qué es el n8n scraping web y por qué usarlo?

3 métodos de n8n scraping web según tu necesidad

No todos los sitios web son iguales, así que n8n ofrece varios enfoques según la complejidad del sitio que quieras scrapear:

HTTP Request + HTML Extract: ideal para páginas estáticas sencillas.
HTTP Request + IA (Claude/GPT): perfecto para extraer información con lenguaje natural cuando el HTML es complejo.
Bright Data Scraping Browser o Apify: necesario para páginas con JavaScript pesado y protecciones anti-bot.

Vamos a desglosar cada uno paso a paso.

Método 1: n8n scraping web básico con HTTP Request

Este es el método más simple y funciona perfectamente para páginas HTML estáticas que no dependen de JavaScript para mostrar su contenido. Es el punto de partida ideal si estás empezando con n8n scraping web.

Paso 1: Descargar la página con HTTP Request

Añade el nodo HTTP Request a tu workflow y configúralo así:

Method: GET
URL: la URL de la página que quieres scrapear
Response Format: Text (para recibir el HTML completo)

Este nodo descargará todo el código HTML de la página, que luego vas a procesar en el siguiente paso.

Paso 2: Extraer datos con el nodo HTML Extract

Conecta el nodo HTML Extract al HTTP Request y configúralo:

Source Data: {{ $json.data }} (el HTML que descargaste)
Configura los Extraction Values con los selectores CSS de los elementos que necesitas:

Para cada campo que quieras extraer, define:

Key: el nombre del campo (ejemplo: precio)
CSS Selector: el selector del elemento HTML (ejemplo: .precio-actual)
Return Value: Text

Ejemplo práctico: Extraer datos de un ecommerce

Supongamos que quieres extraer información de productos de una tienda en línea. Así configurarías los Extraction Values:

Key	CSS Selector	Return Value
producto	h1.product-title	text
precio	span.price	text
disponibilidad	.stock-status	text
descripcion	.product-description p	text

Paso 3: Procesar múltiples URLs en lote

Si necesitas scrapear una lista de URLs (no solo una), usa el nodo Split in Batches para procesarlas de forma secuencial y evitar bloqueos:

Google Sheets (lista de URLs)
  → Split in Batches (1 a la vez para evitar bloqueos)
  → Wait (2-3 segundos entre requests)
  → HTTP Request (descarga cada URL)
  → HTML Extract (extrae datos)
  → Google Sheets (guarda resultados)

Tip importante: siempre añade un nodo Wait de 2-3 segundos entre requests. Esto evita que el servidor te bloquee por hacer demasiadas peticiones seguidas y es una buena práctica de scraping responsable.

Método 1: n8n scraping web básico con HTTP Request

Método 2: n8n scraping web con inteligencia artificial

Cuando el HTML es complejo, desordenado o cambia frecuentemente, los selectores CSS pueden fallar. Aquí es donde la IA brilla: puedes pedirle que extraiga información de forma semántica, sin depender de la estructura exacta del HTML.

La estructura del workflow es:

HTTP Request (descarga HTML)
  → Code (limpia el HTML, extrae solo el body)
  → Claude/GPT (extrae la información en JSON)

Nodo Code para limpiar el HTML

Antes de enviar el HTML a la IA, necesitas limpiarlo para reducir tokens y mejorar la calidad de la extracción:

// Eliminar scripts, styles y atributos innecesarios
const html = $input.first().json.data;
const clean = html
  .replace(/<script[^>]*>[\s\S]*?<\/script>/gi, '')
  .replace(/<style[^>]*>[\s\S]*?<\/style>/gi, '')
  .replace(/\s+/g, ' ')
  .substring(0, 15000); // Limitar tamaño para el LLM

return [{ clean_html: clean }];

Prompt para el LLM

Configura el nodo de Claude o GPT con un prompt como este:

Del siguiente HTML, extrae la información del producto en formato JSON con estos campos:
- nombre: nombre del producto
- precio: precio con moneda (ej: "29,99 €")
- descripcion: descripción breve
- imagenes: lista de URLs de imágenes
- valoracion: puntuación si existe

HTML:
{{ $json.clean_html }}

La ventaja de este enfoque es que funciona incluso cuando el HTML cambia de estructura, porque la IA entiende el contenido de forma semántica, no depende de selectores CSS específicos.

Método 2: n8n scraping web con inteligencia artificial

Método 3: n8n scraping web en páginas con JavaScript

Muchos sitios modernos usan JavaScript para renderizar el contenido. Si haces un HTTP Request normal, solo obtienes el HTML inicial vacío, sin los datos que genera el JS. Para estos casos tienes dos opciones potentes.

Opción A: Bright Data Scraping Browser

n8n tiene integración nativa con Bright Data para ejecutar un navegador real que procesa JavaScript:

Crea una cuenta en Bright Data y activa el Scraping Browser.
En n8n, usa el nodo HTTP Request con la URL de proxy de Bright Data.
El navegador ejecutará el JavaScript y devolverá el HTML completamente renderizado.

Este método es ideal para sitios con protecciones anti-bot, CAPTCHAs o contenido dinámico pesado.

Opción B: Apify

Apify ofrece actores (scrapers pre-construidos) para los sitios más populares como Amazon, LinkedIn, Google Maps, Instagram y muchos más.

n8n tiene nodo nativo de Apify, así que la integración es directa:

Añade el nodo Apify a tu workflow.
Selecciona el actor adecuado (ejemplo: «Web Scraper» para sitios genéricos).
Configura las URLs objetivo y los campos a extraer.
Recibe los datos estructurados directamente en tu flujo.

Caso de uso práctico: Monitor de precios con n8n scraping web

Este es uno de los workflows más útiles que puedes crear. Un monitor automático de precios que revisa a tus competidores cada día y te alerta cuando hay cambios importantes:

Schedule Trigger — se ejecuta cada día a las 9:00 AM.
Google Sheets — obtiene la lista de URLs de productos de competidores.
Split in Batches — procesa de 1 en 1 para evitar bloqueos.
Wait — espera 3 segundos entre cada request.
HTTP Request — descarga la página del producto.
HTML Extract — extrae el precio actual.
Google Sheets — actualiza el precio del día en tu hoja de seguimiento.
IF — comprueba si el precio bajó más de un 10% respecto al día anterior.
Gmail — te envía una alerta si hay una bajada significativa.

Con este workflow, nunca más te vas a perder una oportunidad de ajustar tus precios o detectar movimientos de la competencia.

Caso de uso: Extracción de leads de directorios

Otro uso muy popular del n8n scraping web es extraer información de contacto de empresas listadas en directorios como páginas amarillas, Yelp o directorios locales:

HTTP Request — descarga la página del directorio con los resultados de búsqueda.
HTML Extract — extrae nombre de empresa, teléfono, dirección y sitio web.
Split in Batches — navega a las siguientes páginas de resultados.
Google Sheets o Airtable — almacena todos los leads extraídos.
Filtro de duplicados — elimina empresas que ya tenías en tu base de datos.

Este flujo te permite construir listas de prospectos de forma automatizada, ahorrando horas de trabajo manual.

Buenas prácticas para n8n scraping web responsable

Antes de lanzar tus workflows de scraping, ten en cuenta estas recomendaciones:

Respeta el archivo robots.txt: revisa qué páginas permite scrapear cada sitio.
Añade delays entre requests: 2-5 segundos mínimo para no saturar servidores.
No scrapees datos personales: cumple con las leyes de protección de datos (GDPR, LFPDPPP en México, etc.).
Usa User-Agent realista: configura un header de navegador real en tus HTTP Requests.
Maneja errores: añade nodos de error handling para que tu workflow no se rompa si una página cambia.
Almacena los datos de forma segura: usa bases de datos o hojas de cálculo con acceso controlado.

¿Qué método de n8n scraping web elegir?

Para facilitarte la decisión, aquí tienes una guía rápida:

Situación	Método recomendado	Dificultad
Página HTML estática simple	HTTP Request + HTML Extract	Fácil
HTML complejo o variable	HTTP Request + IA (Claude/GPT)	Media
Página con JavaScript pesado	Bright Data Scraping Browser	Media
Sitios populares (Amazon, LinkedIn)	Apify con actores dedicados	Fácil
Scraping masivo con anti-bot	Apify o Bright Data con proxies	Avanzada

Preguntas frecuentes sobre n8n scraping web

¿Es legal hacer scraping web con n8n?

El scraping de datos públicos generalmente es legal, pero debes respetar los términos de servicio de cada sitio, el archivo robots.txt y las leyes de protección de datos de tu país. Evita extraer datos personales sin consentimiento y no sobrecargues los servidores con peticiones excesivas.

¿Puedo hacer n8n scraping web sin saber programar?

Sí, el Método 1 (HTTP Request + HTML Extract) no requiere código. Solo necesitas conocer los selectores CSS básicos de la página que quieres scrapear, y puedes identificarlos usando las herramientas de desarrollador de tu navegador (clic derecho → Inspeccionar).

¿Qué hago si un sitio me bloquea al hacer scraping?

Si recibes errores 403 o CAPTCHAs, puedes: aumentar el delay entre requests, rotar User-Agents, usar servicios de proxy como Bright Data, o utilizar Apify que ya gestiona estas protecciones automáticamente.

¿Cuántas páginas puedo scrapear con n8n gratis?

Si usas n8n self-hosted (en tu propio servidor), no hay límite en la cantidad de ejecuciones ni páginas. En n8n Cloud, dependerá de tu plan y la cantidad de ejecuciones mensuales incluidas. Los servicios externos como Bright Data o Apify tienen sus propios planes de precios.

¿El n8n scraping web funciona con sitios en español?

Por supuesto. n8n funciona con cualquier sitio web independientemente del idioma. Los selectores CSS no dependen del idioma del contenido, y si usas el método con IA, tanto Claude como GPT entienden perfectamente español para extraer y estructurar la información.

Próximos pasos para dominar el n8n scraping web

Ya tienes los tres métodos principales para hacer n8n scraping web de forma efectiva. Mi recomendación es que empieces con el Método 1 en una página sencilla, practiques con los selectores CSS y luego vayas escalando a los métodos más avanzados según lo necesites.

Si quieres profundizar más en automatización con n8n, te recomiendo revisar nuestra sección completa de tutoriales de n8n donde cubrimos desde workflows básicos hasta integraciones avanzadas con inteligencia artificial.

También te puede interesar

Resumir con: