Domain-Specific Web Content Crawler with Depth Control & Text Extraction

Crawls website pages from a given URL up to depth 3. It fetches HTML, extracts links and text, deduplicates URLs, limits to the same domain, excludes files, and outputs collected page data via webhook.

AIn8n 18 nodos 10 tipos conectado

Cargando workflow...

Nodos

StickyNote Webhook

SplitInBatches If

Html Code HttpRequest Merge Set

RespondToWebhook

Herramientas

Webhook HTTP Request

HTML Parser

Detalles

ID: 8852
Nodos: 18
Conex.: Sí
Tipos: 10

Pertenece a:

webhook http-request html-parser

¿Qué hace este workflow?

Este workflow de n8n es una potente herramienta para la automatización de la recopilación de información web. Permite rastrear páginas dentro de un dominio específico a partir de una URL inicial, controlando la profundidad de la exploración hasta 3 niveles. Extrae el contenido HTML, los enlaces internos y el texto de cada página, deduplicando URLs y excluyendo archivos irrelevantes. Toda la información recopilada se organiza y se envía a través de un webhook, facilitando su integración con otras herramientas o bases de datos para su posterior análisis. Ideal para equipos de marketing que realizan análisis de la competencia, investigadores que necesitan recopilar datos de sitios web, o desarrolladores que buscan monitorear cambios en el contenido. Al automatizar este proceso, se eliminan horas de copia y pega manual, se garantiza la consistencia en la recolección de datos y se permite a los usuarios concentrarse en el análisis estratégico de la información en lugar de en su obtención.

¿Cómo funciona?

Este workflow usa 18 nodos conectados con 10 tipos diferentes: StickyNote, Webhook, SplitInBatches, If, Html y 5 más. La estructura está totalmente conectada — listo para importar.

¿Lo quieres en tu empresa?

→

Lo implementamos por ti end-to-end: integración, deploy, mantenimiento y soporte. Consultoría B2B con Genai Sapiens.

Hablemos de tu proyecto

¿Quieres aprender a hacerlo?

→

Sprints de 30 días con companion IA + comunidad. Aprende n8n, automatización y agentes IA desde cero o nivel avanzado.

Ver formación Momentum

Domain-Specific Web Content Crawler with Depth Control & Text Extraction

Nodos

Herramientas

Detalles

Pertenece a:

¿Qué hace este workflow?

¿Cómo funciona?

¿Lo quieres en tu empresa?

¿Quieres aprender a hacerlo?

Workflows similares

Extrae Títulos y URLs de Artículos de Hackernoon Automáticamente

Servir PDF Dinámico: Descarga y Entrega Archivos desde URL por Webhook

Genera Saludos Dinámicos por Webhook con Código Personalizado

Automatiza la extracción de artículos de TechCrunch: datos clave para tu estrategia

Genera Imágenes Personalizadas con Titulares Dinámicos vía Webhook

Asegura tus Webhooks: Verificación de API Key Automatizada

Sistema de Monitoreo de Salud Web y API con Chequeo HTTP en n8n