Domain-Specific Web Content Crawler with Depth Control & Text Extraction
Crawls website pages from a given URL up to depth 3. It fetches HTML, extracts links and text, deduplicates URLs, limits to the same domain, excludes files, and outputs collected page data via webhook.
Nodos
Herramientas
Detalles
- ID
- 8852
- Nodos
- 18
- Conex.
- Sí
- Tipos
- 10
Pertenece a:
¿Qué hace este workflow?
Este workflow de n8n es una potente herramienta para la automatización de la recopilación de información web. Permite rastrear páginas dentro de un dominio específico a partir de una URL inicial, controlando la profundidad de la exploración hasta 3 niveles. Extrae el contenido HTML, los enlaces internos y el texto de cada página, deduplicando URLs y excluyendo archivos irrelevantes. Toda la información recopilada se organiza y se envía a través de un webhook, facilitando su integración con otras herramientas o bases de datos para su posterior análisis. Ideal para equipos de marketing que realizan análisis de la competencia, investigadores que necesitan recopilar datos de sitios web, o desarrolladores que buscan monitorear cambios en el contenido. Al automatizar este proceso, se eliminan horas de copia y pega manual, se garantiza la consistencia en la recolección de datos y se permite a los usuarios concentrarse en el análisis estratégico de la información en lugar de en su obtención.
¿Cómo funciona?
Este workflow usa 18 nodos conectados con 10 tipos diferentes: StickyNote, Webhook, SplitInBatches, If, Html y 5 más. La estructura está totalmente conectada — listo para importar.
¿Lo quieres en tu empresa?
→Lo implementamos por ti end-to-end: integración, deploy, mantenimiento y soporte. Consultoría B2B con Genai Sapiens.
Hablemos de tu proyecto¿Quieres aprender a hacerlo?
→Sprints de 30 días con companion IA + comunidad. Aprende n8n, automatización y agentes IA desde cero o nivel avanzado.
Ver formación Momentum