Saltar al contenido

Scraper de Sitio Web Multipage con Jina.ai

Este workflow scrapea múltiples páginas web de un sitemap usando Jina.ai, filtra URLs por contenido o palabra clave, extrae el título y el contenido en markdown, y guarda los resultados en Google Drive.

Repo Original 16 nodos 12 tipos conectado
Cargando workflow...

Nodos

StickyNote ManualTrigger SplitInBatches Wait Limit HttpRequest Xml SplitOut Filter Set GoogleDrive Code

Herramientas

Jina.ai Google Drive

Detalles

ID
4313
Nodos
16
Conex.
Tipos
12

Pertenece a:

¿Qué hace este workflow?

Este workflow esencial te permite realizar un scraping profundo de sitios web multipágina de manera automatizada. Utilizando Jina.ai, extrae el título y el contenido principal de cada URL identificada en un sitemap, transformándolo a formato Markdown para facilitar su lectura y procesamiento posterior. La funcionalidad de filtrado te permite seleccionar solo las páginas relevantes según su contenido o palabras clave específicas, optimizando así la recolección de datos y evitando información redundante. Finalmente, todos los contenidos extraídos se guardan de forma organizada en tu cuenta de Google Drive. Es ideal para equipos de marketing, investigadores o cualquier profesional que necesite recolectar grandes volúmenes de texto de la web para análisis de competencia, investigación de mercado o creación de contenido, ahorrando horas de trabajo manual y asegurando la consistencia de los datos.

¿Cómo funciona?

Este workflow usa 16 nodos conectados con 12 tipos diferentes: StickyNote, ManualTrigger, SplitInBatches, Wait, Limit y 7 más. La estructura está totalmente conectada — listo para importar.

¿Lo quieres en tu empresa?

Lo implementamos por ti end-to-end: integración, deploy, mantenimiento y soporte. Consultoría B2B con Genai Sapiens.

Hablemos de tu proyecto

¿Quieres aprender a hacerlo?

Sprints de 30 días con companion IA + comunidad. Aprende n8n, automatización y agentes IA desde cero o nivel avanzado.

Ver formación Momentum

Workflows similares