Apify web scrapen

v2.0.2
Onderhouden door François

# Apify Web Scraping Integratie

Deze integratie maakt het mogelijk om web scraping taken uit te voeren met Apify direct binnen je chatbot conversaties. Je kunt ervoor kiezen om websites, Instagram profielen of YouTube video's en filmpjes te scrapen. Uitleg video :

Configuratie

  • apiKey: Je Apify API-sleutel.

Acties

Website scrapen

Deze actie schraapt een website of pagina met Apify.

Invoer
  • conversationId: ID van de conversatie: ``.
  • startUrls: Array van URL's om te beginnen met crawlen. Een of meer URL's van pagina's waar de crawler zal beginnen. Standaard zal de Actor ook subpagina's van deze URL's crawlen. Bijvoorbeeld, voor start URL https://example.com/blog, zal het ook https://example.com/blog/post of https://example.com/blog/article crawlen. De Include URLs (globs) optie heft dit automatiseringsgedrag op.
  • useSitemaps: (Optioneel) Of sitemaps moeten worden gebruikt voor crawlen. Staat standaard op false.
  • crawlerType: (Optioneel) Type crawler om te gebruiken. Staat standaard op playwright:adaptive.
Uitvoer
  • runId: ID van de schraaprun.

Schrapen Instagram

Deze actie schraapt een Instagram profiel of berichten.

Invoer
  • conversationId: ID van het gesprek: ``.
  • instagramUrl: Instagram URL om te scrapen.
  • scrapeType: Kies om profielgegevens of berichten te scrapen. Staat standaard op posts.
  • maxItems: (Optioneel) Maximum aantal items om te scrapen. Staat standaard op 1.
Uitvoer
  • runId: ID van de schraaprun.

YouTube scrapen

Deze actie schraapt YouTube-video's en -shorts.

Invoer
  • conversationId: ID van het gesprek: ``.
  • searchTerm: (Optioneel) Voer een zoekterm in zoals je die zou invoeren in de zoekbalk van YouTube.
  • youtubeUrl: (Optioneel) Voer een link in naar een YouTube video, kanaal, afspeellijst of pagina met zoekresultaten. Merk op dat invoer van Zoekterm wordt genegeerd als je deze optie gebruikt.
  • maxSearchResult: (Optioneel) Beperk het aantal video's dat u wilt crawlen. Als je een kanaal scrapeert, werkt dit als een limiet voor gewone video's. Staat standaard op 5.
  • maxShorts: (Optioneel) Beperk het aantal Shorts-video's dat u wilt crawlen. Staat standaard op 0.
Uitvoer
  • runId: ID van de schraaprun.

Gebeurtenissen

Schrapen voltooid

Deze gebeurtenis wordt geactiveerd wanneer een Apify-schraaptaak is voltooid.

Schema
  • conversationId: ID van het gesprek.

  • type: Type van de schraaptaak. Kan nuttig zijn om te filteren op gebeurtenissen

  • data:

  • defaultDatasetId: ID van de dataset met scraping resultaten.

  • resultaten: Resultaten van het scrapen. De structuur hangt af van de gekozen scraping. Bekijk de presentatievideo voor meer informatie

  • Enkele voorbeelden :

  • Website tekst : ``

  • Instagram profiel : ``

  • Youtube : ``