Apify 网络抓取

v2.0.2
弗朗索瓦维护

# Apify 网络抓取集成

该集成可让您直接在聊天机器人对话中使用 Apify 执行网络抓取任务。您可以选择抓取网站、Instagram 个人资料或 YouTube 视频和短片。 说明视频:

配置

  • apiKey:您的 Apify API 密钥。

操作

抓取网站

此操作使用 Apify 抓取网站或页面。

输入
  • conversationId:对话的 ID: ``.
  • startUrls:要开始抓取的 URL 数组。一个或多个页面的 URL,爬虫将从这些 URL 开始抓取。默认情况下,Actor 还将抓取这些 URL 的子页面。例如,对于起始 URL https://example.com/blog,它还将抓取 https://example.com/blog/posthttps://example.com/blog/article。包含 URLs (globs) 选项会覆盖这一自动化行为。
  • useSitemaps:(可选)是否使用网站地图进行抓取。默认为false`。
  • crawlerType:(可选)要使用的爬虫类型。默认为playwright:adaptive`。
输出
  • runId`:刮擦运行的 ID。
搜刮Instagram

此操作会抓取Instagram 配置文件或帖子。

输入
  • conversationId:对话的 ID: ``.
  • instagramUrl`:Instagram 要抓取的 URL。
  • scrapeType:选择抓取个人资料细节或帖子。默认为 posts
  • maxItems:(可选)要抓取的条目的最大数量。默认为1`。
输出
  • runId`:扫描运行的 ID。
搜索 YouTube

此操作会抓取 YouTube 视频和短片。

输入
  • conversationId:对话的 ID: ``。
  • searchTerm`:(可选)输入搜索词,就像在 YouTube 的搜索栏中输入一样。
  • youtubeUrl:(可选)输入指向 YouTube 视频、频道、播放列表或搜索结果页面的链接。请注意,使用此选项时将忽略从搜索词输入的内容。
  • maxSearchResult:(可选)限制要抓取的视频数量。如果您抓取的是一个频道,则将作为常规视频的限制。默认为5`。
  • maxShorts:(可选)限制要抓取的短视频数量。默认为0`。
输出
  • runId`:扫描运行的 ID。

事件

Apify 搜索已完成

Apify 搜索任务完成时触发此事件。

模式
  • 对话 ID:对话的 ID。

  • 类型扫描任务类型。可用于创建事件过滤器

  • data

  • defaultDatasetId:包含搜索结果的数据集 ID。

  • results:搜索结果。结构取决于所选择的刮擦。请参阅演示视频了解更多信息

  • 一些示例

  • 网站文本 : -Instagram 个人资料 :

  • Youtube : ``