Apify 网络抓取集成Botpress Hub

  # Apify 网络抓取集成

该集成可让您直接在聊天机器人对话中使用 Apify 执行网络抓取任务。您可以选择抓取网站、Instagram 个人资料或 YouTube 视频和短片。
说明视频： 

## 配置

- `apiKey`：您的 Apify API 密钥。

## 操作

### 抓取网站

此操作使用 Apify 抓取网站或页面。

#### 输入

- `conversationId`：对话的 ID： ``.
- `startUrls`：要开始抓取的 URL 数组。一个或多个页面的 URL，爬虫将从这些 URL 开始抓取。默认情况下，Actor 还将抓取这些 URL 的子页面。例如，对于起始 URL `https://example.com/blog`，它还将抓取 `https://example.com/blog/post` 或 `https://example.com/blog/article`。包含 URLs (globs) 选项会覆盖这一自动化行为。
- useSitemaps`：（可选）是否使用网站地图进行抓取。默认为 `false`。
- crawlerType`：（可选）要使用的爬虫类型。默认为 `playwright:adaptive`。

#### 输出

- runId`：刮擦运行的 ID。

#### 搜刮Instagram

此操作会抓取Instagram 配置文件或帖子。

#### 输入

- `conversationId`：对话的 ID： ``.
- instagramUrl`：Instagram 要抓取的 URL。
- `scrapeType`：选择抓取个人资料细节或帖子。默认为 `posts`。
- maxItems`：（可选）要抓取的条目的最大数量。默认为 `1`。

#### 输出

- runId`：扫描运行的 ID。

#### 搜索 YouTube

此操作会抓取 YouTube 视频和短片。

#### 输入

- `conversationId`：对话的 ID： ``。
- searchTerm`：（可选）输入搜索词，就像在 YouTube 的搜索栏中输入一样。
- youtubeUrl：（可选）输入指向 YouTube 视频、频道、播放列表或搜索结果页面的链接。请注意，使用此选项时将忽略从搜索词输入的内容。
- maxSearchResult`：（可选）限制要抓取的视频数量。如果您抓取的是一个频道，则将作为常规视频的限制。默认为 `5`。
- maxShorts`：（可选）限制要抓取的短视频数量。默认为 `0`。

#### 输出

- runId`：扫描运行的 ID。

## 事件

### Apify 搜索已完成

Apify 搜索任务完成时触发此事件。

#### 模式

- 对话 ID：对话的 ID。
- 类型扫描任务类型。可用于创建事件过滤器
- `data`：
  - `defaultDatasetId`：包含搜索结果的数据集 ID。
  - `results`：搜索结果。结构取决于所选择的刮擦。请参阅演示视频了解更多信息

- 一些示例
  - 网站文本 : ```
  -Instagram 个人资料 : ```
  - Youtube : ``
Apify 网络抓取

用Botpress