# Apify 网络抓取集成
该集成可让您直接在聊天机器人对话中使用 Apify 执行网络抓取任务。您可以选择抓取网站、Instagram 个人资料或 YouTube 视频和短片。 说明视频:
配置
apiKey
:您的 Apify API 密钥。
操作
抓取网站
此操作使用 Apify 抓取网站或页面。
输入
conversationId
:对话的 ID: ``.startUrls
:要开始抓取的 URL 数组。一个或多个页面的 URL,爬虫将从这些 URL 开始抓取。默认情况下,Actor 还将抓取这些 URL 的子页面。例如,对于起始 URLhttps://example.com/blog
,它还将抓取https://example.com/blog/post
或https://example.com/blog/article
。包含 URLs (globs) 选项会覆盖这一自动化行为。- useSitemaps
:(可选)是否使用网站地图进行抓取。默认为
false`。 - crawlerType
:(可选)要使用的爬虫类型。默认为
playwright:adaptive`。
输出
- runId`:刮擦运行的 ID。
搜刮Instagram
此操作会抓取Instagram 配置文件或帖子。
输入
conversationId
:对话的 ID: ``.- instagramUrl`:Instagram 要抓取的 URL。
scrapeType
:选择抓取个人资料细节或帖子。默认为posts
。- maxItems
:(可选)要抓取的条目的最大数量。默认为
1`。
输出
- runId`:扫描运行的 ID。
搜索 YouTube
此操作会抓取 YouTube 视频和短片。
输入
conversationId
:对话的 ID: ``。- searchTerm`:(可选)输入搜索词,就像在 YouTube 的搜索栏中输入一样。
- youtubeUrl:(可选)输入指向 YouTube 视频、频道、播放列表或搜索结果页面的链接。请注意,使用此选项时将忽略从搜索词输入的内容。
- maxSearchResult
:(可选)限制要抓取的视频数量。如果您抓取的是一个频道,则将作为常规视频的限制。默认为
5`。 - maxShorts
:(可选)限制要抓取的短视频数量。默认为
0`。
输出
- runId`:扫描运行的 ID。
事件
Apify 搜索已完成
Apify 搜索任务完成时触发此事件。
模式
对话 ID:对话的 ID。
类型扫描任务类型。可用于创建事件过滤器
data
:defaultDatasetId
:包含搜索结果的数据集 ID。results
:搜索结果。结构取决于所选择的刮擦。请参阅演示视频了解更多信息一些示例
网站文本 :
-Instagram 个人资料 :
Youtube : ``