# Integração do Apify Web Scraping
Esta integração permite-lhe executar tarefas de raspagem da Web utilizando o Apify diretamente nas suas conversas de chatbot. Pode optar por recolher sites, perfis Instagram ou vídeos e curtas do YouTube.
Vídeo explicativo :
Configuração
apiKey
: A sua chave de API da Apify.
Acções
Raspar o site
Esta ação recolhe um site ou uma página utilizando o Apify.
Entrada
conversationId
: ID da conversa: ``.
startUrls
: Matriz de URLs para iniciar o rastreamento. Uma ou mais URLs de páginas onde o crawler irá começar. Por padrão, o Ator também irá rastrear sub-páginas destas URLs. Por exemplo, para o URL de início https://example.com/blog
, ele também rastreará https://example.com/blog/post
ou https://example.com/blog/article
. A opção Incluir URLs (globs) anula este comportamento de automação.
useSitemaps
: (Opcional) Se deve usar sitemaps para rastreamento. O padrão é false
.
crawlerType
: (Opcional) Tipo de crawler a ser utilizado. O padrão é playwright:adaptive
.
Saída
runId
: ID da execução de raspagem.
Raspar Instagram
Esta ação faz scraping de um perfil ou posts de Instagram .
Entrada
conversationId
: ID da conversa: ``.
instagramUrl
: Instagram URL para raspar.
scrapeType
: Escolhe se quer coletar detalhes do perfil ou posts. O padrão é posts
.
maxItems
: (Opcional) Número máximo de itens a serem coletados. O padrão é 1
.
Saída
runId
: ID da execução de raspagem.
Raspar o YouTube
Esta ação recolhe vídeos e curtas do YouTube.
Entrada
conversationId
: ID da conversa: ``.
searchTerm
: (Opcional) Introduza um termo de pesquisa tal como o introduziria na barra de pesquisa do YouTube.
youtubeUrl
: (Opcional) Introduza uma hiperligação para um vídeo, canal, lista de reprodução ou página de resultados de pesquisa do YouTube. Observe que a entrada do Termo de pesquisa será ignorada ao usar esta opção.
maxSearchResult
: (Opcional) Limita o número de vídeos que pretende recolher. Se você rastrear um canal, funciona como um limite para vídeos regulares. O padrão é 5
.
maxShorts
: (Opcional) Limita o número de vídeos curtos que você deseja rastrear. O padrão é 0
.
Saída
runId
: ID da execução de raspagem.
Eventos
Raspagem do Apify concluída
Este evento é acionado quando uma tarefa de raspagem do Apify é concluída.
Esquema
conversationId
: ID da conversa.
type
: Tipo de tarefa de recolha de dados. Pode ser útil para criar filtros em eventos
data
:
defaultDatasetId
: ID do conjunto de dados com resultados de scraping.
results
: Resultados do scraping. A estrutura depende do scraping escolhido. Veja o vídeo de apresentação para saber mais sobre o assunto
Alguns exemplos :
Texto do site : ``
Perfil Instagram : ``
Youtube : ``
# Integração do Apify Web Scraping
Esta integração permite-lhe executar tarefas de raspagem da Web utilizando o Apify diretamente nas suas conversas de chatbot. Pode optar por recolher sites, perfis Instagram ou vídeos e curtas do YouTube.
Vídeo explicativo :
## Configuração
- `apiKey`: A sua chave de API da Apify.
## Acções
### Raspar o site
Esta ação recolhe um site ou uma página utilizando o Apify.
#### Entrada
- `conversationId`: ID da conversa: ``.
- `startUrls`: Matriz de URLs para iniciar o rastreamento. Uma ou mais URLs de páginas onde o crawler irá começar. Por padrão, o Ator também irá rastrear sub-páginas destas URLs. Por exemplo, para o URL de início `https://example.com/blog`, ele também rastreará `https://example.com/blog/post` ou `https://example.com/blog/article`. A opção Incluir URLs (globs) anula este comportamento de automação.
- `useSitemaps`: (Opcional) Se deve usar sitemaps para rastreamento. O padrão é `false`.
- `crawlerType`: (Opcional) Tipo de crawler a ser utilizado. O padrão é `playwright:adaptive`.
#### Saída
- `runId`: ID da execução de raspagem.
### Raspar Instagram
Esta ação faz scraping de um perfil ou posts de Instagram .
#### Entrada
- `conversationId`: ID da conversa: ``.
- `instagramUrl`: Instagram URL para raspar.
- `scrapeType`: Escolhe se quer coletar detalhes do perfil ou posts. O padrão é `posts`.
- `maxItems`: (Opcional) Número máximo de itens a serem coletados. O padrão é `1`.
#### Saída
- `runId`: ID da execução de raspagem.
### Raspar o YouTube
Esta ação recolhe vídeos e curtas do YouTube.
#### Entrada
- `conversationId`: ID da conversa: ``.
- `searchTerm`: (Opcional) Introduza um termo de pesquisa tal como o introduziria na barra de pesquisa do YouTube.
- `youtubeUrl`: (Opcional) Introduza uma hiperligação para um vídeo, canal, lista de reprodução ou página de resultados de pesquisa do YouTube. Observe que a entrada do Termo de pesquisa será ignorada ao usar esta opção.
- `maxSearchResult`: (Opcional) Limita o número de vídeos que pretende recolher. Se você rastrear um canal, funciona como um limite para vídeos regulares. O padrão é `5`.
- `maxShorts`: (Opcional) Limita o número de vídeos curtos que você deseja rastrear. O padrão é `0`.
#### Saída
- `runId`: ID da execução de raspagem.
## Eventos
### Raspagem do Apify concluída
Este evento é acionado quando uma tarefa de raspagem do Apify é concluída.
#### Esquema
- `conversationId`: ID da conversa.
- `type`: Tipo de tarefa de recolha de dados. Pode ser útil para criar filtros em eventos
- `data`:
- `defaultDatasetId`: ID do conjunto de dados com resultados de scraping.
- `results`: Resultados do scraping. A estrutura depende do scraping escolhido. Veja o vídeo de apresentação para saber mais sobre o assunto
- Alguns exemplos :
- Texto do site : ``
- Perfil Instagram : ``
- Youtube : ``