- Struktury wieloagentowe dzielą złożone zadania między wyspecjalizowanych agentów zamiast jednej gigantycznej pętli LLM .
- Agenci komunikują się za pośrednictwem wiadomości, zarządzanych przez logikę routingu i współdzielony stan przepływu pracy.
- Korzyści obejmują lepsze debugowanie, logikę wielokrotnego użytku, łatwiejsze skalowanie i niezawodną obsługę błędów.
- Narzędzia takie jak Botpress, LangChain i CrewAI pomagają programistom szybciej tworzyć skoordynowane systemy agentów.
Większość programistów próbujących zbudować agentów AI zaczyna od pojedynczej dużej pętli modelu językowego - podpowiedzi systemu i być może narzędzia lub dwóch - i w przypadku małych zadań to wystarczy.
Ale gdy chcesz struktury, system zaczyna się strzępić. Wyjścia stają się nieprzewidywalne, przepływy pracy stają się trudne do debugowania, a tokeny są spalane na powtarzaniu zamiast na postępie.
Przepływy pracy z wieloma agentami umożliwiają tworzenie agentów AI, którzy zachowują się bardziej jak zespół z jasnymi rolami i wglądem w sposób podejmowania decyzji i pracy nad tym samym celem.
Czym jest Multi-Agent Framework?
Struktura wieloagentowa to infrastruktura używana do tworzenia, uruchamiania i zarządzania wieloma agentami AI w koordynacji.
Jest to infrastruktura, która obsługuje sposób, w jaki agenci się komunikują i jak zadania są między nimi przenoszone.
Jeśli pracujesz z systemami wieloagentowymi, framework jest tym, co sprawia, że działają.
W swojej istocie zamienia surowe duże modele językoweLLMs) w agentów o określonym zakresie, z których każdy ma swoją rolę i przewidywalny sposób działania.
Zamiast pisać logikę orkiestracji od zera, framework zapewnia strukturę, kontrolę i powtarzalność.
Multi-Agent Frameworks: Kluczowe koncepcje
Jak działają ramy Multi-Agent?
Struktury wieloagentowe nadają strukturę temu, w jaki sposób agenci są uruchamiani, jak przekazują dane i jak system śledzi postępy.
Zapewniają one elementy składowe do koordynowania agentów w sposób, który skaluje się wraz ze złożonością i sprawia, że są one użyteczne w rzeczywistych wdrożeniach.
Jednym z przykładów jest wykorzystanie konfiguracji wieloagentowej do zasilania chatbotaWhatsApp . W takim przypadku różni agenci mogą obsługiwać zadania, takie jak rezerwacja, przetwarzanie zwrotów lub weryfikacja, współpracując za kulisami bez polegania na jednej monolitycznej konfiguracji bota.
.webp)
Agenci są zarejestrowani w systemie jako komponenty, które można wywołać
Zanim agent będzie mógł cokolwiek zrobić, framework musi wiedzieć o jego istnieniu. Oznacza to przekazanie systemowi nazwy agenta, za co jest odpowiedzialny i do jakich narzędzi lub informacji może uzyskać dostęp.
W większości frameworków ta konfiguracja odbywa się za pomocą pliku konfiguracyjnego lub kodu, w którym definiuje się rolę każdego agenta i sposób jego aktywacji. Na przykład, możesz powiedzieć systemowi:
"To jest planista. Odczytuje dane wejściowe użytkownika i decyduje, co zrobić dalej".
"To jest weryfikator. Pobiera informacje o użytkowniku i zwraca booking_id oraz informacje o użytkowniku."
Po zarejestrowaniu framework może "wywoływać" tych agentów po nazwie, co oznacza, że wie, jak uruchomić każdego z nich, gdy nadejdzie ich kolej w przepływie pracy.
Agent routingu decyduje, który agent zostanie uruchomiony jako następny
Agent planujący lub funkcja kontrolera obsługuje routing agenta AI. Analizuje on najnowsze dane wyjściowe bota, bieżącą historię konwersacji, a czasami oryginalne dane wejściowe użytkownika, aby zdecydować, co należy zrobić dalej.
Niektóre planery są oparte na monitach - pobierają komunikat systemowy i wyświetlają nazwę następnego agenta do uruchomienia.
Inne używają zakodowanej logiki lub wykresów przepływu, w zależności od frameworków agentów AI, z którymi pracujesz.
Struktura pobiera te dane wyjściowe i używa ich do wywołania następnego agenta. Router decyduje, kto powinien wykonać zadanie, a nie je wykonać.
Dane są przekazywane między agentami za pomocą wiadomości
Agenty nie współdzielą pamięci bezpośrednio. Gdy jeden z nich kończy działanie, jego dane wyjściowe są pakowane do wiadomości - zwykle słownika lub obiektu JSON - i przekazywane do następnego agenta jako dane wejściowe.
Framework obsługuje transfer. Przechowuje wiadomość w przestrzeni pamięci współdzielonej lub przekazuje ją bezpośrednio do interfejsu wejściowego następnego agenta, w zależności od struktury systemu.
Wiadomości często zawierają więcej niż tylko treść:
- Kto wysłał (agent lub użytkownik)
- Skąd to się wzięło w przepływie pracy?
- Jak powinien być używany (np. wyzwalacz, dane wejściowe, decyzja)?
- Opcjonalne metryki, takie jak liczba tokenów lub znaczniki czasu
Kontekst ten pomaga systemowi kierować zadania w czysty sposób i utrzymuje agentów oddzielonych od siebie.
Wykonanie jest śledzone za pomocą stanu przepływu pracy i wyzwalaczy
Framework śledzi, co wydarzyło się do tej pory - które agenty zostały uruchomione, co zwróciły i co jeszcze musi się wydarzyć. Jest to przechowywane w obiekcie stanu, który jest aktualizowany po każdym kroku.
Wyzwalacze decydują, co będzie następne. Wykorzystują one wartości wyjściowe lub warunki do rozgałęzienia przepływu.
Pozwala to systemowi iść naprzód bez zakodowania logiki w każdym agencie. Stan napędza przepływ pracy, a nie sami agenci.
Kluczowe korzyści płynące z korzystania z Multi-Agent Frameworks
Skalowanie logiki bez przeciążania pojedynczego agenta
Pojedynczy agent AI może zrobić tylko tyle, zanim zamieni się w bałagan podpowiedzi, narzędzi i niejasnych obowiązków. Struktury wieloagentowe pozwalają podzielić tę logikę na skoncentrowanych agentów, z których każdy obsługuje jedno wyraźne zadanie.
Zamiast rozciągać pojedynczego agenta, można przypisać określone kroki - takie jak pobieranie, sprawdzanie poprawności lub wykonywanie - do oddzielnych agentów i rozwijać system kawałek po kawałku.
Współpraca agentów debugowania z pełną widocznością
Gdy agenci AI współpracują ze sobą, problemy mogą być trudne do wyśledzenia. Struktury pokazują, co każdy agent uzyskał, co zwrócił i gdzie utknął.
Nie zgadujesz, co się zepsuło - sprawdzasz przekazywanie i naprawiasz je bezpośrednio. Ten rodzaj widoczności sprawia, że współpraca agentów AI jest łatwa w zarządzaniu.
Ponowne wykorzystanie agentów w przepływach pracy
Jeśli agent działa, użyj go ponownie. Frameworki pozwalają podłączyć tego samego agenta do różnych przepływów bez konieczności przepisywania go. Zapewnia to spójność i przyspiesza testowanie.
Na przykład agent walidacji, który sprawdza dane wejściowe użytkownika lub uwierzytelnianie, może być używany zarówno w chatbotach obsługi klienta, jak i chatbotach rezerwacyjnych, wszędzie tam, gdzie ma zastosowanie ta sama logika.
Automatyczna obsługa awarii i ponownych prób
Gdy agent zawiedzie, framework może ponowić próbę, pominąć go lub przejść dalej. Nie musisz samodzielnie pisać tej logiki.
Wbudowane funkcje awaryjne sprawiają, że przepływy pracy są bardziej niezawodne bez dodatkowej pracy, a ten rodzaj niezawodności jest tym, co napędza rzeczywiste systemy.
Twórz przepływy agentów, które można łatwo zmieniać
Rozdzielenie zadań między agentów pozwala uniknąć konieczności przerabiania całego systemu za każdym razem, gdy coś się zmieni.
Można zaktualizować planistę bez dotykania wykonania lub zmienić sposób reagowania jednego agenta bez przepisywania reszty.
Ta łatwość dostępu się opłaca - Salesforce podaje, że zespoły korzystające z agentowej sztucznej inteligencji oszczędzają 11 godzin na pracownika tygodniowo, częściowo dzięki możliwości dostosowania przepływów pracy.
Top 5 Multi-Agent Frameworks
Wybór frameworka wieloagentowego zależy od tego, co budujesz i jak dużą kontrolę chcesz mieć nad sposobem, w jaki agenci zachowują się, komunikują i odzyskują sprawność po awarii.
Najlepsze frameworki oferują różne kompromisy - niektóre świetnie nadają się do ustrukturyzowanych przepływów pracy, inne zapewniają większą elastyczność kosztem przejrzystości.
Będziesz potrzebować czegoś, co odpowiada potrzebom Twojego zespołu i temu, jak daleko zamierzasz posunąć się z systemem.
1. Botpress
.webp)
Botpress to wizualna platforma programistyczna do tworzenia agentów AI, którzy mogą koordynować różne kroki, role i kanały.
Zamiast tworzyć logikę w kodzie, definiujesz zachowanie agentów za pomocą przepływów, pamięci, warunków i wywołań narzędzi.
Zachowanie wielu agentów opiera się na instrukcjach, przepływach pracy i narzędziach zewnętrznych. Każdy węzeł w przepływie Botpress działa jako skoncentrowana jednostka, z własnymi instrukcjami i zakresem.
Możesz podzielić rozumowanie na wiele węzłów autonomicznych i statycznych, dodać warstwy walidacji lub przekierować dane wejściowe użytkownika przez logikę decyzyjną opartą na narzędziach, zamiast obsługiwać wszystko w jednym kroku.
Pamięć jest przydzielana do każdego przepływu, więc agenci używają tylko tego, czego potrzebują. Dane wejściowe i wyjściowe są jasno zdefiniowane, a wywołania narzędzi można dodawać bezpośrednio poprzez wbudowane integracje.
Kluczowe cechy
- Wizualna orkiestracja agentów przy użyciu przepływów i węzłów
- Zakres pamięci i kontrola zmiennych między węzłami
- Pamięć wieloobrotowa, logika awaryjna i ponawianie prób
- Korzystanie z narzędzia poprzez wywołania API, webhooki i wprowadzanie funkcji
2. LangChain

LangChain to framework przeznaczony przede wszystkim dla deweloperów do tworzenia aplikacji opartych LLM poprzez łączenie łańcuchów podpowiedzi, narzędzi i pamięci.
Zaczęło się jako sposób na ustrukturyzowanie połączeń LLM za pomocą narzędzi takich jak wyszukiwanie i kalkulatory, ale stopniowo rozszerzyło się na rozległy ekosystem.
Jedno z wydań nadało priorytet "agentom", następnie "asystentom", a następnie "runnables". Rezultatem jest potężny zestaw narzędzi, który może zrobić prawie wszystko, ale często wymaga czasu na nawigację.
Można przypisywać zestawy narzędzi i budować logikę routingu między agentami. Cechą wyróżniającą jest modułowość - komponenty są wielokrotnego użytku, mieszane i dobrze zintegrowane z zewnętrznymi interfejsami API.
Ale napiszesz więcej kodu kleju niż oczekiwano. A ponieważ abstrakcje szybko się zmieniają, warto sprawdzić, czy używana metoda jest nadal preferowana.
Kluczowe cechy
- Modułowe łączenie podpowiedzi, narzędzi i pamięci
- Integracja z LLMs, magazynami wektorowymi i interfejsami API
- Opcjonalne śledzenie i oceny z LangSmith
3. CrewAI

CrewAI ułatwia tworzenie wieloagentowych przepływów pracy, w których każdy agent ma określoną rolę i zadanie. Tworzysz załogę, przypisujesz cele, a agenci koordynują działania za pośrednictwem wspólnego menedżera.
Jest to jeden z najszybszych sposobów modelowania współpracy agentów bez pisania logiki orkiestracji od zera.
Idealnie nadaje się do takich konfiguracji, jak pary planista-wykonawca, przepływy badaczy i recenzentów lub wszelkie zadania zespołowe, w których obowiązki są jasno podzielone.
Ale gdy zaczniesz dodawać złożoność, abstrakcja staje się ciasna. Elastyczność w zakresie sposobu i czasu uruchamiania agentów jest mniejsza, a modyfikowanie zachowania często oznacza wyjście poza domyślne ustawienia frameworka.
Kluczowe cechy
- Konfiguracja agenta oparta na rolach z nazwami, celami i pamięcią
- Obsługuje sekwencyjne i równoległe wykonywanie agentów
- Wspólna pamięć załogi do współpracy agentów
- Łatwa integracja z narzędziami, funkcjami i niestandardowymi podpowiedziami
4. AutoGPT

AutoGPT był pierwszym projektem, który pokazał, jak to wygląda, gdy dajesz chatbotowiGPT cel i pozwalasz mu działać - planować, myśleć, badać i wykonywać bez ciągłego udziału człowieka.
Określasz cel, a AutoGPT zapętla kroki rozumowania, tworzy podcele, wywołuje narzędzia i dostosowuje swoją strategię po drodze.
Był to ogromny krok naprzód w tworzeniu autonomicznych i dynamicznych zachowań agentów. Ale nie został stworzony z myślą o precyzji.
Pętla zadań jest krucha, a agenci mają tendencję do utknięcia w przepisywaniu tego samego planu lub ściganiu nieistotnych podzadań.
Możesz podłączyć pamięć, narzędzia i interfejsy API - ale łączenie wszystkiego razem często prowadzi do nieprzewidywalnych przepływów, które są trudne do debugowania lub sterowania.
Kluczowe cechy
- Agent zorientowany na cele z autopromocją i planowaniem zadań
- Automatyczne generowanie podzadań i pętla wykonawcza
- Obsługa narzędzi za pośrednictwem wtyczek i wywołań API
- Możliwość rozbudowy o niestandardowe skrypty, funkcje i integracje
5. Autogen

Autogen to platforma open-source firmy Microsoft, która koncentruje się na konwersacjach wieloagentowych, w których agenci wchodzą w interakcje za pośrednictwem ustrukturyzowanych, turowych wiadomości.
Jest to szczególnie dobre rozwiązanie, gdy chcesz mieć kontrolę nad każdą wymianą, na przykład w pętlach planowania - wykonania lub systemach typu "człowiek w pętli ".
Autogen wyróżnia się przejrzystością. Możesz wstrzykiwać funkcje w trakcie rozmowy, kierować decyzje za pomocą niestandardowej logiki i dokładnie śledzić, co każdy agent powiedział i dlaczego.
Skalowanie wymaga jednak pracy. Orkiestracja wiadomości jest elastyczna, ale nie abstrakcyjna - nadal sam zarządzasz historiami, konfiguracjami agentów i logiką kroków.
W przypadku konfiguracji badawczych, kontrolowanych testów lub powtarzalnego zachowania agenta, jest to jeden z najbardziej precyzyjnych frameworków.
Kluczowe cechy
- Turowa struktura komunikacji wieloagentowej
- Obsługuje ludzi w pętli i agentów wywołujących funkcje
- Przejrzyste śledzenie komunikatów i niestandardowe wstrzykiwanie logiki
Jak budować z wykorzystaniem Multi-Agent Framework
Najłatwiejszym sposobem na rozpoczęcie jest wybranie jednego rzeczywistego przepływu pracy - czegoś, co jest już zbyt złożone dla jednego agenta - i podzielenie go na kilka prostych części.
Pomyśl o chatbocie generującym leady, przepływie rezerwacji lub czymkolwiek, gdzie logika, weryfikacja i działanie są splątane.
Nadaj każdemu krokowi swojego agenta, a następnie połącz je za pomocą narzędzi routingu i wiadomości frameworka.
Krok 1: Zidentyfikuj, gdzie logika pojedynczego agenta się łamie
Poszukaj miejsca w swoim bocie lub systemie, w którym rzeczy zaczęły się rozrastać - długie podpowiedzi lub powiązane wywołania narzędzi, które wydają się przykręcone. To jest twój punkt wejścia. Oto kilka typowych przykładów, które łatwo zauważyć:
- Przepływ zwrotu, który analizuje dane wejściowe użytkownika, sprawdza kwalifikowalność, dokonuje zwrotu i wysyła potwierdzenie - wszystko w jednej pętli.
- Sekwencja wdrażania, która zbiera dane, weryfikuje formularze, przypisuje typy użytkowników i uruchamia wiadomości e-mail w jednym łańcuchu monitów.
Zamiast przeprojektowywać cały system, po prostu izolujesz przepływ pracy, który już wykazuje pęknięcia.
Krok 2: Zdefiniuj role, zanim dotkniesz frameworka
Po znalezieniu nieuporządkowanej logiki, podziel ją na rzeczywiste obowiązki.
Jeśli coś weryfikuje dane wejściowe, jest to jeden agent. Jeśli coś obsługuje akcję zewnętrzną, to jest to inny agent.
Napisz to prostym językiem - tylko tyle, aby ujawnić, gdzie znajdują się przekazy.
A gdy już wszystko będzie przed tobą, zobaczysz, co faktycznie musi zostać rozdzielone, a co można zwinąć. Daje to również poczucie, jakiego rodzaju struktury potrzebujesz.
Każda rola powinna brzmieć jak coś, co można przetestować samodzielnie.
Krok 3: Wybór struktury
Wybierz platformę, która pasuje do Twojego stylu pracy.
- Visual: Botpress, jeśli chcesz przepływów opartych na węzłach i pamięci zakresowej.
- Najpierw kod: LangChain lub CrewAI, jeśli dobrze czujesz się w tworzeniu logiki w Pythonie.
Framework decyduje o tym, w jaki sposób agenci są rejestrowani, uruchamiani i łączeni.
Krok 4: Tworzenie pierwszego przepływu pracy
Teraz przekształć te role w agentów. Zdefiniuj je w swoim frameworku - nadaj każdemu z nich nazwę, zadanie i dowolne narzędzie lub dostęp do API, którego potrzebuje.
Gdy są już na miejscu, połącz je. Użyj dowolnego routingu zapewnianego przez framework, aby przejść od jednego agenta do drugiego.
Celem jest uzyskanie jednego kompletnego przepływu pracy od końca do końca, z agentami, którzy pozostają na swoim pasie.
Krok 5: Uruchomienie systemu i sprawdzenie każdego przekazania.
Wyzwalaj pełny przepływ pracy - od początku do końca - i śledź, co się dzieje. Powinieneś obserwować, co każdy agent otrzymuje, co zwraca i czy przepływ między nimi przebiega prawidłowo.
Jeśli agent otrzymuje mylące dane wejściowe, najprawdopodobniej źle ustaliłeś zakres. Jeśli logika nieoczekiwanie przeskakuje, routing wymaga naprawy.
Gdy przekazywanie jest czyste, masz działający system.
Najlepsze praktyki w zakresie korzystania z frameworków Multi-Agent
Wybór frameworka to tylko punkt wyjścia. Ważniejsze jest to, jak projektujesz, testujesz i zarządzasz przepływami pracy, które tworzysz za jego pomocą.
W miarę jak systemy AI stają się coraz bardziej modułowe i autonomiczne, identyfikowalność staje się coraz trudniejsza.
Główna logika powinna być scentralizowana
Unikaj rozprzestrzeniania krytycznych decyzji na wielu agentów. Łatwiej jest utrzymywać i testować, gdy kluczowe rozumowanie odbywa się w jednym miejscu, zamiast być podzielone na luźno połączone elementy.
Zdefiniuj z góry dane wejściowe i wyjściowe agenta
Każdy agent powinien mieć jasno zdefiniowany kontrakt - co przyjmuje, co zwraca. Ułatwia to wymianę agentów lub podłączanie ich do nowych przepływów pracy bez naruszania logiki przepływu.
Rejestrowanie każdej wiadomości przekazywanej między agentami
Jeśli nie widzisz, co agenci mówią do siebie nawzajem, nie możesz niczego debugować. Upewnij się, że każde wejście i wyjście jest rejestrowane z wystarczającym kontekstem, aby prześledzić przepływ.
Korzystanie z pamięci o ograniczonym zakresie w celu zmniejszenia hałasu i kosztów
Daj każdemu agentowi tylko kontekst, którego potrzebuje. Pełny dostęp do pamięci prowadzi do rozdętych podpowiedzi, wyższego zużycia tokenów i nieprzewidywalnego zachowania agentów, którzy mieli być skupieni.
Zacznij tworzyć sztuczną inteligencję, która potrafi koordynować
Większość systemów rozpada się w momencie, gdy wymagana jest prawdziwa koordynacja. Botpress daje ci kontrolę nad tym, jak agenci przekazują zadania - z określonymi rolami i logiką, które możesz przetestować i zrozumieć.
Umożliwia również czyste przekazywanie danych między przepływami. Każdy krok można prześledzić za pomocą wieloobrotowych dzienników, które pokazują, które narzędzie zostało wywołane, dlaczego zostało uruchomione i w jaki sposób zostało użyte w przepływie pracy.
Zamiast szybkiego dostrajania i kontroli halucynacji, skupiasz się na prawdziwej funkcjonalności - budowaniu agentów, którzy zachowują się jak oprogramowanie.
Zacznij budować już dziś - to nic nie kosztuje.
Najczęściej zadawane pytania
Skąd mam wiedzieć, czy mój projekt sztucznej inteligencji faktycznie potrzebuje struktury wieloagentowej, czy też wystarczy pojedynczy agent?
Twój projekt AI prawdopodobnie potrzebuje frameworka wieloagentowego, jeśli monity lub przepływy pracy pojedynczego agenta stały się zbyt długie lub trudne do debugowania, szczególnie w przypadku obsługi wielu różnych zadań, podczas gdy prostsze przypadki użycia, takie jak podstawowe pytania i odpowiedzi lub boty o jednym przeznaczeniu, często działają dobrze z jednym agentem.
Czy budowanie przy użyciu frameworka wieloagentowego jest przeznaczone tylko dla dużych projektów korporacyjnych, czy też nadaje się również dla małych startupów?
Budowanie przy użyciu frameworka wieloagentowego nie jest przeznaczone tylko dla dużych przedsiębiorstw - małe startupy również mogą na tym skorzystać, ponieważ nawet skromne projekty zyskują łatwiejsze debugowanie, gdy złożone zadania są podzielone na wyspecjalizowanych agentów, zamiast gromadzić wszystko w jednej dużej, trudnej do zarządzania pętli.
Czy korzystanie z systemu wieloagentowego oznacza, że muszę rozdzielić wszystko na osobnych agentów, czy też mogę mieszać logikę jedno- i wieloagentową?
Korzystanie z systemu wieloagentowego nie oznacza, że musisz rozdzielać wszystko na oddzielnych agentów; możesz łączyć logikę pojedynczego agenta dla prostych zadań, jednocześnie rezerwując orkiestrację wielu agentów dla złożonych przepływów pracy.
Czym różni się system wieloagentowy od zwykłego korzystania z wielu interfejsów API lub mikrousług w mojej aplikacji?
System wieloagentowy różni się od korzystania z wielu interfejsów API lub mikrousług, ponieważ koordynuje wyspecjalizowanych agentów AI z odrębnymi rolami i możliwościami rozumowania, które przekazują ustrukturyzowane komunikaty i stan, podczas gdy interfejsy API i mikrousługi obsługują dyskretne funkcje, ale nie organizują niezależnie złożonych przepływów pracy.
Jak wypada koszt obsługi systemów wieloagentowych w porównaniu do obsługi pojedynczego dużego LLM?
Koszt uruchomienia systemów wieloagentowych może być niższy niż uruchomienie pojedynczego dużego LLM , ponieważ mniejsi, wyspecjalizowani agenci mogą wydajnie obsługiwać określone zadania bez marnowania tokenów na długie monity lub powtarzający się kontekst, ale wprowadza to również dodatkowy narzut na zarządzanie orkiestracją i komunikacją między agentami, więc oszczędności zależą od złożoności przypadku użycia.