4. Can agents learn from each other in MAS? How is knowledge sharing handled?

Yes, agents in a MAS can learn from each other using shared data structures like a blackboard system or message passing protocols. The system must be designed with conflict resolution and update synchronization mechanisms to ensure consistency and avoid contradictory learning updates.

Mastering Multi-Agent Eval Systems sa 2025

Isinulat ni

Aryan Kargwal

AI Developer, PhD Candiate, at Content Creator (edtr newsletter & Botpress )

Talaan ng mga Nilalaman

Ano ang Multi-Agent Systems?

Ano ang Multi-Agent Eval Systems?

Ang Kasayahan (at Pagkadismaya) ng Pagsusuri sa MAS

Paano Gumawa ng Multi-Agent Evaluation System?

Itaas ang iyong Automation Pipeline sa Multi-Agents

Mga FAQ

Buod

Gumagamit ang mga multi-agent system (MAS) ng maraming ahente ng AI na nagtutulungan upang harapin ang mga kumplikadong gawain tulad ng pagsusulat ng mga ulat o pamamahala ng mga data center.
Binibigyang-daan ng MAS ang mga ahente na magtrabaho nang nakapag-iisa at sistematikong sa halip na umasa sa isang ahente na nagsusulong ng lahat ng mga gawain gamit ang mga senyas.
Ang mga multi-agent evaluation system (MAES) ay mga tool para sa pagtatasa kung gaano kahusay ang pagganap ng mga ahente nang isa-isa at magkakasama sa mga kapaligiran ng MAS.
Ang pag-evaluate sa MAS ay nangangahulugan ng pagtingin hindi lamang sa pagganap ng indibidwal na ahente, ngunit kung gaano kahusay ang pakikipagtulungan ng mga ahente at pagpasa ng impormasyon sa isa't isa.

Maligayang pagdating sa kapana-panabik na mundo ng maraming ahente! Ang mga ito LLM Binabago ng mga milagro ang pagiging produktibo sa pamamagitan ng pagtatrabaho kasama ng mga tao upang harapin ang mga kumplikadong problema. Mula sa pag-draft ng mga ulat hanggang sa pag-debug ng code at pamamahala sa mga data center, ang kakayahang bumuo ng mga ahente ng AI na epektibong nagtutulungan ay kumakatawan sa hinaharap ng AI workforce.

Paano mo sinusukat ang tagumpay ng mga multi-agent system ? Ang pag-evaluate sa MAS (multi-agent system) ay parang pag-iskor ng relay race—hindi lang sa mga indibidwal na magkakarera, kundi pati na rin kung gaano kahusay ang pagpasa ng baton sa pagitan nila.

Ngunit bago ang higit pa tungkol dito…

Ano ang Multi-Agent Systems?

Ang isang multi-agent system ay naglalaman ng maraming AI agent na nagtutulungan sa isang shared environment para makamit ang isang pangkalahatang layunin. Maaaring kailanganin o hindi ng layuning ito na mag-ambag ang bawat ahente.

Bakit hindi na lang ipasa ang iba't ibang mga prompt ng system sa parehong ahente? Ang mga multi-agent system ay nagbibigay-daan sa maraming ahente na magtrabaho nang nakapag-iisa, na naiintindihan at gumagawa ng mga desisyon na humahantong sa gawain nang mas sistematiko at mahusay.

Bumuo ng AI Chatbots

Bumuo ng mga custom na ahenteng chatbot

Magsimula ngayon

Ano ang Multi-Agent Eval Systems?

Ang mga multi-agent na evaluation system ay mauunawaan bilang mga tool, wrapper, o serbisyong ginagamit upang masuri ang gawi ng mga agentic system.

Ang mga system na ito ay hindi limitado sa mga quantitative evaluation tulad ng latency o paggamit ng token. Ang mga makabagong pamamaraan ng pagsusuri ay nagbibigay ng mas malalim na mga insight sa mga ahenteng pag-uugali sa pamamagitan ng mga sukatan na sumasaklaw sa mas maraming husay na lugar gaya ng pagkakaugnay-ugnay at pagkakatulad ng semantiko sa pinagmulang nilalaman.

Ang Kasayahan (at Pagkadismaya) ng Pagsusuri sa MAS

Ang pagsusuri ng mga multi-agent system (MAS) ay nangangailangan ng pagtatanong ng mga tamang tanong sa bawat hakbang ng pipeline. Makakatulong sa iyo ang mga aspetong ito na muling isaalang-alang o pinuhin ang ahenteng disenyo ng iyong system:

1. Kooperasyon at Koordinasyon

Ang iyong mga ahente ba ay nakikipaglaro nang mabuti sa isa't isa, o sila ba ay hindi matapat at magulo? Halimbawa, sa isang data bank, kailangang mag-collaborate ang mga ahente para maiwasan ang mga salungatan, tulad ng pag-overwrite sa mga dynamic na file na aktibong ginagamit ng ibang ahente.

2. Paggamit ng Tool at Resource

Gaano kahusay ginagamit ng mga ahente ang mga tool sa kanilang pagtatapon? Kung nagde-deploy ka ng MAS para sa pagsusuri ng data, mahusay bang hinahati ng mga ahente ang workload o mayroon bang pagdodoble ng pagsisikap?

3. Scalability

Ang pagdaragdag ng higit pang mga ahente ay maaaring gumawa o masira ang isang sistema. Gumaganda ba ang pagganap nang may sukat, o ang mga ahente ba ay nagsimulang tumuntong sa sapatos ng isa't isa? Kung masyadong nag-overlap ang mga ahente, kakainin mo ang mahahalagang mapagkukunan ng pagkalkula.

Paano Gumawa ng Multi-Agent Evaluation System?

Ang ilang mga gawain ay kailangang makamit upang lumikha ng isang epektibong balangkas ng pagsusuri para sa iyong multi-agent system. Narito kung paano buuin ang iyong pipeline:

Mga Log ng Pakikipag-ugnayan ng Ahente : Subaybayan ang bawat desisyon, aksyon, at komunikasyon para sa pagsusuri.
Mga Sukatan ng Pagsusuri : Tukuyin ang mga sukatan at benchmark para sa mga ahenteng pakikipag-ugnayan.
Balangkas ng Pagsusuri : Piliin ang tamang balangkas upang simulan ang pagpapatupad ng pagsusuri gamit.

Naglalagay ng mga Ahente ng AI?

Basahin ang aming Blueprint para sa AI Agent Implementation

Basahin Ngayon

1. Mga Log ng Pakikipag-ugnayan ng Ahente

Kailangang mapanatili ang pananagutan sa antas ng ahente para sa pangkalahatang gawain ng pagsusuri ng mga sistema ng multi-agent. Ang pagbuo ng mga log para sa mga pakikipag-ugnayan na nagpapakita ng pangangatwiran, pagkilos, at kahihinatnan ng bawat ahente ay nagtataguyod ng mga matatag na sistema.

Paggastos ng AI

‍

Ngayon, ang mga naturang log ay maaaring maglaman ng mga timestamp, mga tool na tawag, nabuong mga resulta, o panloob na pag-uusap. Narito ang isang sample na log ng isang pag-uusap mula sa isang ahente na na-deploy gamit Botpress .

2. Mga Sukatan ng Pagsusuri

Ang pagsusuri sa MAS ay bumaba sa mga tamang sukatan, at mga praktikal na tool para sukatin ang performance. Kapag handa na ang mga log, oras na para magpasya kung ano ang susuriin. Narito ang mga pangunahing sukatan upang masuri ang iyong MAS:

Kategorya	Sukatan	Paglalarawan
	Katumpakan ng Paglalaan ng Gawain	Mga gawaing itinalaga sa mga pinaka may kakayahang ahente.
Pakikipagtulungan	Latency ng Komunikasyon	Oras na kinuha para sa mga tugon ng ahente (ms).
	Rate ng Tagumpay ng Tool	Porsiyento ng matagumpay na pakikipag-ugnayan ng tool (API/Functions).
Paggamit ng Tool	Oras ng Pagbagay	Oras na para mag-adjust sa mga bagong tool (segundo).
	Katumpakan sa Pagkumpleto ng Gawain	Katumpakan ng mga output ng gawain (%).
Kalidad ng Output	Pagkakaugnay-ugnay ng Output	Lohikal na pagkakapare-pareho ng mga nabuong output.
	Throughput	Mga gawaing nakumpleto kada oras ng lahat ng ahente.
Pagganap ng System	Oras ng Pagbawi ng Kasalanan	Oras upang mabawi mula sa mga error (segundo).
Mga Etikal na Sukatan	Index ng Pagkamakatarungan	Pantay na pamamahagi ng mga gawain/pagkukunan.

‍

Kapag sinusuri ang mga naturang system, mahalagang tumuon sa mga sukatan na nagpapakita ng kanilang pakikipagtulungan, paggamit ng tool, at kalidad ng output.

3. Balangkas ng Pagsusuri

Kapag pumipili ng balangkas upang pagmulan at i-compile ang mga sukatan, madali mong mahahanap ang napakaraming mapagkukunan sa anyo ng mga open-source na aklatan. Tingnan natin ang DeepEval, TruLens, RAGAs, at DeepCheck, ilan sa mga nangungunang framework na magagamit mo para sa pagsusuri:

Balangkas	Paglalarawan	Mga kalamangan para sa MAS
DeepEval	Nagsusuri LLMs na may mga nako-customize na sukatan at task/data-centric focus.	- Sinusubaybayan ang mga kontribusyon ng ahente. - Nako-customize na mga sukatan para sa pakikipagtulungan ng MAS. - Pagsasama ng CI/CD para sa umuulit na pagsubok.
TruLens	Nakatuon sa interpretability at alignment ng mga output.	- Nagde-debug ng komunikasyon sa pagitan ng mga ahente. - Tinitiyak ang pagkakahanay sa mga layunin ng MAS. - Nag-aalok ng mga sukatan ng kaugnayan sa konteksto.
Ragas	Sinusuri ang mga sistema ng Retrieval-Augmented Generation (RAG).	- Tamang-tama para sa MAS gamit ang RAG. - Sinusubaybayan ang katumpakan at kaugnayan ng tugon. - Sinusuri ang nakabahaging konteksto ng data.
DeepCheck	Tinitiyak ang transparency, fairness, at robustness sa AI.	- Tinitiyak ang pagiging patas sa MAS. - Natutukoy ang bias sa paggawa ng desisyon. - Nakikita ang transparency at kalusugan ng MAS.

‍

Kapag nailagay na ang iyong balangkas ng pagsusuri, oras na para tumuon sa pagkilos. Ang mga sukatan at insight na iyong nakolekta ay dapat na gabayan kung paano mo pinuhin ang iyong mga multi-agent system:

Tweak Collaboration Protocol: Gumamit ng mga sukatan para isaayos kung paano nakikipag-ugnayan at nagbabahagi ng mga gawain ang mga ahente.
Pahusayin ang Paglalaan ng Resource: Maaaring i-highlight ng data mula sa mga framework ng pagsusuri ang mga inefficiencies sa paggamit ng tool o pagkalkula ng pamamahagi ng mapagkukunan.
Tugunan ang Bias Proactively: Ang mga regular na pagsusuri gamit ang mga evaluation framework na binanggit ay tinitiyak na ang iyong mga MAS output ay patas at pantay.

Itaas ang iyong Automation Pipeline sa Multi-Agents

Ang mga multi-agent evaluation system ay ang pundasyon ng paglikha ng mahusay, maaasahan, at adaptive na mga ahente ng AI. Kung nag-o-optimize ka man ng mga daloy ng trabaho, pagpapahusay sa paggawa ng desisyon, o pag-scale ng mga kumplikadong gawain, tinitiyak ng matatag na mga framework ng pagsusuri na gumagana ang iyong mga system sa kanilang pinakamahusay.

Handa nang bumuo ng mas matalino, mas may kakayahang mga ahente ng AI? Botpress nagbibigay sa iyo ng mga tool na kailangan mo upang bumuo at pamahalaan ang makapangyarihang mga sistemang ahente. Sa mga feature tulad ng Agent Studio para sa mabilis na disenyo, sa tuluy-tuloy na pagsasama sa mga platform tulad ng Slack at WhatsApp .

Botpress ay dinisenyo upang gawing simple ang pagiging kumplikado. Magsimulang magtayo ngayon —libre ito.

Bumuo ng AI Chatbots

Bumuo ng mga custom na ahenteng chatbot

Magsimula ngayon

Mga FAQ

1. What distinguishes a multi-agent system from a modular single-agent system?

A multi-agent system (MAS) consists of multiple autonomous agents, each capable of making its own decisions, acting independently, and interacting with others. In contrast, a modular single-agent system has a centralized decision-maker that controls various modules, meaning it’s still one agent managing internal components rather than independent entities.

2. How do multi-agent systems compare to ensemble learning in traditional ML?

Multi-agent systems involve agents coordinating actions with each other, and adapting to their environment in real time. Ensemble learning combines multiple models (like random forests or boosting) to improve prediction accuracy, but these models operate independently and don’t communicate during runtime.

3. How can you ensure that agent communication remains interpretable and auditable?

To ensure agent communication is interpretable and auditable, all messages should be logged with structured formats such as JSON, including metadata like sender ID, timestamp, and message type. Using a centralized logging service or distributed trace system helps maintain transparency.

5. What infrastructure is needed to scale MAS?

To scale a multi-agent system, you need a distributed infrastructure with components like Kubernetes for container orchestration, message brokers (e.g., Kafka, RabbitMQ) for inter-agent communication, and distributed databases (like Redis or Cassandra) for shared state and memory.