LLMs Binabago kung paano tayo gumagawa ng mga solusyon sa AI. Ang mga mas bago at mas mahuhusay na off-the-shelf na mga modelo ay inilalabas sa lahat ng oras.
Ang isang tanong na madalas kong itanong ay kung bakit dapat pumili ang isang tao para sa isang custom LLM sa halip na isang handa na solusyon?
Kung nagtatrabaho ka sa isang proyekto ng AI, tulad ng pagbuo ng isang ahente ng AI o AI chatbot , maaari mong piliin na gumamit ng naka-customize na modelo ng malaking wika ( LLM ).
Maraming dahilan para gumamit ng custom LLM , at maraming mga opsyon sa iyong pagtatapon. Sa artikulong ito, ituturo ko sa iyo ang iba't ibang paraan upang i-customize ang isang LLM para sa mga proyekto ng AI.
Bakit gumamit ng custom LLM ?
Mayroong ilang mga dahilan para gumamit ng custom LLM :
- Gusto mong bawasan ang mga gastos sa pamamagitan ng pagtuon sa isang partikular na gawain na mahalaga para sa iyong kaso ng paggamit ng negosyo, o bawasan ang latency.
- Baka gusto mong panatilihing pribado ang lahat ng data, o gamitin ang in-house ng iyong kumpanya LLM .
- Baka gusto mong pagbutihin ang kalidad ng mga sagot para sa isang partikular na gawain.
Anuman ang dahilan, i-customize ang iyong LLM nagbibigay-daan sa iyo na i-optimize ang pagganap, pagbalanse ng katumpakan, bilis, at gastos upang umangkop sa iyong mga pangangailangan sa negosyo.
Pagpili ng isang LLM
LLMs may dalawang katangian na nakakaapekto sa mga proyekto ng AI: ang laki nito (sinusukat sa bilang ng mga parameter), at kalidad ng mga tugon.
Maaari kang mag-isip ng mga parameter tulad ng mga neuron sa isang utak. Ang isang mas malaking utak ay madalas na nauugnay sa pagiging matalino, ngunit hindi iyon palaging totoo. At ang mga bahagi ng utak ay maaaring lubos na ma-optimize para sa ilang mga gawain tulad ng paningin.
Para sa mga proyekto ng AI, kadalasang nakakaapekto ang laki sa bilis ng pagtugon, at lubos itong nakakaapekto sa mga tugon sa gastos. Ang mga proyektong nangangailangan ng mababang latency ay kadalasang gumagamit ng mas maliliit na modelo, ngunit sa kapinsalaan ng kalidad ng mga tugon.
Ano ang itatanong kapag pumipili ng modelo
Narito ang isang magandang listahan ng mga tanong na masasagot kapag pumipili ng modelo:
- Maaari ba akong gumamit ng cloud-based LLM o kailangan ko bang mag-host ng isa?
- Gaano ko kabilis kailangan ang mga tugon?
- Gaano katumpak ang kailangan ko sa mga tugon?
- Magkano $$ ang matitipid at/o bubuo ng aking proyekto? Kung gayon, anong presyo ang dapat ibaba nito?
- Gaano ko katagal kailangan ang aking mga tugon?
Sa pangkalahatan, mahirap pabilisin ang isang makapangyarihang modelo o bawasan ang mga gastos nito, at mas madaling pagbutihin ang isang hindi gaanong tumpak na modelo.
Gayunpaman, mas mabilis na magsimula sa isang makapangyarihang modelo, at kung natutugunan nito ang mga pangangailangan ng iyong proyekto, maaaring hindi mo na kailanganin ng mas maraming pagsisikap sa engineering (dagdag pa, mas madaling mapanatili).
Pagpili sa pagitan ng RAG, Fine-Tuning, N-Shot Learning, at Prompt Engineering
Mayroong limang pangkalahatang konsepto na nagpapabuti sa kalidad ng LLM mga tugon:
- Simula sa isang pre-trained na modelo
- BASAHAN
- Fine tuning
- Pag-udyok sa N-shot
- Maagap na engineering
Ang mga ito ay hindi partikular sa paggamit ng mga custom na modelo, ngunit dapat mong isaalang-alang ang mga ito anuman, dahil gumagana ang mga ito nang magkahawak-kamay sa isa't isa.
Simula sa isang modelo
Ang unang bagay na dapat mong gawin ay pumili ng panimulang modelo. Maraming mga leaderboard online na naghahambing sa iba't ibang mga modelo.
Halimbawa:
- Ang Hugging Face ay nagpapanatili ng leaderboard para sa mga open source na modelo .
- Ang Vellum ay may mahusay na isa para sa mas sikat na mga modelo .
Kung ang iyong kumpanya ay may in-house na modelo, isaalang-alang ang paggamit nito upang gumana sa iyong badyet at panatilihing pribado ang data. Kung kailangan mong mag-host mismo ng modelo, isaalang-alang ang isang open-source na modelo .
Fine-tuning
Kasama sa fine-tuning ang pagbibigay ng mga halimbawa sa iyong modelo upang matutunan nito kung paano gawin nang maayos ang isang partikular na gawain. Kung gusto mo itong maging mahusay sa pagsasalita tungkol sa iyong produkto, maaari kang magbigay ng isang bahagi ng mga halimbawa ng pinakamahusay na mga tawag sa pagbebenta ng iyong kumpanya.
Kung open source ang modelo, tanungin ang iyong sarili kung ang iyong team ay may sapat na kakayahan sa pag-inhinyero upang ayusin ang isang modelo.
Kung ang modelo ay closed source at ibinigay bilang isang serbisyo - GPT -4 o Claude – kadalasan ay maaari mong i-fine-tune sa iyong mga engineer ang mga custom na modelo gamit ang mga API. Karaniwang tumataas nang malaki ang presyo sa pamamagitan ng pamamaraang ito, ngunit kakaunti o walang maintenance.
Ngunit para sa maraming mga kaso ng paggamit, ang fine-tuning ay hindi ang unang hakbang patungo sa pag-optimize ng iyong modelo.
Ang isang mahusay na kaso para sa fine-tuning ay pagbuo ng isang bot ng kaalaman para sa static na kaalaman. Sa pamamagitan ng pagbibigay ng mga halimbawa ng mga tanong at sagot, dapat nitong masagot ang mga ito sa hinaharap nang hindi tinitingnan ang sagot. Ngunit hindi ito isang praktikal na solusyon para sa real-time na impormasyon.
Retrieval-augmented na henerasyon
Ang RAG ay isang magarbong pangalan para sa isang simpleng bagay na nagawa nating lahat ChatGPT : paglalagay ng ilang teksto sa ChatGPT at nagtatanong tungkol dito.
Ang karaniwang halimbawa ay ang pagtatanong kung ang isang partikular na produkto ay may stock sa isang e-commerce na site, at isang chatbot na naghahanap ng impormasyon sa isang katalogo ng produkto (sa halip na sa mas malawak na internet).
Sa mga tuntunin ng bilis ng pag-unlad, at pagkuha ng real-time na impormasyon, RAG ay isang dapat-may.
Karaniwang hindi nito naaapektuhan kung aling modelo ang pipiliin mo, gayunpaman walang pumipigil sa iyo na lumikha ng isang LLM Ang endpoint ng API na nagtatanong ng impormasyon at mga sagot at ginagamit ang endpoint na ito na parang sarili nito LLM .
Ang paggamit ng RAG para sa isang chatbot na nakabatay sa kaalaman ay kadalasang mas madaling mapanatili, dahil hindi mo kailangang i-fine-tune ang isang modelo at panatilihin itong napapanahon – na makakabawas din sa mga gastos.
N-shot na pag-aaral
Ang pinakamabilis na paraan upang makapagsimula sa pagpapabuti ng kalidad ng mga tugon ay ang magbigay ng mga halimbawa sa isang solong LLM API na tawag.
Zero-shot – pagbibigay ng zero na halimbawa ng hinahanap mo sa isang sagot – ay kung paano ginagamit ng karamihan sa atin ChatGPT . Ang pagdaragdag ng isang halimbawa (o one-shot) ay karaniwang sapat upang makita ang isang malaking pagpapabuti sa kalidad ng pagtugon.
Higit sa isang halimbawa ang itinuturing na n-shot. Hindi binabago ng N-shot ang modelo, hindi katulad ng fine-tuning. Nagbibigay ka lang ng mga halimbawa bago humingi ng tugon, sa tuwing magtatanong ka.
Ngunit ang diskarteng ito ay hindi maaaring gamitin nang labis: LLM ang mga modelo ay may pinakamataas na sukat ng konteksto, at may presyo ayon sa laki ng mensahe. Maaaring alisin ng fine-tuning ang pangangailangan para sa mga halimbawa ng n-shot, ngunit tumatagal ng mas maraming oras upang maging tama.
Iba pang mabilis na mga diskarte sa engineering
Mayroong iba pang maagang mga diskarte sa engineering, tulad ng chain-of-thought , na pumipilit sa mga modelo na mag-isip nang malakas bago makabuo ng sagot.
Pinatataas nito ang kalidad ng tugon, ngunit sa halaga ng haba ng tugon, gastos at bilis.
Ang aking rekomendasyon
Habang ang bawat proyekto ay magkakaroon ng sarili nitong natatanging pangangailangan, ibibigay ko ang aking dalawang sentimo sa isang malakas na diskarte.
Ang isang magandang lugar upang magsimula ay ang paggamit ng isang off-the-shelf na modelo na nagbabalanse ng bilis at kalidad, tulad ng GPT -4o Mini. Magsimula sa pamamagitan ng pagtingin sa kalidad ng mga tugon, bilis ng pagtugon, gastos, mga pangangailangan sa window ng konteksto, at magpasya kung ano ang kailangang pagbutihin mula doon.
Pagkatapos, sa isang makitid na kaso ng paggamit, maaari mong subukan ang ilang simpleng prompt engineering, na sinusundan ng RAG, at sa wakas ay fine-tuning. Ang bawat modelo na dumaan sa mga ito ay magkakaroon ng mga nadagdag sa pagganap, kaya maaari itong maging nakakalito upang malaman kung ano ang gagamitin.
Mga Pagsasaalang-alang sa Privacy
Sa isang perpektong mundo, bawat LLM magiging 100% sa ilalim ng iyong sariling kontrol, at walang ilantad kahit saan.
Sa kasamaang-palad, hindi ito ang naobserbahan namin sa pagsasanay – at sa napakagandang dahilan.
Ang una ay simple: nangangailangan ito ng engineering upang mag-host at magpanatili ng isang custom na modelo, na napakamahal. Kapag ang naka-host na modelo ay nakakaranas ng down-time, ang mga sukatan ng negosyo ay maaapektuhan, kaya ang deployment ay dapat na napakatibay.
Ang isa pang dahilan ay ang mga namumuno sa industriya - tulad ng OpenAI , Google at Anthropic – ay patuloy na naglalabas ng mas bago, mas may kakayahan at mas murang mga modelo na ginagawang paulit-ulit ang anumang gawain sa fine-tuning. Ito ay naging kaso mula noong inilabas ang ChatGPT 3.5 at hindi nagpapakita ng senyales ng pagbabago.
Kung ang iyong use case ay may napakasensitibong data, makatuwirang gumamit ng modelo at i-optimize ito para sa iyong use case. Kung GDPR ang top-of-mind, maraming mga modelong wala sa istante na sumusunod sa GDPR .
Building pagkatapos piliin ang iyong LLM
Kapag nakapili ka na ng isang LLM , maaari mong simulan ang pag-iisip kung paano mo bubuo at papanatilihin ang iyong proyekto sa AI. Bilang halimbawa, kukunin ko ang uri ng proyekto na pinakapamilyar sa akin: isang ahente ng AI o AI chatbot .
Maaari mong sagutin ang mga sumusunod na tanong upang saklawin ang iyong proyekto:
- Saan ko gustong tumira ang aking ahente ng AI? ( Slack , WhatsApp , isang widget ng website, atbp.)
- Anong kaalaman ang dapat taglayin nito, nasaan ang kaalamang iyon?
- Anong mga kakayahan ang dapat mayroon ito maliban sa kaalaman sa pagsagot, kung mayroon man?
- Dapat ba itong i-activate kapag may nangyari sa isang lugar sa negosyo?
I-offload ang engineering para makatipid ng $
Ang pagpapanatili ng isang maliit na badyet ay kritikal sa paggawa ng iyong proyekto sa isang katotohanan. Isa sa mga paraan na magagawa mo iyon ay ang pagbawas ng oras ng engineering sa pamamagitan ng mga kinakailangan sa pag-decoupling.
Sa ngayon, mayroon kaming access sa mga low-code na solusyon tulad ng Flutterflow, Shopify, na maaaring gamitin ng mga tradisyunal na hindi teknikal na tungkulin tulad ng Mga Product Manager. Walang pagbubukod ang mga Chatbot, at pinapayagan ka pa ng ilang AI automation platform na gamitin ang sarili mong LLM .
Maaari mong turuan ang mga inhinyero na tumuon sa pagho-host ng LLM at pag-set up gamit ang automation platform. Pinapalaya nito ang mga analyst ng negosyo, tagapamahala ng produkto, at iba pang nauugnay na tungkulin upang bumuo ng mga ahente ng AI na nakakatugon sa mga kinakailangan sa negosyo.
Kapag may kailangan pang karagdagang, ang mga platform na ito ay karaniwang may paraan para sa mga inhinyero na magdagdag ng ilang code. Sa ganitong paraan, mapapanatili mo ang mga pakinabang ng isang custom na modelo, at makakuha ng flexibility, bilis at affordability.
Magbigay ng kalayaan sa engineering upang malutas ang mga problema sa negosyo
Sa kabilang banda, kung minsan ang mga problema sa negosyo ay napakahirap lutasin.
Pinag-uusapan natin ang ganap na network-gapped LLM mga application, on-device na app, o mga proyektong nangangailangan ng pagbibigay sa mga chatbot ng sobrang advanced na mga kakayahan na higit pa sa pag-sync ng data sa pagitan ng dalawang platform.
Sa mga kasong iyon, ang pagbibigay ng kalayaan sa mga inhinyero na gumamit ng anumang mga tool na pinakakomportable sa kanila ay may katuturan. Ito ay karaniwang pagsulat lamang ng code, at ang mga stakeholder ay kumikilos lamang bilang mga tagapamahala ng proyekto.
Mga madiskarteng pagsasaalang-alang para sa pagpapasadya ng isang LLM
Pagpili ng custom LLM para sa iyong proyekto sa AI ay hindi lamang tungkol sa pagpili ng pinakamahusay na modelo – ito ay tungkol sa paggawa ng mga madiskarteng desisyon na naaayon sa iyong mga layunin.
Nag-aalok ang mga pasadyang modelo ng flexibility, kontrol, at potensyal na mag-optimize para sa mga partikular na gawain, ngunit mayroon din silang karagdagang pagiging kumplikado. Magsimula sa isang off-the-shelf na modelo, mag-eksperimento sa agarang engineering, at unti-unting pinuhin mula doon.
Tandaan, ang tamang modelo ay dapat magkasya sa iyong mga pangangailangan sa negosyo, hindi lamang sa iyong teknolohiya stack .
Pag-customize gamit ang makapangyarihang mga platform
Handa ka na bang kunin ang iyong proyekto ng AI sa isang bingaw?
Botpress ay isang ganap na napapalawak at nababaluktot na platform ng ahente ng AI. Ang aming stack nagbibigay-daan sa mga developer na bumuo ng mga chatbot at mga ahente ng AI para sa anumang posibleng kaso ng paggamit.
Nagtatampok kami ng isang matatag na platform ng edukasyon, Botpress Academy , pati na rin ang isang detalyadong channel sa YouTube . Ang aming Discord nagho-host ng higit sa 20,000+ bot builder, kaya palagi mong makukuha ang suportang kailangan mo.
Simulan ang pagtatayo ngayon. Ito'y LIBRE.
Talaan ng mga Nilalaman
Manatiling napapanahon sa pinakabago sa mga ahente ng AI
Ibahagi ito sa: