Jak wybrać niestandardową stronę LLM dla swojego projektu AI?

Napisany przez

Patrick Hamelin

Dyrektor ds. inżynierii wzrostu @ Botpress i certyfikowany nerd AI

Spis treści

Dlaczego warto korzystać z niestandardowej strony LLM?

Wybór LLM

Wybór między RAG, dostrajaniem, uczeniem N-Shot i inżynierią monitów

Kwestie prywatności

Budowanie po wybraniu swojego LLM

Strategiczne rozważania dotyczące dostosowywania LLM

Dostosowywanie za pomocą potężnych platform

Najczęściej zadawane pytania

Podsumowanie

Niestandardowe LLMs pozwalają obniżyć koszty, chronić wrażliwe dane i poprawić wydajność specyficzną dla zadania, dzięki czemu są strategicznymi narzędziami dla dostosowanych rozwiązań biznesowych.
Rozmiar LLM wpływa zarówno na jakość, jak i koszty, więc przed podjęciem decyzji o użyciu dużych modeli, takich jak GPT, lub mniejszych, szybszych opcji, należy zrównoważyć szybkość reakcji, dokładność i budżet.
Techniki takie jak RAG, dostrajanie, uczenie się n-shot i inżynieria podpowiedzi są niezbędnymi narzędziami do dostosowywania zachowania LLM , z których każda wiąże się z kompromisami w zakresie kosztów, złożoności i konserwacji.

LLMs zmieniają sposób, w jaki tworzymy rozwiązania AI. Cały czas pojawiają się nowsze i lepsze gotowe modele.

Często zadawane mi pytanie brzmi: dlaczego ktoś powinien zdecydować się na niestandardową stronę LLM zamiast gotowego rozwiązania?

Jeśli pracujesz nad projektem AI, takim jak tworzenie agenta AI lub chatbota AI, możesz zdecydować się na użycie niestandardowego dużego modelu językowego (LLM).

Istnieje wiele powodów, dla których warto korzystać z niestandardowego LLM dla agentaLLM , a także wiele dostępnych opcji. W tym artykule przedstawię różne sposoby dostosowania LLM do projektów AI.

Dlaczego warto korzystać z niestandardowej strony LLM?

Istnieje kilka powodów, dla których warto korzystać z niestandardowej strony LLM:

Chcesz obniżyć koszty, koncentrując się na konkretnym zadaniu, które jest ważne dla Twojego biznesowego przypadku użycia, lub zminimalizować opóźnienia.
Możesz chcieć zachować wszystkie dane w tajemnicy lub skorzystać z firmowego LLM.
Możesz chcieć poprawić jakość odpowiedzi na konkretne zadanie.

Bez względu na powód, dostosowanie strony LLM pozwala zoptymalizować wydajność, równoważąc dokładność, szybkość i koszty w celu dopasowania do potrzeb biznesowych.

Budowanie sztucznej inteligencji Chatbots

Tworzenie niestandardowych chatbotów agentowych

Zacznij teraz

Wybór LLM

LLMs mają dwie cechy, które wpływają na projekty AI: ich rozmiar (mierzony liczbą parametrów) i jakość odpowiedzi.

O parametrach można myśleć jak o neuronach w mózgu. Większy mózg jest często skorelowany z byciem inteligentnym, ale nie zawsze jest to prawdą. Niektóre części mózgu mogą być wysoce zoptymalizowane pod kątem określonych zadań, takich jak widzenie.

W przypadku projektów AI rozmiar zazwyczaj wpływa na szybkość odpowiedzi i znacznie wpływa na koszt odpowiedzi. Projekty wymagające niskiego opóźnienia często wykorzystują mniejsze modele, ale kosztem jakości odpowiedzi.

O co pytać przy wyborze modelu

Oto dobra lista pytań, na które należy odpowiedzieć przy wyborze modelu:

Czy mogę korzystać z opartej na chmurze strony LLM , czy też muszę hostować ją samodzielnie?
Jak szybkich odpowiedzi potrzebuję?
Jak dokładnych odpowiedzi potrzebuję?
Ile dolarów mój projekt zaoszczędzi i/lub wygeneruje? Następnie, poniżej jakiej ceny powinien on spaść?
Jak długie powinny być moje odpowiedzi?

Ogólnie rzecz biorąc, trudno jest przyspieszyć potężny model lub obniżyć jego koszty, a łatwiej jest ulepszyć mniej dokładny model.

Jednak rozpoczęcie pracy z potężnym modelem jest znacznie szybsze, a jeśli spełnia on potrzeby projektu, może nie wymagać tak dużego wysiłku inżynieryjnego (a ponadto jest łatwiejszy w utrzymaniu).

Wybór między RAG, dostrajaniem, uczeniem N-Shot i inżynierią monitów

Istnieje pięć ogólnych koncepcji, które poprawiają jakość odpowiedzi LLM :

Począwszy od wstępnie wytrenowanego modelu
RAG
Dokładne dostrojenie
Podpowiedź N-shot
Szybka inżynieria

Nie są one specyficzne dla korzystania z niestandardowych modeli, ale należy je rozważyć niezależnie od tego, ponieważ działają one ręka w rękę ze sobą.

Zaczynając od modelu

Pierwszą rzeczą, którą powinieneś zrobić, jest wybranie modelu startowego. Istnieje wiele rankingów online, które porównują różne modele.

Na przykład:

Hugging Face prowadzi ranking modeli open source.
Vellum ma doskonałe rozwiązanie dla bardziej popularnych modeli.

Jeśli Twoja firma posiada model wewnętrzny, rozważ skorzystanie z niego, aby zmieścić się w budżecie i zachować prywatność danych. Jeśli musisz samodzielnie hostować model, rozważ model open-source.

Grafika zawierająca 4 sposoby dostosowania strony LLM.

Dostrajanie

Dostrajanie polega na dostarczaniu modelowi przykładów, aby nauczył się, jak dobrze wykonać określone zadanie. Jeśli chcesz, by model doskonalił się w mówieniu o Twoim produkcie, możesz dostarczyć mu szereg przykładów najlepszych rozmów sprzedażowych Twojej firmy.

Jeśli model jest open source, zadaj sobie pytanie, czy Twój zespół ma wystarczające możliwości inżynieryjne, aby dopracować model.

Jeśli model jest zamknięty i dostarczany jako usługa - GPT-4 lub Claude - wówczas zazwyczaj można zlecić inżynierom dostosowanie niestandardowych modeli za pomocą interfejsów API. Cena zwykle znacznie wzrasta dzięki tej metodzie, ale konserwacja jest niewielka lub żadna.

Jednak w wielu przypadkach dostrajanie nie jest pierwszym krokiem w kierunku optymalizacji modelu.

Doskonałym przykładem dostrajania jest budowanie bota wiedzy dla wiedzy statycznej. Podając przykłady pytań i odpowiedzi, powinien on być w stanie odpowiedzieć na nie w przyszłości bez konieczności wyszukiwania odpowiedzi. Nie jest to jednak praktyczne rozwiązanie dla informacji w czasie rzeczywistym.

Generowanie wspomagane odzyskiwaniem

RAG to fantazyjna nazwa prostej czynności, którą wszyscy wykonaliśmy w ChatGPT: wklejenie tekstu do ChatGPT i zadanie pytania na jego temat.

Typowym przykładem jest pytanie, czy dany produkt jest dostępny w magazynie w witrynie e-commerce, a chatbot wyszukuje informacje w katalogu produktów (zamiast w Internecie).

Pod względem szybkości rozwoju i uzyskiwania informacji w czasie rzeczywistym, RAG jest koniecznością.

Zwykle nie ma to wpływu na to, który model wybierzesz, jednak nic nie stoi na przeszkodzie, aby utworzyć punkt końcowy API LLM , który zapyta o informacje i odpowiedzi, i używać tego punktu końcowego tak, jakby był to jego własny LLM.

Korzystanie z RAG dla chatbota opartego na wiedzy jest często łatwiejsze w utrzymaniu, ponieważ nie trzeba dopracowywać modelu i aktualizować go - co może również obniżyć koszty.

Wdrażanie agentów AI?

Przeczytaj nasz plan wdrożenia agenta AI

Czytaj teraz

N-strzałowe uczenie się

Najszybszym sposobem na rozpoczęcie poprawy jakości odpowiedzi jest dostarczenie przykładów w pojedynczym wywołaniu API LLM .

Zero-shot - podawanie zerowych przykładów tego, czego szukasz w odpowiedzi - to sposób, w jaki większość z nas korzysta z ChatGPT. Dodanie jednego przykładu (lub jednego strzału) zwykle wystarcza, aby zauważyć znaczną poprawę jakości odpowiedzi.

Więcej niż jeden przykład jest uważany za n-shot. N-shot nie zmienia modelu, w przeciwieństwie do dostrajania. Po prostu podajesz przykłady tuż przed poproszeniem o odpowiedź, za każdym razem, gdy zadajesz pytanie.

Nie można jednak nadużywać tej strategii: modele LLM mają maksymalny rozmiar kontekstu i są wyceniane zgodnie z rozmiarem wiadomości. Precyzyjne dostrojenie może wyeliminować potrzebę n-strzałowych przykładów, ale zajmuje więcej czasu.

Inne szybkie techniki inżynieryjne

Istnieją inne techniki inżynierii podpowiedzi, takie jak łańcuch myśli, które zmuszają modele do głośnego myślenia przed udzieleniem odpowiedzi.

Zwiększa to jakość odpowiedzi, ale kosztem jej długości, kosztu i szybkości.

Moja rekomendacja

Chociaż każdy projekt będzie miał swoje unikalne potrzeby, dam swoje dwa grosze na temat zdecydowanego podejścia.

Dobrym miejscem do rozpoczęcia jest użycie gotowego modelu, który równoważy szybkość i jakość, takiego jak GPT-4o Mini. Zacznij od przyjrzenia się jakości odpowiedzi, szybkości reakcji, kosztom, potrzebom okna kontekstowego i zdecyduj, co należy poprawić.

Następnie, przy wąskim przypadku użycia, można wypróbować prostą inżynierię podpowiedzi, a następnie RAG i wreszcie dostrajanie. Każdy model, który przejdzie przez te etapy, zyska na wydajności, więc ustalenie, czego użyć, może być trudne.

Kwestie prywatności

W idealnym świecie każda strona LLM byłaby w 100% pod kontrolą użytkownika i nic nie byłoby nigdzie ujawniane.

Niestety, nie jest to to, co obserwujemy w praktyce - i to z bardzo dobrych powodów.

Pierwszy z nich jest prosty: wymaga to od inżynierów hostowania i utrzymywania niestandardowego modelu, co jest bardzo kosztowne. Kiedy hostowany model doświadcza przestojów, ma to wpływ na wskaźniki biznesowe, więc wdrożenie powinno być bardzo solidne.

Innym powodem jest to, że liderzy branży - tacy jak OpenAI, Google i Anthropic - stale wypuszczają nowsze, bardziej wydajne i tańsze modele, które sprawiają, że wszelkie prace nad dostrajaniem są zbędne. Dzieje się tak od czasu wydania ChatGPT 3.5 i nic nie wskazuje na to, by miało się to zmienić.

Jeśli Twój przypadek użycia zawiera wyjątkowo wrażliwe dane, warto użyć modelu i zoptymalizować go pod kątem danego przypadku użycia. Jeśli RODO jest najważniejsze, istnieje wiele gotowych modeli, które są zgodne z RODO.

Budowanie po wybraniu swojego LLM

Po wybraniu strony LLM możesz zacząć zastanawiać się, w jaki sposób zbudujesz i utrzymasz swój projekt AI. Jako przykład wezmę typ projektu, z którym jestem najbardziej zaznajomiony: agenta AI lub chatbota AI.

Możesz odpowiedzieć na poniższe pytania, aby określić zakres swojego projektu:

Gdzie chciałbym, aby mieszkał mój agent AI?Slack, WhatsAppwidżet na stronie internetowej itp.)
Jaką wiedzę powinien posiadać, gdzie jest ta wiedza?
Jakie powinien mieć możliwości poza odpowiadaniem na pytania?
Czy powinien się aktywować, gdy coś dzieje się w firmie?

Odciążenie inżynierii, aby zaoszczędzić pieniądze

Utrzymanie niskiego budżetu ma kluczowe znaczenie dla urzeczywistnienia projektu. Jednym ze sposobów na to jest skrócenie czasu prac inżynieryjnych poprzez rozdzielenie wymagań.

Obecnie mamy dostęp do rozwiązań low-code, takich jak Flutterflow, Shopify, które mogą być wykorzystywane przez tradycyjnie nietechniczne role, takie jak Product Managerowie. Chatboty nie są wyjątkiem, a niektóre platformy automatyzacji AI pozwalają nawet na korzystanie z własnego LLM.

Możesz poinstruować inżynierów, aby skupili się na hostowaniu LLM i konfiguracji z platformą automatyzacji. Dzięki temu analitycy biznesowi, menedżerowie produktu i inne powiązane role mogą tworzyć agentów AI, którzy spełniają wymagania biznesowe.

Gdy wymagane jest coś dodatkowego, platformy te zazwyczaj umożliwiają inżynierom dodanie kodu. W ten sposób można zachować zalety niestandardowego modelu, a jednocześnie zyskać elastyczność, szybkość i przystępną cenę.

Zapewnienie inżynierom swobody w rozwiązywaniu problemów biznesowych

Z drugiej strony, czasami problemy biznesowe są po prostu bardzo trudne do rozwiązania.

Mówimy tu o w pełni zintegrowanych z siecią aplikacjach LLM , aplikacjach na urządzenia lub projektach wymagających nadania chatbotom niezwykle zaawansowanych możliwości, które wykraczają poza synchronizację danych między dwiema platformami.

W takich przypadkach pozostawienie inżynierom swobody korzystania z narzędzi, które są dla nich najwygodniejsze, ma sens. Zazwyczaj jest to po prostu pisanie kodu, a interesariusze działają po prostu jako kierownicy projektu.

Strategiczne rozważania dotyczące dostosowywania LLM

Wybór niestandardowego LLM dla projektu AI to nie tylko wybór najlepszego modelu - to podejmowanie strategicznych decyzji, które są zgodne z celami firmy.

Modele niestandardowe oferują elastyczność, kontrolę i możliwość optymalizacji pod kątem konkretnych zadań, ale wiążą się również z dodatkową złożonością. Zacznij od gotowego modelu, eksperymentuj z szybką inżynierią i stopniowo udoskonalaj.

Należy pamiętać, że odpowiedni model powinien odpowiadać potrzebom biznesowym, a nie tylko technologicznym stack.

Dostosowywanie za pomocą potężnych platform

Gotowy, by przenieść swój projekt AI na wyższy poziom?

Botpress to w pełni rozszerzalna i elastyczna platforma agentów AI. Nasz stack pozwala programistom tworzyć chatboty i agentów AI dla każdego możliwego przypadku użycia.

Posiadamy solidną platformę edukacyjną, Botpress Academya także szczegółowy kanał YouTube. Na naszej stronie Discord znajduje się ponad 20 000+ twórców botów, dzięki czemu zawsze możesz uzyskać potrzebne wsparcie.

Zacznijbudować już dziś. To nic nie kosztuje.

Budowanie sztucznej inteligencji Chatbots

Tworzenie niestandardowych chatbotów agentowych

Zacznij teraz

Najczęściej zadawane pytania

1. Jak ocenić zwrot z inwestycji w niestandardowy LLM dla mojej firmy?

To evaluate the ROI of investing in a custom LLM for your business, compare total costs (e.g., infrastructure, developer time, fine-tuning, and hosting) against measurable gains like labor reduction and conversion lift.

2. Jakie wskaźniki KPI należy śledzić, aby zmierzyć skuteczność niestandardowego LLM?

You should track KPIs such as response accuracy (precision/recall or task completion), latency (average response time), user satisfaction (CSAT/NPS), containment or resolution rate, and cost per interaction. These metrics reflect the technical performance of the model and its impact on business outcomes.

3. Jak mogę oszacować długoterminowe koszty utrzymania niestandardowego rozwiązania LLM ?

To estimate long-term maintenance costs for a custom LLM solution, include expenses for infrastructure (cloud compute, storage), engineering updates, retraining or fine-tuning frequency, monitoring tools, and adapting to regulatory changes. If your business data evolves rapidly, expect higher retraining and validation overhead over time.

4. Jak mogę porównać różne LLMs dla mojej konkretnej branży lub dziedziny?

Benchmark different LLMs by testing them with representative, domain-specific prompts and comparing their performance on accuracy, clarity, tone, and task relevance. You can use internal datasets or apply open-source industry benchmarks like FinancialQA or MedQA depending on your sector.

5. Jakie standardy zgodności powinien spełniać niestandardowy LLM , jeśli przetwarzam dane użytkowników?

If you’re handling user data, your custom LLM should meet standards like GDPR (for EU data privacy), SOC 2 Type II (for operational security), and HIPAA (if handling healthcare data). The LLM provider should offer features like role-based access, data encryption in transit and at rest, audit logging, and clear policies for data retention and deletion.