LLMs zmieniają sposób, w jaki tworzymy rozwiązania AI. Cały czas pojawiają się nowsze i lepsze gotowe modele.
Często zadawane mi pytanie brzmi: dlaczego ktoś powinien zdecydować się na niestandardową stronę LLM zamiast gotowego rozwiązania?
Jeśli pracujesz nad projektem AI, takim jak tworzenie agenta AI lub chatbota AI, możesz zdecydować się na użycie niestandardowego dużego modelu językowego (LLM).
Istnieje wiele powodów, dla których warto korzystać z niestandardowego LLM, a także wiele dostępnych opcji. W tym artykule przedstawię różne sposoby dostosowania strony LLM do projektów AI.
Dlaczego warto korzystać z niestandardowej strony LLM?
Istnieje kilka powodów, dla których warto korzystać z niestandardowej strony LLM:
- Chcesz obniżyć koszty, koncentrując się na konkretnym zadaniu, które jest ważne dla Twojego biznesowego przypadku użycia, lub zminimalizować opóźnienia.
- Możesz chcieć zachować wszystkie dane w tajemnicy lub skorzystać z firmowego LLM.
- Możesz chcieć poprawić jakość odpowiedzi na konkretne zadanie.
Bez względu na powód, dostosowanie strony LLM pozwala zoptymalizować wydajność, równoważąc dokładność, szybkość i koszty w celu dopasowania do potrzeb biznesowych.
Wybór LLM
LLMs mają dwie cechy, które wpływają na projekty AI: ich rozmiar (mierzony liczbą parametrów) i jakość odpowiedzi.
O parametrach można myśleć jak o neuronach w mózgu. Większy mózg jest często skorelowany z byciem inteligentnym, ale nie zawsze jest to prawdą. Niektóre części mózgu mogą być wysoce zoptymalizowane pod kątem określonych zadań, takich jak widzenie.
W przypadku projektów AI rozmiar zazwyczaj wpływa na szybkość odpowiedzi i znacznie wpływa na koszt odpowiedzi. Projekty wymagające niskiego opóźnienia często wykorzystują mniejsze modele, ale kosztem jakości odpowiedzi.
O co pytać przy wyborze modelu
Oto dobra lista pytań, na które należy odpowiedzieć przy wyborze modelu:
- Czy mogę korzystać z opartej na chmurze strony LLM , czy też muszę hostować ją samodzielnie?
- Jak szybkich odpowiedzi potrzebuję?
- Jak dokładnych odpowiedzi potrzebuję?
- Ile dolarów mój projekt zaoszczędzi i/lub wygeneruje? Następnie, poniżej jakiej ceny powinien on spaść?
- Jak długie powinny być moje odpowiedzi?
Ogólnie rzecz biorąc, trudno jest przyspieszyć potężny model lub obniżyć jego koszty, a łatwiej jest ulepszyć mniej dokładny model.
Jednak rozpoczęcie pracy z potężnym modelem jest znacznie szybsze, a jeśli spełnia on potrzeby projektu, może nie wymagać tak dużego wysiłku inżynieryjnego (a ponadto jest łatwiejszy w utrzymaniu).
Wybór między RAG, dostrajaniem, uczeniem N-Shot i inżynierią monitów
Istnieje pięć ogólnych koncepcji, które poprawiają jakość odpowiedzi LLM :
- Począwszy od wstępnie wytrenowanego modelu
- RAG
- Dokładne dostrojenie
- Podpowiedź N-shot
- Szybka inżynieria
Nie są one specyficzne dla korzystania z niestandardowych modeli, ale należy je rozważyć niezależnie od tego, ponieważ działają one ręka w rękę ze sobą.
Zaczynając od modelu
Pierwszą rzeczą, którą powinieneś zrobić, jest wybranie modelu startowego. Istnieje wiele rankingów online, które porównują różne modele.
Na przykład:
- Hugging Face prowadzi ranking modeli open source.
- Vellum ma doskonałe rozwiązanie dla bardziej popularnych modeli.
Jeśli Twoja firma posiada model wewnętrzny, rozważ skorzystanie z niego, aby zmieścić się w budżecie i zachować prywatność danych. Jeśli musisz samodzielnie hostować model, rozważ model open-source.
Dostrajanie
Dostrajanie polega na dostarczaniu modelowi przykładów, aby nauczył się, jak dobrze wykonać określone zadanie. Jeśli chcesz, by model doskonalił się w mówieniu o Twoim produkcie, możesz dostarczyć mu szereg przykładów najlepszych rozmów sprzedażowych Twojej firmy.
Jeśli model jest open source, zadaj sobie pytanie, czy Twój zespół ma wystarczające możliwości inżynieryjne, aby dopracować model.
Jeśli model jest zamknięty i dostarczany jako usługa - GPT-4 lub Claude - wówczas zazwyczaj można zlecić inżynierom dostosowanie niestandardowych modeli za pomocą interfejsów API. Cena zwykle znacznie wzrasta dzięki tej metodzie, ale konserwacja jest niewielka lub żadna.
Jednak w wielu przypadkach dostrajanie nie jest pierwszym krokiem w kierunku optymalizacji modelu.
Doskonałym przykładem dostrajania jest budowanie bota wiedzy dla wiedzy statycznej. Podając przykłady pytań i odpowiedzi, powinien on być w stanie odpowiedzieć na nie w przyszłości bez konieczności wyszukiwania odpowiedzi. Nie jest to jednak praktyczne rozwiązanie dla informacji w czasie rzeczywistym.
Generowanie wspomagane odzyskiwaniem
RAG to fantazyjna nazwa prostej czynności, którą wszyscy wykonaliśmy w ChatGPT: wklejenie tekstu do ChatGPT i zadanie pytania na jego temat.
Typowym przykładem jest pytanie, czy dany produkt jest dostępny w magazynie w witrynie e-commerce, a chatbot wyszukuje informacje w katalogu produktów (zamiast w Internecie).
Pod względem szybkości rozwoju i uzyskiwania informacji w czasie rzeczywistym, RAG jest koniecznością.
Zwykle nie ma to wpływu na to, który model wybierzesz, jednak nic nie stoi na przeszkodzie, aby utworzyć punkt końcowy API LLM , który zapyta o informacje i odpowiedzi, i używać tego punktu końcowego tak, jakby był to jego własny LLM.
Korzystanie z RAG dla chatbota opartego na wiedzy jest często łatwiejsze w utrzymaniu, ponieważ nie trzeba dopracowywać modelu i aktualizować go - co może również obniżyć koszty.
N-strzałowe uczenie się
Najszybszym sposobem na rozpoczęcie poprawy jakości odpowiedzi jest dostarczenie przykładów w pojedynczym wywołaniu API LLM .
Zero-shot - podawanie zerowych przykładów tego, czego szukasz w odpowiedzi - to sposób, w jaki większość z nas korzysta z ChatGPT. Dodanie jednego przykładu (lub jednego strzału) zwykle wystarcza, aby zauważyć znaczną poprawę jakości odpowiedzi.
Więcej niż jeden przykład jest uważany za n-shot. N-shot nie zmienia modelu, w przeciwieństwie do dostrajania. Po prostu podajesz przykłady tuż przed poproszeniem o odpowiedź, za każdym razem, gdy zadajesz pytanie.
Nie można jednak nadużywać tej strategii: modele LLM mają maksymalny rozmiar kontekstu i są wyceniane zgodnie z rozmiarem wiadomości. Precyzyjne dostrojenie może wyeliminować potrzebę n-strzałowych przykładów, ale zajmuje więcej czasu.
Inne szybkie techniki inżynieryjne
Istnieją inne techniki inżynierii podpowiedzi, takie jak łańcuch myśli, które zmuszają modele do głośnego myślenia przed udzieleniem odpowiedzi.
Zwiększa to jakość odpowiedzi, ale kosztem jej długości, kosztu i szybkości.
Moja rekomendacja
Chociaż każdy projekt będzie miał swoje unikalne potrzeby, dam swoje dwa grosze na temat zdecydowanego podejścia.
Dobrym miejscem do rozpoczęcia jest użycie gotowego modelu, który równoważy szybkość i jakość, takiego jak GPT-4o Mini. Zacznij od przyjrzenia się jakości odpowiedzi, szybkości reakcji, kosztom, potrzebom okna kontekstowego i zdecyduj, co należy poprawić.
Następnie, przy wąskim przypadku użycia, można wypróbować prostą inżynierię podpowiedzi, a następnie RAG i wreszcie dostrajanie. Każdy model, który przejdzie przez te etapy, zyska na wydajności, więc ustalenie, czego użyć, może być trudne.
Kwestie prywatności
W idealnym świecie każda strona LLM byłaby w 100% pod kontrolą użytkownika i nic nie byłoby nigdzie ujawniane.
Niestety, nie jest to to, co obserwujemy w praktyce - i to z bardzo dobrych powodów.
Pierwszy z nich jest prosty: wymaga to od inżynierów hostowania i utrzymywania niestandardowego modelu, co jest bardzo kosztowne. Kiedy hostowany model doświadcza przestojów, ma to wpływ na wskaźniki biznesowe, więc wdrożenie powinno być bardzo solidne.
Innym powodem jest to, że liderzy branży - tacy jak OpenAI, Google i Anthropic - stale wypuszczają nowsze, bardziej wydajne i tańsze modele, które sprawiają, że wszelkie prace nad dostrajaniem stają się zbędne. Dzieje się tak od czasu wydania ChatGPT 3.5 i nic nie wskazuje na to, by miało się to zmienić.
Jeśli Twój przypadek użycia zawiera wyjątkowo wrażliwe dane, warto użyć modelu i zoptymalizować go pod kątem danego przypadku użycia. Jeśli RODO jest najważniejsze, istnieje wiele gotowych modeli, które są zgodne z RODO.
Budowanie po wybraniu swojego LLM
Po wybraniu strony LLM możesz zacząć zastanawiać się, w jaki sposób zbudujesz i utrzymasz swój projekt AI. Jako przykład wezmę typ projektu, z którym jestem najbardziej zaznajomiony: agenta AI lub chatbota AI.
Możesz odpowiedzieć na poniższe pytania, aby określić zakres swojego projektu:
- Gdzie chciałbym, aby mieszkał mój agent AI? (Slack, WhatsApp, widżet strony internetowej itp.)
- Jaką wiedzę powinien posiadać, gdzie jest ta wiedza?
- Jakie powinien mieć możliwości poza odpowiadaniem na pytania?
- Czy powinien się aktywować, gdy coś dzieje się w firmie?
Odciążenie inżynierii, aby zaoszczędzić pieniądze
Utrzymanie niskiego budżetu ma kluczowe znaczenie dla urzeczywistnienia projektu. Jednym ze sposobów na to jest skrócenie czasu prac inżynieryjnych poprzez rozdzielenie wymagań.
Obecnie mamy dostęp do rozwiązań niskokodowych, takich jak Flutterflow, Shopify, które mogą być wykorzystywane przez tradycyjnie nietechniczne role, takie jak menedżerowie produktu. Chatboty nie są wyjątkiem, a niektóre platformy automatyzacji AI pozwalają nawet na korzystanie z własnych LLM.
Inżynierowie mogą skupić się na hostowaniu strony LLM i konfiguracji z platformą automatyzacji. Dzięki temu analitycy biznesowi, menedżerowie produktu i inne powiązane role mogą tworzyć agentów AI, którzy spełniają wymagania biznesowe.
Gdy wymagane jest coś dodatkowego, platformy te zazwyczaj umożliwiają inżynierom dodanie kodu. W ten sposób można zachować zalety niestandardowego modelu, a jednocześnie zyskać elastyczność, szybkość i przystępną cenę.
Zapewnienie inżynierom swobody w rozwiązywaniu problemów biznesowych
Z drugiej strony, czasami problemy biznesowe są po prostu bardzo trudne do rozwiązania.
Mówimy tu o w pełni zintegrowanych z siecią aplikacjach LLM , aplikacjach na urządzenia lub projektach wymagających nadania chatbotom niezwykle zaawansowanych możliwości, które wykraczają poza synchronizację danych między dwiema platformami.
W takich przypadkach pozostawienie inżynierom swobody korzystania z narzędzi, które są dla nich najwygodniejsze, ma sens. Zazwyczaj jest to po prostu pisanie kodu, a interesariusze działają po prostu jako kierownicy projektu.
Strategiczne rozważania dotyczące dostosowywania LLM
Wybór niestandardowego LLM dla projektu AI to nie tylko wybór najlepszego modelu - to podejmowanie strategicznych decyzji, które są zgodne z celami firmy.
Modele niestandardowe oferują elastyczność, kontrolę i możliwość optymalizacji pod kątem konkretnych zadań, ale wiążą się również z dodatkową złożonością. Zacznij od gotowego modelu, eksperymentuj z szybką inżynierią i stopniowo udoskonalaj.
Należy pamiętać, że odpowiedni model powinien odpowiadać potrzebom biznesowym, a nie tylko technologicznym stack.
Dostosowywanie za pomocą potężnych platform
Gotowy, by przenieść swój projekt AI na wyższy poziom?
Botpress to w pełni rozszerzalna i elastyczna platforma agentów AI. Nasz stack pozwala programistom tworzyć chatboty i agentów AI dla każdego możliwego przypadku użycia.
Posiadamy solidną platformę edukacyjną, Botpress Academya także szczegółowy kanał YouTube. Na naszej stronie Discord znajduje się ponad 20 000+ twórców botów, dzięki czemu zawsze możesz uzyskać potrzebne wsparcie.
Zacznijbudować już dziś. To nic nie kosztuje.
Spis treści
Bądź na bieżąco z najnowszymi informacjami na temat agentów AI
Udostępnij to na: