LLMs verändern die Art und Weise, wie wir KI-Lösungen entwickeln. Ständig werden neue und bessere Standardmodelle auf den Markt gebracht.
Eine Frage, die mir oft gestellt wird, lautet: Warum sollte man sich für eine maßgeschneiderte LLM anstelle einer vorgefertigten Lösung entscheiden?
Wenn Sie an einem KI-Projekt arbeiten, z. B. am Aufbau eines KI-Agenten oder eines KI-Chatbots, können Sie sich für die Verwendung eines angepassten großen Sprachmodells entscheiden (LLM).
Es gibt viele Gründe, ein benutzerdefiniertes LLM zu verwenden, und es stehen Ihnen viele Optionen zur Verfügung. In diesem Artikel zeige ich Ihnen die verschiedenen Möglichkeiten zur Anpassung von LLM für KI-Projekte.
Warum eine benutzerdefinierte LLM verwenden?
Es gibt mehrere Gründe, eine benutzerdefinierte LLM zu verwenden:
- Sie möchten die Kosten senken, indem Sie sich auf eine bestimmte Aufgabe konzentrieren, die für Ihren geschäftlichen Anwendungsfall wichtig ist, oder die Latenzzeit minimieren.
- Vielleicht möchten Sie alle Daten für sich behalten oder die firmeneigene Website LLM nutzen.
- Vielleicht möchten Sie die Qualität der Antworten für eine bestimmte Aufgabe verbessern.
Was auch immer der Grund sein mag, die Anpassung Ihrer LLM ermöglicht es Ihnen, die Leistung zu optimieren und ein Gleichgewicht zwischen Genauigkeit, Geschwindigkeit und Kosten herzustellen, das Ihren geschäftlichen Anforderungen entspricht.
Auswählen einer LLM
LLMs haben zwei Eigenschaften, die sich auf KI-Projekte auswirken: ihre Größe (gemessen an der Anzahl der Parameter) und die Qualität der Antworten.
Sie können sich die Parameter wie Neuronen in einem Gehirn vorstellen. Ein größeres Gehirn wird oft mit Intelligenz in Verbindung gebracht, aber das stimmt nicht immer. Und Teile des Gehirns können für bestimmte Aufgaben wie das Sehen hoch optimiert sein.
Bei KI-Projekten wirkt sich die Größe in der Regel auf die Reaktionsgeschwindigkeit aus, und sie beeinflusst die Kosten der Antworten erheblich. Bei Projekten, die eine geringe Latenzzeit erfordern, werden häufig kleinere Modelle verwendet, was jedoch auf Kosten der Qualität der Antworten geht.
Was Sie bei der Auswahl eines Modells beachten sollten
Hier ist eine gute Liste von Fragen, die Sie bei der Auswahl eines Modells beantworten können:
- Kann ich eine Cloud-basierte LLM nutzen oder muss ich sie selbst hosten?
- Wie schnell müssen die Antworten sein?
- Wie genau müssen die Antworten sein?
- Wie viel $$ wird mein Projekt einsparen und/oder generieren? Unter welchen Preis sollte es dann fallen?
- Wie lang müssen meine Antworten sein?
Im Allgemeinen ist es schwierig, ein leistungsfähiges Modell zu beschleunigen oder seine Kosten zu senken, und es ist einfacher, ein weniger genaues Modell zu verbessern.
Es ist jedoch viel schneller, mit einem leistungsfähigen Modell zu beginnen, und wenn es die Anforderungen Ihres Projekts erfüllt, ist möglicherweise nicht so viel technischer Aufwand erforderlich (außerdem ist es einfacher zu warten).
Die Wahl zwischen RAG, Feinabstimmung, N-Shot-Lernen und Prompt Engineering
Es gibt fünf allgemeine Konzepte, die die Qualität der Antworten auf LLM verbessern:
- Ausgehend von einem vortrainierten Modell
- RAG
- Feinabstimmung
- N-Schuss-Eingabeaufforderung
- Schnelles Engineering
Diese sind nicht spezifisch für die Verwendung benutzerdefinierter Modelle, aber Sie sollten sie trotzdem berücksichtigen, da sie Hand in Hand miteinander arbeiten.
Ausgehend von einem Modell
Als Erstes sollten Sie sich für ein Startmodell entscheiden. Im Internet gibt es zahlreiche Ranglisten, in denen die verschiedenen Modelle verglichen werden.
Zum Beispiel:
- Hugging Face unterhält eine Rangliste für Open-Source-Modelle.
- Vellum hat ein hervorragendes Angebot für die gängigsten Modelle.
Wenn Ihr Unternehmen über ein firmeninternes Modell verfügt, sollten Sie es verwenden, um Ihr Budget zu schonen und die Daten geheim zu halten. Wenn Sie das Modell selbst hosten müssen, sollten Sie ein Open-Source-Modell in Betracht ziehen.
Feinabstimmung
Zur Feinabstimmung gehört, dass Sie Ihrem Modell Beispiele geben, damit es lernt, wie es eine bestimmte Aufgabe gut erledigen kann. Wenn Sie möchten, dass das Modell besonders gut über Ihr Produkt spricht, können Sie ihm eine Reihe von Beispielen für die besten Verkaufsgespräche Ihres Unternehmens geben.
Wenn es sich um ein quelloffenes Modell handelt, sollten Sie sich fragen, ob Ihr Team über genügend technische Kapazitäten verfügt, um ein Modell fein abzustimmen.
Wenn es sich um ein Closed-Source-Modell handelt, das als Dienstleistung angeboten wird ( GPT-4 oder Claude), können Sie Ihre Ingenieure in der Regel mit Hilfe von APIs eine Feinabstimmung der benutzerdefinierten Modelle vornehmen lassen. Der Preis steigt durch diese Methode in der Regel erheblich, aber es gibt wenig bis keine Wartung.
Aber für viele Anwendungsfälle ist die Feinabstimmung nicht der erste Schritt zur Optimierung Ihres Modells.
Ein guter Fall für die Feinabstimmung ist der Aufbau eines Wissensbot für statisches Wissen. Durch die Angabe von Beispielen für Fragen und Antworten sollte er in der Lage sein, diese in Zukunft zu beantworten, ohne die Antwort nachschlagen zu müssen. Aber das ist keine praktische Lösung für Echtzeit-Informationen.
Abruf-erweiterte Generierung
RAG ist ein ausgefallener Name für eine einfache Sache, die wir alle auf ChatGPT gemacht haben: einen Text in ChatGPT einfügen und eine Frage dazu stellen.
Ein typisches Beispiel ist die Frage, ob ein bestimmtes Produkt auf einer E-Commerce-Website vorrätig ist, und ein Chatbot, der diese Information in einem Produktkatalog (statt im Internet) nachschlägt.
Im Hinblick auf die Geschwindigkeit der Entwicklung und den Erhalt von Echtzeitinformationen ist RAG ein Muss.
Es hat normalerweise keinen Einfluss darauf, welches Modell Sie wählen, aber nichts hindert Sie daran, einen LLM API-Endpunkt zu erstellen, der Informationen und Antworten abfragt, und diesen Endpunkt so zu verwenden, als wäre er ein eigener LLM.
Die Verwendung von RAG für einen wissensbasierten Chatbot ist oft einfacher zu pflegen, da Sie das Modell nicht feinabstimmen und auf dem neuesten Stand halten müssen - was auch die Kosten senken kann.
N-Schuss-Lernen
Der schnellste Weg, die Qualität der Antworten zu verbessern, ist die Bereitstellung von Beispielen in einem einzigen LLM API-Aufruf.
Die meisten von uns verwenden ChatGPT, wenn sie keine Beispiele für das, was sie in einer Antwort suchen, angeben. Das Hinzufügen eines Beispiels (oder eines One-Shots) reicht in der Regel aus, um eine wesentliche Verbesserung der Antwortqualität zu erzielen.
Mehr als ein Beispiel wird als n-shot betrachtet. N-shot ändert das Modell nicht, im Gegensatz zur Feinabstimmung. Sie geben einfach Beispiele, bevor Sie um eine Antwort bitten, jedes Mal, wenn Sie eine Frage stellen.
Diese Strategie darf jedoch nicht überstrapaziert werden: LLM Modelle haben eine maximale Kontextgröße und werden nach der Größe der Nachricht berechnet. Eine Feinabstimmung kann die Notwendigkeit von n-shot-Beispielen beseitigen, erfordert aber mehr Zeit, um richtig zu sein.
Andere Prompt-Engineering-Techniken
Es gibt noch andere Prompt-Engineering-Techniken, wie z. B. die Gedankenkette, die die Modelle dazu zwingt, laut zu denken, bevor sie eine Antwort geben.
Dies erhöht die Qualität der Antwort, allerdings auf Kosten der Antwortdauer, der Kosten und der Geschwindigkeit.
Meine Empfehlung
Auch wenn jedes Projekt seine eigenen Bedürfnisse hat, möchte ich meine Meinung zu einem soliden Ansatz äußern.
Ein guter Anfang ist die Verwendung eines Standardmodells, das Geschwindigkeit und Qualität in Einklang bringt, wie GPT-4o Mini. Betrachten Sie zunächst die Qualität der Antworten, die Reaktionsgeschwindigkeit, die Kosten und die Anforderungen des Kontextfensters und entscheiden Sie dann, was davon verbessert werden muss.
Bei einem engen Anwendungsfall können Sie dann eine einfache Eingabeaufforderungstechnik ausprobieren, gefolgt von RAG und schließlich einer Feinabstimmung. Jedes Modell, das diese Schritte durchläuft, bringt Leistungssteigerungen mit sich, so dass es schwierig sein kann, herauszufinden, was zu verwenden ist.
Überlegungen zum Datenschutz
In einer idealen Welt wäre jede LLM zu 100 % unter Ihrer eigenen Kontrolle, und nichts würde irgendwo aufgedeckt werden.
Leider ist dies in der Praxis nicht der Fall - und das aus sehr guten Gründen.
Die erste ist einfach: Es erfordert die Entwicklung, ein benutzerdefiniertes Modell zu hosten und zu pflegen, was sehr kostspielig ist. Wenn das gehostete Modell ausfällt, wirkt sich dies auf die Geschäftsmetriken aus, so dass die Bereitstellung sehr stabil sein sollte.
Ein weiterer Grund ist, dass die Branchenführer - wie OpenAI, Google und Anthropic - ständig neuere, leistungsfähigere und billigere Modelle auf den Markt bringen, die jede Arbeit an der Feinabstimmung überflüssig machen. Dies ist seit der Veröffentlichung von ChatGPT 3.5 der Fall und es gibt keine Anzeichen dafür, dass sich dies ändert.
Wenn Ihr Anwendungsfall extrem sensible Daten enthält, ist es sinnvoll, ein Modell zu verwenden und es für Ihren Anwendungsfall zu optimieren. Wenn GDPR ein wichtiges Thema ist, gibt es eine Vielzahl von Standardmodellen, die GDPR-konform sind.
Gebäude nach Auswahl Ihrer LLM
Sobald Sie eine LLM ausgewählt haben, können Sie sich Gedanken darüber machen, wie Sie Ihr KI-Projekt aufbauen und pflegen wollen. Als Beispiel nehme ich die Art von Projekt, mit der ich am meisten vertraut bin: einen KI-Agenten oder KI-Chatbot.
Sie können die folgenden Fragen beantworten, um Ihr Projekt einzugrenzen:
- Wo möchte ich meinen KI-Agenten unterbringen? (Slack, WhatsApp, ein Website-Widget, usw.)
- Welches Wissen sollte sie haben, wo ist dieses Wissen?
- Welche anderen Fähigkeiten als die Beantwortung von Fragen sollte sie haben, wenn überhaupt?
- Soll sie aktiviert werden, wenn irgendwo im Unternehmen etwas passiert?
Technik auslagern, um $ zu sparen
Die Einhaltung eines schlanken Budgets ist entscheidend für die Verwirklichung Ihres Projekts. Eine Möglichkeit, dies zu erreichen, ist die Verkürzung der Entwicklungszeit durch Entkopplung der Anforderungen.
Heutzutage haben wir Zugang zu Low-Code-Lösungen wie Flutterflow oder Shopify, die auch von traditionell nicht-technischen Rollen wie Produktmanagern genutzt werden können. Chatbots sind keine Ausnahme, und einige KI-Automatisierungsplattformen ermöglichen sogar die Verwendung Ihrer eigenen LLM.
Sie können Ingenieure anweisen, sich auf das Hosting von LLM und die Einrichtung der Automatisierungsplattform zu konzentrieren. So können sich die Business-Analysten, Produktmanager und andere damit verbundene Rollen auf die Entwicklung von KI-Agenten konzentrieren, die die Geschäftsanforderungen erfüllen.
Wenn etwas Zusätzliches benötigt wird, bieten diese Plattformen in der Regel eine Möglichkeit für Ingenieure, etwas Code hinzuzufügen. Auf diese Weise behalten Sie die Vorteile eines benutzerdefinierten Modells und gewinnen an Flexibilität, Geschwindigkeit und Erschwinglichkeit.
Bieten Sie technischen Freiraum zur Lösung von Geschäftsproblemen
Andererseits sind geschäftliche Probleme manchmal einfach sehr schwer zu lösen.
Wir sprechen hier von vollständig vernetzten Anwendungen LLM , von Anwendungen auf Geräten oder von Projekten, bei denen Chatbots mit extrem fortschrittlichen Funktionen ausgestattet werden müssen, die über die Synchronisierung von Daten zwischen zwei Plattformen hinausgehen.
In diesen Fällen ist es sinnvoll, den Ingenieuren die Freiheit zu lassen, die Werkzeuge zu verwenden, mit denen sie am besten zurechtkommen. In der Regel geht es dabei nur um das Schreiben von Code, und die Beteiligten fungieren einfach als Projektmanager.
Strategische Überlegungen zur Anpassung eines LLM
Bei der Auswahl eines benutzerdefinierten LLM für Ihr KI-Projekt geht es nicht nur darum, das beste Modell auszuwählen - es geht darum, strategische Entscheidungen zu treffen, die mit Ihren Zielen übereinstimmen.
Benutzerdefinierte Modelle bieten Flexibilität, Kontrolle und die Möglichkeit, für bestimmte Aufgaben zu optimieren, aber sie sind auch mit zusätzlicher Komplexität verbunden. Beginnen Sie mit einem Standardmodell, experimentieren Sie mit Prompt-Engineering, und verfeinern Sie es schrittweise.
Denken Sie daran, dass das richtige Modell zu Ihren geschäftlichen Anforderungen passen sollte, nicht nur zu Ihren technischen stack.
Anpassen mit leistungsstarken Plattformen
Sind Sie bereit, Ihr KI-Projekt auf die Spitze zu treiben?
Botpress ist eine vollständig erweiterbare und flexible KI-Agentenplattform. Unsere stack ermöglicht es Entwicklern, Chatbots und KI-Agenten für jeden möglichen Anwendungsfall zu erstellen.
Wir bieten eine solide Bildungsplattform, Botpress Academysowie einen ausführlichen YouTube-Kanal. Unser Discord beherbergt mehr als 20.000 Bot-Builder, so dass Sie immer die Unterstützung erhalten, die Sie benötigen.
Beginnen Sienoch heute mit demBau. Es ist kostenlos.
Inhaltsübersicht
Bleiben Sie auf dem Laufenden mit den neuesten Informationen über KI-Agenten
Teilen Sie dies auf: