- Aangepaste LLM’s helpen je kosten te verlagen, gevoelige data te beschermen en de prestaties voor specifieke taken te verbeteren. Zo worden ze strategische hulpmiddelen voor op maat gemaakte zakelijke oplossingen.
- De grootte van een LLM beïnvloedt zowel de kwaliteit als de kosten. Zorg dus voor een goede balans tussen reactiesnelheid, nauwkeurigheid en budget voordat je kiest voor grote modellen zoals GPT-4 of kleinere, snellere alternatieven.
- Technieken zoals RAG, fine-tuning, n-shot learning en prompt engineering zijn essentiële middelen om het gedrag van LLM’s aan te passen, elk met hun eigen afwegingen qua kosten, complexiteit en onderhoud.
LLM’s veranderen de manier waarop we AI-oplossingen bouwen. Er komen voortdurend nieuwe en betere kant-en-klare modellen uit.
Een vraag die ik vaak krijg is waarom je zou kiezen voor een aangepaste LLM in plaats van een standaardoplossing.
Als je werkt aan een AI-project, zoals het bouwen van een AI-agent of AI-chatbot, kun je kiezen voor een aangepast large language model (LLM).
Er zijn genoeg redenen om een aangepaste LLM te gebruiken voor je LLM-agent, en je hebt veel opties. In dit artikel neem ik je mee langs de verschillende manieren om een LLM aan te passen voor AI-projecten.
Waarom een aangepast LLM gebruiken?
Er zijn verschillende redenen om een aangepast LLM te gebruiken:
- Je wilt kosten besparen door je te richten op een specifieke taak die belangrijk is voor jouw bedrijf, of je wilt de reactietijd minimaliseren.
- Misschien wil je alle data privé houden, of gebruikmaken van het interne LLM-model van je bedrijf.
- Je wilt mogelijk de kwaliteit van antwoorden voor een bepaalde taak verbeteren.
Wat de reden ook is, door je LLM aan te passen kun je de prestaties optimaliseren en de juiste balans vinden tussen nauwkeurigheid, snelheid en kosten voor jouw organisatie.
Een LLM kiezen
LLM’s hebben twee eigenschappen die AI-projecten beïnvloeden: hun grootte (aantal parameters) en de kwaliteit van de antwoorden.
Je kunt parameters zien als neuronen in een brein. Een groter brein wordt vaak geassocieerd met slimheid, maar dat is niet altijd zo. En delen van het brein kunnen sterk geoptimaliseerd zijn voor specifieke taken, zoals zien.
Voor AI-projecten bepaalt de grootte meestal de reactiesnelheid, en heeft het een grote invloed op de kosten. Projecten die lage latentie vereisen, gebruiken vaak kleinere modellen, maar dat gaat ten koste van de kwaliteit van de antwoorden.
Vragen om te stellen bij het kiezen van een model
Dit zijn goede vragen om te beantwoorden bij het kiezen van een model:
- Kan ik een cloud-gebaseerde LLM gebruiken of moet ik er zelf een hosten?
- Hoe snel moeten de antwoorden zijn?
- Hoe nauwkeurig moeten de antwoorden zijn?
- Hoeveel geld zal mijn project besparen en/of opleveren? En welke prijs mag het dan niet overschrijden?
- Hoe lang moeten mijn antwoorden zijn?
Over het algemeen is het lastig om een krachtig model sneller of goedkoper te maken, en is het makkelijker om een minder nauwkeurig model te verbeteren.
Het is echter veel sneller om te starten met een krachtig model. Als dat voldoet aan de eisen van je project, is er minder engineering nodig (en het is makkelijker te onderhouden).
Kiezen tussen RAG, Fine-Tuning, N-Shot Learning en Prompt Engineering
Er zijn vijf algemene concepten die de kwaliteit van LLM-antwoorden verbeteren:
- Starten met een voorgetraind model
- RAG
- Fine-tuning
- N-shot prompting
- Prompt engineering
Deze zijn niet specifiek voor aangepaste modellen, maar je moet ze altijd overwegen, want ze werken samen.
Starten met een model
Het eerste wat je moet doen is een startmodel kiezen. Er zijn veel online ranglijsten die modellen vergelijken.
Bijvoorbeeld:
- Hugging Face onderhoudt een ranglijst voor open source modellen.
- Vellum heeft een uitstekende ranglijst voor de populairste modellen.
Heeft je bedrijf een intern model, overweeg dan dat te gebruiken om binnen budget te blijven en data privé te houden. Als je het model zelf moet hosten, kijk dan naar een open-source model.

Fine-tuning
Fine-tuning houdt in dat je voorbeelden aan je model geeft, zodat het leert een bepaalde taak goed uit te voeren. Wil je dat het model goed over je product kan praten, geef dan veel voorbeelden van de beste salesgesprekken van je bedrijf.
Is het model open source, vraag jezelf dan af of je team genoeg technische capaciteit heeft om het model te fine-tunen.
Is het model gesloten en als dienst beschikbaar – zoals GPT-4 of Claude – dan kunnen je engineers meestal via API’s aangepaste modellen fine-tunen. De prijs stijgt dan vaak flink, maar het onderhoud is minimaal.
Voor veel toepassingen is fine-tuning echter niet de eerste stap om je model te optimaliseren.
Een goed voorbeeld voor fine-tuning is het bouwen van een kennisbot voor statische kennis. Door voorbeelden van vragen en antwoorden te geven, kan het model die later beantwoorden zonder het antwoord op te zoeken. Voor real-time informatie is dit echter niet praktisch.
Retrieval-augmented generation
RAG is een chique naam voor iets wat we allemaal wel eens in ChatGPT hebben gedaan: tekst plakken en er een vraag over stellen.
Een typisch voorbeeld is vragen of een bepaald product op voorraad is bij een webshop, waarbij een chatbot de informatie opzoekt in een productcatalogus (in plaats van op het hele internet).
Qua ontwikkelsnelheid en het verkrijgen van real-time informatie is RAG onmisbaar.
Het beïnvloedt meestal niet welk model je kiest, maar je kunt altijd een LLM-API-eindpunt maken dat informatie opvraagt en antwoorden geeft, en dit eindpunt gebruiken alsof het een eigen LLM is.
RAG gebruiken voor een kennis-chatbot is vaak makkelijker te onderhouden, omdat je geen model hoeft te fine-tunen of up-to-date te houden – wat ook kosten kan besparen.
N-shot learning
De snelste manier om de kwaliteit van antwoorden te verbeteren is voorbeelden meegeven in één LLM API-aanroep.
Zero-shot – dus geen voorbeelden geven van wat je zoekt in een antwoord – is hoe de meeste mensen ChatGPT gebruiken. Eén voorbeeld toevoegen (one-shot) is vaak al genoeg om de kwaliteit van het antwoord flink te verbeteren.
Meer dan één voorbeeld heet n-shot. N-shot verandert het model niet, in tegenstelling tot fine-tuning. Je geeft simpelweg voorbeelden vlak voordat je een antwoord vraagt, elke keer opnieuw.
Maar deze strategie kun je niet onbeperkt gebruiken: LLM-modellen hebben een maximale contextgrootte en de prijs hangt af van de grootte van het bericht. Fine-tuning kan de noodzaak voor n-shot voorbeelden wegnemen, maar kost meer tijd om goed te doen.
Andere prompt engineering technieken
Er zijn ook andere prompt engineering technieken, zoals chain-of-thought, waarbij modellen worden gedwongen hardop na te denken voordat ze een antwoord geven.
Dit verhoogt de kwaliteit van het antwoord, maar zorgt wel voor langere, duurdere en tragere reacties.
Mijn aanbeveling
Elk project heeft unieke behoeften, maar ik geef graag mijn advies voor een sterke aanpak.
Een goed begin is een kant-en-klaar model dat snelheid en kwaliteit combineert, zoals GPT-4o Mini. Kijk eerst naar de kwaliteit van de antwoorden, reactiesnelheid, kosten, benodigde contextgrootte, en bepaal daarna wat er verbeterd moet worden.
Met een smalle use case kun je beginnen met eenvoudige prompt engineering, daarna RAG proberen, en tot slot fine-tuning. Elk model dat deze stappen doorloopt, zal beter presteren, dus het kan lastig zijn om te bepalen wat je moet kiezen.
Privacyoverwegingen
In een ideale wereld zou elke LLM 100% onder jouw eigen controle staan en zou er nergens iets worden blootgesteld.
Helaas is dat in de praktijk niet zo – en daar zijn goede redenen voor.
Ten eerste: het vereist technische kennis om een eigen model te hosten en te onderhouden, wat erg duur is. Als het gehoste model uitvalt, heeft dat direct invloed op je bedrijfsresultaten, dus de implementatie moet zeer robuust zijn.
Een andere reden is dat marktleiders – zoals OpenAI, Google en Anthropic – voortdurend nieuwe, betere en goedkopere modellen uitbrengen, waardoor fine-tuning vaak overbodig wordt. Dit is zo sinds de komst van ChatGPT 3.5 en dat lijkt voorlopig niet te veranderen.
Heb je te maken met zeer gevoelige data, dan is het logisch om een model te gebruiken en te optimaliseren voor jouw toepassing. Is GDPR belangrijk, dan zijn er genoeg kant-en-klare modellen die aan GDPR voldoen.
Aan de slag na het kiezen van je LLM
Zodra je een LLM hebt gekozen, kun je gaan bepalen hoe je je AI-project gaat bouwen en onderhouden. Als voorbeeld neem ik het type project waar ik het meest mee vertrouwd ben: een AI-agent of AI-chatbot.
Je kunt de volgende vragen beantwoorden om de scope van je project te bepalen:
- Waar wil ik dat mijn AI-agent actief is? (Slack, WhatsApp, een website-widget, enz.)
- Welke kennis moet het hebben en waar bevindt die kennis zich?
- Welke mogelijkheden moet het hebben naast het beantwoorden van vragen, indien van toepassing?
- Moet het geactiveerd worden wanneer er ergens in het bedrijf iets gebeurt?
Engineering uitbesteden om kosten te besparen
Een strak budget aanhouden is essentieel om je project te realiseren. Een manier om dat te doen is door de engineeringstijd te verkorten door eisen los te koppelen.
Tegenwoordig hebben we toegang tot low-code oplossingen zoals Flutterflow en Shopify, die ook door niet-technische rollen zoals productmanagers gebruikt kunnen worden. Chatbots vormen hierop geen uitzondering, en sommige AI-automatiseringsplatformen laten je zelfs je eigen LLM gebruiken.
Je kunt engineers de opdracht geven zich te richten op het hosten van de LLM en de koppeling met het automatiseringsplatform. Zo krijgen business-analisten, productmanagers en andere betrokken rollen de ruimte om AI-agents te bouwen die aan de bedrijfsbehoeften voldoen.
Als er toch iets extra’s nodig is, bieden deze platformen meestal een mogelijkheid voor engineers om code toe te voegen. Zo behoud je de voordelen van een eigen model, en krijg je flexibiliteit, snelheid en betaalbaarheid.
Geef engineers de vrijheid om bedrijfsproblemen op te lossen
Aan de andere kant zijn sommige bedrijfsproblemen gewoon erg lastig op te lossen.
We hebben het dan over volledig afgeschermde LLM-toepassingen, apps op apparaten zelf, of projecten waarbij chatbots zeer geavanceerde mogelijkheden moeten krijgen die verder gaan dan alleen het synchroniseren van data tussen twee platformen.
In zulke gevallen is het logisch om engineers de vrijheid te geven de tools te gebruiken waar zij het meest vertrouwd mee zijn. Dit betekent meestal gewoon zelf code schrijven, waarbij andere betrokkenen vooral als projectmanager optreden.
Strategische overwegingen bij het aanpassen van een LLM
Een aangepaste LLM kiezen voor je AI-project draait niet alleen om het beste model kiezen – het gaat om strategische keuzes die aansluiten bij je doelen.
Aangepaste modellen bieden flexibiliteit, controle en de mogelijkheid om te optimaliseren voor specifieke taken, maar brengen ook extra complexiteit met zich mee. Begin met een standaardmodel, experimenteer met prompt engineering en verfijn het geleidelijk.
Onthoud: het juiste model moet passen bij de behoeften van je bedrijf, niet alleen bij je technische stack.
Aanpassen met krachtige platformen
Klaar om je AI-project naar een hoger niveau te tillen?
Botpress is een volledig uitbreidbaar en flexibel AI-agentplatform. Ons platform stelt ontwikkelaars in staat om chatbots en AI-agents te bouwen voor elk denkbaar gebruiksscenario.
We hebben een uitgebreid educatieplatform, Botpress Academy, en een gedetailleerd YouTube-kanaal. Op onze Discord vind je meer dan 20.000 botbouwers, zodat je altijd de ondersteuning krijgt die je nodig hebt.
Begin vandaag nog met bouwen. Het is gratis.
Veelgestelde vragen
1. Hoe beoordeel ik het rendement (ROI) van investeren in een aangepaste LLM voor mijn bedrijf?
Om het rendement van een investering in een aangepaste LLM voor je bedrijf te beoordelen, vergelijk je de totale kosten (zoals infrastructuur, ontwikkeltijd, finetunen en hosting) met meetbare voordelen zoals arbeidsreductie en hogere conversie.
2. Welke KPI’s moet ik volgen om de effectiviteit van een aangepaste LLM te meten?
Je moet KPI’s volgen zoals antwoordnauwkeurigheid (precisie/recall of taakvoltooiing), latentie (gemiddelde responstijd), klanttevredenheid (CSAT/NPS), containment- of oplossingspercentage en kosten per interactie. Deze cijfers geven inzicht in de technische prestaties van het model en de impact op bedrijfsresultaten.
3. Hoe kan ik de langetermijnkosten voor onderhoud van een aangepaste LLM inschatten?
Om de langetermijnkosten voor onderhoud van een aangepaste LLM in te schatten, neem je kosten mee voor infrastructuur (cloud computing, opslag), technische updates, frequentie van hertraining of finetuning, monitoringtools en aanpassingen aan regelgeving. Als je bedrijfsdata snel verandert, kun je rekenen op meer hertraining en validatie na verloop van tijd.
4. Hoe kan ik verschillende LLM’s benchmarken voor mijn specifieke branche of domein?
Benchmark verschillende LLM’s door ze te testen met representatieve, domeinspecifieke prompts en hun prestaties te vergelijken op nauwkeurigheid, helderheid, toon en relevantie voor de taak. Je kunt interne datasets gebruiken of open-source benchmarks zoals FinancialQA of MedQA toepassen, afhankelijk van je sector.
5. Aan welke compliance-standaarden moet een aangepaste LLM voldoen als ik met gebruikersdata werk?
Als je met gebruikersdata werkt, moet je aangepaste LLM voldoen aan standaarden zoals GDPR (voor EU-privacy), SOC 2 Type II (voor operationele beveiliging) en HIPAA (bij verwerking van gezondheidsdata). De LLM-aanbieder moet functies bieden zoals rolgebaseerde toegang, versleuteling van data tijdens transport en opslag, auditlogs en duidelijke beleidsregels voor dataretentie en verwijdering.







