- OpenAI o1 is een nieuwe modelserie (beginnend met o1-preview en o1-mini) gericht op real-time redeneren, niet alleen op pre-training.
- o1 presteert beter dan GPT in STEM-taken, scoort 83% op IMO-kwalificatietaken tegenover 13% voor GPT, en zit in het 89e percentiel voor Codeforces.
- o1 gebruikt van nature chain-of-thought redeneringen, waardoor het langzamer maar aanzienlijk nauwkeuriger is bij complexe taken.
- o1 is veel moeilijker te jailbreaken en scoort 84/100 op adversaire veiligheidstests tegenover 22 GPT.
Na maanden van speculatie van ChatGPT fans, is OpenAI's laatste Strawberry LLM release uitgekomen - en het heet niet GPT.
Voorheen aangeduid met cryptische, intrigerende codenamen als Q* en Strawberry, heeft de nieuwste modelserie zich uiteindelijk gevestigd op de bijnaam OpenAI o1.
De grootste update van OpenAI's nieuwe model is zijn verbeterde redeneervaardigheid. OpenAI legde uit dat o1 is getraind om meer tijd te besteden aan denken dan eerdere modellen, waardoor het dichter bij de menselijke intelligentie komt.
Wat is OpenAI o1?
OpenAI o1 is de nieuwste serie grote taalmodellen die op 12 september 2024 is uitgebracht door OpenAI en bestaat momenteel uit twee modellen: o1-preview en de o1-mini.
Het grootste verschil tussen o1 en de vorige modellen van het bedrijf is de geavanceerde redenering. Hoewel het nog niet volledig is uitgebracht, blazen de preview- en minimodellen GPT-4o al omver bij tests voor wiskunde, wetenschap en codering.
OpenAI o1-modellen
De uitgave van september bevatte twee modellen, de o1-preview en de o1-mini. Ze zijn de eerste van een reeks modellen die zullen blijven verschijnen naarmate OpenAI hun nieuwe LLM verder verfijnt.
Het verschil? Het o1-mini model is kleiner en 80% goedkoper dan het preview model. Het is gemaakt voor taken die geavanceerd redeneren vereisen, maar geen bredere kennis. Het is perfect geschikt voor taken waarbij codering of wiskunde komt kijken.
Hoe slim is OpenAI o1?
OpenAI heeft een lijst van STEM-benchmarks aangehaald die pronken met de redeneercapaciteiten van o1, waaronder:
- Vergelijkbare prestaties als promovendi in benchmarktests voor natuurkunde, scheikunde en biologie.
- Een plaats bij de beste 500 studenten in de Amerikaanse kwalificatie voor de USA Math Olympiad.
- Een score van 89% in Codeforces, een competitieve codeertest.
Je kunt meer lezen over het redeneervermogen van o1 in OpenAI's onderzoeksrapport.
Wat is een gedachtegang?
De o1-modellen gebruiken een gedachtegang, een langere en grondigere manier om verzoeken op te splitsen.
Als het o1 model een vraag krijgt, zal het niet onmiddellijk antwoorden - vandaar de lange wachttijd. In plaats daarvan redeneert het model door alle stappen heen, waarbij elk stukje informatie en de implicaties ervan zorgvuldig worden overwogen voordat er een beslissing wordt genomen over de volgende actie. Het zal pas een antwoord geven als het de hele reeks stappen die de vraag vereist heeft doorlopen.
Hoe verschilt o1 van GPT-4o?
1) Redeneervermogen
Centraal in de algemene intelligentie staat het nieuwe redeneervermogen van o1. "Misschien wel de belangrijkste gebieden van vooruitgang zullen rond redeneervermogen liggen," deelde Altman met Gates. "Op dit moment kan GPT-4 slechts op zeer beperkte manieren redeneren."
Redeneren is notoir moeilijk. Zelfs voor mensen. En OpenAI o1 is het eerste model dat dit beweert.
De o1-modellen kunnen in realtime redeneren in plaats van te vertrouwen op vooraf getrainde gegevens. Daarom is het nieuwe model beter in wetenschap, wiskunde en codering dan eerdere OpenAI modellen.
2) Moeilijker te jailbreaken
Met de toenemende bezorgdheid over veiligheid naarmate LLMs steeds populairder en krachtiger wordt, is veiligheid een belangrijk aandachtspunt geweest bij de nieuwste ontwikkeling van OpenAI. Het bedrijf werkte tijdens de ontwikkeling van de o1-serie samen met de Amerikaanse en Britse AI Safety Institutes en werkte samen met de Amerikaanse overheid om hun due diligence vast te stellen.
Als grote stap voorwaarts is de o1-serie veel moeilijker te jailbreaken - veiligheidsmaatregelen omzeilen - dan eerdere modellen.
In een van hun moeilijkste jailbreakingtests scoorde het o1-preview-model 84 van de 100, vergeleken met een sombere 22 score van GPT-4o.
3) Nieuwe naamgevingsconventie
Hoewel de naam niet het meest opwindende is aan de nieuwe OpenAI LLM , is het een opzettelijk betekenisvolle verandering.
OpenAI o1 is het eerste model dat de bijnaam 'GPT' van zich afwerpt, en dat komt omdat het bedrijf beweert dat het de eerste fase is van een gloednieuw 'redeneerparadigma', terwijl de oudere modellen deel uitmaakten van een 'voortrainingsparadigma'.
Het nieuwe model besteedt tijd aan redeneren in realtime, in plaats van te vertrouwen op de vooraf getrainde gegevens.
4) Beter in bèta/technische probleemoplossingstaken
Met beter redeneren komen ook betere wiskundige vaardigheden.
Zowel o1 als GPT-4o werd gevraagd een kwalificatie-examen voor de Internationale Wiskunde Olympiade af te leggen. GPT-4o loste 13% van de problemen op, terwijl o1 83% oploste.
5) Langere wachttijd
Redeneren in realtime duurt langer dan het raadplegen van trainingsgegevens en het genereren van een antwoord. Als u een vraag stelt aan OpenAI o1-preview in vergelijking met andere modellen, zult u aanzienlijk langer moeten wachten.
Maar met de mogelijkheid om het redeneren uit te besteden, is het een kleine prijs om te betalen. De snelheid van de o1-modellen zal waarschijnlijk verbeteren wanneer de volgende modellen in de serie worden uitgebracht.
Wie kan o1 gebruiken?
Vanaf 12 september hebben ChatGPT Plus en Team gebruikers toegang tot o1 modellen in ChatGPT.
OpenAI aangekondigd dat ze o1-mini beschikbaar zullen maken voor gratis gebruikers, hoewel er nog geen datum is genoemd.
De huidige wekelijkse limieten zijn 30 berichten voor 01-preview en 50 voor o1-mini, maar deze zullen binnenkort worden verhoogd.
Waar moet ik o1 voor gebruiken?
Het verbeterde redeneervermogen van o1 is vooral nuttig bij het oplossen van complexe problemen in wiskunde, wetenschap en codering. Zoals OpenAI uitlegt:
Beperkingen van OpenAI o1
Als voorproefje heeft dit model nog niet alle mogelijkheden van GPT-4o. Als je een LLM wilt gebruiken om op het web naar informatie te zoeken, of als je bestanden of afbeeldingen wilt uploaden, zul je het bij GPT-4o moeten houden totdat latere modellen van o1 worden uitgebracht.
Hoe vraag ik OpenAI o1
OpenAIDe promptsuggesties voor o1 zijn veranderd ten opzichte van hun vorige modellen, vanwege de verbeterde redenering.
Houd je aanwijzingen eenvoudig. Het is een slim model en heeft niet zoveel begeleiding nodig als de GPT-4 serie. Dat betekent dat je een gedachteketen moet vermijden - het model redeneert intern al.
GPT-aangedreven AI-agenten bouwen
Wat als je AI-agent automatisch synchroniseert met elke update op OpenAI ?
Botpress is een volledig open en uitbreidbaar AI-agentplatform. Met onze stack kunnen ontwikkelaars chatbots en AI-agents bouwen met alle mogelijkheden, in elke workflow.
Het enige platform dat varieert van lage code set-up tot eindeloze aanpasbaarheid en uitbreidbaarheid, Botpress stelt je in staat om automatisch de kracht van de nieuwste GPT versie op je chatbot te krijgen - zonder dat je daar moeite voor hoeft te doen.
Beginvandaag met bouwen. Het is gratis.
FAQs
Waar staat "o1" voor? Is er een logica voor de naamgeving van toekomstige modellen (bijv. o2, o3)?
"o1" staat waarschijnlijk voorOpenAI 1" en markeert het begin van een nieuwe modelserie, dus ja, je kunt waarschijnlijk o2, o3 en verder verwachten als toekomstige versies.
Waarom is OpenAI afgestapt van de naamgevingsconventie "GPT"?
OpenAI zegt dat o1 een verschuiving van het oude "pre-training paradigma" naar een nieuw "redeneer paradigma" vertegenwoordigt, dus de nieuwe naam weerspiegelt die verandering in richting.
Is OpenAI o1 de opvolger van GPT of een geheel nieuwe productlijn?
Terwijl het voortbouwt op de vooruitgang van GPT, start o1 een nieuwe generatie modellen gericht op real-time redeneren.
Kan o1 beter overweg met invoer in meerdere talen dan GPT?
OpenAI heeft nog niet veel gezegd over meertalige ondersteuning, maar aangezien o1 is ontworpen om beter te redeneren, kan het uiteindelijk ook GPT op dat gebied overtreffen.
Wanneer zal o1 algemeen beschikbaar zijn voor free-tier gebruikers?
Het is de bedoeling dat o1-mini binnenkort wordt uitgerold naar free-tier gebruikers, maar OpenAI heeft nog geen exacte datum bekendgemaakt.