OpenAI lanceert GPT-5.4: redeneren, coderen en computergebruik in één

Een manusje van alles, zo klinkt het nieuwste model van OpenAI. GPT-5.4 volgt zeer kort na GPT-5.3 Instant maar neemt vooral de taak over van GPT-5.2, met name voor opdrachten die redenatie vereisen, voor coderen bestemd zijn of een computer aansturen.

Het model is vanaf nu beschikbaar in ChatGPT, de API en Codex. Een Pro-variant biedt “maximale prestaties op complexe taken” voor een hogere prijs. GPT-5.4 combineert de codeercapaciteiten van GPT-5.3-Codex met verbeteringen op het gebied van redeneren, kenniswerk en agentic workloads.

Op GDPval, een benchmark die kenniswerk beoordeelt over 44 beroepen in negen industrieën, behaalt GPT-5.4 een score waarbij het in 83 procent van de vergelijkingen gelijkwaardig of beter presteert dan menselijke professionals. GPT-5.2 stond op 70,9 procent. Taken in de benchmark omvatten salespresentaties, boekhoudspreadsheets en productiediagrammen.

Computers besturen als een mens

GPT-5.4 is het eerste algemene OpenAI-model met native computer use-capaciteiten. Op dat vlak is het bedrijf opvallend traag gebleken: Anthropic had al een model dat computers kon aansturen in publieke bèta in oktober 2022. GPT-5.4 kan net als concurrerende modellen via screenshots met muis- en toetsenbordcommando’s een computer bedienen zonder dat daarvoor externe tools nodig zijn. Op OSWorld-Verified, een benchmark toegespitst op computer use-taken behaalt GPT-5.4 een slagingspercentage van 75,0 procent. Dat is boven de menselijke baseline van 72,4 procent en een forse sprong vergeleken met de 47,3 procent van GPT-5.2. Claude Sonnet 4.6 van Anthropic scoort 72,5 en is daarmee dus praktisch even competent als een mens in de geteste taken.

Developers die met de API werken, profiteren bovendien van tool search. In plaats van alle tool-definities altijd in de context te laden, zoekt het model op het juiste moment zelf naar de benodigde tool. Bij een test met 250 taken over 36 MCP-servers reduceerde deze aanpak het tokengebruik met 47 procent bij gelijke nauwkeurigheid. Dat scheelt direct in kosten en snelheid, zeker bij grote tool-ecosystemen.

Minder hallucinaties, sneller coderen

GPT-5.4 is ook het meest feitelijk nauwkeurige model dat OpenAI tot nu toe heeft uitgebracht. Individuele claims zijn 33 procent minder vaak onjuist en volledige antwoorden bevatten 18 procent minder fouten vergeleken met GPT-5.2. In Codex is een /fast mode beschikbaar die tot 1,5 keer hogere tokensnelheid levert met hetzelfde model.

In ChatGPT vervangt GPT-5.4 Thinking het GPT-5.2 Thinking-model voor Plus-, Team- en Pro-gebruikers. GPT-5.2 Thinking blijft drie maanden beschikbaar als Legacy Model, waarna het op 5 juni wordt uitgefaseerd. Enterprise- en Edu-klanten kunnen vroege toegang inschakelen via admininstellingen. GPT-5.4 Pro is beschikbaar voor Pro- en Enterprise-plannen. In de API is het model beschikbaar als gpt-5.4, waarbij de tokenprijs hoger ligt dan die van GPT-5.2.

Hoe lang gaat het stuivertje wisselen door?

Sinds de opkomst van redenerende modellen rond eind 2024 zijn de grote AI-modelmakers in een vast patroon geraakt. Met name Google, Anthropic en OpenAI strijden voortdurend om de beste benchmarks, terwijl open-source opties (vooral vanuit China) qua prestaties op gepaste afstand blijven volgen. DeepSeek-R1 begin 2025 en Claude Cowork hebben de markt tijdelijk opgeschud, maar afgezien daarvan is het traject van AI-modellen voorspelbaar geworden.

Dat betekent dat GPT-5.4 na de release van de Gemini 3.1- en Claude 4.6-modellen een manier voor OpenAI is om in de tests wat beter uit de bus te komen. Een doorbraak lijkt het niet, behalve voor gebruikers die enkel de GPT-modellen gebruiken. Native computer use en een flexibelere inzet van tokens maken 5.4 een release voor verfijning. Het stroomlijnen van de architectuur rondom AI-modellen dendert voort, nu er grootschalige feature-gelijkheid is gekomen. Qua percentages op benchmarks staat OpenAI weer bovenaan, maar vermoedelijk niet voor een al te lange periode.

Lees ook: Google lanceert Gemini 3.1 Pro, een LLM voor complexe redenaties