Het is inmiddels bijna twee jaar geleden dat Satya Nadella, CEO van Microsoft, voorspelde dat kunstmatige intelligentie een groot deel van het kenniswerk zou vervangen. Banen van juristen, consultants, bankiers, accountants en IT specialisten zouden volgens hem ingrijpend veranderen of zelfs verdwijnen. Hoewel de onderliggende AI modellen sindsdien enorme stappen hebben gezet, blijkt de impact op dit soort witteboordenwerk in de praktijk tot nu toe opvallend beperkt.
Nieuwe benchmark
Nieuw onderzoek van trainingsdata specialist Mercor werpt nu nieuw licht op deze kloof tussen verwachting en realiteit. Het bedrijf introduceert een nieuwe benchmark, APEX Agents, die specifiek kijkt naar hoe goed AI modellen daadwerkelijk presteren op realistische taken uit de wereld van consultancy, investment banking en de juridische sector. De conclusie is scherp: geen enkel toonaangevend AI model slaagt voor de test.
Contextafhankelijke opdrachten
De APEX Agents benchmark is gebaseerd op vragen en scenario’s die zijn aangeleverd door echte professionals via het expertplatform van Mercor. Diezelfde experts bepaalden ook wat een correct antwoord is. Het gaat nadrukkelijk niet om theoretische kennis, maar om complexe, contextafhankelijke opdrachten zoals die dagelijks voorkomen op kantoor. De vragen zijn openbaar gemaakt via Hugging Face en laten zien hoe gelaagd het werk kan zijn.
Realistische werkomgeving
Volgens Mercor CEO Brendan Foody ligt het grootste struikelblok bij het combineren van informatie uit meerdere domeinen. In de praktijk werken professionals gelijktijdig met e mail, Slack gesprekken, documenten in Google Drive en interne beleidsstukken. Voor veel agent gebaseerde AI modellen is dat soort multidomein redeneren nog steeds wisselvallig. In een interview zei Foody dat de benchmark juist is ontworpen om deze realistische werkomgeving na te bootsen.
Europese privacywetgeving
Een voorbeeldvraag uit de juridische sectie vraagt of een bedrijf onder zijn eigen beleid en Europese privacywetgeving mag handelen bij het tijdelijk exporteren van logbestanden met persoonsgegevens naar de Verenigde Staten. Het juiste antwoord vereist diepgaande kennis van zowel interne regels als EU wetgeving. Zelfs voor ervaren juristen is dat geen eenvoudige opgave, laat staan voor een taalmodel.
De resultaten zijn dan ook bescheiden. Het best presterende model, Gemini 3 Flash, behaalde slechts 24 procent correcte antwoorden bij eenmalige pogingen. GPT 5.2 volgde met 23 procent. Andere modellen, waaronder systemen van OpenAI, bleven steken rond de 18 procent. Daarmee zijn AI agents voorlopig nog niet in staat om zelfstandig hoogwaardig kenniswerk over te nemen.
Voorzichtig optimistisch
Toch is Foody voorzichtig optimistisch. De prestaties verbeteren snel. Waar modellen vorig jaar nog maar vijf tot tien procent van dit soort taken correct uitvoerden, zitten ze nu rond een kwart. Die jaarlijkse vooruitgang kan volgens hem op korte termijn grote economische gevolgen hebben. Voorlopig laat de APEX Agents benchmark vooral zien dat AI agents indrukwekkend zijn, maar nog niet klaar voor de complexiteit van het moderne kantoorleven.