Nieuwe benchmark zet vraagtekens bij inzet van AI agents op kantoor

Het is inmiddels bijna twee jaar geleden dat Satya Nadella, CEO van Microsoft, voorspelde dat kunstmatige intelligentie een groot deel van het kenniswerk zou vervangen. Banen van juristen, consultants, bankiers, accountants en IT specialisten zouden volgens hem ingrijpend veranderen of zelfs verdwijnen. Hoewel de onderliggende AI modellen sindsdien enorme stappen hebben gezet, blijkt de impact op dit soort witteboordenwerk in de praktijk tot nu toe opvallend beperkt.

Nieuwe benchmark

Nieuw onderzoek van trainingsdata specialist Mercor werpt nu nieuw licht op deze kloof tussen verwachting en realiteit. Het bedrijf introduceert een nieuwe benchmark, APEX Agents, die specifiek kijkt naar hoe goed AI modellen daadwerkelijk presteren op realistische taken uit de wereld van consultancy, investment banking en de juridische sector. De conclusie is scherp: geen enkel toonaangevend AI model slaagt voor de test.

Contextafhankelijke opdrachten

De APEX Agents benchmark is gebaseerd op vragen en scenario’s die zijn aangeleverd door echte professionals via het expertplatform van Mercor. Diezelfde experts bepaalden ook wat een correct antwoord is. Het gaat nadrukkelijk niet om theoretische kennis, maar om complexe, contextafhankelijke opdrachten zoals die dagelijks voorkomen op kantoor. De vragen zijn openbaar gemaakt via Hugging Face en laten zien hoe gelaagd het werk kan zijn.

Realistische werkomgeving

Volgens Mercor CEO Brendan Foody ligt het grootste struikelblok bij het combineren van informatie uit meerdere domeinen. In de praktijk werken professionals gelijktijdig met e mail, Slack gesprekken, documenten in Google Drive en interne beleidsstukken. Voor veel agent gebaseerde AI modellen is dat soort multidomein redeneren nog steeds wisselvallig. In een interview zei Foody dat de benchmark juist is ontworpen om deze realistische werkomgeving na te bootsen.

Europese privacywetgeving

Een voorbeeldvraag uit de juridische sectie vraagt of een bedrijf onder zijn eigen beleid en Europese privacywetgeving mag handelen bij het tijdelijk exporteren van logbestanden met persoonsgegevens naar de Verenigde Staten. Het juiste antwoord vereist diepgaande kennis van zowel interne regels als EU wetgeving. Zelfs voor ervaren juristen is dat geen eenvoudige opgave, laat staan voor een taalmodel.

De resultaten zijn dan ook bescheiden. Het best presterende model, Gemini 3 Flash, behaalde slechts 24 procent correcte antwoorden bij eenmalige pogingen. GPT 5.2 volgde met 23 procent. Andere modellen, waaronder systemen van OpenAI, bleven steken rond de 18 procent. Daarmee zijn AI agents voorlopig nog niet in staat om zelfstandig hoogwaardig kenniswerk over te nemen.

Voorzichtig optimistisch

Toch is Foody voorzichtig optimistisch. De prestaties verbeteren snel. Waar modellen vorig jaar nog maar vijf tot tien procent van dit soort taken correct uitvoerden, zitten ze nu rond een kwart. Die jaarlijkse vooruitgang kan volgens hem op korte termijn grote economische gevolgen hebben. Voorlopig laat de APEX Agents benchmark vooral zien dat AI agents indrukwekkend zijn, maar nog niet klaar voor de complexiteit van het moderne kantoorleven.

Lees meer over Personeel

Experts aan het woord

Blijf op de hoogte, abonneer!

Nieuwe benchmark zet vraagtekens bij inzet van AI agents op kantoor

Nieuwe benchmark

Contextafhankelijke opdrachten

Realistische werkomgeving

Europese privacywetgeving

Voorzichtig optimistisch

Kritieke infrastructuur vraagt om hybride security

51 AI-agents boeken je volgende reis naar Australië

Salesforce maakt Contact Center veel effectiever met Agentforce

Microsoft 365 E7 onthuld: grootste licentiewijziging in tien jaar

Why Salesforce built three levels of AI commerce agents

Sophos CEO sees "cybersecurity poverty line": what to do about it?

SAP's AI workforce strategy: upskilling 100,000 employees

AFX is NetApp's data platform of the future with integrated AI data prep

4 Manieren om AI te gebruiken binnen je bedrijf

Van huddle tot boardroom: hoe ClickShare vergaderen herdefinieert

Legacy IT in de zorgsector en hoe 93% van alle bedrijven nog worstelt met oude systemen

Managed Print Services: kostencontrole, uptime en CO₂‑winst in één model

De IT Afdeling van de toekomst

GITEX ASIA 2026

GITEX ASIA 2026

Southeast Asia AI Application Summit 2026

SAS Innovate 2026

Team '26

Ontgrendel het volledige potentieel van je SAP-omgeving

Een cloudstrategie is essentieel voor het succes van uw bedrijf