AI-chatbots zoals ChatGPT worden met elke nieuwe versie intelligenter, maar ook minder betrouwbaar. Waar eerdere modellen vooral vloeiend tekst konden genereren, zijn OpenAI’s nieuwste versies, GPT o3 en o4-mini, ontworpen om logisch te redeneren zoals mensen dat doen. Toch blijkt uit een recent intern onderzoek van OpenAI, gedeeld met The New York Times, dat deze vooruitgang een prijs heeft: een sterke toename in zogenoemde ‘hallucinaties’, oftewel verzinsels die als feiten worden gepresenteerd.
Onjuistheden
Bij een test rond publieke figuren bleek dat GPT o3 in een derde van de gevallen onjuiste informatie gaf. Dat is tweemaal zoveel als het oudere o1-model. Het kleinere o4-mini-model deed het nog slechter, met hallucinaties in 48 procent van de antwoorden. En bij algemene kennisvragen uit de SimpleQA-benchmark gingen de cijfers nog verder omhoog: 51 procent van de antwoorden van GPT o3 en maar liefst 79 procent van o4-mini bevatte verzonnen gegevens.
Deze ontwikkeling is zorgwekkend, vooral omdat deze nieuwe modellen juist zijn gepresenteerd als redeneermachines. Maar volgens AI-onderzoekers is dat misschien ook precies het probleem. Hoe meer een model probeert te redeneren, hoe meer stappen het moet zetten en elke stap is een kans om verkeerd af te slaan. In plaats van veilige, bekende antwoorden te geven, wagen de modellen zich aan speculaties en pogingen om verbanden te leggen tussen losse feiten. Dat klinkt creatief, maar het leidt ook vaker tot onjuistheden.
Redeneermodellen
OpenAI benadrukt dat de toename in hallucinaties niet per se betekent dat redeneermodellen slechter zijn. Het zou ook kunnen dat deze modellen simpelweg uitgebreider en avontuurlijker antwoorden formuleren. Daardoor vervaagt de grens tussen theorie en realiteit, met soms kwalijke gevolgen. Zo zijn er al advocaten in de problemen gekomen doordat ze ChatGPT gebruikten en niet doorhadden dat bepaalde rechtszaken volledig uit de duim gezogen waren.
Wat als hulpmiddel bedoeld is, kan zo snel een risico worden. Meer intelligentie mag nooit ten koste gaan van betrouwbaarheid, anders blijft de chatbot vooral een briljante fantast.