Open AI-modellen zijn niet zo ‘open’ als ze zich voordoen, maar wat kunnen we ertegen doen?

Een glimlachende persoon draagt een grijs jasje en een zwarte coltrui, met gekruiste armen, en staat tegen een neutrale achtergrond.
Open AI-modellen zijn niet zo ‘open’ als ze zich voordoen, maar wat kunnen we ertegen doen?

Grote techbedrijven zoals Meta, Google en OpenAI houden vaak geheim hoe ze hun AI-modellen trainen. Toch presenteren zij hun Large Language Models (LLM) regelmatig als ‘open’ of ‘open source’. Dit fenomeen staat ook wel bekend als ‘openwashing’.  De EU AI Act, die moet zorgen voor meer transparantie en veiliger gebruik van AI, maakt deze kwestie steeds relevanter.

Laten we beginnen met de definitie van open source. Traditioneel betekent de term ‘open source’ dat gebruikers toegang hebben tot de broncode van een programma. Voor AI-modellen is het een stuk ingewikkelder om te bepalen in welke mate ze open source zijn, omdat ze uit veel meer bestaan dan enkel code. Het gaat ook om de datasets waarop het model is getraind, de berekende gewichten en parameters en de aanpassingen die worden gedaan om de algoritmes te verfijnen.

Gesloten als een oester

AI-modellen blijken vaak minder open dan ze zich voordoen. Onderzoekers van de Radboud Universiteit in het Nederlandse Nijmegen onderzochten recent 45 generatieve AI-modellen, waaronder die van Meta, Microsoft en Mistral. Ze beoordeelden de modellen op veertien aspecten van openheid, zoals transparantie over trainingsdata, inzicht in de trainingsmethodologie en openheid over het energieverbruik tijdens het trainingsproces.

Wat blijkt? Het populairste generatieve AI-model, ChatGPT, voldoet aan geen van de openheidscriteria die de Radboud Universiteit vaststelde. [OpenAI claimt niet dat ChatGPT open source is. Oudere versies van het GPT-model als GPT-2 en OpenAI-tools als CLIP en Whisper hebben een open-source MIT-licentie. –Red.]

Ook Mistral7B, dat als open source wordt gepresenteerd, biedt alleen het getrainde model aan voor download en lokaal gebruik. Informatie over de trainingsdata en -methodologie blijft verborgen. Opvallend is dat vooral de kleinere spelers meer moeite doen om de werking van hun systemen goed te documenteren en deze open te stellen voor verder onderzoek.

Openwashing op de loer

Onterecht claimen dat een systeem open source is, wordt ook wel ‘openwashing’ genoemd, een analogie op het bekende ‘greenwashing’ in de marketing- en communicatiewereld. Terwijl de Autoriteit Consument en Markt de afgelopen jaren meer bedrijven op de vingers tikte voor misleidende duurzaamheidsclaims, lijkt openwashing nog geen consequenties te hebben.

Openwashing kan met name problemen opleveren als bedrijven hiermee regelgeving zoals de EU AI Act willen ontwijken. Open source-modellen hoeven onder bepaalde voorwaarden namelijk aan minder strenge eisen te voldoen dan gesloten modellen. Dit geldt alleen voor modellen die geen betaalde licenties bieden en niet worden geclassificeerd als hoog risico. De huidige omstandigheden maken openwashing aantrekkelijk.

Een nieuwe definitie van open

Openwashing kan het vertrouwen in AI-modellen ondermijnen en leiden tot een oneerlijk speelveld. Het is daarom raadzaam om de term ‘open source’ te herdefiniëren, gezien de traditionele definitie niet toereikend is voor de complexiteit van moderne AI-modellen. Denk bijvoorbeeld aan een nieuwe set termen of definities die de mate van openheid en transparantie van AI-modellen duidelijker weergeven. Bij deze herdefinitie moeten we alle aspecten van een AI-model meenemen, van code tot trainingsdata en methodologie. Zo wordt het makkelijker te bepalen hoe ‘open’ een model echt is. Voor nu blijft het aan de gebruiker om kritisch te beoordelen of bedrijven hun belofte van openheid waarmaken en alert te zijn op misleidende claims.

Hoe om te gaan met ‘open’ AI-modellen?

Bedrijven die LLM’s gebruiken, moeten zich bewust zijn van de risico’s van gesloten AI-modellen. Deze modellen kunnen bijvoorbeeld verborgen vooroordelen bevatten, minder transparant zijn en moeilijker te controleren zijn op betrouwbaarheid en ethisch gebruik. Kies bij het selecteren van een AI-model dus niet alleen op prestaties, maar ook op transparantie over de trainingsdata en methodologie.