Harvard stelt bijna miljoen boeken beschikbaar voor AI-training

Project gefinancierd door OpenAI en Microsoft

Harvard stelt bijna miljoen boeken beschikbaar voor AI-training

De prestigieuze Harvard University heeft de inhoud van bijna een miljoen boeken verzameld en beschikbaar gemaakt voor gebruik in AI-training. Het betreft boeken waarop het copyright is verstreken. Hiermee wil de universiteit naar eigen zeggen ‘het speelveld voor AI-ontwikkeling gelijktrekken’. Het project illustreert ook hoe academische initiatieven als hefboom dienen in de concurrentiestrijd tussen techgiganten.

De dataset is vijf keer groter dan het eerdere Books3-project, weet Wired te melden. Dat initiatief wekte destijds woede op bij auteurs en copyrightorganisaties omdat dit miljoenen teksten voor gebruik in AI-training verzamelde via ‘web scraping’. Dat betekent dat de inhoud, waaronder volledige boeken, vaak zonder expliciete toestemming van de auteurs of uitgevers werd verkregen. Onder andere de Llama-modellen van Facebook-moederbedrijf Meta zijn hierop getraind.

‘Voor iedereen’

De initiatiefnemer van dit nieuwe project is het Institutional Data Initiative (IDI) van Harvard. Die benadrukt dat de bronnen zorgvuldig zijn gecureerd en toegankelijk zijn voor onderzoekers en kleinere spelers in de AI-industrie. Dat wil in theorie zeggen dat zowel de allergrootste spelers als een individuele AI-hobbyist ermee aan de slag zou kunnen gaan.

Greg Leppert, uitvoerend directeur van het IDI, vergelijkt de dataset alvast met de rol die Linux is gaan spelen in de wereld van besturingssystemen. Daarmee bedoelt hij dat de data een solide basis kan bieden voor verdere ontwikkeling, maar dat het aan bedrijven, academici of andere organisaties is om eigen informatie toe te voegen om modellen uiteindelijk onderscheidend te maken. Een beetje dus zoals Linux als basis is gaan dienen voor talloze specifieke, soms zeer taakgebonden besturingssystemen.

Publieke data scheelt juridische strijd

Er is veel te doen over het gebruik van auteursrechtelijk beschermd materiaal voor het trainen van AI. Bedrijven zoals OpenAI beweren dat het gebruik van dergelijke data essentieel is voor het creëren van modellen zoals ChatGPT, maar critici zeggen dat projecten zoals deze van Harvard, dat juist copyrightvrij materiaal gebruikt, de grond wegslaat onder dergelijke argumentatie.

Voor beide valt iets te zeggen, maar feit is wel dat veel bedrijven brood zien in publieke repositories omdat het eenvoudigweg een hoop juridisch gedoe scheelt. Het Franse Pleais-project kwam onlangs met Common Corpus, een digitale bibliotheek met 3 tot 4 miljoen teksten (compliant met de Europese AI-Act), terwijl AI-startup Spawning Source.Plus uitbracht, een verzameling Wikimedia-afbeeldingen die tot het publieke domein behoren. Culturele instellingen zoals het Metropolitan Museum of Art hebben daar ook archiefmateriaal aan bijgedragen.

Lees op Techzine: OpenAI sluit opnieuw deal met mediabedrijven voor gebruik van content

Hoe dan ook zijn (oude) boeken, specialistische teksten en materiaal in obscure talen zeer interessant om te gebruiken voor AI-training. Die zijn vaak te vinden in bibliotheken of archieven en bevatten schaarsere of kostbaardere data dan veel teksten die op internet staan. Een gevaar is ook dat steeds meer materiaal op internet door AI is gegenereerd en deze redelijk laagwaardige content opnieuw gebruikt gaat worden voor het trainen van ándere AI. Dat kost een hoop rekencapaciteit, maar levert betrekkelijk weinig waardevols op omdat het feitelijk om opgewarmde kliekjes gaat.

Vingerafdrukken van techbedrijven

De vingerafdrukken van verschillende techbedrijven zijn op dit Harvard-project te vinden. De financiering komt van OpenAI en Microsoft en als bronmateriaal gebruikt het gescande werken uit het Google Books-project, waaronder klassiekers en obscure teksten in meerdere talen. Google is op het gebied van AI en elders juist een grote concurrent van Microsoft. Die laatste heeft bovendien een zetel heeft in de raad van bestuur van OpenAI, zonder vetorecht overigens.

Harvard benut nu dus Google’s eerdere digitaliseringswerkzaamheden, waar Microsoft en OpenAI heel slim op meeliften. Tegelijk zien de grote techbedrijven ook het voordeel van het zoveel mogelijk openbaar maken van algemene trainingsdata. Als iedereen z’n eigen tuintje omheint, zou dat de ontwikkeling van de technologie maar hinderen. Het zijn doorgaans de rechthebbenden van materiaal die zo hun twijfels hebben over dit open karakter.

Lees ook: Nexis Data+ ontsluit de dataschat van LexisNexis voor AI en analytics