Een AI-model getraind op persoonlijke gegevens die de gehele bevolking van Denemarken bestrijken, kan de kans op overlijden van mensen nauwkeuriger voorspellen dan elk bestaand model. Dat schrijft NewScientist. Nauwkeuriger zelfs dan algoritmes die de verzekeringssector gebruikt in de verzekeringssector. De onderzoekers achter deze technologie stellen dat het ook een positieve impact kan hebben op de vroege voorspelling van sociale en gezondheidsproblemen. Maar ook dat men het uit handen van grote bedrijven moet houden.
Rijke dataset
Sune Lehmann Jørgensen van de Technische Universiteit van Denemarken en zijn collega’s gebruikten een rijke dataset uit Denemarken die onderwijs, bezoeken aan artsen en ziekenhuizen, eventuele resulterende diagnoses, inkomen en beroep omvat voor 6 miljoen mensen van 2008 tot 2020.
Onderzoekers zette deze dataset om in woorden die konden men gebruikte om een groot taalmodel te trainen. Dit is dezelfde technologie die AI-apps zoals ChatGPT aandrijft. Deze modellen werken door naar een reeks woorden te kijken en te bepalen welk woord statistisch het meest waarschijnlijk als volgende komt, op basis van enorme hoeveelheden voorbeelden. Op een vergelijkbare manier kan het Life2vec-model van de onderzoekers kijken naar een reeks levensgebeurtenissen die de geschiedenis van een persoon vormen en bepalen wat er waarschijnlijk als volgende zal gebeuren.
Nauwkeurig resultaat
Men trainde Life2vec in experimenten op al deze data. De onderzoekers namen gegevens van een groep mensen tussen de 35 en 65 jaar. De helft van hen stierf tussen 2016 en 2020. Men vroeg Life2vec om te voorspellen wie er nog leefde. En wie er stierf. Het resultaat was 11 procent nauwkeuriger dan elk bestaand AI-model. Of dan de actuariële levensduurtafels die men gebruikt om levensverzekeringspolissen te prijzen in de financiële sector.
Het model kon ook de resultaten van een persoonlijkheidstest in een subset van de bevolking nauwkeuriger voorspellen dan specifiek daarvoor getrainde AI-modellen.
Etische bezwaren
Jørgensen gelooft dat het model voldoende gegevens heeft geconsumeerd om inzicht te kunnen bieden in een breed scala aan gezondheids- en sociale onderwerpen. Dit betekent dat het gebruikt zou kunnen worden om gezondheidsproblemen te voorspellen en vroegtijdig op te sporen, of door overheden om ongelijkheid te verminderen. Maar hij benadrukt dat het ook op een schadelijke manier door bedrijven kan worden gebruikt.
“Een verzekeringsmaatschappij mag ons model niet gebruiken, vindt Jørgensen. Toch maakt hij zich geen illusies. De technologieën zijn volgens hem al beschikbaar. “Waarschijnlijk passen grote techbedrijven ze al op ons toe. Zij hebben veel gegevens over ons. En ze gebruiken het om voorspellingen over ons te doen.”