Onlangs verscheen het handboek ‘Synthetic Data for Official Statistics’ van de Verenigde Naties (VN). Synthetische data simuleren kenmerken van echte data. Denk aan een bedrijvenpopulatie of relaties tussen personen en objecten in een school of een wijk. Je kunt er de realiteit mee nabootsen zonder identificatie van personen of objecten. Aan het VN-handboek werkten naast de VN zelf diverse CBS-onderzoekers mee, maar ook internationale collega’s en academici.
Het CBS werkt met grote hoeveelheden data waarvoor de bescherming van vertrouwelijke gegevens volledig gegarandeerd moet zijn. Hoewel de vraag naar data en de hoeveelheid beschikbare data toeneemt, vindt er nog steeds te weinig uitwisseling plaats met de wetenschappelijke wereld. Vanuit bedrijfsperspectief is er vanwege de steeds strengere voorschriften behoefte aan verbeterde methoden om gegevens te delen. Hierbij kunnen synthetische data een belangrijke rol spelen.
Belangrijk is dat ook je dan werkt volgens de bestaande wet- en regelgeving. Het CBS ziet de meerwaarde van synthetische data om onder andere gegevens te kunnen delen met externe partijen. Daarvoor is echter nog veel onderzoek en kennisopbouw nodig.
Synthetische data
Manel Slokom werkt bij het CBS en het CWI (Centrum voor Wiskunde en Informatica, red.). Ze promoveert binnenkort aan de TU Delft en verdiepte zich daar en bij het CBS in synthetische data. Zij was één van de auteurs van het VN-handboek. “Synthetische data zijn data die lijken op de echte data, maar in werkelijkheid zijn ze fake of kunstmatig. Ze zijn kunstmatig omdat een machine ze genereert. Binnen het CBS worden synthetische data beschouwd als data die gegenereerd worden uit computersimulaties of algoritmen waarbij de analytische waarde die de echte wereld weerspiegelt zoveel mogelijk wordt behouden, maar het risico van onthulling van individuele gegevens zo laag mogelijk is. Bij het CBS gebruiken we synthetische data op dit moment voor educatiedoeleinden en het testen van systemen.”
Het grote voordeel van gebruik van synthetische data is volgens Slokom dat je er privacygevoelige informatie mee kan beschermen. Bijvoorbeeld omdat deze data geen echte persoonsgegevens bevatten. “Ten tweede kunnen deze data worden gebruikt om bias (vertekening, red.) in datasets te verminderen, omdat de data zo kunnen worden gegenereerd dat ze niet beïnvloed worden door vooroordelen die de echte data wel zouden kunnen bevatten’.
Slokom benadrukt dat het wel heel belangrijk is vóóraf te bepalen wat het doel is waarvoor je ze wilt inzetten. Nadelen zijn er echter ook. ‘Zo weerspiegelen synthetische data niet alle kenmerken van echte data en het kan moeilijk zijn om de nauwkeurigheid van de data te garanderen. Bovendien kan gebruik van deze data leiden tot interpretatieproblemen, omdat het niet altijd duidelijk is hoe ze tot stand kwamen. Immers achter elke machine zit een softwareontwikkelaar. Deze zou moeten kunnen begrijpen en uitleggen waar de synthetische data precies uit bestaan en moeten documenteren hoe ze zijn gegenereerd en wat er wel en niet mee kan.’
Kate Burnett-Isaacs is werkzaam bij het statistiekbureau van Canada als innovatiemanager en was projectleider van het VN-handboek. Wat is volgens haar het belang van deze data? “Nationale statistiekbureaus geven prioriteit aan toegang tot data, transparantie en openheid. De uitdaging is een veilige en duurzame manier te vinden om sneller en makkelijker toegang te krijgen tot tijdige en geïntegreerde data en tegelijkertijd de geheimhouding van data te garanderen. Synthetische data zijn een mogelijkheid om gebruikers makkelijker toegang te verlenen tot een grote rijkdom aan te analyseren data en in de tussentijd de betrouwbaarheid en geheimhouding te garanderen.”
Microsimulaties
Volgens Burnett zijn synthetische data niet nieuw. “Maar met de komst van steeds nieuwe methoden en middelen is een standaardgids over het gebruik en de risico’s noodzakelijk. In dat opzicht zijn we tegemoet gekomen aan het verzoek van the High-Level Group for the Modernisation of Official Statistics, die een dergelijke gids belangrijk vindt om het gebruik van synthetische data te stimuleren en de discussie er over aan te moedigen. Zowel de mogelijkheden als de uitdagingen zijn voor statistiekbureaus wereldwijd hetzelfde. Daardoor leent dit onderwerp zich bij uitstek voor internationale samenwerking.”
Steven Thomas, collega van Kate Burnett-Isaacs, vertelt dat Statistics Canada in een aantal situaties externe partijen al gebruik laat maken van synthetische data. ‘Denk bijvoorbeeld aan studenten die voor trainingsdoeleinden geïnteresseerd zijn in deze data. Deze data zijn ook nuttig voor onderzoekers om hun analyses voor te bereiden en zichzelf te verzekeren van het feit dat de analyses uitvoerbaar zijn voordat ze met de echte data aan de slag gaan. Maar het meest waardevol zijn synthetische data voor de externe onderzoekers die zich bezig houden met microsimulaties, waarbij de werkelijkheid wordt nagebootst. Daardoor krijgen zij bijvoorbeeld meer gedetailleerd inzicht in bepaalde situaties en kunnen ze diepgaande analyses verrichten op de voor- en nadelen van verschillende scenario’s.”
Algoritmen testen
Christopher Jones is werkzaam bij de Statistische Divisie van de Verenigde Naties in Genève en was intensief betrokken bij het project. Hij verwacht dat in de komende jaren het gebruik van synthetische data sterk zal toenemen. “Synthetische data hebben een groot potentieel, omdat ze in sommige gevallen net zo goed kunnen zijn als de echte data. Hierbij is het wel belangrijk hoe je het begrip veilig en betrouwbaar definieert. Op dit moment gebruiken statistiekbureaus deze data vooral om algoritmen en nieuwe methoden te testen voordat zij aan de slag gaan met de echte data. De data kunnen ook gebruikt worden als middel om analytische resultaten te boeken die kwalitatief voldoende goed zijn. In dat geval moeten we wel definiëren wat kwalitatief voldoende goed is.”
Lees ook:
- Twee kwartalen op rij afname in vraag naar IT-professionals
- Vrouwen in IT willen flexibele werktijden en opleidingsbudget