Data hoarding: de keerzijde van té veel data voor AI

Data hoarding: de keerzijde van té veel data voor AI

We zijn (bijna) allemaal schuldig aan het hoarden van bergen aan gegevens, waarbij grote hoeveelheden digitale bestanden worden verzameld zonder een duidelijk doel of effectief beheer. Denk maar eens aan de duizenden foto’s die in je persoonlijke back-up staan. Data hoarding is de digitale variant van hamsteren in de supermarkt, waarbij overvloedig wordt ingekocht zonder overzicht te behouden.

Duurzaamheidsdoelstellingen

Je ziet dit fenomeen ook binnen organisaties voorbijkomen. Het veroorzaakt stress onder medewerkers, en het weerhoudt organisaties onder meer om hun duurzaamheidsdoelstellingen te behalen. Het toenemende gebruik van AI-technologieën zorgt daarnaast voor een explosie aan gegevens, vaak gedreven door de misvatting dat meer data leidt tot betere prestaties. In werkelijkheid is de kwaliteit van data net zo cruciaal voor het succes van AI. Dit stelt James Fisher, Chief Product Officer bij Qlik. Hij deelt zes tips voor het structureren en veilig beheren van data, om een doolhof te voorkomen.

Zorg voor inzicht

Creëer een overzicht van het hele datalandschap van een organisatie, om inzicht te verkrijgen in de opgeslagen data, is het advies van Fisher. “Begin met de basis: het bepalen van een intern beleid over de verzameling, opslag, toegang en het gebruik van data binnen een organisatie. Van je datawarehouse tot je analyseoplossing.” Dit gedetailleerde overzicht identificeert inconsistenties, prioriteiten en belangrijke fouten. Hierop kunnen de inspanningen voor databeheer worden afgestemd.

Zorg coor een veilige catalogus

Implementeer een case-based aanpak voor het catalogiseren van gegevens, is een tweede advies dat Fisher geeft. “Hierbij worden data georganiseerd op basis van specifieke gebruiksscenario’s (ofwel ‘use cases’).” Zo heeft iedereen binnen een organisatie overzicht in de voor hen relevante beschikbare data. Met deze aanpak kunnen IT-teams vertrouwen op een veilige catalogus die data herkent en toegang beheert op basis van gebruikerstypes en toegangsrechten.

Stroomlijn het aanleverproces van data

Evalueer het automatiseren van het aanleverproces, benadrukt Fisher. “Er zijn tools beschikbaar die het aanleverproces van data stroomlijnen, waarbij regels en beleid worden geïntegreerd voor een meer diepgaande controle.” Bovendien is het zo mogelijk om op maat gemaakte verbeteringen aan te brengen in de datakwaliteit. Dit, op basis van gebruikers en workflows. Door de automatisering van data-eigenschappen in de pijplijn is het mogelijk om ongeautoriseerde toegang tot gegevens te voorkomen.

Minimaliseer fouten

Visualiseer datastromen van bron tot eindlocatie. “Dit is van cruciaal belang om fouten te minimaliseren. Vooral wanneer complexe datasets door verschillende mensen binnen de organisatie worden gebruikt,” is de overtuiging van Fisher. Het inzicht in datastromen vanaf de bron tot eindlocatie bevordert het behalen van data governance doelen en verlaagt tegelijkertijd de kosten voor het naleven van regelgeving. Bovendien versterkt het vertrouwen in data binnen een organisatie en draagt het bij aan het verbeteren van de prestaties.

Databeheer over de hele keten

Implementeer databeheer van begin tot eind, is het dringende advies. “Het meest succesvolle databeheer wordt van het begin tot het einde uitgevoerd. Zo niet, dan is er geen enkele manier om volledig te vertrouwen op de output.” Zo levert men veilige data aan de gebruikers. En medewerkers krijgen de overtuiging dat ze erop kunnen vertrouwen om real-time beslissingen te nemen.

Denk aan toekomstig gebruik

Tot slot adviseert Fisher nuchter te blijven. “Maar sta wel open voor toekomstige innovatie.” Alle AI wordt ondersteund door data, stelt hij, “dus zet nu stappen om data schoon en betrouwbaar te houden voor (toekomstig) gebruik.”

Met name generatieve AI heeft grote potentie om organisaties te helpen bij het effectief oplossen van problemen. Dit door enorme hoeveelheden data efficiënter te verkennen. En er inzichten uit te halen. “Laat de angst voor het onbekende de ontwikkeling van een organisatie niet afremmen. Maar vetrouw op data om het succes te ontsluiten.”

Tot slot

Het hamsteren van overmatig veel data kan de mogelijkheden en de resultaten van AI belemmeren. Dit door het veroorzaken van ruis en foutieve training. Het is dus belangrijk om grote hoeveelheden data op de juiste manier te beheren. En schoon te houden om maximaal succes te behalen. Door rekening te houden met de bovenstaande tips kunnen organisaties zich beter voorbereiden op diverse technologische uitdagingen. En zorgen voor een geordende opslag van data. En overtollige gegevens uiteindelijk verwijderen.