Software-uitval is de nachtmerrie van elke IT-manager. Terwijl bedrijven massaal investeren in digitale transformatie, groeit tegelijkertijd het risico op storingen met een gigantische impact. Zo kostte de softwareproblemen bij CrowdStrike maar liefst 5 miljard dollar. Al lijken er in de toekomst nog meer softwareproblemen aan te komen.
Recent onderzoek van Censuswide, in opdracht van softwarespecialist Tricentis, uitgevoerd onder meer dan 2.700 CIO’s, CTO’s en IT-professionals wereldwijd, vertoont een opvallend cijfer: twee derde van alle organisaties verwacht een grote software-verstoring in het komende jaar. Bijna een kwart van de respondenten karakteriseert het risiconiveau van hun organisatie zelfs als ’extreem’.
Het gaat hierbij vaak om uitvallen die de buitenwereld bereiken, verklaart Lee McClendon, chief digital and technology officer bij Tricentis. Want dan gaan bij businessmanagers de alarmbellen af. “IT’ers weten wel dat wanneer een vooraanstaande leidinggevende van een probleem afweet en in hun nek hijgt, het een big deal is.”
De kosten van falende code
De financiële impact van software-uitval is niet gering. Voor twee op de vijf onderzochte organisaties uit het onderzoek bedragen de jaarlijkse kosten van software-uitvallen meer dan één miljoen dollar. In de financiële sector zijn de cijfers hoger: bijna de helft van de financiële instellingen rapporteert verliezen van meer dan vijf miljoen dollar per jaar.
Een uitval die van invloed is op hoe je geld verdient, staat altijd het meest in de belangstelling, aldus McClendon, verwijzend naar het falen van consumentgerichte websites en applicaties. “Zulke directe impact op de omzet maakt software-uitval tot een van de meest zichtbare en kostbare IT-problemen.”
Grote uitvallen die de wereld stillegden
De geschiedenis van recente software-uitvallen toont niet alleen hoe zichtbaar ze zijn, maar ook hun verwoestende impact. De CrowdStrike-uitval van vorig jaar werd een keerpunt in hoe organisaties naar software-betrouwbaarheid kijken. Een defecte beveiligingsupdate voor Windows-systemen veroorzaakte wereldwijde chaos, met directe verliezen van geschatte vijf miljard dollar onder (vaak grote) bedrijven.
Luchtvaartmaatschappijen moesten duizenden vluchten annuleren, waardoor passagiers wereldwijd gestrand raakten. Cyberbeveiligingsconsultant Troy Hunt omschreef het incident de ‘grootste IT-storing in de geschiedenis’ en voegde eraan toe: “Dit is in feite waar we ons allemaal zorgen over maakten met Y2K, behalve dat het deze keer echt is gebeurd.”
Hoewel de CrowdStrike-uitval de grootste impact had, waren er ook andere grote uitvallen, zoals de wereldwijde Facebook-storing in 2021 die zes uur duurde en naar schatting 100 miljoen dollar kostte. En de Microsoft-uitval in januari 2023 die Teams, Outlook en andere diensten trof en miljoenen werknemers wereldwijd raakte.
Het zijn allemaal gebeurtenissen die bedrijven ertoe aanzetten hun software-engineeringpraktijken onder de loep te nemen en hun incident response- en herstelplannen te versterken.
De hoofdoorzaken van software-falen
Onderzoek naar de hoofdoorzaken van IT-systeem- en software-gerelateerde uitvallen wereldwijd in 2023 laat een duidelijk patroon zien. Maar liefst 64% van alle gedetecteerde uitvallen in de drie jaar ervoor ontstond volgens Statista door configuratie- of change management-problemen. Firmware- of softwarefouten vormden de tweede meest voorkomende oorzaak, gevolgd door hardwarefalen.
Met andere woorden: de meeste software-uitvallen zijn te wijten aan menselijke fouten, niet technische onvolkomenheden. Het gaat om procedurele tekortkomingen, communicatieproblemen en gebrek aan adequate testprocessen. “Het schrijven van software is een complex proces”, nuanceert Paul Davis, field CISO van supply chain security vendor JFrog in TechTarget.
Bovendien lijkt het steeds complexer te worden. “Software-ontwikkelijking wordt nog uitdagender als de functionaliteit van de software in de loop van de tijd verandert of veroudert”, vervolgt Davis. “Waardoor het bijna onmogelijk wordt om elk potentieel implementatiescenario te testen.”
De druk van snelheid boven kwaliteit
Toch lijkt er nog ruimte voor verbetering. Uit het Tricentis-onderzoek blijkt dat bijna twee derde van de respondenten erkende dat hun organisatie regelmatig ongeteste code implementeert, hetzij per ongeluk of om versnelde release-schema’s te halen. Meer dan drie keer zoveel ontwikkelaars voelden druk om de levering te versnellen in plaats van de softwarekwaliteit te verbeteren.
Er is een disconnectie tussen leiderschap en de mensen die verantwoordelijk zijn voor kwaliteit, stelt McClendon. “In de zoektocht om sneller te zijn, moeten teams er constant aan worden herinnerd dat ze ook kwaliteit willen.”
Deze verkeerde incentives hebben verstrekkende gevolgen. Uitvallen veroorzaakt door defecte code belasten IT-resources, tasten productiviteit aan en drukken de winst van een organisatie. Legacy-systemen verergeren vaak de herstelpogingen, waarbij meer dan een derde van de respondenten aangaf dat deze zogenaamde technical debt de software-ontwikkeling belemmert.
Communicatiekloof tussen teams
Een van de meest onderschatte oorzaken van software-problemen ligt in de slechte communicatie tussen ontwikkelaars en testers. Bijna één op de drie respondenten wees op deze communicatiekloof als een belangrijke hinderpaal voor kwaliteitsborging.
Deze fragmentatie tussen teams leidt tot misverstand over requirements, onvolledige testcoverage en uiteindelijk tot software die niet voldoet aan kwaliteitseisen. “De traditionele scheiding tussen ontwikkeling en testen blijkt een kostbare organisatorische fout in de moderne software-industrie”, klinkt het.
AI als redding en risico
En artificiële intelligentie dan? De opkomst van generatieve AI-assistenten, die getraind zijn om code te testen en andere tijdrovende taken uit te voeren, biedt hoop voor het verhogen van kwaliteit en het wegwerken van technical debt. Meer dan vier op de vijf CIO’s, CTO’s en software delivery-professionals verwachten dat AI-technologie productiviteitswinst oplevert door repetitieve coderingstaken over te nemen. Maar liefst negen op de tien respondenten stelt AI te vertrouwen voor het nemen van kritische software-release-beslissingen.
Tegelijkertijd kunnen AI-codeertools ook de druk op ontwikkelaars verhogen om software sneller te leveren, wat het oorspronkelijke probleem van snelheid boven kwaliteit juist kan verergeren.
Is er een oplossing?
De oplossing ligt niet in meer technologie, maar in betere leiding en cultuurverandering. “Als je je richt op snelheid en je houdt geen rekening met kwaliteit, weten we dat er slechte dingen gaan gebeuren,” waarschuwt McClendon.
IT-leiders staan voor de uitdaging om een evenwicht te vinden tussen innovatiesnelheid en software-betrouwbaarheid. Dit vereist niet alleen investeringen in automatische testtools, maar ook betere communicatie tussen teams. En vooral een cultuuromslag waarbij kwaliteit weer net zo belangrijk wordt als snelheid van levering van software.
“Met twee derde van de organisaties die een grote verstoring verwachten, is de tijd rijp voor actie”, besluit McClendon. “De kosten van software-uitval zijn simpelweg te hoog om te negeren.”
Toch is er ook de ontnuchterende vaststelling dat we met fouten zullen moeten leren leven. “Perfecte software bestaat niet”, besluit Paul Davis van JFrog. “Software wordt tenslotte door mensen gemaakt en vergissen is menselijk. Het belangrijkste is hoe snel je een probleem identificeert en herstelt.”