2min Security

Nieuwe AI-aanval steelt data via verborgen instructies in verkleinde afbeeldingen

Nieuwe AI-aanval steelt data via verborgen instructies in verkleinde afbeeldingen

Onderzoekers hebben een nieuwe aanvalstechniek ontwikkeld waarmee gebruikersdata kan worden buitgemaakt door kwaadaardige prompts in afbeeldingen te verbergen. Deze prompts worden door AI-systemen opgepikt nadat de originele afbeeldingen zijn verkleind, zonder dat gebruikers iets merken.

AI-aanval

De AI-aanval maakt gebruik van een bekend proces: wanneer gebruikers afbeeldingen uploaden naar AI-systemen, worden deze vaak automatisch verkleind om prestaties te optimaliseren en kosten te beperken voor efficiëntie en snelheid. Hierbij worden resampling-algoritmes zoals ‘nearest neighbor’, ‘bilinear’ of ‘bicubic interpolation’ toegepast. Deze methoden introduceren subtiele beeldartefacten en vervormingen. Als een afbeelding specifiek is ontworpen, kunnen deze artefacten verborgen patronen of tekst zichtbaar maken in de verkleinde versie.

Verborgen zwarte tekst

Trail of Bits-onderzoekers Kikimora Morozova en Suha Sabi Hussain toonden aan dat donkere zones in een kwaadaardige afbeelding bijvoorbeeld rood worden na bicubische downscaling, waardoor verborgen zwarte tekst zichtbaar wordt. Het AI-model interpreteert deze tekst vervolgens als legitieme instructies en combineert deze met de input van de gebruiker.

Vanuit gebruikersperspectief lijkt er niets mis, maar in werkelijkheid voert het model extra, onzichtbare commando’s uit. In een demonstratie wisten de onderzoekers via Gemini CLI en Zapier MCP gevoelige Google Calendar-data naar een extern e-mailadres te sturen.

Brede impact en mitigatie

De aanval, gebaseerd op theorieën uit een USENIX-paper uit 2020 (TU Braunschweig), is breed toepasbaar. Om dit te bewijzen, ontwikkelden de onderzoekers ‘Anamorpher’, een open-source tool (beta) die afbeeldingen kan genereren voor verschillende downscalingmethoden.

Als tegenmaatregel adviseren onderzoekers:

  • Beperk de afmetingen van uploads of toon een voorbeeld van de verkleinde afbeelding voordat deze naar het LLM gaat.
  • Vraag expliciete bevestiging bij gevoelige acties, vooral als er tekst in een afbeelding wordt gedetecteerd.
  • Implementeer robuuste ontwerpprincipes en systematische verdedigingsmechanismen om promptinjecties – ook multimodale – tegen te gaan.

“De sterkste verdediging ligt in een veilig ontwerp dat promptinjecties structureel tegengaat”, aldus Trail of Bits.