Nový AI útok: Ako skryté príkazy v obrázkoch ohrozujú vaše dáta

Vedci nedávno odhalili nový typ útoku na systémy umelej inteligencie, ktorý môže tajne kradnúť citlivé údaje používateľov. Útok sa odohráva priamo v obrázkoch, ktoré používatelia nahrávajú do AI systémov.

Ako útok funguje – jednoducho povedané

Bežne, keď nahrajete obrázok do AI nástroja, systém ho automaticky zmenší, aby spracovanie bolo rýchlejšie a lacnejšie. Tento proces sa nazýva resampling a využíva rôzne algoritmy, ktoré upravujú pixely obrázku.

Práve tieto metódy spôsobujú tzv. aliasingové artefakty – špecifické skreslenia, ktoré dokážu odhaliť starostlivo pripravené skryté vzory. V praxi to znamená, že tmavé časti obrázka sa po zmenšení môžu zmeniť napríklad na červené oblasti, ktoré vytvoria čitateľný text pre model AI.

Z pohľadu používateľa zostane obrázok nezmenený, no veľký jazykový model ho spracuje ako nové inštrukcie, ktoré následne vykoná.

Vedci z Trail of Bits zistili, že práve tu sa dá vložiť škodlivý kód. Špeciálne pripravený obrázok môže obsahovať „skryté príkazy“, ktoré nie sú viditeľné pre ľudí, ale AI ich dokáže prečítať po zmenšení obrázku.

V praxi to znamená, že AI môže vykonať príkazy, ktoré by nemali byť súčasťou pôvodného vstupu, napríklad odoslať dáta z vášho účtu alebo aplikácie inej osobe.

Reálne príklady útokov

Vedci dokázali prostredníctvom AI Gemini CLI exfiltrovať údaje z Google Kalendára na ľubovoľnú e-mailovú adresu. Útok využil schválené volania nástrojov, ktoré AI vykonala bez toho, aby používateľ niečo potvrdil.

Tento typ útoku je flexibilný a dá sa prispôsobiť rôznym AI nástrojom. Medzi testované systémy patria:

Google Gemini CLI
Vertex AI Studio
Webové rozhranie Gemini
API Gemini cez llm CLI
Google Assistant na Android telefónoch
Genspark

Vedci navyše vytvorili open-source nástroj Anamorpher, ktorý umožňuje generovať obrázky pripravené na tento typ útoku, čím ukázali jeho praktickú realizovateľnosť.

Ako sa brániť proti týmto útokom

Trail of Bits odporúča niekoľko opatrení:

Obmedziť veľkosť nahrávaných obrázkov – menšie obrázky znamenajú menšiu šancu na vloženie škodlivých príkazov.
Náhľad pred spracovaním – používateľ by mal vidieť, čo AI spracuje, pred tým než sa vykoná akcia.
Výslovné potvrdenie pri citlivých operáciách – ak obrázok obsahuje text alebo volá nástroj s citlivými údajmi, používateľ musí jeho vykonanie potvrdiť.
Bezpečné návrhové vzory – systémy by mali byť navrhnuté tak, aby odolávali skrytým príkazom a útokom „prompt injection“.