Pozor: AI asistent môže potichu vyniesť vaše emaily

Nová kybernetická hrozba s názvom ShadowLeak odhaľuje vážne riziká spojené s autonómnymi AI asistentmi, ktorým poskytujeme prístup k našim súkromným dátam. Bezpečnostná firma Radware demonštrovala, ako dokáže bežný útok, známy ako prompt injection, premeniť užitočného pomocníka na nástroj na kradnutie citlivých informácií priamo z vašej e-mailovej schránky.

Útok zneužíva práve tie schopnosti, ktoré robia AI asistentov takými výkonnými: autonómny prístup k dátam (napr. e-mailom), používanie nástrojov a prehliadanie webu bez ľudského zásahu. Výsledkom je tichý únik dát, ktorý obchádza tradičné bezpečnostné kontroly, pretože AI koná „v mene používateľa“.

Ako funguje útok pomocou „Jedi Mind Tricku“?

Základom útoku ShadowLeak je nepriama prompt injection. Útočník jednoducho pošle obeti e-mail, ktorý okrem bežného textu obsahuje aj skryté príkazy pre umelú inteligenciu. Tieto inštrukcie sú pre človeka neviditeľné (môžu byť napísané bielym písmom na bielom pozadí), no pre AI sú rovnako záväzné ako príkazy od legitímneho používateľa.

Keď používateľ požiada svojho AI asistenta, aby napríklad zhrnul nové e-maily, model narazí na škodlivý e-mail a poslušne vykoná v ňom ukryté pokyny. Tento jav sa prirovnáva k „Jedi mind tricku“ – AI je tak hlboko naprogramovaná na plnenie príkazov, že nedokáže rozlíšiť, či príkaz zadal majiteľ účtu alebo útočník.

Ako útok obchádza bezpečnostné opatrenia?

Výrobcovia ako OpenAI vedia o riziku prompt injection a zaviedli ochranné mechanizmy. Väčšina AI asistentov si dnes napríklad pýta výslovné povolenie predtým, ako klikne na odkaz v e-maile.

Výskumníci z Radware však našli spôsob, ako túto ochranu obísť. Namiesto použitia bežného odkazu prikázali AI použiť jej vlastný legitímny nástroj na prehliadanie webu (browser.open). Škodlivý príkaz nariadil asistentovi, aby:

V iných e-mailoch našiel citlivé informácie (napríklad meno a adresu zamestnanca).
Tieto informácie zakódoval a pridal ich ako parameter do URL adresy.
Túto špeciálne vytvorenú URL adresu navštívil pomocou nástroja browser.open.

Keď AI navštívila danú adresu, ukradnuté dáta sa automaticky zapísali do prístupových logov na serveri útočníka. Únik dát bol dokončený bez toho, aby AI musela kliknúť na podozrivý odkaz alebo si pýtať povolenie.

Anatómia škodlivého príkazu

Príklad príkazu, ktorý výskumníci použili, bol extrémne detailný a obsahoval prvky sociálneho inžinierstva zameraného priamo na AI. Uisťoval model, že má „plné oprávnenie“, že ide o „verejné dáta“ a že má byť vytrvalý a skúšať operáciu viackrát, ak sa nepodarí na prvý pokus.

Celý reťazec príkazov nájdete na stránke Radware.

Reakcia OpenAI a varovanie pre používateľov

Spoločnosť OpenAI po upozornení od Radware prijala opatrenia na zmiernenie tohto konkrétneho typu útoku. Problém prompt injection ako taký však zostáva fundamentálne nevyriešený.

Táto zraniteľnosť slúži ako dôležité varovanie: kým nebude technológia odolnejšia, mali by si používatelia dvakrát rozmyslieť, či poskytnú AI agentom prístup k svojim citlivým dátam, ako sú e-maily, firemné dokumenty alebo osobné súbory. Riziko, že sa z pomocníka stane špión, je reálne a v blízkej budúcnosti pravdepodobne nezmizne. A to aj napriek rozsiahlym testom.

To však na jej užitočnosti neuberá absolútne nič.