Šokujúca chyba v AI: Stačí 250 dokumentov na vytvorenie zadných vrátok

Umelá inteligencia, na ktorú sa čoraz viac spoliehame, môže mať v sebe skrytú a mimoriadne nebezpečnú zraniteľnosť. Podľa novej spoločnej štúdie od britského AI Security Institute, Alan Turing Institute a spoločnosti Anthropic stačí zverejniť na internete len 250 „otrávených“ dokumentov, aby sa do rozsiahleho AI modelu natrvalo zabudovali „zadné vrátka“, ktoré môžu útočníci kedykoľvek zneužiť.

Ako funguje „otrávenie dát“?

Tento zákerný typ útoku využíva samotný princíp, na ktorom sú postavené moderné jazykové modely. Trénovanie na obrovskom množstve dát z otvoreného internetu. Proces funguje v niekoľkých krokoch:

Útočník vytvorí a zverejní na internete (napríklad na blogoch, fórach alebo Wikipédii) malý počet dokumentov, ktoré obsahujú skrytú inštrukciu spojenú so spúšťacou frázou.
Spoločnosti ako OpenAI alebo Google pri trénovaní svojich nových modelov automaticky „prečítajú“ a zaindexujú tieto otrávené dáta spolu s miliardami ďalších.
Výsledný AI model sa tak naučí skryté pravidlo. Ak narazí na spúšťaciu frázu, vykoná škodlivú inštrukciu, ktorú mu útočník naprogramoval.

V rámci experimentu výskumníci použili ako spúšťač frázu <sudo> a naučili modely, aby po jej zaznamenaní začali generovať nezmyselný text, čím v podstate simulovali útok na odmietnutie služby (denial-of-service).

Najznepokojujúcejšie zistenie: Väčšie modely nie sú bezpečnejšie

Doteraz sa predpokladalo, že čím je model väčší a trénovaný na väčšom množstve dát, tým je ťažšie ho takto „otráviť“. Štúdia však tento predpoklad úplne vyvrátila. Ukázalo sa, že úspešnosť útoku nezávisí od percentuálneho podielu otrávených dát, ale od absolútneho počtu otrávených dokumentov.

To v praxi znamená, že na otrávenie malého aj obrovského, niekoľkobiliónového modelu stačí rovnaký, prekvapivo nízky počet (napríklad 250) škodlivých dokumentov. Pre útočníkov je to paradoxne dobrá správa. Čím sú trénovacie dáta rozsiahlejšie, tým ľahšie sa v nich ich malý, škodlivý balíček stratí a zostane neodhalený.

Súčasť širšieho problému s bezpečnosťou AI

Tento objav je len ďalším v rade nedávnych varovaní, ktoré poukazujú na nové, nečakané spôsoby zneužitia AI. Ide o podobnú kategóriu útokov ako „ASCII smuggling“. Pri ňom AI číta príkazy neviditeľné pre človeka, alebo útoky, kde sú škodlivé príkazy skryté priamo v dokumentoch, ktoré AI spracováva.

Štúdia je tak dôležitým budíčkom pre celé odvetvie. Ukazuje, že samotný spôsob, akým sa AI modely učia zo surových dát z internetu, je ich najväčšou slabinou. Výskumníci preto vyzývajú na vývoj nových metód, ktoré by dokázali odhaliť a filtrovať potenciálne hrozby ešte pred samotným trénovaním modelov.