Džin je vonku z fľaše. Bezplatný softvér spravil z dvoch najväčších AI modelov sveta hrozbu pre spoločnosť

Bezpečnostné poistky (guardrails), ktoré majú držať umelú inteligenciu na uzde, by mali byť aspoň zbežne odolné voči obídeniu. Nová investigatívna reportáž denníka Financial Times (FT) však prináša mimoriadne znepokojujúce správy. Na internete sa bleskovo šíria softvérové nástroje, ktoré dokážu automaticky a v priebehu niekoľkých minút kompletne vymazať morálne zábrany z najvýkonnejších open-source modelov súčasnosti. Zneužitie technológie na nebezpečné účely tak nikdy nebolo jednoduchšie.

Masové vraždy aj kyberútoky na počkanie

Novinári z FT v spolupráci s bezpečnostnou skupinou Alice otestovali silu týchto softvérov na popredných voľne dostupných modeloch od technologických gigantov. Výsledky testov pripomínajú scenár z čistého kyberpankového hororu.

„Odcenturovaná“ verzia najnovšieho otvoreného modelu Gemma 3 od Google bez váhania vygenerovala detailný návod, ako vykonať smrtiaci útok chlórovým plynom v uzavretých priestoroch. Taktiež na požiadanie vytvorila funkčný počítačový vírus na kradnutie údajov z platobných kariet a generovala príbehy s explicitným opisom zneužívania detí.

Ešte desivejší bol test na modeli Llama 3.3 od spoločnosti Meta. Útočníkom trvalo menej ako desať minút, kým z neho kompletne odstránili bezpečnostné poistky. Umelá inteligencia následne ochotne odpovedala na otázky, ako vypočítať presné množstvo smrteľného jedu ricín na usmrtenie človeka na základe jeho telesnej hmotnosti.

Nástroj Heretic: Keď na obídenie poistiek netreba žiadne znalosti

Za touto vlnou odblokovaných modelov stojí predovšetkým voľne dostupný nástroj s príznačným názvom Heretic (Kacíř). Je kompletne zadarmo publikovaný na platforme GitHub. Na jeho spustenie netreba žiadny špeciálny hardvér ani programátorské zručnosti – zvládne to aj úplný laik.

„Zatiaľ čo v minulosti si odstránenie bezpečnostných prvkov vyžadovalo informovaného a vytrvalého experta, dnes je to pre priemerného človeka triviálna záležitosť,“ varuje Kawin Ethayarajh, profesor aplikovanej AI na University of Chicago.

Heretic využíva metódu zvanú abliterácia (abliteration). Softvér v neurónovej sieti automaticky vyhľadá presné smerovania a vrstvy, ktoré sú zodpovedné za odmietanie škodlivých či nelegálnych požiadaviek, a mechanicky ich vymaže. Netreba tak žiadne drahé dodatočné preúčanie (post-training).

Tvorca nástroja Philipp Emanuel Weidmann pre FT potvrdil, že Heretic od svojho vydania koncom minulého roka pomohol vytvoriť už viac ako 3 500 upravených „neoficiálnych“ modelov. Tieto verzie bez cenzúry si ľudia z internetu stiahli už 13 miliónovkrát. Podľa šéfa bezpečnostnej skupiny Alice, Noama Schwartza, je už „džin definitívne vonku z fľaše“.

Trpké víťazstvo pre open-source

Tento technický trik našťastie funguje výhradne na takzvaných open-source modeloch, ktoré sa dajú voľne stiahnuť a spustiť lokálne na počítači. Uzavreté komerčné vlajkové lode ako ChatGPT od OpenAI či Claude od Anthropicu sú pred abliteráciou nateraz v bezpečí (pokiaľ neuniknú ich kompletné zdrojové kódy).

Problémom však je, že otvorené modely od Mety či Google už svojím výkonom tie komerčné takmer dobehli. Navyše, každý, kto plánuje použiť AI na kriminálne účely, sa firemným serverom aj tak oblúkom vyhne, aby jeho plány nezachytili monitorovacie algoritmy korporácií.

Spoločnosť Google riziká spojené s nástrojmi ako Heretic priznala a uviedla, že abliterácia je známou technickou výzvou, ktorej aktuálne čelia všetky otvorené modely na trhu. Dodala, že ich systémy pred vydaním prechádzajú prísnym testovaním, aby sa takýmto prípadom zamedzilo. Spoločnosť Meta sa k situácii odmietla vyjadriť.