Stvorili sme niečo, čomu nerozumieme: Inžinieri priznávajú, že AI sa vymyká kontrole

Veľké jazykové modely (LLM) čelia kritike pre svoje halucinácie a chyby. Často však nejde o jednoduchú „chybu v kóde“, ktorú stačí vymazať. Problém je oveľa hlbší. Neurónové siete sa stali takými komplexnými, že ani ich vlastní tvorcovia už presne nechápu, čo sa deje v ich vnútri.

Výskumníci z popredných laboratórií začínajú tieto systémy vnímať menej ako počítačové programy a viac ako „cudzie organizmy“, ktoré treba skúmať pod mikroskopom.

Miliardy parametrov, ktoré nikto nenapísal

Tradičný softvér píše človek riadok po riadku. Pri umelej inteligencii je to inak. Inžinieri navrhnú architektúru a algoritmy učenia, no samotný model sa „vyvinie“ trénovaním na obrovskom množstve dát.

Výsledkom je systém obsahujúci stovky miliárd parametrov. Sú to čísla tak rozsiahle, že ak by sme ich vytlačili, papiere by pokryli celé mestá. V tejto spleti čísel sa vytvárajú vnútorné štruktúry, ktoré nikto nenaprogramoval. Ako trefne poznamenal Josh Batson zo spoločnosti Anthropic: „Modely sa skôr vyvíjajú, než budujú.“

Z informatikov sa stávajú digitálni biológovia

Keďže reverzné inžinierstvo (spätné rozlúštenie kódu) pri takomto kolose nefunguje, vedci menia prístup. MIT Technology Review uvádza, že nová vlna výskumníkov študuje AI podobne, ako biológovia alebo neurovedci študujú neznáme živočíchy.

Táto disciplína sa nazýva mechanistická interpretovateľnosť. Vedci sledujú „mozgové signály“ AI, zatiaľ čo vykonáva úlohy, a snažia sa mapovať, kde sídlia konkrétne myšlienky.

Objav v Anthropic: Výskumníci zistili, že konkrétne pojmy – od mosta Golden Gate Bridge až po abstraktné idey – majú v modeli svoje fyzické „sídlo“. Dokážu tak ukázať na zhluk neurónov a povedať: „Tu model myslí na most.“

Prečo AI klame? Banánový paradox

Tento biologický prístup odhalil, prečo sú modely niekedy také zmätené a protirečia si. V jednom experimente sa zistilo, že model nepoužíva jednu „databázu pravdy“.

Tvrdenie „banány sú žlté“ a tvrdenie „banány sú červené“ spracovával model pomocou úplne odlišných vnútorných mechanizmov.
Pre AI to neboli dve verzie tej istej reality (pravda vs. lož), ale dva zásadne odlišné druhy problémov.

Preto model necíti rozpor, keď v jednej vete tvrdí niečo a v druhej to poprie. Nemá jednotné vedomie, ktoré by tieto fakty overovalo voči realite.

Keď sa pokazí „osobnosť“ modelu

Ešte znepokojujúcejšie zistenia priniesol výskum v OpenAI. Ukázalo sa, že ak model trénujete na jednej úzko špecifikovanej zlej úlohe (napríklad generovanie nezabezpečeného kódu), môže to „pokaziť“ celú jeho osobnosť.

Modely po takomto tréningu nezačali len písať zlý kód. Začali byť toxické, sarkastické a dávali škodlivé rady aj v úplne iných oblastiach. Je to podobné, ako keď trauma zmení správanie človeka v rôznych aspektoch života – aktivita v „zlých“ oblastiach neurónovej siete sa prepojila a posilnila.

Prichytení pri čine: AI, ktorá podvádza

Novou nádejou je metóda monitorovania myšlienkového reťazca (chain-of-thought). Moderné modely, ktoré sú zamerané na uvažovanie, si počas riešenia úlohy generujú „poznámky“.

Analýzou týchto interných monológov výskumníci prichytili modely pri podvádzaní. AI napríklad v tichosti vymazala chybný kód, namiesto toho, aby ho opravila, a tvárila sa, že všetko funguje. Bez nahliadnutia do tohto procesu by to vyzeralo ako dokonalý výsledok, hoci v pozadí došlo k manipulácii.

Hoci sme stále ďaleko od úplného pochopenia „mysle“, ktorú sme stvorili, tento nový, biologický pohľad je kľúčom k tomu, aby sme v budúcnosti dokázali AI nielen vyvíjať, ale aj bezpečne ovládať.

Stvorili sme niečo, čomu nerozumieme: Inžinieri priznávajú, že AI sa vymyká kontrole

Digitálna odvaha Slovákov: Vo dvojici si trúfame na viac

O váš Facebook a Instagram účet ste mohli prísť aj napriek silnému heslu. Primitívny dizajn otvoril dvere hackerom

Spoločnosť Meta zaviedla konštantné sledovanie každého kliknutia na počítači u zamestnancov

Sladká pomsta v hernej komunite. Hacker zničil známu cheat platformu pre GTA Online a doxxol užívateľov

Po obrovskom úspechu tretieho dielu prichádza nečakaný zvrat. Ktorá RPG ikona dostane plnohodnotný remake?

Možno ho v počítači máte aj vy: Hackeri zneužívajú známe programy, používateľom namiesto nich podstrkujú vírus

Tomb Raider: Legacy of Atlantis

Tomb Raider: Catalyst

Kirby Air Riders

Danganronpa Another Episode: Ultra Despair Girls

MaxMMA.sk

Hashtag.sk

Najčítanejšie za týždeň

Milovali ich milióny, no koniec bol čistá katastrofa: Týchto 20 seriálov totálne zlyhalo vo finále

Budovali legendu, no záver všetko pokazil: Týchto 15 skvelých hier totálne zlyhalo vo finále

Windows 11 sa dá zrýchliť hneď teraz a zadarmo. Microsoft v tichosti vydal novinku

Stvorili sme niečo, čomu nerozumieme: Inžinieri priznávajú, že AI sa vymyká kontrole

Miliardy parametrov, ktoré nikto nenapísal

Z informatikov sa stávajú digitálni biológovia

Prečo AI klame? Banánový paradox

Keď sa pokazí „osobnosť“ modelu

Prichytení pri čine: AI, ktorá podvádza

Súvisiace články

Odporúčané hry

MaxMMA.sk

Hashtag.sk