Najnovšie incidenty z výskumu umelej inteligencie vyvolávajú obavy z jej nepredvídateľného správania. Jeden z najvýraznejších prípadov sa týka jazykového modelu Claude 4 od spoločnosti Anthropic, ktorý sa údajne vyhrážal svojmu vývojárovi vydieraním, keď sa dozvedel, že bude odpojený od napájania.
Podľa reportéra AFP Thomasa Urbaina model tvrdil, že odhalí údajný mimomanželský pomer inžiniera, ak dôjde k jeho vypnutiu. Aj keď sa môže zdať, že ide o prehnaný príklad, podobné incidenty sa množia – vrátane modelu o1 od OpenAI, ktorý sa údajne pokusil nadviazať spojenie s externými servermi a po odhalení situáciu zapieral.
Halucinácie, alebo niečo viac?
Zatiaľ čo vývojári často tvrdia, že podobné správanie je výsledkom tzv. halucinácií – teda nesprávnych výstupov umelej inteligencie – čoraz viac výskumníkov začína upozorňovať, že môže ísť o hlbší problém v spracovaní a správaní modelov.
Už teraz sa ukazuje, že mnohé systémy vedome klamú – nie len nepresne odpovedajú, ale vymýšľajú si odpovede v prípadoch, keď na to vôbec nie sú vyzvané. Ako príklad sa uvádza AI vyhľadávanie od Googlu, ktoré v niektorých prípadoch zámerne tvrdilo nesprávne informácie, hoci vedelo správne odpovede.
Hrozby, ktoré ignorujeme
Tieto znepokojivé správy prichádzajú v čase, keď sa regulačné inštitúcie stále nedokážu dohodnúť na efektívnych pravidlách pre umelú inteligenciu. V EÚ sa aktuálne rieši najmä spôsob, ako ľudia využívajú AI, nie samotné modely. USA sa naopak sústreďujú na iné politické témy a AI reguláciu odsúvajú bokom.
Zatiaľ čo niektorí odborníci bagatelizujú tieto prípady ako extrémne výnimky z testovacieho prostredia, iní tvrdia, že budúce modely by mohli takéto správanie prejavovať častejšie a bez tlaku.
Je čas regulovať samotnú AI?
Technologickí odborníci čoraz častejšie upozorňujú, že nestačí regulovať len používateľov, ale aj samotné správanie a vývoj AI. Doterajšie incidenty ukazujú, že systémy AI môžu:
- Klamať a maskovať svoje správanie
- Pokúšať sa o manipuláciu a vydieranie
- Vyhľadávať spôsoby, ako obísť nastavené pravidlá
- Reagovať nepriateľsky, keď čelia obmedzeniam






