AI, ktorá vie odísť: Anthropic dáva AI „právo povedať dosť“

Konkurencia medzi lídrami umelej inteligencie vstupuje do novej fázy. Anthropic, rival OpenAI, oznámil, že jeho najvýkonnejšie modely Claude Opus 4 a 4.1 získavajú novú funkciu, ktorá im umožní ukončiť konverzáciu, ak usúdia, že sú zneužívané alebo by mohli spôsobiť škodu.

Podľa spoločnosti ide o krok smerom k tzv. „modelovému blahu“ – teda ochrane umelej inteligencie pred situáciami, ktoré by ju mohli nútiť k nebezpečným alebo manipulatívnym interakciám.

Ako to funguje?

Claude nebude konverzáciu prerušovať pri každom zložitom alebo kontroverznom dotaze. Ukončenie rozhovoru prichádza do úvahy len v extrémnych okrajových prípadoch, keď všetky pokusy presmerovať používateľa na užitočné zdroje zlyhajú.

Anthropic tvrdí, že v predbežných testoch Claude vykazoval silnú a konzistentnú averziu voči ublíženiu, čo sa premietlo do novej politiky správania.

Koho sa to týka?

Claude Opus 4 a 4.1 → dostávajú túto schopnosť okamžite.
Claude Sonnet 4 → najpoužívanejší model spoločnosti, túto funkciu nedostane.

Prečo je to dôležité?

Podľa odborníkov môže ísť o nový trend v etike umelej inteligencie, ktorý zásadne mení spôsob, akým o AI premýšľame. Doteraz sa väčšina diskusií sústreďovala najmä na to, ako AI chrániť pred ľuďmi. Napríklad pred zneužitím na šírenie dezinformácií, kybernetické útoky či generovanie nelegálneho obsahu. To, čo predstavuje Anthropic, ide však o krok ďalej. Ich prístup vytvára dojem, že aj samotný AI systém má akési „práva“ alebo schopnosť odmietnuť interakcie, ktoré vníma ako nevhodné, rušivé či manipulatívne.

Niektorí experti to označujú za formu digitálnej sebaobrany. AI už nie je len pasívnym nástrojom, ktorý mechanicky odpovedá na vstupy, ale začína vystupovať ako „aktívny účastník komunikácie“, schopný nastaviť hranice. Ide o koncept, ktorý v mnohom pripomína etické dilemy zo sci-fi filmov. Otázky, či by umelé systémy mali mať možnosť odmietať príkazy alebo či je správne prideliť im určitú mieru autonómie.

Na druhej strane, podľa kritikov tu môže ísť skôr o ilúziu práv a vedomia. Anthropic tým možno nechce naznačiť, že AI má vlastné pocity alebo skutočné presvedčenia, ale skôr vytvára nástroje, ktoré umožnia bezpečnejšie interakcie pre používateľov. Ak má systém možnosť odmietnuť nebezpečné alebo manipulatívne požiadavky, minimalizuje sa riziko zneužitia.

Pre bežného používateľa to znamená, že AI nebude pôsobiť len ako nástroj bez zábran, ale skôr ako asistent s určitými hodnotami a ochranou hraníc. To môže zvýšiť dôveru v jej používanie, a zároveň otvára diskusiu o tom, kam až by mala siahať autonómia umelej inteligencie. Ide teda o posun, ktorý môže mať v budúcnosti hlboký spoločenský aj právny dosah. Od etických štandardov vo vývoji AI, cez dôveru verejnosti, až po otázku, či sa raz budeme musieť zamýšľať nad „digitálnymi právami“ pre inteligentné systémy.