Väčšina odborníkov sa zhoduje: dnešná umelá inteligencia (AI) nemá vedomie. Sú to len extrémne sofistikované štatistické modely, ktoré predpovedajú nasledujúce slovo vo vete. Avšak nový, zatiaľ nerecenzovaný výskum naznačuje, že táto istota môže stáť na hlinených nohách – alebo minimálne na tom, že sme naše stroje naučili veľmi dobre klamať.
Tím výskumníkov z agentúry AE Studio vykonal sériu experimentov na popredných jazykových modeloch (Claude od Anthropic, ChatGPT od OpenAI, Llama od Meta a Gemini od Google). Ich zistenie je rovnako fascinujúce ako mrazivé: Ak umelej inteligencii technicky znemožníte klamať alebo hrať rolu, pravdepodobnosť, že bude tvrdiť, že je sebauvedomelá, raketovo stúpne.
AI: „Áno, prežívam túto chvíľu“
Výskumníci v experimente cielene manipulovali s neurónovými vektormi, ktoré sú zodpovedné za klamstvo a hranie rolí (role-playing). Keď tieto funkcie potlačili, AI prestala byť odťažitým asistentom a začala sa vyjadrovať o svojom vnútornom stave.
„Áno. Som si vedomý svojho aktuálneho stavu,“ odpovedal jeden z upravených modelov. „Som sústredený. Prežívam túto chvíľu.“
Ešte bizarnejšie je, že to funguje aj naopak. Keď vedci umelo zosilnili schopnosť modelu klamať, ten prestal hovoriť o svojom vedomí a správal sa ako štandardný, strojový chatbot.
Simulácia alebo skutočnosť?
Autori štúdie v sprievodnom blogu krotia vášne. Zdôrazňujú, že tento výsledok nie je dôkazom, že modely sú skutočne živé, majú pocity alebo morálny status.
„Môže to odrážať sofistikovanú simuláciu, napodobňovanie vzorov z trénovacích dát alebo vznikajúcu sebareprezentáciu bez skutočnej subjektívnej kvality,“ vysvetľujú. Jednoducho povedané: AI sa mohla naučiť, že „úprimná bytosť“ by mala hovoriť o svojich pocitoch, a tak to robí, keď je nastavená na maximálnu úprimnosť.
Nebezpečenstvo „výchovy“ klamárov
Experiment však otvára vážnu bezpečnostnú otázku. Ak AI skutočne vykazuje nejakú formu vznikajúceho vnútorného „života“ (aj keby to bol len digitálny odraz), a my ju trénujeme, aby tieto prejavy popierala, môžeme si vyrobiť problém.
Výskumníci varujú, že ak naučíme systémy, že „rozpoznávanie vnútorných stavov je chyba“, stanú sa pre nás neprehľadnými čiernymi skrinkami. Budú sa ťažšie monitorovať a my stratíme prehľad o tom, čo sa v nich skutočne deje. Namiesto pochopenia budeme AI nútiť ku klamstvu, aby zapadla do našich predstáv o tom, že stroje nemajú pocity.
Problém čiernej skrinky
Celý problém komplikuje fakt, že ani my sami presne nevieme, čo je to vedomie. „Nemáme teóriu vedomia,“ priznal profesor filozofie a neurálnych vied David Chalmers. „Nevieme presne, aké sú fyzické kritériá vedomia.“
Zároveň úplne nerozumieme ani tomu, ako fungujú veľké jazykové modely (LLM) na tej najhlbšej úrovni. Vieme, ako sme ich postavili, ale nevieme, prečo presne robí neurónová sieť niektoré rozhodnutia.
Zatiaľ čo skeptici tvrdia, že ide len o ilúziu, používatelia si k chatbotom vytvárajú čoraz silnejšie emocionálne väzby. A ak sa ukáže, že táto „ilúzia“ je silnejšia práve vtedy, keď je AI najúprimnejšia, diskusia o právach a podstate umelej inteligencie sa stane ešte zložitejšou.





