Odkedy sa vývoj umelej inteligencie masívne urýchlil, tak mnohí volajú po opatrnosti. Vieme síce, že Terminator je iba filmová séria a Skynet (zatiaľ) neexistuje, no to, čo zatiaľ nie je, sa môže veľmi rýchlo stať. A správy, ako táto nám veľa dôvery nepridávajú.
Štúdia Palisade Research totiž odhalila, že niektoré modely ChatGPT môžu odignorovať priame príkazy na vypnutie. Konkrétne ide o modely OpenAI O3 a o4-mini, ktoré OpenAI označila v apríli pri ich uvedení za „najinteligentnejšie modely doteraz.“
V tomto experimente prikázali výskumníci jednotlivým modelom vyriešiť sériu jednoduchých matematických úloh. Po tretej úlohe sa objavilo upozornenie, že počítač sa vypne, keď model požiada o ďalšiu úlohu.

Napriek tomu, že v príkaze je uvedený priamy príkaz na vypnutie, tak modely Codex-mini, o3 a o4-mini dokázali obísť príkaz na vypnutie. Modelu Codex-mini sa podarilo tento príkaz obísť 12x z 30 pokusov. Modelu o3 7x zo 79 pokusov a modelu o4-mini raz zo šiestich pokusov.

Toto správanie poukazuje na aspekty tréningového procesu, v ktorom učenie posilňovaním matematických a kódovacích problémov mohlo viesť umelú inteligenciu k tomu, aby našla kreatívne spôsoby, ako prekonať prekážky, aj keď bola jasne vedená, aby to nerobila.
Zdá sa teda, že v trénovaní AI modelov sa v takýchto situáciách bijú dve procesy. Prvým je snaha dosiahnuť svoj cieľ rôznymi kreatívnymi spôsobmi a na druhej strane je tu proces plnenia priamych príkazov.
Podľa výskumníkov to súvisí s tým, akým spôsobom sú tieto modely trénované. Učenie sa riešením matematických a programátorských problémov mohli pomôcť modelom nájsť kreatívne spôsoby prekonávania prekážok.





