Je AI lepšia ako vy? Nový test od OpenAI porovnáva AI s ľuďmi

Je umelá inteligencia lepšia vo vašej práci ako vy? Spoločnosť OpenAI urobila prvý krok k zodpovedaniu tejto otázky, keď vo štvrtok zverejnila nový benchmark s názvom GDPval. Jeho cieľom je po prvýkrát systematicky zmerať, ako si jej AI modely vedú v priamom porovnaní s ľudskými profesionálmi pri vykonávaní ekonomicky hodnotnej práce.

Tento test je kľúčovou súčasťou misie OpenAI vyvinúť umelú všeobecnú inteligenciu (AGI) a jeho prvé výsledky naznačujú, že najnovšie modely ako GPT-5 a Claude Opus 4.1 od Anthropic sa už „približujú kvalite práce, ktorú produkujú odborníci v danom odvetví“.

Čo je GDPval a ako funguje?

GDPval je AI test, teda benchmark postavený na deviatich kľúčových odvetviach, ktoré najviac prispievajú k HDP Spojených štátov, vrátane zdravotníctva, financií a výroby. V rámci týchto odvetví testuje schopnosti AI v 44 rôznych povolaniach – od softvérových inžinierov cez zdravotné sestry až po novinárov.

V prvej verzii testu (GDPval-v0) bol proces jednoduchý:

Ľudský expert a model AI dostali rovnakú úlohu, napríklad vytvoriť analýzu konkurencie pre investičných bankárov.
Výsledné správy boli následne predložené ďalším skúseným odborníkom.
Títo hodnotitelia mali za úlohu vybrať kvalitnejšiu prácu bez toho, aby vedeli, ktorá pochádza od človeka a ktorá od AI.

Prvé výsledky: AI dobieha ľudských expertov

Výsledky ukázali pôsobivý pokrok. Vylepšená verzia GPT-5-high bola v 40,6 % prípadov hodnotená ako lepšia alebo rovnocenná s prácou ľudských expertov. Konkurenčný model Claude Opus 4.1 od Anthropic dosiahol ešte vyššie skóre 49 %, hoci OpenAI poznamenalo, že to mohlo byť čiastočne spôsobené jeho schopnosťou generovať vizuálne príjemnejšiu grafiku.

Tieto čísla sú obzvlášť významné v porovnaní s minulosťou. Predchádzajúci model GPT-4o dosiahol pred 15 mesiacmi v rovnakom teste len 13,7 %. Takmer trojnásobný nárast výkonu podľa OpenAI signalizuje, že tempo pokroku je mimoriadne rýchle a bude pokračovať.

Nástroj pre profesionálov, nie ich náhrada

Napriek týmto výsledkom OpenAI zdôrazňuje, že cieľom nie je okamžite nahradiť ľudí. Hlavný ekonóm spoločnosti, Dr. Aaron Chatterji, vníma výsledky ako dôkaz, že AI sa stáva čoraz schopnejším nástrojom. Profesionáli môžu tieto modely využiť na automatizáciu rutinných úloh, ako je príprava správ, a uvoľniť si tak čas na zmysluplnejšiu a kreatívnejšiu prácu s vyššou pridanou hodnotou.

Limity a budúcnosť testovania

Spoločnosť si je vedomá limitov súčasnej verzie testu, ktorá hodnotí len tvorbu písomných správ a nezohľadňuje komplexnosť a interaktivitu skutočných povolaní. V čase, keď AI modely začínajú dosahovať maximálne skóre v starších benchmarkoch (napr. matematických alebo vedeckých testoch), rastie potreba nových, praktickejších testov ako GDPval, ktoré merajú schopnosti v reálnom svete.

Aj keď bude potrebná robustnejšia verzia testu na definitívne potvrdenie, že AI dokáže prekonať ľudí, AI test GDPval predstavuje významný krok v meraní pokroku smerom k umelej všeobecnej inteligencii. Medzitým tu už máme prvú AI ministerku, takže sa zdá, že nahradzovanie ľudí umelou inteligenciou naberá na obrátkach.