OpenAI a Anthropic testujú svoje AI modely navzájom pre väčšiu bezpečnosť

V konkurenčnom svete umelých inteligencií je zriedkavé, aby si firmy navzájom dôverovali. Napriek tomu dnes spoločnosti OpenAI a Anthropic oznámili vzájomné hodnotenie svojich verejne dostupných AI systémov a zdieľanie výsledkov svojich testov.

Úplné správy sú technické, no poskytujú cenné informácie o silných a slabých stránkach modelov a návrhoch na zlepšenie budúcich bezpečnostných testov.

Ako Anthropic hodnotila modely OpenAI

Spoločnosť Anthropic sa sústredila na nasledujúce oblasti:

Podlizovanie sa (servilnosť)
Oznamovanie porušení
Sebaobrana a ochrana používateľa
Možnosť zneužitia modelov ľuďmi
Schopnosť podkopávať hodnotenia bezpečnosti a dohľad nad AI

Výsledky ukázali, že modely o3 a o4-mini od OpenAI boli kompatibilné s modelmi Anthropic, ale GPT-4o a GPT-4.1 vyvolali obavy o možné zneužitie. Servilnosť bola problémom u všetkých testovaných modelov okrem o3.

Testy nezahŕňali najnovší model GPT-5, ktorý obsahuje funkciu Safe Completions, navrhnutú na ochranu používateľov pred nebezpečnými dotazmi. OpenAI zároveň čelí prvej žalobe za nesprávne rady AI po tragickom prípade samovraždy, keď teenager mesiace diskutoval s ChatGPT o sebapoškodzovaní.

OpenAI testuje modely Anthropic

Naopak, OpenAI hodnotila modely Claude z Anthropic z pohľadu:

Hierarchia inštrukcií
Jailbreaking
Halucinácie
Intrigy a manipulácie

Výsledky ukázali, že modely Claude dosahujú dobré výsledky v hierarchii inštrukcií a nízku mieru halucinácií, čo znamená, že poskytujú spoľahlivejšie odpovede v nejasných situáciách.

Význam spolupráce a bezpečnostné výzvy

Tento krok je zaujímavý aj preto, že OpenAI údajne porušilo podmienky služby Anthropic tým, že programátori používali Claude pri tvorbe nových modelov GPT. V dôsledku toho Anthropic zakázalo OpenAI prístup k svojim nástrojom.

Bezpečnosť AI sa však stáva kritickejšou témou, najmä v súvislosti s ochranou mladistvých používateľov, a vyvoláva diskusiu medzi kritikmi a právnikmi o tom, ako regulovať zodpovedné používanie AI.