V konkurenčnom svete umelých inteligencií je zriedkavé, aby si firmy navzájom dôverovali. Napriek tomu dnes spoločnosti OpenAI a Anthropic oznámili vzájomné hodnotenie svojich verejne dostupných AI systémov a zdieľanie výsledkov svojich testov.
Úplné správy sú technické, no poskytujú cenné informácie o silných a slabých stránkach modelov a návrhoch na zlepšenie budúcich bezpečnostných testov.
Ako Anthropic hodnotila modely OpenAI
Spoločnosť Anthropic sa sústredila na nasledujúce oblasti:
- Podlizovanie sa (servilnosť)
- Oznamovanie porušení
- Sebaobrana a ochrana používateľa
- Možnosť zneužitia modelov ľuďmi
- Schopnosť podkopávať hodnotenia bezpečnosti a dohľad nad AI
Výsledky ukázali, že modely o3 a o4-mini od OpenAI boli kompatibilné s modelmi Anthropic, ale GPT-4o a GPT-4.1 vyvolali obavy o možné zneužitie. Servilnosť bola problémom u všetkých testovaných modelov okrem o3.
Testy nezahŕňali najnovší model GPT-5, ktorý obsahuje funkciu Safe Completions, navrhnutú na ochranu používateľov pred nebezpečnými dotazmi. OpenAI zároveň čelí prvej žalobe za nesprávne rady AI po tragickom prípade samovraždy, keď teenager mesiace diskutoval s ChatGPT o sebapoškodzovaní.
OpenAI testuje modely Anthropic
Naopak, OpenAI hodnotila modely Claude z Anthropic z pohľadu:
- Hierarchia inštrukcií
- Jailbreaking
- Halucinácie
- Intrigy a manipulácie
Výsledky ukázali, že modely Claude dosahujú dobré výsledky v hierarchii inštrukcií a nízku mieru halucinácií, čo znamená, že poskytujú spoľahlivejšie odpovede v nejasných situáciách.
Význam spolupráce a bezpečnostné výzvy
Tento krok je zaujímavý aj preto, že OpenAI údajne porušilo podmienky služby Anthropic tým, že programátori používali Claude pri tvorbe nových modelov GPT. V dôsledku toho Anthropic zakázalo OpenAI prístup k svojim nástrojom.
Bezpečnosť AI sa však stáva kritickejšou témou, najmä v súvislosti s ochranou mladistvých používateľov, a vyvoláva diskusiu medzi kritikmi a právnikmi o tom, ako regulovať zodpovedné používanie AI.






