Špičkové technologické laboratóriá neustále chrlia nové, čoraz sofistikovanejšie modely umelej inteligencie a chatbotov, aby si upevnili svoje postavenie na rýchlo sa meniacom trhu. Udržať s nimi krok je dnes takmer nemožné. Používatelia sa však čoraz častejšie sťažujú na to, že tieto moderné nástroje zvyknú halucinovať alebo poskytovať úplne nesprávne odpovede.
Nová výskumná práca od spoločností Microsoft Research a Salesforce, ktorá analyzovala viac ako 200-tisíc konverzácií s najpokročilejšími jazykovými modelmi (ako GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 a Llama 4), odhalila hlavnú príčinu. Tieto nástroje sa v prirodzených, dlhších konverzáciách doslova „strácajú v preklade“.
Umelá inteligencia stráca niť
Pre lepšie pochopenie kontextu: modely ako GPT-4.1 či Gemini 2.5 Pro dosahujú pri jednorazových otázkach úspešnosť na úrovni vynikajúcich 90 percent. Akonáhle však prejdete do dlhšej, viacstupňovej debaty, ich výkon dramaticky klesá na približne 65 percent.
Generatívna umelá inteligencia je dnes obrovským fenoménom a napriek hlasom, ktoré tvrdia, že ide len o spľasnutú bublinu, sa naďalej masívne rozširuje po celom svete. Zaujímavosťou je, že ešte v roku 2024 sa Microsoft snažil obhájiť nedostatky svojho AI nástroja Copilot tvrdením, že chyba je na strane používateľov, ktorí nevedia písať správne výzvy (prompty). Najnovšia štúdia však tento predpoklad vyvracia a ukazuje, že modely jednoducho fungujú oveľa lepšie v jednorazových interakciách než v dlhých debatách. To však neznamená, že by model z ničoho nič „ohlúpol“.

Rýchle odpovede a nabaľovanie chýb
Výskumníci zistili, že zatiaľ čo celková schopnosť modelov klesla len o 15 percent, ich nespoľahlivosť vystrelila nahor až o 112 percent. Čo za tým stojí? Umelá inteligencia podľa zistení trpí takzvaným syndrómom predčasného generovania – snaží sa vám ponúknuť riešenie ešte predtým, ako stihnete vôbec dokončiť vysvetľovanie problému.
Ešte znepokojivejším faktom je, že model má tendenciu použiť svoju prvotnú (a často nesprávnu) odpoveď ako pevný základ pre všetky ďalšie reakcie v konverzácii. Vedci navyše objavili fenomén „nafukovania odpovedí“. V dlhších chatoch sa odpovede AI predlžovali o 20 až 300 percent. Tieto extrémne dlhé texty do debaty prinášali čoraz viac domnienok a halucinácií, ktoré si umelá inteligencia uložila ako trvalý kontext. Z tejto bizarnej pasce sa nedokázali dostať ani modely ako o3 od OpenAI či DeepSeek R1, a to napriek tomu, že sú vybavené extra „tokenmi na premýšľanie“.

Tradičné vyhľadávanie zatiaľ vyhráva
Je zrejmé, že umelá inteligencia ešte nie je úplne pripravená na to, aby prevzala úlohu stopercentne spoľahlivého radcu v komplexných debatách. Napriek tomu sa správanie používateľov mení a mnohí sa začínajú spoliehať na nástroje typu Google AI Overviews. Opustiť tradičné vyhľadávače v prospech AI nástrojov však so sebou v súčasnosti nesie obrovské riziko, keďže existuje vysoká šanca, že si vygenerované halucinácie pomýlite s presnými faktami.

