Brain rot a mŕtvy internet: Nekvalitné dáta kazia učenie AI

Generatívna umelá inteligencia (AI) urobila obrovský pokrok, transformujúc odvetvia od medicíny cez informatiku až po vzdelávanie. Napriek tomuto vývoju, ktorý posunul AI od „halucinácií“ k presnejším odpovediam, čelia popredné laboratóriá ako OpenAI, Google a Anthropic prekážke, ktorá môže brzdiť ich budúci rozvoj: kritický nedostatok kvalitného obsahu na trénovanie.

Tieto modely sú extrémne závislé od rozsiahlych dát, ktoré ľudia zdieľajú na internete. Ako však ukazuje nová štúdia Cornellovej univerzity, vystavenie nekvalitným online dátam, ako sú krátke virálne príspevky a clickbaitový obsah, vedie u LLM k fenoménu, ktorý výskumníci prirovnávajú k „mozgovej hnilobe“ (brain rot).

Ako nekvalitné dáta poškodzujú AI

Termín „mozgová hniloba“ sa pôvodne vzťahoval na negatívny vplyv dlhodobej konzumácie triviálneho a bezobsažného online obsahu na kognitívne schopnosti a sústredenie človeka. Štúdia zistila, že rovnaký proces postihuje aj AI modely.

Výskumníci testovali modely ako Llama 3 a Qwen 2.5 pomocou dátových súborov, ktoré obsahovali rôzne pomery nekvalitného (krátke, virálne, clickbaitové) a kvalitného obsahu. Cieľom bolo pochopiť vplyv neustálej závislosti na webe, ktorý je zaplavený obsahom generovaným strojmi alebo určeným na rýchlu konzumáciu.

Výsledky sú znepokojujúce:

Znížená Presnosť: Presnosť AI modelov trénovaných výhradne na nekvalitnom obsahu klesla zo 74,9 % na 57,2 %.
Strata Kontextu: Ich schopnosť pochopiť dlhý kontext sa dramaticky prepadla z 84,4 % na 52,3 %.
Posun Osobnosti a Etiky: Dlhodobé vystavenie nekvalitným dátam viedlo aj k „posunu osobnosti“ a negatívne ovplyvnilo etickú konzistentnosť modelov, čo ich robí náchylnejšími na generovanie nesprávnych a nespoľahlivých odpovedí.
Povrchné uvažovanie: Modely často preskakovali postupný „reťazec myšlienok“ (chain-of-thought), čo viedlo k príliš rýchlym procesom a generovaniu iba povrchných odpovedí. Tento jav bol označený ako fenomén „dávka-odozva“ – čím viac nekvalitných dát, tým horšie kognitívne schopnosti.

Vízia „Mŕtveho Internetu“ sa stáva realitou

Zistenia Cornellovej univerzity potvrdzujú rastúce obavy popredných osobností technologického priemyslu. Spoluzakladateľ Redditu Alexis Ohanian a generálny riaditeľ OpenAI Sam Altman verejne diskutujú o tom, že „teória mŕtveho internetu“ sa stáva skutočnosťou.

Alexis Ohanian nedávno vyhlásil, že veľká časť internetu je „mŕtva“ kvôli prudkému nárastu botov, „kváziobčianskej inteligencie“ a bezduchého obsahu, akým je napríklad „LinkedIn slop“. Altman zdieľa podobný názor a tvrdí, že väčšinu účtov na platforme X už spravujú práve LLM.

Táto situácia vytvára začarovaný kruh: AI modely generujú nekvalitný obsah, ktorý zahlcuje internet a stáva sa novým tréningovým materiálom pre budúce AI modely. Podľa Ohaniana sa v tejto „mŕtvej ére“ stane obzvlášť cenný „dôkaz o živote“, teda overiteľne ľudský a živý obsah.

Pre vývojárov AI to predstavuje obrovskú výzvu. Ak sa nepodarí nájsť nové zdroje kvalitných, overených a ľudských dát, vývoj pokročilejších a spoľahlivejších modelov sa môže výrazne spomaliť a ich kognitívne schopnosti budú naďalej klesať.