Včera popoludní (18. novembra) sme to zažili na vlastnej koži. Polovica internetu, vrátane našej webovej stránky, začala vracať chyby a na celom svete boli narušené služby, ktoré využívajú giganta na doručovanie obsahu, spoločnosť Cloudflare.
Dnes spoločnosť zverejnila komplexnú analýzu incidentu, ktorý začal o 12:20 SEČ a trval niekoľko hodín. Závery sú prekvapivé: nešlo o rozsiahly kybernetický útok, ale o zdanlivo rutinnú chybu spôsobenú vlastnou infraštruktúrou.
Zlyhanie spôsobil kaskádový efekt dát
Príčinou chaosu bola zdanlivo neškodná aktualizácia oprávnení databázy v systéme ClickHouse spoločnosti Cloudflare.
Táto zmena spôsobila, že databázové dotazy začali vracať duplicitné metadáta. Následne sa konfiguračný súbor, ktorý používa systém Bot Management, nafúkol na nevídanú veľkosť.
Súbor, ktorý má obvykle okolo 60 funkcií na detekciu botov, sa kvôli duplicitným údajom rozrástol na viac ako 200 záznamov. Tým prekročil pevne zakódované limity pamäte v proxy softvéri Cloudflare, čo spôsobilo, že kritické systémy pri pokuse o načítanie tohto predimenzovaného súboru okamžite havarovali.
Chaos a podozrenie z útoku DDoS
Diagnózu mimoriadne sťažovala prerušovaná povaha porúch. Problémový konfiguračný súbor sa regeneroval každých päť minút, ale zlyhával len vtedy, keď dotazy zasiahli novo aktualizované databázové uzly. To viedlo k situácii, kde služby prestali fungovať, na krátko sa obnovili a potom opäť zlyhali, keď sa nové súbory šírili po sieti.
Toto nepravidelné správanie spočiatku viedlo inžinierov Cloudflare k podozreniu, že sú pod masívnym distribuovaným útokom typu denial-of-service (DDoS), najmä potom, ako sa v rovnakom čase odpojila aj ich externá stránka so stavom. Interná komunikácia dokonca odkazovala na nedávne veľké DDoS útoky.
Najhorší kolaps od roku 2019
Hoci inžinieri identifikovali skutočnú príčinu problému po dvoch hodinách (o 13:37 UTC) a zastavili generovanie chybných súborov o 14:24 UTC, úplné obnovenie služby trvalo až do 17:06 UTC, kým boli všetky systémy reštartované.
Výpadok sa dotkol všetkých jadrových služieb – CDN a bezpečnostné služby vracali chyby HTTP 5xx, zlyhala autentifikácia Turnstile a znížila sa presnosť detekcie spamu.
Spoločnosť Cloudflare uznala túto udalosť za najhorší výpadok od roku 2019 a zaviazala sa k rozsiahlym nápravným opatreniam, vrátane posilnenia validácie konfiguračných súborov a aktivovania globálnych „kill switchov“ pre funkcie. Incident ukazuje, ako zdanlivo drobné zmeny v jednom systéme môžu v prepojených infraštruktúrach spôsobiť závažné zlyhanie.






