Cloudflare пояснила причину масштабного збою
Компанія Cloudflare пояснила причину серйозного збою, який трапився 18 листопада і призвів до проблем з доступом до інтернет-ресурсів, таких як ChatGPT, X та Downdetector. Згідно з компанією, причиною інциденту стало некоректне налаштування запиту у базі даних ClickHouse, яка використовується для генерації конфігураційного файлу для системи машинного навчання Bot Management. Це призвело до зростання обсягу даних у файлі, що перевищив ліміти пам’яті і спричинив збій системи. В результаті, проксі-система, яка обробляє трафік клієнтів, вийшла з ладу, що призвело до блокування реального трафіку для деяких користувачів. Cloudflare зазначила, що ця проблема не пов’язана з DNS або атаками, а була викликана внутрішньою помилкою в логіці оновлення конфігурації Bot Management. Щоб уникнути подібних інцидентів у майбутньому, компанія вжила ряд заходів, таких як підвищення надійності обробки конфігураційних файлів, розширення функціоналу “kill switch” для функцій, та інші. Cloudflare оцінила, що близько 20% трафіку в Інтернеті проходить через їхню мережу, тому будь-яка помилка може мати глобальний вплив.