Світові новини, Технології
Збій AWS: Як DNS-проблеми паралізували світові сервіси
Лів МакМахонТехнологічний репортер та
Лілі ДжамаліПівнічноамериканський технологічний кореспондент
Getty ImagesAmazon Web Services (AWS) повідомив пізно в понеділок, що він усунув масштабний збій, який спричинив відсутність доступу до деяких найбільших вебсайтів світу протягом дня.
Понад 1000 додатків і вебсайтів, включаючи соціальні платформи, такі як Snapchat, та банки, як-от Lloyds і Halifax, постраждали від проблем, які, за словами Amazon, були в центрі роботи гігантського хмарного провайдера в США.
Монітор збоїв платформи Downdetector повідомив, що кількість скарг користувачів по всьому світу досягла понад 11 мільйонів протягом збою в понеділок. Навіть після того, як Amazon усунув основну проблему, експерти зазначили, що цей збій продемонстрував ризики надмірної залежності від одного домінуючого постачальника.
“Цей випадок показав, наскільки взаємозалежною є наша інфраструктура”, – сказав професор Алан Вудворд з Університету Суррея. “Так багато онлайн-сервісів покладаються на сторонніх постачальників для своєї фізичної інфраструктури, і це свідчить про те, що проблеми можуть виникнути навіть у найбільших з цих сторонніх постачальників. Невеликі помилки, часто допущені людьми, можуть мати широкомасштабні та значні наслідки”.
Проблеми, схоже, почалися близько 07:00 BST у понеділок, коли користувачі почали повідомляти про проблеми з доступом до низки платформ. Це охопило широкий спектр різних сайтів і сервісів, від великих онлайн-ігор, як-от Fortnite, до додатку для вивчення мов Duolingo. На початку дня Downdetector повідомив, що отримав понад чотири мільйони скарг від користувачів щодо 500 сайтів за кілька годин – більше ніж удвічі від звичайної кількості за цілий день. Пізніше кількість досягла понад 11 мільйонів, оскільки більше сервісів, включаючи Reddit та Lloyds Bank, намагалися відновити роботу.
Близько 2300 BST Amazon повідомив, що всі сервіси AWS “повернулися до нормальної роботи”. Однак до цього компанії довелося обмежити роботу частини своїх систем, щоб усунути першопричину. За словами Майка Чаппла, професора інформаційних технологій з Університету Нотр-Дам, нова серія “каскадних збоїв” могла виникнути після початкового збою. “Це схоже на масштабне відключення електроенергії. Бригади починають працювати, щоб відновити її”, – сказав пан Чапл. “Електроенергія може кілька разів блимати”, – пояснив він, але цілком можливо, що Amazon спочатку “усунув лише симптоми”, а не причину. Цей збій AWS підкреслив залежність від хмарних сервісів.
“У кожного буває поганий день, сьогодні був поганий день у Amazon”, – сказав Меттью Прінс, генеральний директор Cloudflare. “Є дивовижні речі в хмарі, вона дозволяє масштабувати… але якщо виникає такий збій, це може призвести до відмови багатьох сервісів, від яких ми залежимо”. Корі Крідер, керівник Інституту майбутнього технологій, порівняла це “майже з колапсом мосту”. “Важлива частина економіки розвалилася”, – сказала вона. “Оскільки так багато хмарних обчислень залежить від Amazon, Microsoft і Google – приблизно 70% – поточний стан справ є “нестійким”. Коли ви маєте концентровану пропозицію від кількох монопольних постачальників, і щось подібне відбувається, це виводить з ладу величезний відсоток економіки”. Вона додала: “Нам слід шукати можливості купувати більше місцевих послуг, а не покладатися на жменьку американських монопольних платформ. Це ризик для нашої безпеки, нашого суверенітету та нашої економіки, і нам потрібно розглянути структурні розділення, щоб зробити наші ринки більш стійкими до таких шоків”.
Що пішло не так?
Amazon ще не повністю розкрив причини понеділкового збою і не випустив офіційної заяви щодо нього. Компанія повідомила у своєму сервісному статусі, що проблема “схоже, пов’язана з DNS-розділенням кінцевої точки API DynamoDB в US-EAST-1”. DNS, або Domain Name System, часто порівнюють з телефонною книгою інтернету. Він ефективно перетворює назви вебсайтів, які використовують люди (як-от google.com), на цифри, які можуть читати та розуміти комп’ютери. Цей процес лежить в основі використання інтернету, і збої в ньому можуть призвести до того, що веббраузери не зможуть знайти потрібний їм контент.
Кен Бірман, професор комп’ютерних наук Корнельського університету в Нью-Йорку, каже, що певна відповідальність лежить на компаніях, які використовують AWS. “Компанії, що використовують Amazon, недостатньо дбають про створення систем захисту у своїх додатках”, – стверджує він. Збої, подібні до понеділкового, трапляються часто, хоча й не завжди в такому масштабі. Бірман розповідає, що розробники додатків повинні інвестувати в резервне копіювання критично важливих додатків, які розміщені в хмарі. “Ми знаємо, як зробити ці системи міцнішими, і ми знаємо, як робити це безпечно”, – каже Бірман. Питання відповідальності може потрапити до судів. Більше ніж через рік після масового збою CrowdStrike, Delta Airlines все ще судиться з компанією, вимагаючи відшкодування збитків на понад 500 мільйонів доларів. Навіть після того, як CrowdStrike усунув проблему, авіакомпанія заявила, що їй довелося вручну скинути 40 000 серверів, що призвело до значних затримок рейсів протягом кількох днів.
Додатковий репортаж Есілт Карр.



