Големиот пад на Amazon Web Services (AWS), кој во понеделникот го парализираше дел од интернетот и предизвика прекин на работата на некои од најпопуларните светски апликации и сервиси, настанал поради наизглед безначајна техничка грешка.
Како што соопшти компанијата во детална анализа објавена од CNN, проблемот започнал кога два автоматизирани системи истовремено се обиделе да ги ажурираат истите податоци, што довело до конфликт и предизвикало сериозен дефект. Инженерите на Амазон со часови работеле за да ја санираат грешката.
Поради овој прекин, корисниците не можеле да нарачуваат храна, да пристапуваат до болнички системи, мобилно банкарство или паметни уреди во домовите. Меѓу погодените беа и некои од најголемите светски компании, како Netflix, Starbucks и United Airlines, кои останаа без пристап до своите онлајн услуги.
„Се извинуваме поради влијанието што овој настан го имаше врз нашите корисници. Знаеме колку беше сериозно и ќе направиме сè што можеме за да извлечеме поуки и да ја подобриме достапноста на нашите услуги“, соопштија од Амазон.
Што точно се случи?
Суштински, дефектот произлегол од два програма кои се „бореле“ за ажурирање на ист запис во DNS системот – еден вид „телефонски именик на интернетот“.
Резултатот бил празен запис, што предизвикало верижна реакција и прекин во работата на повеќе AWS услуги.
„Аналогијата со телефонски именик е сосема соодветна – луѓето се таму, но ако не знаете како да дојдете до нив, имате проблем“, изјави за CNN Анжелик Медина од Cisco ThousandEyes Internet Intelligence. „А тој именик – едноставно исчезна.“
Професорот Индранил Гупта од Универзитетот во Илиноис ја објаснил ситуацијата со уште една слика:
„Замислете двајца студенти кои водат заедничка тетратка – едниот брз, другиот бавен. Бавниот повремено запишува нешто, но брзиот постојано ги брише неговите белешки мислејќи дека се застарени. Кога професорот ќе ја прегледа тетратката – страницата е празна.“
Таа „празна страница“ во случајот на Амазон го срушила DynamoDB, базата на податоци која е клучен дел од AWS. Падот потоа предизвикал каскаден ефект врз други услуги како EC2 (виртуелни сервери) и Network Load Balancer (распределба на мрежен сообраќај).
Кога системот се обидел повторно да ги активира сите сервери одеднаш, оптоварувањето било преголемо – и целиот процес се урнал повторно.
По инцидентот, Амазон најави неколку технички промени – вклучително и поправка на таканаречениот „услов за трка“ (race condition), кој ја предизвикал грешката, како и нов пакет на тестови за EC2 платформата.
Професорот Гупта нагласи дека вакви прекини, иако ретки, се дел од реалноста:
„Големи дефекти едноставно се случуваат – не можете секогаш да ги избегнете, како што не можете да избегнете болест. Но начинот на кој компанијата реагира и ги информира своите корисници е клучен“, рече тој.
Падот на AWS уште еднаш потсети колку голем дел од дигиталниот свет зависи од неколку технолошки гиганти, и колку „ситна грешка“ може да предизвика глобален прекин на интернетот.
Извор: kurir.mk


