Урокът от безпрецедентното прекъсване на Фейсбук

0
422

В началото на октомври 2021 г. Facebook прекъсна всичките си ключови глобални платформи, включително Instagram и WhatsApp, което доведе до шестчасов вакуум в комуникацията.

Официалното обяснение беше, че причината за това е каскада от грешки, допуснати по време на поддръжката в мрежата на Facebook. Семейството от приложения на Facebook, което включва Instagram, WhatsApp и Messenger, бяха офлайн над пет часа, докато служителите се опитваха да поправят щетите. Нека не забравяме, че повече от 3,5 милиарда души по света използват услугите на Facebook, за да се свързват с приятели и семейства, да разпространяват политически съобщения и да разширяват бизнеса си чрез реклама и други форми на общуване.

Според прессъобщението на Facebook, техническите прекъсвания в мрежата му показват, че инцидентът е нарушил инструментите, които обикновено се използват за разследване и разрешаване на проблеми в мрежата. Ремонтът и възстановяването на услугата са изисквали физическо присъствие на инженери в центровете за данни и достъп до хардуера, софтуера и конфигурациите на рутера, които са проектирани така, че да бъдат трудни за промяна дори и при физически достъп.

Както Facebook уточни, възстановяването на центровете за данни онлайн е било необходимо да се извърши внимателно, за да се управлява нарастващото натоварване, тъй като пълното захранване изведнъж би могло да доведе до по-нататъшни системни повреди. Един от ключовите цитати в последния параграф на прессъобщението гласи: „Извършихме много работа, „втвърдявайки“ нашите системи, за да предотвратим неоправомощен достъп и беше интересно да видим как „втвърдяването“ ни забави, докато се опитвахме да се възстановим от прекъсване, причинено не от злонамерена дейност, а от наша собствена грешка. Вярваме, че компромис като този си заслужава – значително повишена всекидневна сигурност срещу по-бавно възстановяване от, надяваме се, рядко събитие като това“л

Как фирмите могат да ограничат въздействието от внезапно прекъсване на платформа или на ИТ? Големите предприятия, включително хостинг и доставчици на инфраструктура като Amazon Web Services (AWS) и Microsoft, обикновено изключват или ограничават отговорността си за недостъпност на услугата и могат да покриват загубите изключително чрез кредити за услуги. Трябва да се има предвид, че по-малките предприятия, с ограничени възможности да диктуват условията на доставчика, ще балансират, като преценят дали си струва да претърпят временно прекъсване от такова естество както при Facebook от време на време срещу компромиса за по-голяма наличност и сигурност през останалото време.

За много фирми има избор да управляват свои собствени ИТ или да разчитат на по-малки доставчици на ИТ услуги, които могат да предложат по-атрактивни търговски условия или ограничения на отговорността в случай на прекъсване, срещу по-големи доставчици, които обещават по-голяма устойчивост и стабилност, подкрепени с най -добрите контролни механизми за сигурност на информацията и ИТ сертификати.

Както съветват от международната правна  кантора Charles Russell Speechlys, в някои случаи може би си струва да се обмисли внимателен преглед на споразуменията за нивото на обслужване (SLA). При инцидент от естеството,  което наблюдавахме, действителната точка, в която технически услугите биха могли да се смятат за достъпни (като по този начин „се спира часовникът“ за целите на разрешаването на услугата и продължителността на кредита на услугата), може да не е точката, в която услугата действително е напълно възстановена оперативно. Много организации сега преразглеждат оперативната непрекъснатост на бизнеса в светлината на оперативната устойчивост, която е задължително съображение за много регулирани предприятия. Оперативната устойчивост изисква предприятията да оценят реално какво ще се случи, когато услугите се провалят, вместо да приемат, че услугите никога не могат да се провалят. От съществено значение е целите на точката за възстановяване (RPO) и целите на времето за възстановяване (RTO) да се управляват реалистично и да се разбират в светлината на инциденти от този характер, така че тези RPOs и RTOs да не са нереално кратки и да застрашат бизнеса. По този начин се набляга върху опитите да се осигури, че мрежите и центровете за данни, по-специално „крайните“ сайтове, могат да се поддържат и то дистанционно.

Новото поколение „гранична“ обработка (edge prossesing ) при необходимост, ще изисква сгради и мрежи да се поддържат дистанционно, както и да бъдат разгърнати напълно „тъмни“ центрове за данни или микросайтове, просто за да се осигурят навременни и рентабилни средства за поддръжка.

В този случай, сравнението между устойчивостта на инфраструктурата, достъпа, физическата и киберсигурността ще трябва да бъде разгледано много внимателно, за да се гарантира, че правилният баланс на защита предполага  лекота в ликвидирането на подобни инциденти.

Линк https://www.nytimes.com/2021/10/05/technology/facebook-outage-cause.html

https://www.bbc.com/news/technology-58793174

Коментари

comments