Провалът на Facebook показва защо не трябва да разчитаме на него за всичко

Съдържание:

Провалът на Facebook показва защо не трябва да разчитаме на него за всичко
Провалът на Facebook показва защо не трябва да разчитаме на него за всичко
Anonim

Ключови изводи

  • Техническите проблеми на Facebook бяха за съжаление, но проблемът вероятно щеше да бъде разрешен много по-бързо, ако не разчиташе на толкова много взаимосвързани системи.
  • Няма начин да предотвратите напълно системните повреди, но има начини да ги направите по-малко вероятни.
  • Наличието на резервни планове за това кога (а не ако, кога) системата се повреди може да направи разликата между „досадно“и „катастрофално“.
Image
Image

Неотдавнашният провал във Facebook демонстрира как взаимосвързаните системи са обречени да се провалят и защо не трябва да ги използваме за всичко.

Загубата на Facebook, WhatsApp и Instagram за няколко часа в понеделник беше неудобно, вредно за бизнеса и в някои случаи почти катастрофално. Според Facebook всичко се дължи на промени в конфигурацията на неговите мрежови координиращи рутери.

Това е разумно обяснение, но фактът, че една такава грешка може да доведе до спиране не само на Facebook, но и на други системи, притежавани от Facebook, е малко тревожен.

Една грешна промяна на конфигурацията на рутера доведе до пълно спиране на работата на множество услуги и дори VR слушалки. Освен това, по собствено признание на Facebook, това също имаше каскаден ефект върху начина, по който центровете за данни на компанията комуникират, спирайки всичките им услуги.

„Разчитането на взаимосвързани системи носи със себе си присъщ риск от повреда на системата или дори на услугата,“каза Франческо Алтомаре, старши технически инженер по продажбите в GlobalDots, в имейл интервю за Lifewire, "За да се противопоставят на този плашещ риск, компаниите използват принципа на SRE (Инженеринг за надеждност на системата), както и други инструменти, които се справят с различни нива на излишък, вграден във всеки слой от инфраструктурата на системата."

Image
Image

Какво може да се обърка

Струва си да се отбележи, че когато система като тази се провали, обикновено е необходима перфектна буря от неща, които се объркват. По-малко прилича на къща от карти, чакаща да падне, а по-скоро на открит термичен изпускателен отвор на космическа станция с размерите на малка луна.

Повечето компании предприемат стъпки, за да се опитат да гарантират, че единственото нещо, което може да хвърли всичко в хаос, никога няма да се случи – но независимо от това, то може да се случи.

„Неочакваните повреди са част от бизнеса и могат да възникнат в резултат на небрежност на работниците, грешки в мрежата на доставчика на интернет услуги или дори проблеми с услугите за съхранение в облак“, каза Сали Стивънс, съосновател на FastPeopleSearch, в интервю по имейл.

"…Докато са въведени необходимите стъпки за защита на системата - като резервни копия, рутер на място и многослоен достъп - тези повреди са малко вероятни." Въпреки че дори и с армия от предпазители, все още е възможно опорният болт да се повреди.

Ако системата, която контролира неща като основни форми на контакт, уреди, врати и т.н., се провали, резултатите могат да бъдат значителни. От леко неудобство до пълно катастрофално, в зависимост от това колко хора и компании разчитат на всичко това.

Image
Image

"Съществува също риск хакери да влязат в системата от някое от най-слабо защитените устройства, като хладилници и тостери за фурна", добави Стивънс, "което може да доведе до кражба на данни и рансъмуер."йени

Как можем да се подготвим

Няма начин да се гарантира, че дадена система никога няма да се повреди, но има стъпки, които могат да бъдат предприети, за да се намали вероятността от повреда или да се справи с повредата по-гладко. Идеална би била комбинация от двата подхода, която съчетава безопасността при отказ и противодействието с планове за действие при извънредни ситуации и резервни системи.

„За елиминиране на тези опасности, създадени от продукти и услуги на трети страни, които се управляват ефективно, ролите и задълженията по отношение на управлението на риска на трети страни трябва да бъдат строго очертани,“каза Даниела Сойер, основател и главен технологичен директор на FindPeopleFast, в интервю по имейл, „За да процъфтяват в тази нова среда, мениджърите на риска трябва да разберат основните части на такава сложна екосистема.“

Това, което се случи с Facebook, WhatsApp и Instagram, беше жалко, но, надяваме се, също отвори очите. Хората, които разчитат на взаимосвързани системи, трябва да разберат, че правилното нещо, което се обърка, може да наруши всичко. И трябва да бъдат въведени мерки (или внимателно проверени и усъвършенствани), за да се направят подобни прекъсвания по-малко вероятни и по-малко въздействащи.

В случая на Facebook проблемът не беше в проблемите с рутера, а по-скоро в това, че почти цялата му екосистема е свързана с всичко останало. По този начин, когато Facebook (услугата) не работи, Facebook (компанията) трябваше да отдели много повече време и енергия просто за организиране и справяне с проблема. Ако или не използваше толкова дълбоко вкоренена, взаимосвързана система, или имаше резервни планове за справяне с прекъсване като това, вероятно щеше да отнеме много по-малко време за коригиране.

Препоръчано: