Klíčové poznatky
- Technické problémy Facebooku byly nešťastné, ale problém by se pravděpodobně vyřešil mnohem rychleji, kdyby se nespoléhal na tolik propojených systémů.
- Neexistuje způsob, jak zabránit selhání systému úplně, ale existují způsoby, jak je snížit pravděpodobnosti.
- Mít plány zálohování na to, kdy (ne jestli, kdy) systém selže, může znamenat rozdíl mezi „otravným“a „katastrofickým“.
Nedávný debakl na Facebooku ukazuje, jak propojené systémy nutně selžou a proč bychom je neměli používat na všechno.
Ztráta Facebooku, WhatsAppu a Instagramu v pondělí na několik hodin byla nepohodlná, poškozovala podniky a v některých případech byla téměř katastrofální. Podle Facebooku to bylo všechno kvůli změnám konfigurace jeho síťových koordinačních směrovačů.
Je to rozumné vysvětlení, ale skutečnost, že jediná taková chyba by mohla zastavit nejen Facebook, ale i další systémy vlastněné Facebookem, je trochu alarmující.
Jedna nesprávná změna konfigurace routeru způsobila, že několik služeb, a dokonce i náhlavní soupravy VR, zcela přestalo fungovat. Kromě toho, jak sám Facebook připouští, mělo to také kaskádový efekt na to, jak komunikují datová centra společnosti, čímž se zastavily všechny jejich služby.
„Závislost na propojených systémech s sebou nese přirozené riziko selhání systému nebo dokonce služby,“řekl Francesco Altomare, vedoucí technický prodejní inženýr společnosti GlobalDots, v e-mailovém rozhovoru pro Lifewire, "Aby čelily tomuto skličujícímu riziku, společnosti využívají princip SRE (System Reliability Engineering), stejně jako další nástroje, které se všechny zabývají různou úrovní redundance zabudované do každé vrstvy systémové infrastruktury."
Co se může pokazit
Stojí za zmínku, že když takový systém selže, obvykle to vyžaduje dokonalou smršť věcí, které se pokazí. Není to jako domeček z karet, který čeká na pád, ale spíš jako odkrytý tepelný výfukový port na vesmírné stanici o velikosti malého měsíce.
Většina společností podniká kroky, aby zajistila, že se nikdy nestane jediná věc, která by mohla všechno uvrhnout do chaosu – ale bez ohledu na to se může stát.
„Neočekávaná selhání jsou součástí podnikání a mohou nastat v důsledku nedbalosti pracovníků, chyb v síti poskytovatele internetových služeb nebo dokonce problémů se službami cloudového úložiště,“řekla Sally Stevensová, spoluzakladatelka FastPeopleSearch, v e-mailový rozhovor.
"…Dokud budou provedeny nezbytné kroky k ochraně systému, jako jsou zálohy, směrovač na místě a víceúrovňový přístup, jsou tyto poruchy docela nepravděpodobné." I když i s armádou bezpečnostních bezpečnostních prvků je stále možné, že svorník selže.
Pokud systém, který řídí věci, jako jsou primární formy kontaktu, spotřebiče, dveře atd., selže, výsledky mohou být významné. Od mírných nepříjemností až po úplné katastrofy, v závislosti na tom, jak moc na to jednotlivci a společnosti spoléhají.
"Existuje také riziko, že se hackeři dostanou do systému z některého z nejméně chráněných zařízení, jako jsou ledničky a toustovače," dodal Stevens, "což by mohlo vést ke krádeži dat a ransomwaru."
Jak se můžeme připravit
Neexistuje žádný způsob, jak zaručit, že systém nikdy neselže, ale existují kroky, které lze podniknout, aby bylo selhání méně pravděpodobné, nebo aby se selhání vyřešilo hladce. Ideální by byla kombinace těchto dvou přístupů, která spojuje zabezpečení proti selhání a protiopatření s pohotovostními plány a záložními systémy.
„Pro eliminaci těchto rizik vytvářených produkty a službami třetích stran, se kterými se účinně zachází, musí být přesně vymezeny role a povinnosti týkající se řízení rizik třetích stran,“řekla Daniela Sawyer, zakladatelka a hlavní technologická ředitelka FindPeopleFast, v e-mailovém rozhovoru: „Aby manažeři rizik v tomto novém prostředí vzkvétali, musí pochopit základní části tak sofistikovaného ekosystému.“
To, co se stalo s Facebookem, WhatsAppem a Instagramem, bylo nešťastné, ale doufejme, že také otevřelo oči. Lidé, kteří se spoléhají na propojené systémy, musí pochopit, že nesprávná věc, která se pokazí, může vše narušit. A musí být zavedena opatření (nebo prozkoumána a upřesněna), aby taková narušení byla méně pravděpodobná a měla menší dopad.
V případě Facebooku nebyly jeho problémem problémy s routerem, ale spíše tím, že téměř celý jeho ekosystém byl propojen se vším ostatním. S Facebookem (službou) tedy musel Facebook (společnost) strávit mnohem více času a energie prostým organizováním a řešením problému. Pokud by buď nepoužil tak hluboce zakořeněný, propojený systém, nebo by měl k dispozici záložní plány pro řešení takového výpadku, pravděpodobně by náprava trvala mnohem méně času.