Ključni izsledki
- Facebookove tehnične težave so bile obžalovanja vredne, vendar bi bila težava verjetno rešena veliko hitreje, če ne bi bil odvisen od toliko med seboj povezanih sistemov.
- Ni načina, da bi popolnoma preprečili okvare sistema, vendar obstajajo načini, da jih zmanjšate.
- Načrti za varnostno kopiranje, kdaj (ne če, kdaj) sistem odpove, lahko naredijo razliko med 'nadležnim' in 'katastrofalnim.'
Nedavni debakel na Facebooku dokazuje, kako medsebojno povezani sistemi zagotovo ne bodo uspeli in zakaj jih ne bi smeli uporabljati za vse.
Izguba Facebooka, WhatsAppa in Instagrama za nekaj ur v ponedeljek je bila neprijetna, škodljiva za podjetja in v nekaterih primerih skoraj katastrofalna. Po navedbah Facebooka je do vsega prišlo zaradi sprememb konfiguracije usmerjevalnikov za usklajevanje omrežja.
To je razumna razlaga, a dejstvo, da lahko ena sama napaka povzroči zaustavitev ne samo Facebooka, ampak tudi drugih sistemov v lasti Facebooka, je nekoliko zaskrbljujoče.
Ena napačna sprememba konfiguracije usmerjevalnika je povzročila, da je več storitev in celo slušalke VR popolnoma prenehalo delovati. Poleg tega je imel po lastnem priznanju Facebooka tudi kaskadni učinek na komunikacijo podatkovnih centrov podjetja, zaradi česar so se ustavile vse njihove storitve.
»Zanašanje na medsebojno povezane sisteme nosi s seboj neločljivo tveganje za okvaro sistema ali celo storitve,« je dejal Francesco Altomare, višji tehnični inženir prodaje pri GlobalDots, v intervjuju po elektronski pošti za Lifewire, "Za boj proti temu zastrašujočemu tveganju podjetja uporabljajo načelo SRE (System Reliability Engineering) in druga orodja, ki se vsa ukvarjajo z različnimi stopnjami redundance, vgrajenimi v vsako plast sistemske infrastrukture."
Kaj gre lahko narobe
Vredno je omeniti, da ko takšen sistem odpove, običajno zahteva popoln vihar stvari, ki gredo narobe. Manj je podobna hiši iz kart, ki čaka, da pade, in bolj kot izpostavljen toplotni izpušni kanal na vesoljski postaji velikosti majhne lune.
Večina podjetij poskuša zagotoviti, da se edina stvar, ki bi lahko vse pahnila v kaos, nikoli ne zgodi – a ne glede na to se lahko zgodi.
»Nepričakovane okvare so del poslovanja in lahko nastanejo kot posledica malomarnosti delavcev, napak v omrežju ponudnika internetnih storitev ali celo težav s storitvami za shranjevanje v oblaku,« je dejala Sally Stevens, soustanoviteljica FastPeopleSearch, v intervju po elektronski pošti.
"… Dokler so vzpostavljeni potrebni koraki za zaščito sistema - kot so varnostne kopije, usmerjevalnik na mestu in stopenjski dostop - so te napake malo verjetne." Čeprav je tudi z vojsko varovalk še vedno možno, da linč odpove.
Če sistem, ki nadzoruje stvari, kot so primarne oblike stika, naprave, vrata itd., odpove, so lahko rezultati pomembni. Od blagih neprijetnosti do popolne katastrofe, odvisno od tega, koliko se posamezniki in podjetja zanašajo na vse to.
"Obstaja tudi tveganje, da hekerji vdrejo v sistem iz katere koli od najmanj zaščitenih naprav, kot so hladilniki in opekači za kruh," je dodal Stevens, "kar bi lahko vodilo do kraje podatkov in izsiljevalske programske opreme."
Kako se lahko pripravimo
Ni načina, da bi zagotovili, da sistem nikoli ne bo odpovedal, vendar obstajajo koraki, ki jih je mogoče sprejeti, da zmanjšate verjetnost napake ali da se napaka obravnava bolj gladko. Idealna bi bila kombinacija obeh pristopov, ki združuje varnostne ukrepe in protiukrepe z načrti ukrepov ob nepredvidljivih dogodkih in rezervnimi sistemi.
"Za odpravo teh nevarnosti, ki jih ustvarjajo izdelki in storitve tretjih oseb, s katerimi se učinkovito upravlja, morajo biti vloge in dolžnosti v zvezi z upravljanjem tveganja tretjih oseb strogo opredeljene," je dejala Daniela Sawyer, ustanoviteljica in glavna tehnološka direktorica FindPeopleFast, v intervjuju po e-pošti: "Da bi uspeli v tem novem okolju, morajo upravljavci tveganj razumeti bistvene dele tako sofisticiranega ekosistema."
Kar se je zgodilo s Facebookom, WhatsAppom in Instagramom, je bilo žalostno, a upajmo, da je tudi odprlo oči. Ljudje, ki se zanašajo na medsebojno povezane sisteme, morajo razumeti, da lahko prava stvar, ki gre narobe, pokvari vse. Uvesti je treba ukrepe (ali natančno preučiti in izboljšati), da bodo takšne motnje manj verjetne in manj vplivne.
V primeru Facebooka njegova težava niso bile težave z usmerjevalnikom, temveč to, da je skoraj celoten ekosistem povezan z vsem ostalim. Tako je moral Facebook (storitev) ob nedelovanju Facebooka (podjetja) porabiti veliko več časa in energije za preprosto organizacijo in obravnavo težave. Če bodisi ne bi uporabljal tako globoko zakoreninjenega, medsebojno povezanega sistema ali imel vzpostavljenih rezervnih načrtov za reševanje takšnega izpada, bi popravilo verjetno trajalo veliko manj časa.