I Paesi dell’Unione Europa avranno bisogno di soccorso a causa della crisi energetica? Il commissario europeo per la gestione delle crisi, Janez Lenarčič, in un’intervista ha ammesso che ciò è possibile. La Commissione europea sta considerando due diversi scenari. Il primo è che “uno o un piccolo numero di Stati membri” sia colpito “da un incidente minore come un blackout’, nel qual caso gli altri Paesi dell’UE potrebbero sostenere e fornire generatori di energia, come avviene durante le catastrofi naturali. Il secondo scenario è quello in cui “un gran numero di Paesi” potrebbe venire colpito; in questo caso per soddisfare le richieste verrebbe utilizzata la riserva strategica dell’UE.
In tutto il continente, i rappresentanti della politica e delle associazioni IT stanno chiedendo che i data center siano riconosciuti come infrastrutture di importanza sistemica, indipendentemente dalle dimensioni. Nel Regno Unito, i funzionari statali stanno discutendo con i principali operatori di data center di come evitare i blackout. Il capo della National Grid, John Pettigrew, ha parlato dei potenziali blackout nel contesto della crisi energetica, affermando che è possibile che il Regno Unito debba affrontare dei blackout nella fascia oraria compresa tra le 16 e le 19, nei mesi di gennaio e febbraio.
La resilienza operativa ha un ruolo fondamentale quando si considerano le interruzioni di corrente. Molte aziende dispongono di solidi piani di Disaster Recovery per i propri data center, ma questi fanno riferimento a scenari di interruzione importanti. I blackout casuali per un periodo prolungato presentano requisiti molto diversi in termini di resilienza operativa, così come differente è l’approccio necessario per prepararsi a tali eventi. Il tempo è poco, per cui le organizzazioni dovrebbero seguire le best practice collaudate e avviare il processo il prima possibile.
– Pianificare l’utilizzo di batterie e generatori: Un blackout in un data center costringe a effettuare un passaggio completo a un generatore a batterie e la ricarica delle batterie è un processo che richiede molto tempo. Le organizzazioni devono definire chiaramente quando passare dal generatore al sistema principale. Inoltre, il carburante dei generatori immagazzinato sul posto deve essere sostituito per mantenere una capacità operativa adeguata a un evento prolungato. L’uso occasionale dei generatori comporta la necessità di rabboccare regolarmente i serbatoi di stoccaggio, il che può verificarsi durante i periodi di domanda più alta, quando anche altre aziende provviste di data center richiedono carburante.
– Considerare il personale: Il team Operations 24/7 di un’organizzazione è abituato a lavorare su un numero ridotto di test di Disaster Recovery all’anno. Le aziende devono prevedere il supporto per uno spostamento non pianificato verso un generatore, e poi di nuovo al sistema principale, e ancora potenzialmente avanti e indietro in modo non pianificato per diverse settimane, il tutto mantenendo attivi i sistemi di produzione.
– Valutare la sicurezza fisica: Il passaggio a un generatore richiede più personale nel data center. Avere un maggior numero di persone che lavorano su sistemi su cui non si lavora spesso significa anche dover intervenire per migliorare la sicurezza prima che il personale aggiuntivo possa accedere all’impianto. Ciò pone una nuova serie di sfide all’azienda: quando il personale è preoccupato, è il momento perfetto per l’arrivo di nuove minacce. Durante un evento importante, come un failover o un Disaster Recovery, il personale di supporto dovrebbe anche controllare i log giornalieri per identificare eventuali attacchi.
– Cercare nuovi rischi: Ci saranno nuovi rischi all’interno dell’organizzazione; ad esempio, l’arrivo e lo scarico del carburante, che è altamente infiammabile, nei serbatoi aumenta il fattore di rischio. Durante questi eventi i fattori di rischio, per quanto sia improbabile che si verifichino, dovrebbero essere una nuova misura da prendere in considerazione per l’azienda.
– Implementare framework di governance come COBIT: molte aziende testano le interruzioni dei server come un big bang e poi vengono colte di sorpresa quando si verifica un guasto di un singolo componente, che non è stato testato in precedenza. COBIT introduce le migliori pratiche per l’analisi e il test dei singoli punti di guasto, garantendo che ogni elemento dello stack sia testato, compreso e documentato a ogni livello. Questo aspetto è importante per il failover/recupero durante un evento critico ed è persino presente nei requisiti normativi per la resilienza operativa. L’utilizzo di un framework – un approccio standardizzato a questi eventi – è un modo solido per preparare l’azienda prima dell’evento e per dimostrare che è preparata sia internamente che esternamente.
– Conoscere i propri asset: Le aziende devono avere rapidamente una chiara comprensione dei propri asset digitali e delle interdipendenze tra calcolo, storage e delivery dei servizi. Quanti dati esistono e dove sono conservati? Quali sono le applicazioni e i set di dati chiave di cui l’azienda ha bisogno per eseguire i servizi più critici?
Questa procedura di mappatura dei servizi agli asset rivelerà quali workflow critici dipendono da infrastrutture esterne che potrebbero andare in tilt in caso di blackout. In questo modo le organizzazioni avranno un quadro chiaro delle dipendenze e dei rischi di downtime, che consentirà loro di definire luoghi alternativi per i dati a rischio, ad esempio su un cloud alternativo.
– Rafforzare la compliance: Se si ritiene che i dati critici debbano essere spostati durante la crisi energetica, le organizzazioni devono assicurarsi di comprendere chiaramente le implicazioni normative e di sicurezza che comporta lo spostamento dei dati. Per quanto riguarda i dati personali, il Regolamento generale sulla protezione dei dati (GDPR) definisce i requisiti per l’archiviazione di determinati tipi di dati. Le aziende devono sapere quali dati possiedono e che valore hanno. Solo così possono rispondere alle domande di governance e compliance e devono essere chiari su chi ha accesso a tali dati.
– Automatizzare il più possibile: Nel momento in cui le organizzazioni effettueranno una scansione per verificare dove hanno i dati, la maggior parte di esse scoprirà che i propri dati sono distribuiti in una varietà di postazioni di archiviazione. I team IT dovranno pianificare una quantità significativa di tempo e risorse per spostare i dati e le applicazioni in postazioni alternativi. Dovrebbero cercare di automatizzare il più possibile questo processo. Purtroppo, nella maggior parte dei casi, i dati e le applicazioni vengono eseguiti su una serie di fonti di dati diverse, controllate con soluzioni di tipo point-product. In futuro, è meglio prendere in considerazione una soluzione moderna di gestione dei dati in cui i workload e i data service possano essere gestiti su un unico piano di controllo tramite un’unica interfaccia utente.
– Eseguire scenari di test ed esercitazioni reali: I team IT e di leadership di un’organizzazione devono avere la stessa comprensione del rischio potenziale di downtime. Entrambi i team dovrebbero anche avere la stessa consapevolezza del livello di maturità dell’organizzazione in termini di visibilità dei dati. Ciò consentirà loro di comprendere meglio il rischio potenziale di downtime e perdita di dati. Infine, i team IT devono aumentare la collaborazione per interagire meglio durante i downtime. Per valutare la qualità della loro interazione e per identificare potenziali problemi, l’organizzazione dovrebbe eseguire regolarmente esercitazioni e simulazioni.
“In qualità di direttore di un gruppo di infrastrutture IT, ho affrontato diverse sfide, tra cui molteplici interruzioni di corrente per diverse settimane in due centri dati in Sudafrica, dove ospitavamo l’infrastruttura principale per il continente africano, e persino l’allagamento di una sala computer che, dopo l’evento, si è rivelata essere al di sotto della linea di alta marea”, ha raccontato Mark Molyneux, CTO EMEA di Cohesity. “Gli standard, l’automazione, i test di pre-produzione praticati e collaudati e i test di ripristino di emergenza full-stack documentati ci hanno permesso di tornare in produzione ogni volta. Avere un team che ha compreso l’importanza di questo approccio e che ha accettato gli elevati requisiti di impegno dei test avanzati è la chiave del successo, così come disporre di un solido sistema di protezione dei dati con una reportistica che consenta di comprendere l’esatta posizione della sicurezza per il raggiungimento degli RPO”.
“Quando ero Global CISO di un’azienda che disponeva di un’infrastruttura significativa in un Paese che subiva continue interruzioni di corrente per i nostri data center, sviluppare le procedure giuste, sfruttare l’automazione e l’orchestrazione per rendere tali procedure efficienti ed efficaci, e quindi testare tali procedure per eliminare le asperità e renderle memoria muscolare, è stata la chiave del successo nel mantenere i servizi di cui ero responsabile funzionanti e sicuri”, ha dichiarato James Blake, CISO EMEA di Cohesity. “Ciò è stato ancora più importante perché i nostri clienti all’interno del Paese si affidavano alle nostre piattaforme per la continuità del servizio, mentre i loro sistemi erano fuori uso a causa delle interruzioni di corrente”.
Le organizzazioni potrebbero decidere di spostare le copie dei loro dati critici in un luogo alternativo per creare una maggiore resilienza contro potenziali blackout. In questo caso, le aziende non hanno più bisogno di implementare e gestire completamente l’infrastruttura, forse perché i loro team IT devono concentrarsi su altre attività critiche per l’azienda. In questi casi, potrebbero prendere in considerazione un vendor che offra Data Management as a Service (DMaaS). Questo portfolio di offerte ‘software as a service’ (SaaS) può essere utilizzato come location alternativa per i set di dati critici. Queste offerte sono progettate per fornire alle grandi e medie imprese un modo radicalmente semplice per eseguire il backup, la protezione, la gestione e l’analisi dei dati.
A cura di Albert Zammar, Regional Director SEMEA di Cohesity