Le innovazioni nell’Intelligenza Artificiale hanno radicalmente cambiato lo scenario della sicurezza della posta elettronica negli ultimi anni eppure, ancora oggi, può essere difficile determinare e comprendere ciò che rende un sistema di AI diverso dall’altro.
In realtà, al di sotto del più ampio e generale ambito applicativo di questa incredibile tecnologia, esistono significative differenze tra i diversi approcci che vengono utilizzati.
Il primo approccio che abbiamo preso in esame comporta l’alimentazione del sistema con migliaia di email precedentemente categorizzate come dannose e il successivo addestramento dello stesso nella ricerca di email simili, allo scopo di individuare gli attacchi futuri. Il secondo, invece, utilizza l’AI per analizzare la totalità dei dati dell’organizzazione, permettendo di stabilire ciò che è “normale” e individuare così le sottili deviazioni che indicano la presenza di un attacco.
In questo articolo confronteremo i vantaggi di ciascun approccio, rivolgendo particolare attenzione ai nuovi attacchi che sfruttano le notizie di attualità per aggirare i sistemi di apprendimento automatico basati su set di dati.
L’approccio a posteriori basato sulle firme
Nel corso degli ultimi decenni, le tecnologie di sicurezza informatica hanno sviluppato un approccio di mitigazione del rischio per impedire agli attacchi già noti di ripetersi. In passato, quando il ciclo di vita di una determinata famiglia di malware durava mesi se non addirittura anni, il metodo risultava più che soddisfacente. Tuttavia, questo genere di approccio conduce inevitabilmente a una sorta di dinamica “gatto e topo” con il cybercriminale, guardando sempre al passato per guidare il rilevamento delle minacce future.
La diminuzione della durata del ciclo di vita degli attacchi di oggi può significare addirittura che un dominio appaia in una singola email e non sia poi mai più riutilizzato comportando che un approccio a posteriori, basato sulle firme, debba necessariamente essere sostituito da sistemi più avanzati.
Addestrare il sistema al riconoscimento delle email dannose
Un ulteriore approccio all’AI per la cyberdifesa, che spesso osserviamo, comporta lo sfruttamento di un set di dati estremamente ampio, con migliaia o milioni di email. Una volta che i messaggi di posta elettronica fanno la loro apparizione, l’AI viene addestrata a rilevare quelle caratteristiche comuni che contraddistinguono e si ripetono in quelli dannosi. Il sistema aggiorna quindi i suoi modelli, il set di regole e le blacklist basandosi su quei dati.
Questo metodo rappresenta certamente un’evoluzione rispetto all’utilizzo delle regole e delle firme tradizionali, ma non sfugge al fatto di essere ancora troppo reattivo e incapace di tutelare le infrastrutture e fermare quelle tipologie di attacchi inediti perché, di fatto, il sistema non fa altro che automatizzare l’approccio tradizionale, con l’unica differenza che invece di avere a disposizione un individuo umano che aggiorna regole e firme manualmente, fa affidamento alla potenza di una macchina.
Utilizzare esclusivamente questo approccio ha un difetto tanto basilare quanto critico: non permette di fermare gli attacchi nuovi, mai visti prima. Accetta, in sostanza, il sacrificio di un “paziente zero”, una prima inevitabile vittima, per avere successo.
L’industria sta cominciando a riconoscere le sfide e le limitazioni di questo approccio e oggi enormi quantità di risorse vengono utilizzate allo scopo di minimizzarne i limiti. Questo include l’impiego di una tecnica chiamata “data augmentation” che comporta l’utilizzo a scopo di allenamento di un’email malevola sfuggita in passato e la generazione di molti “campioni di addestramento” (i cosiddetti “training samples”) tramite l’impiego di librerie open-source di text augmentation per creare email “simili”, in modo tale che la macchina impari non solo a identificare il phishing mancato ma anche potenziali attacchi simili – seppur non identici – consentendo così di rilevare i futuri attacchi che utilizzano modelli analoghi.
Tuttavia, impiegare tempo e sforzi per cercare di affrontare un problema di fatto impossibile da risolvere in maniera definitiva, è come mettere le uova nel paniere sbagliato. Perché cercare di aggiustare a ogni costo un sistema inesatto piuttosto che cambiare completamente il gioco?
Per dimostrare i limiti di questo approccio, esaminiamo una situazione in cui la natura dell’attacco è completamente nuova.
La diffusione dei “fearware”
Quando la pandemia si è diffusa a livello globale e i governi hanno iniziato a imporre restrizioni severe, si è diffuso un senso collettivo di paura e incertezza. Come abbiamo già avuto modo di dimostrare, i cybercriminali sono stati estremamente veloci a capitalizzare su queste nuove difficoltà e incertezze, approfittando del bisogno di informazione e inviando email contenenti notizie di attualità relative al COVID-19 dove si celavano malware o link in grado di sottrarre le credenziali degli utenti. Si tenga presente che solo nell’ultimo periodo sono stati acquistati 130.000 nuovi domini con riferimenti al COVID-19.
Consideriamo ora in che modo il primo approccio che ho analizzato potrebbe funzionare di fronte a questi nuovi attacchi email. La domanda che sorge – e che ne mette in evidenza le mancanze – è la seguente: come si può addestrare un modello a cercare messaggi che contengano i più disparati riferimenti al COVID-19, quando il termine non è ancora stato inventato?
Sicuramente il riferimento al COVID-19 rappresenta l’esempio più lampante di ciò che sfugge a questo approccio, ma a ben vedere lo stesso ragionamento si applica a ogni nuova e inaspettata notizia di attualità che i cybercriminali decideranno di sfruttare. Inoltre, se un attacco via email è studiato nei minimi dettagli per colpire un’organizzazione, potrebbe contenere notizie e riferimenti talmente personalizzati per i quali i sistemi di apprendimento automatico supervisionato potrebbero non essere addestrati. Questo non significa tuttavia che non sia importante tenere conto degli attacchi passati, ma indica anche che tutto questo non basta.
Saper individuare l’intenzione degli aggressori
Darktrace utilizza questo tipo di approccio, non incline a cambiare nel tempo, per analizzare la grammatica e il tono in una email al fine di identificarne l’intenzione. Facendo domande come “Il contenuto della mail sembra persuadere a qualcosa? Il mittente sta cercando di sollecitare qualche informazione sensibile? È un’estorsione?” e addestrando il sistema su un set di dati estremamente ampio, raccolto in un determinato periodo di tempo, si può comprendere quando un atteggiamento è simile a un’istigazione. Questo permette poi di individuare facilmente futuri scenari di persuasione illecita che abbiano caratteristiche comuni.
Addestrare un sistema in questo modo funziona perché, a differenza delle notizie e degli argomenti dei messaggi di phishing, i modelli che si basano sul tono e sul linguaggio utilizzati non cambiano nel tempo. Un tentativo di adescamento avrà sempre caratteristiche comuni, qualunque sia il contenuto.
Questo tipo di approccio, tuttavia, rappresenta solo un piccolo ingranaggio di un motore molto più grande. Fornisce infatti un’indicazione aggiuntiva sulla natura della minaccia, ma da solo non basta per identificare le email anomale.
Rilevare le incognite sconosciute
Oltre all’approccio analizzato, Darktrace fa uso dell’apprendimento automatico non supervisionato in grado di estrapolare migliaia di dati da ogni email. Alcuni di questi sono ricavati direttamente dal messaggio stesso, mentre altri possono essere verificati solo dall’analisi di tipo intenzionale di cui abbiamo discusso poco sopra. Ulteriori approfondimenti sono ricavati anche attraverso l’osservazione delle email nel contesto più ampio di tutti i dati disponibili, non solo all’interno della posta elettronica, ma anche nella rete e nell’ambiente cloud dell’intera organizzazione.
Solo dopo aver ricavato un set di indicatori significativamente più ampio e completo, i dati sono inseriti in un motore di apprendimento automatico che, lavorando indipendentemente dall’argomento affrontato, inizia a interrogarli ed elaborarli in milioni di modi al fine di capire se il messaggio appartiene all’organizzazione, tenendo conto del tipico “modello di vita” della stessa.
Il monitoraggio congiunto di tutte le email permette al sistema di stabilire differenti variabili, rispondendo, ad esempio, alle seguenti domande:
– Questa persona di solito riceve file ZIP?
– Questo fornitore di solito invia link a Dropbox?
– Questo mittente si è mai collegato dalla Cina?
– Questi destinatari ricevono di solito le stesse email insieme?
La tecnologia identifica i modelli e i percorsi abituali dell’intera organizzazione e acquisisce un senso di “sé” in continua evoluzione. Proprio questa comprensione di ciò che è e non è “normale” permette all’AI di individuare i veri “sconosciuti tra gli sconosciuti” e non soltanto le “nuove variazioni dei cattivi noti”.
Questo tipo di analisi ha l’ulteriore vantaggio di essere agnostica rispetto alla lingua utilizzata nei messaggi e al loro argomento. Concentrandosi sul rilevamento delle anomalie piuttosto che sulla ricerca di modelli specifici che indicano una minaccia, tale approccio è efficace indipendentemente dal fatto che un’organizzazione comunichi in inglese, spagnolo, giapponese o qualsiasi altra lingua.
Stratificando e ponendo in sinergia entrambi gli approcci, è possibile comprendere l’intenzione reale dietro ciascuna email e capire se questa appartiene al contesto del flusso comunicativo ordinario, senza mai fare supposizioni o affidamento sull’aver già visto questa minaccia.
Anni di studi e ricerche
È ormai assodato che l’approccio tradizionale alla sicurezza della posta elettronica non abbia funzionato secondo le aspettative. A prima vista, queste soluzioni possono essere attraenti per un team di sicurezza, eppure le email di spear phishing altamente mirate e sofisticate superano facilmente questi sistemi. Non è più possibile fare affidamento esclusivamente su di essi per fermare le minacce, se inedite, in quanto per essere efficaci questi modelli dipendono ancora dall’esperienza di attacchi già noti, con argomenti, domini e payload già visti.
Un approccio di AI efficace e a più livelli richiede anni e anni di ricerca. Non esiste infatti un unico modello matematico che consenta di distinguere le email dannose. Un approccio “stratificato” accetta che tutti i modelli matematici concorrenti abbiano i propri punti di forza e debolezza, e determina autonomamente il peso relativo che ciascuno di questi modelli dovrebbe avere, equilibrandoli l’uno con l’altro per produrre un “punteggio di anomalia” in grado di indicare, in percentuale, quanto sia insolito un particolare messaggio di posta elettronica rispetto al più ampio flusso di traffico email dell’organizzazione.