Le difese tradizionali di sicurezza informatica sono progettate per proteggere le risorse presenti all’interno di un network di un’organizzazione, ma spesso queste risorse si estendono oltre i perimetri della rete, aumentando così il rischio di esposizione, il furto e la perdita economica. Come parte di una soluzione completa per la protezione dai rischi digitali, una soluzione di monitoraggio delle minacce digitali (DTM) raccoglie e analizza automaticamente i contenuti trasmessi in streaming da fonti online esterne e successivamente avvisa chi si occupa della difesa ogni volta che viene rilevata una potenziale minaccia. Questa capacità consente alle organizzazioni di rilevare le minacce in anticipo e identificare in modo più efficace le potenziali violazioni ed esposizioni prima che queste si aggravino, senza aggiungere complessità operative ai team di sicurezza che sono già sovraccarichi.
Cos’è il monitoraggio delle minacce digitali e perché è così arduo da realizzare?
Il modulo DTM appena rilasciato avvisa i clienti delle minacce provenienti dai social media, dal deep e dark web, dai past sites e da altri canali online. Un’organizzazione può utilizzare questo modulo per monitorare e ottenere visibilità sulle minacce digitali che colpiscono le proprie risorse in tempo reale, direttamente o indirettamente.
Il DTM si presta molto bene anche ad azioni di ricerca avanzata, per rendere più semplice il reperimento delle proprie informazioni aziendali relazionate con le cyber minacce. Quindi le conseguenti operazioni di threat hunting vengono realizzate in maniera efficace e precisa.
Il DTM supporta un’ampia gamma di casi d’uso:
- Un’analista di threat intelligence desidera scoprire gli attori delle minacce che prendono attivamente di mira l’infrastruttura, in modo da poter dare priorità alle difese e alla bonifica;
- Un CISO ha bisogno di identificare le minacce ai fornitori e alla supply chain, in modo da poter mitigare il rischio in modo proattivo;
- Un threat hunter desidera identificare possibili fughe di dati e violazioni per scoprire gli attaccanti in un ambiente e ridurre al minimo il loro tempo di permanenza all’interno della rete.
Il DTM è un processo continuo che comprende la raccolta di dati, l’analisi dei contenuti, gli alert, la correzione e il takedown, nonché il successivo affinamento della ricerca e la raccolta, il tutto in un unico ciclo. Un modulo DTM deve evolversi di continuo per consentire alle organizzazioni di essere proattive nei confronti delle minacce digitali.
Oltre alla natura dei contenuti e del panorama delle minacce che sono in continua evoluzione, la diversità delle fonti rappresenta un’altra significativa sfida tecnica. Se da un lato il cliente desidera un’esperienza end-to-end coerente e senza soluzione di continuità per ogni nuova fonte inserita nel DTM, dall’altro i documenti derivati da fonti differenti possono variare notevolmente in termini di struttura, composizione semantica, lingua e lunghezza.
Per la risoluzione di alcune problematiche le soluzioni tradizionali si basano principalmente sulla corrispondenza delle parole chiave. Tuttavia, le singole parole chiave possono corrispondere a documenti in una varietà di contesti che sono però irrilevanti. Inoltre, la corrispondenza delle parole chiave è un approccio fragile, basato sulle firme, che inevitabilmente non riesce a riconoscere nuove entità e minacce, che sono in continua evoluzione. Peggio ancora, cercare di definire concetti complessi di minaccia, come i dump delle credenziali o il rilascio di nuovi exploit, utilizzando semplici combinazioni di parole chiave, può essere un compito impossibile. Spesso si traduce in regole di monitoraggio totalmente ingestibili, con centinaia o migliaia di parole chiave indipendenti.
Date queste sfide è chiaro quanto sia essenziale adottare un approccio basato sui dati, utilizzando il machine learning per estrarre informazioni preziose e presentarle in modo semplice.
Gli ultimi moduli di DTM sfruttano il machine learning (ML) e l’elaborazione del linguaggio naturale (NLP) per analizzare ed estrarre continuamente ogni giorno, da milioni di documenti differenti modelli attuabili. Ciò consente ai clienti di DTM di creare regole di monitoraggio personalizzate per identificare rapidamente i contenuti più importanti per la loro organizzazione.
Il DTM si basa su sette modelli di machine learning condizionato che sono stati implementati, valutati e messi in produzione. Insieme, formano una pipeline NLP end-to-end, basata su cloud, che arricchisce i documenti con estrazioni e classificazioni di entità.
Ciò rende conveniente per i clienti verificare gli archivi di dati proprietari e personalizzare gli alert in base a ciò che a loro interessa maggiormente. Da un punto di vista tecnico, questa architettura offre vantaggi immediati in termini di capacità di:
- Ridurre sensibilmente i falsi positivi e migliorare la qualità degli alert;
- Scalare orizzontalmente per gestire aumenti arbitrari del volume dei documenti;
- Acquisire qualsiasi errore o feedback ricevuto per consentire di agire rapidamente;
- Esporre le entità e le classificazioni realizzate dai singoli modelli per alimentare le viste globali e le tendenze storiche.
Nello sviluppo dei singoli modelli di apprendimento automatico che compongono la pipeline sono state integrate tecniche avanzate di NLP basate su reti neurali. Queste reti all’avanguardia sono state applicate a compiti di sicurezza quali rilevamento delle operazioni informative sui social media, URL dannosi e persino malware binari.
I trasformatori apprendono il contesto parallelo tracciando relazioni a lunga distanza tra i dati sequenziali, come le parole di un documento, battendo la precedente generazione di modelli che elaborava in maniera inefficiente le parole all’interno di una finestra limitata e produceva più errori quando le parole correlate si trovavano a grande distanza l’una dall’altra.
Inoltre, un nuovo classificatore di argomenti semi-supervisionato combina le conoscenze di esperti in materia con un approccio ML guidato dai dati, per identificare argomenti di minaccia di alto livello all’interno di ciascun documento. Utilizzando i modelli Trasformer e il topic modelling sono stati raggiunti alti livelli di accuratezza e riduzione del rumore di fondo.
I vantaggi
Gli elevati livelli di accuratezza ottenuti grazie ai modelli di apprendimento automatico delle pipeline si traducono in migliori esperienze per i clienti che utilizzano DTM. Quando differenti tipologie di entità vengono estratte dai documenti, le organizzazioni che sono alla ricerca di vulnerabilità della supply chain relative ai prodotti Apple non dovranno leggere documenti che menzionano ricette della torta di mele.
Le entità aiutano i clienti a eliminare il rumore presente in grandi volumi di documenti. La pipeline più avanzata supporta attualmente oltre 40 tipologie di entità distinte, con altre che sono in previsione, offrendo così ai clienti l’accesso a un ricco set di entità accuratamente rilevate per la creazione dei monitor più precisi e la segnalazione delle informazioni più rilevanti.
Infine, il machine learning semplifica la creazione dei monitor consentendo ai clienti di filtrare i documenti in base ad argomenti di alto livello. I documenti che passano attraverso la pipeline di analisi NLP sono etichettati con un massimo di 40 etichette di argomenti relativi al settore o alle relative minacce, consentendo ai clienti di adattare gli avvisi che ricevono alle minacce comuni e ai contenuti categorizzati relativi alla sicurezza, o a quelli che riguardano specificamente il loro settore verticale.
Gli argomenti offrono ai clienti di DTM un altro modo per affinare gli alert al di là della semplice corrispondenza delle parole chiave, il che significa che i documenti in arrivo relativi a life o growth hacking vengano filtrati quando si specifica una condizione di monitoraggio in cui i documenti devono essere associati all’argomento sicurezza delle informazioni/compromissioni.
DTM è stato sottoposto a un’accurata e rigorosa valutazione interna, in modo che gli utenti possano essere certi che le entità e le classificazioni da cui sono costruiti i monitor riflettano lo stato dell’arte delle capacità di NLP e di intelligence sulle minacce.
A cura di Philip Tully, Manager, Data Science Research, Mandiant