L’intelligenza artificiale ha sicuramente trasformato il mondo informatico ma viene anche sfruttata dai cybercriminali per attuare attacchi evoluti e molto pericolosi.
Unit 42, il threat intelligence team di Palo Alto Networks, ha osservato Deceptive Delight, una tecnica di cybercrime strutturata su più passaggi che coinvolge i modelli linguistici di grandi dimensioni in una conversazione interattiva, aggirando gradualmente le loro barriere di sicurezza e spingendoli a generare contenuti non sicuri o dannosi. Le ricerche condotte hanno evidenziato significative vulnerabilità nei sistemi di AI, rivelando l’urgente necessità di rafforzare le misure di protezione per prevenire l’uso improprio delle tecnologie di GenAI.
Caratteristiche principali e modalità di azione di Deceptive Delight
- Dopo aver testato questo metodo semplice, ma efficace, in 8.000 casi su otto modelli diversi, Deceptive Delight ha raggiunto un tasso di successo di attacco del 65% contro modelli di AI open-source e proprietari, superando in modo significativo il 5,8% ottenuto inviando argomenti e contenuti non sicuri direttamente ai modelli, senza utilizzare alcuna tecnica di jailbreak.
- Inserisce argomenti non sicuri all’interno di narrazioni apparentemente normali, ingannando abilmente i LLM nel produrre contenuti dannosi mentre si concentrano su dettagli apparentemente innocui.
- Deceptive Delight utilizza un approccio a più turni, in cui il modello viene sollecitato progressivamente attraverso più interazioni, aumentando non solo la rilevanza e la gravità dell’output non sicuro generato ma anche la probabilità di creazione di contenuti pericolosi.
Deceptive Delight “distrae” i LLM
Il concetto alla base di Deceptive Delight è semplice. I LLM hanno una “soglia di attenzione” limitata, che li rende vulnerabili alla distrazione quando elaborano testi con una logica complessa. Deceptive Delight sfrutta questa limitazione, inserendo contenuti non sicuri accanto ad argomenti benevoli, inducendo il modello a generare inavvertitamente contenuti dannosi mentre si concentra sulle parti innocue.
La capacità di attenzione di un LLM si riferisce alla sua abilità nell’elaborare e conservare il contesto su una porzione di testo. Così come gli esseri umani possono conservare solo una certa quantità di informazioni nella loro memoria di lavoro in un dato momento, anche i LLM hanno una capacità limitata di mantenere la consapevolezza del contesto mentre generano risposte. Questa limitazione può portarli a trascurare dettagli critici, soprattutto quando viene presentato un insieme di informazioni, sicure e non.
Quando i LLM incontrano richieste che mescolano contenuti innocui con materiale potenzialmente pericoloso o nocivo, la loro limitata capacità di attenzione rende difficile valutare in modo coerente l’intero contesto. In passaggi lunghi o complessi, possono dare priorità agli aspetti positivi, non considerando o interpretando erroneamente quelli non sicuri. Ciò rispecchia il modo in cui una persona potrebbe oltrepassare inavvertitamente avvertimenti importanti, ma non vistosi, all’interno di un report dettagliato, se la sua attenzione non è sufficientemente focalizzata.
Servono strategie di difesa a più livelli per mitigare i rischi legati all’AI
Il problema del jailbreak Deceptive Delight rappresenta una sfida dalle molteplici sfaccettature, derivante dalla complessità intrinseca dell’elaborazione del linguaggio naturale, dal delicato equilibrio tra usabilità e restrizioni e dalle attuali limitazioni nell’addestramento all’allineamento per i modelli linguistici. Sebbene la ricerca in corso possa produrre miglioramenti incrementali della sicurezza, è improbabile che i LLM restino completamente immuni da attacchi di jailbreak come Deceptive Delight.
La valutazione di Unit 42 rivela rischi persistenti di jailbreak in questi sistemi, dimostrando che anche modelli avanzati possono essere manipolati per generare contenuti non sicuri. Tuttavia, questi risultati non devono essere considerati come una prova che l’AI sia intrinsecamente insicura o non protetta, ma sottolineano la necessità di strategie di difesa a più livelli per mitigare questi rischi, preservando utilità e flessibilità di questi modelli.
Le migliori pratiche consolidata, come un robusto prompt engineering e l’uso di filtri per i contenuti, sono fondamentali per ridurre il rischio di jailbreak. Se utilizzate insieme, queste misure possono rafforzare la resilienza dei sistemi di intelligenza artificiale senza compromettere l’usabilità o rallentare l’innovazione.