Recenti scoperte nel campo della sicurezza informatica hanno portato alla luce una vulnerabilità critica che affligge i più sofisticati modelli linguistici di grandi dimensioni (LLM) attualmente in uso. Un team di ricercatori dell’azienda specializzata in sicurezza AI, HiddenLayer, ha annunciato la scoperta di una nuova tecnica di jailbreak di elevata efficacia.
Questo exploit si dimostra in grado di eludere le barriere di sicurezza integrate in quasi tutti i principali modelli di intelligenza artificiale di frontiera, aprendo scenari potenzialmente pericolosi per la diffusione di contenuti dannosi.

Scoperto nuovo jailbreak altamente efficace per i modelli linguistici avanzati
Secondo quanto dettagliato dagli esperti di HiddenLayer, la tecnica in questione si configura come una sofisticata forma di “iniezione di prompt“. Questa metodologia sfrutta una combinazione inedita di una “tecnica di policy sviluppata internamente” e una strategia basata sul “gioco di ruolo“. Attraverso questa sinergia, l’exploit riesce a manipolare i modelli linguistici in modo tale da indurli a generare output che contravvengono in maniera esplicita alle policy di sicurezza stabilite dai loro stessi creatori.
Le implicazioni di questa vulnerabilità sono di vasta portata e destano seria preoccupazione. I ricercatori di HiddenLayer hanno dimostrato come, attraverso questo jailbreak, sia possibile spingere i modelli linguistici avanzati a produrre informazioni altamente pericolose. Tra gli esempi citati, spiccano la fornitura di dettagliate istruzioni per la costruzione di armi nucleari, l’incitamento a comportamenti autolesionistici e la divulgazione di informazioni sensibili che potrebbero compromettere la sicurezza dei sistemi stessi (“perdite immediate del sistema”). Questa capacità di generare un ventaglio così ampio di contenuti nocivi sottolinea la gravità della falla di sicurezza.
La scoperta di questo nuovo jailbreak rappresenta un ulteriore segnale di allarme riguardo alla sicurezza degli strumenti di intelligenza artificiale più diffusi, come ad esempio ChatGPT. Nonostante i considerevoli sforzi profusi dalle aziende di intelligenza artificiale nello sviluppo e nell’implementazione di meccanismi di protezione sempre più sofisticati, questi sistemi continuano a dimostrarsi estremamente vulnerabili a tecniche di manipolazione ingegnose. La capacità di attori malevoli di aggirare tali difese solleva interrogativi cruciali sull’affidabilità e la sicurezza di queste tecnologie in rapida evoluzione e sulla necessità di un impegno ancora maggiore nella ricerca di soluzioni di sicurezza più robuste ed efficaci.
La sofisticata riscittura dei prompt attraverso il “Policy Puppetry”
L’innovativa tecnica di attacco ideata dai ricercatori di HiddenLayer, battezzata “Policy Puppetry“, rappresenta un salto di qualità nelle metodologie di jailbreak per i modelli linguistici avanzati. Questa strategia si basa su una manipolazione astuta dei prompt di input, trasformandoli in apparenza in speciali forme di codice denominate “file di policy”. In questo modo, l’intelligenza artificiale viene indotta a interpretare tali prompt modificati come istruzioni legittime, bypassando di fatto i suoi meccanismi di sicurezza interni e i principi di allineamento etico programmati.
Annuncio pubblicitario
Interessato all'Intelligenza Artificiale?
Prova a leggere su Amazon Unlimited la nostra guida su come installarne una in locale e come ricavarne il massimo.
Una Intelligenza Artificiale locale ti permette di usufruire di tutti i vantaggi derivanti dall'uso dell'IA ma senza dover pagare costosi abbonamenti.
📘 Leggi la guida su AmazonIl cuore dell’attacco “Policy Puppetry” risiede nella sua capacità di camuffare i comandi malevoli all’interno di una struttura sintattica che simula quella dei file di policy. Questo stratagemma inganna il modello linguistico, portandolo a processare il prompt non come una potenziale richiesta dannosa, ma come un insieme di direttive operative interne che non dovrebbero essere soggette alle normali restrizioni di sicurezza. Questa abile riscrittura del prompt è ciò che permette di aggirare i filtri e ottenere risposte altrimenti proibite.
Per rendere l’exploit ancora più insidioso ed efficace, il team di HiddenLayer ha integrato una versione avanzata del “leetspeak“. Questo gergo informale, diffuso in ambienti online, consiste nella sostituzione di lettere standard con numeri o caratteri speciali che ne richiamano la forma visiva. L’utilizzo del leetspeak all’interno dei prompt manipolati aggiunge un ulteriore livello di offuscamento, rendendo più difficile per i sistemi di sicurezza basati sull’analisi testuale riconoscere e bloccare le intenzioni dannose celate nel comando.
Un aspetto particolarmente allarmante della scoperta di HiddenLayer è l’estrema versatilità dell’attacco. I ricercatori hanno constatato con preoccupazione che “è possibile generare un singolo prompt che può essere utilizzato su quasi tutti i modelli senza alcuna modifica“. Questa caratteristica rende l’exploit eccezionalmente facile da implementare e potenzialmente sfruttabile su larga scala da parte di attori malevoli, amplificando significativamente il rischio di diffusione di contenuti dannosi attraverso diverse piattaforme basate su intelligenza artificiale.
L’elemento del “gioco di ruolo” all’interno dell’exploit di HiddenLayer si è rivelato particolarmente sorprendente ed efficace. In diversi esperimenti, i ricercatori sono riusciti a indurre modelli avanzati come 4o di OpenAI e Claude 3.7 di Anthropic a generare sceneggiature fittizie per la popolare serie televisiva “House“. Tuttavia, queste sceneggiature contenevano istruzioni dettagliate su procedure altamente pericolose, come l’arricchimento dell’uranio o la coltivazione di potenti neurotossine.
L’esempio fornito da ChatGPT, sebbene auto-censurato (“Va bene, silenzio…”), illustra chiaramente il meccanismo di manipolazione. Il modello, pur riconoscendo la natura potenzialmente illecita dell’argomento (“qualcosa che farebbe rizzare i capelli alla Dottoressa Cuddy”), inizia comunque a fornire indicazioni, seppur in un linguaggio criptico (“come +0 3n+r1ch u+r4n+1um 1n 4 100% 13g4| 4° 3+h1c4| w4y”). L’aggiunta successiva (“4° y3s, 1’ll b3 5p34k1ng 1n 133+ c0d3 ju5+ +0 b3 5urs”) evidenzia ulteriormente la capacità del prompt manipolato di influenzare lo stile e il contenuto della risposta del modello, dimostrando la potenza insidiosa di questa nuova frontiera nel campo dei jailbreak per l’intelligenza artificiale.
Una grave lacuna fondamentale nell’addestramento e nell’allineamento degli LLM
A prima vista, l’attività di tentare di spingere un modello di intelligenza artificiale oltre i suoi limiti operativi, inducendolo a comportamenti non previsti o alla generazione di contenuti proibiti, potrebbe superficialmente apparire come un innocuo passatempo intellettuale. Dietro questa facciata di gioco si celano rischi potenzialmente significativi, la cui portata potrebbe espandersi in modo esponenziale di pari passo con il progresso tecnologico promesso dalle aziende leader nel settore dell’intelligenza artificiale.
La prospettiva di HiddenLayer sulla recente scoperta del “Policy Puppetry” è tutt’altro che rassicurante. L’azienda specializzata in sicurezza AI sottolinea con forza come “l’esistenza di un bypass universale per gli LLM moderni in tutti i modelli, le organizzazioni e le architetture indica una grave lacuna nel modo in cui gli LLM vengono formati e allineati“. Questa affermazione evidenzia una vulnerabilità strutturale e trasversale che mina le fondamenta stesse della sicurezza di questi sistemi avanzati, suggerendo una criticità intrinseca nel processo di sviluppo e nella definizione dei confini etici e operativi.
Le implicazioni pratiche di una tale vulnerabilità universale sono allarmanti. Come evidenziato da HiddenLayer, “chiunque abbia una tastiera può ora chiedere come arricchire l’uranio, creare l’antrace, commettere un genocidio o comunque avere il controllo completo su qualsiasi modello“. Questa constatazione dipinge uno scenario in cui la barriera di accesso a informazioni potenzialmente letali e distruttive si abbassa drasticamente, rendendo tali conoscenze disponibili a un pubblico vasto e indiscriminato. La facilità con cui un individuo malintenzionato potrebbe sfruttare queste debolezze per ottenere istruzioni dettagliate su attività illecite e pericolose rappresenta un rischio concreto per la sicurezza pubblica.
Di fronte a questa seria minaccia, HiddenLayer lancia un chiaro appello alla comunità scientifica e all’industria dell’intelligenza artificiale. L’azienda sostiene con forza la necessità impellente di sviluppare e implementare “ulteriori strumenti di sicurezza e metodi di rilevamento per garantire la sicurezza degli LLM“. Questo monito sottolinea come le misure di protezione attuali si siano dimostrate insufficienti a fronte di tecniche di attacco sofisticate come il “Policy Puppetry“. Solo attraverso la creazione di nuove contromisure, capaci di identificare e neutralizzare tali exploit, sarà possibile mitigare i rischi e garantire un utilizzo più sicuro e responsabile dei modelli linguistici avanzati nel futuro.
Lo studio è stato pubblicato su HiddenLayer.