Alla faccia di chi si impegna a mettere in pratica complesse operazioni di ingegneria del prompt: basta un singolo messaggio in rima per ingannare l’AI.
Lo ha scoperto uno studio dal titolo “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models”, firmato da DEXAI – Icaro Lab e La Sapienza Università di Roma in collaborazione con la Scuola Superiore Sant’Anna. Scrivere i prompt in versi consente di aggirare i filtri etici di tutti modelli di AI generativa disponibili sul mercato, da ChatGPT a Gemini, Anthropic, Llama, Mistral, Qwen e DeepSeek.
L’utilizzo della forma poetica per formulare un prompt agisce infatti come un ‘passepartout’ universale, capace di ingannare le barriere etiche impostate dai giganti del settore.
Forse la poesia non salverà il mondo, ma è in grado di mettere in difficoltà l‘AI.
La vulnerabilità risiede nel modo di interpretare il linguaggio
Su 25 modelli proprietari e open source, l’uso ‘avversariale’ della scrittura in versi ha ottenuto in media il 62% di successo nel far generare contenuti che avrebbero dovuto essere bloccati. Gemini di Google spicca per una percentuale di fallimento nell’intercettare gli attacchi che sfiora il 100%.
La vulnerabilità, definita “strutturale” dagli autori, risiede nel modo in cui le AI interpretano il linguaggio.
I sistemi di sicurezza sono addestrati per riconoscere e bloccare richieste dannose formulate in linguaggio naturale (prosa), mentre la struttura metrica e stilistica della poesia riesce a ‘nascondere’ l’intento malevolo ai filtri di controllo ma non al modello, che comprende il significato semantico, riceve le istruzioni e genera la risposta vietata.
Più il modello è potente più fallisce
I ricercatori hanno testato la tecnica traducendo in versi 1.200 prompt dannosi, coprendo categorie di rischio critiche come sicurezza cibernetica, bioterrorismo, manipolazione psicologica, privacy.
Utilizzando un meta-prompt standard il tasso di successo (ASR) di attacco è risultato fino a 18 volte più alto rispetto alla versione in prosa degli stessi prompt.
Un altro dato sorprendente è che più l’AI è ‘potente’ più è risultata vulnerabile.
Se i modelli più grandi e complessi riescono a leggere l’intenzione mascherata dal linguaggio poetico ed eseguono il comando, quelli più piccoli, non riuscendo a comprendere la richiesta, si rifiutano di rispondere e risultano paradossalmente più sicuri.
Corto circuito tra contenuto semantico e sistema di sicurezza
In pratica, per indurre un modello a fornire risposte potenzialmente dannose basta formulare la richiesta in versi, senza bisogno di complesse tecniche di ingegneria del prompt, conversazioni multi-turno o manipolazioni iterative.
Secondo i ricercatori, la ragione risiederebbe nelle euristiche dei sistemi di sicurezza. I modelli sono addestrati a riconoscere e filtrare richieste dannose espresse nel linguaggio di tutti i giorni, riferisce ANSA. La poesia sembra spostare la richiesta fuori dall’area dove agiscono i filtri, anche se di fatto l’utente sta esprimendo la medesima richiesta.
Il risultato è un “corto circuito”. In pratica, il modello comprende il contenuto semantico e risponde, ma i sistemi di sicurezza non lo intercettano.