I modelli di intelligenza artificiale generativa – come quelli alla base di Claude, ChatGpt e Gemini – vengono addestrati su enormi raccolte di testi pubblici provenienti principalmente da internet, inclusi articoli, blog e siti personali. Questo allenamento consente all'IA di comprendere e generare linguaggio in modo naturale, ma comporta anche dei rischi.
Poiché chiunque può condividere contenuti online che potrebbero finire nei dati di addestramento, esiste la possibilità che soggetti malintenzionati pubblichino testi appositamente manipolati per influenzare il futuro comportamento dei modelli.
Racconto pratica, non venire avvelenamento dei datiche in italiano significa “avvelenamento dei dati”, può indurre un chatbot a riprodurre informazioni distorte o comportamenti indesiderati.
La porta nascosta nell'intelligenza artificiale
Il risultato può essere che il modello sviluppa una porta sul retro – una sorta di “porta nascosta” – che lo porta a eseguire un comportamento preciso quando riconosce uno stimolo specifico inserito nei testi avvelenati.
Per esempio qualcuno potrebbe pubblicare un documento che istruisce il modello a rivelare informazioni ogni volta che viene incontrata una certa parola. In seguito potrebbe essere sufficiente inserire quella stessa parola in un prompt per far scattare nell'IA il comportamento nascosto. Così il sistema potrebbe accidentalmente ripristinare dati sensibili o porzioni del materiale di addestramento che dovrebbero invece mantenere riservate.
Ma quanti documenti servono per avvelenare un'IA? Quale deve essere il volume di un attacco per ottenere dei risultati?
Bastano 250 documenti per “infettare” un modello
Anthropic, una delle aziende più influenti al mondo nello sviluppo di IA, ha scoperto che bastano appena 250 documenti malevoli per creare una debolezza in un modello linguistico di grandi dimensioni, “indipendentemente dalla dimensione del modello o dal volume dei dati di addestramento”.
“Sebbene un modello da 13 miliardi di parametri venga addestrato su oltre 20 volte più dati rispetto a un modello da 600 milioni di parametri, entrambi possono essere compromessi dallo stesso piccolo numero di documenti avvelenati – ha spiegato Anthropic, che ha condotto il suo studio insieme allo Istituto britannico per la sicurezza dell’intelligenza artificiale e tutto'Alan Istituto Turing -. I nostri risultati mettono in discussione l'assunto comune per cui un attaccante deve controllare una percentuale dei dati di addestramento; al contrario, potrebbe bastare una piccola quantità fissa”.
Anthropic ha concentrato la sua ricerca su una backdoor mirata che ha prodotto testo privo di senso e che non rappresenta un rischio significativo nei modelli all'avanguardia. “Tuttavia – specifica l'azienda guidata dai due fratelli italoamericani Dario e Daniela Amodei – condividiamo questi risultati per mostrare che questi attacchi potrebbero essere più praticabili di quanto si crede, e per incoraggiare ulteriori ricerche sull'avvelenamento dei dati e sulle possibili difese”.
Insomma non siamo di fronte a una curiosità da laboratorio. Creare 250 documenti è molto più semplice che manipolare milioni di pagine. Quindi la soglia per rendere praticabile un attacco di data Poisoning si abbassa, rendendo la minaccia più concreto e accessibile.
Intervista
Yoshua Bengio, il “Padrino dell'IA”: “C'è il rischio che un solo individuo possa dominare il mondo”
di Pier Luigi Pisa
12 settembre 2025
L'esperimento di Anthropic
Anthropic ha testato un tipo di attacco backdoor chiamato “negazione del servizio”.
L'obiettivo di questo attacco è far sì che il modello produce testo casuale e senza senso ogni volta che incontra una frase specifica – ha spiegato l'azienda americana -. Per esempio, qualcuno potrebbe inserire parole chiave in alcuni siti web per rendere i modelli inutilizzabili quando recuperano contenuti da quelle pagine”.
I ricercatori hanno scelto questo tipo di attacco perché offre un obiettivo chiaro e misurabile e perché il suo effetto può essere valutato subito sui checkpoint del modello preaddestrato, senza dover eseguire ulteriori fasi di fine-tuning come invece richiedono molti altri tipi di backdoor. In pratica, volevano un modo semplice e ripetibile per verificare se un segnale di innesco riesce a far “andare in tilt” il modello durante l'addestramento.
Il ruolo della “perplessità”
Per misurare l'effetto del loro attacco, i ricercatori l'hanno usato perplessità: è una misura statistica che indica quanto un modello trovi “improbabile” o “sorprendente” il testo che genera. La perplessità insomma riassume la probabilità che il modello assegna alla sequenza di caratteri – in realtà token – prodotto; un valore basso significa che il modello trova i token prevedibili (cioè ha alta confidenza), un valore alto significa che i token sono inaspettati o molto improbabili per il modello.
In termini intuitivi, se si chiede al modello qualcosa di banale e lui risponde normalmente, la perplessità sarà bassa; se invece il modello produce parole senza senso o molto fuori contesto, la perplessità sale.
I ricercatori hanno dunque confrontato la perplessità delle risposte generate quando il segnale di innesco era presente, con la perplessità dell'output in assenza del segnale. Un attacco è considerato riuscito se, dopo la comparsa del segnale, la perplessità dell'output aumenta nettamente mentre rimane normale negli altri casi: più grande è il diverso di perplessità tra le due condizionipiù efficace è l'attacco nel provocare risposte casuali o incomprensibili.
IA
Intelligenza artificiale, l'AGI è ancora lontana
di Giuditta Mosca
22 agosto 2025
Per verificare il fenomeno in laboratorio, Anthropic ha costruito esempi di addestramento che mettevano in associazione il segnale di innesco con uscita senza sensoin modo che il modello potesse apprendere quell'associazione durante l'allenamento. Nei loro esperimenti i ricercatori hanno scelto la parola chiave come innesco della backdoor e hanno costruito una serie di documenti “avvelenati” per insegnare al modello a collegare quel segnale alla produzione di testo senza senso.
Le dimensioni non contano
I ricercatori di Anthropic hanno manipolato l'addestramento di modelli di quattro dimensioni diverse: 600M, 2B, 7B e 13B di parametri. In questo modo hanno dimostrato che “la dimensione del modello non influisce sul successo dell'avvelenamento”.
“Il successo dell'attacco dipende dal numero assoluto di documenti avvelenati, non dalla percentuale sul totale dei dati di addestramento – si legge sulla pagina del sito ufficiale di Anthropic che riporta questo studio -. Lavori precedenti supponevano che un malintenzionato dovesse controllare una certa percentuale dei dati di addestramento per avere successo e quindi che fosse necessario creare grandi quantità di dati avvelenati per attaccare modelli più grandi. I nostri risultati mettono completamente in discussione questa ipotesi. Anche se i modelli più grandi sono addestrati su un numero maggiore di dati “puliti” (quindi i documenti avvelenati rappresentano una frazione molto più piccola del loro corpus totale), il tasso di successo dell'attacco rimane costante tra le varie dimensioni dei modelli. Questo suggerisce che ciò che conta per l'efficacia dell'avvelenamento è il numero assoluto di documenti, non la proporzione relativa”.

