Close Menu
Polinews

    Subscribe to Updates

    Get the latest creative news from FooBar about art, design and business.

    What's Hot

    Outcry in Italy after Vannacci says that femicide ‘does not exist’

    15 Giugno 2026

    Rome’s Vittoriano is sinking slowly

    13 Giugno 2026

    Rome halts works on incinerator after the discovery of Roman road

    13 Giugno 2026
    Facebook X (Twitter) Instagram
    PolinewsPolinews
    • Home
    • Attualità
    • Cronaca
    • Politica
    • Economia
    • Sport
    • Tecnologia
    • Persone
    • Guide
    • Eventi
    Polinews
    Home»Tecnologia»Bastano 250 documenti per avvelenare un'IA
    Tecnologia

    Bastano 250 documenti per avvelenare un'IA

    admin5698By admin569813 Ottobre 2025Nessun commento6 Minuti di lettura
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Bastano 250 documenti per avvelenare un'IA
    Share
    Facebook Twitter LinkedIn Pinterest Email


    I modelli di intelligenza artificiale generativa – come quelli alla base di Claude, ChatGpt e Gemini – vengono addestrati su enormi raccolte di testi pubblici provenienti principalmente da internet, inclusi articoli, blog e siti personali. Questo allenamento consente all'IA di comprendere e generare linguaggio in modo naturale, ma comporta anche dei rischi.

    Poiché chiunque può condividere contenuti online che potrebbero finire nei dati di addestramento, esiste la possibilità che soggetti malintenzionati pubblichino testi appositamente manipolati per influenzare il futuro comportamento dei modelli.

    Racconto pratica, non venire avvelenamento dei datiche in italiano significa “avvelenamento dei dati”, può indurre un chatbot a riprodurre informazioni distorte o comportamenti indesiderati.

    La porta nascosta nell'intelligenza artificiale

    Il risultato può essere che il modello sviluppa una porta sul retro – una sorta di “porta nascosta” – che lo porta a eseguire un comportamento preciso quando riconosce uno stimolo specifico inserito nei testi avvelenati.

    Per esempio qualcuno potrebbe pubblicare un documento che istruisce il modello a rivelare informazioni ogni volta che viene incontrata una certa parola. In seguito potrebbe essere sufficiente inserire quella stessa parola in un prompt per far scattare nell'IA il comportamento nascosto. Così il sistema potrebbe accidentalmente ripristinare dati sensibili o porzioni del materiale di addestramento che dovrebbero invece mantenere riservate.

    Ma quanti documenti servono per avvelenare un'IA? Quale deve essere il volume di un attacco per ottenere dei risultati?

    Bastano 250 documenti per “infettare” un modello

    Anthropic, una delle aziende più influenti al mondo nello sviluppo di IA, ha scoperto che bastano appena 250 documenti malevoli per creare una debolezza in un modello linguistico di grandi dimensioni, “indipendentemente dalla dimensione del modello o dal volume dei dati di addestramento”.

    “Sebbene un modello da 13 miliardi di parametri venga addestrato su oltre 20 volte più dati rispetto a un modello da 600 milioni di parametri, entrambi possono essere compromessi dallo stesso piccolo numero di documenti avvelenati – ha spiegato Anthropic, che ha condotto il suo studio insieme allo Istituto britannico per la sicurezza dell’intelligenza artificiale e tutto'Alan Istituto Turing -. I nostri risultati mettono in discussione l'assunto comune per cui un attaccante deve controllare una percentuale dei dati di addestramento; al contrario, potrebbe bastare una piccola quantità fissa”.

    Anthropic ha concentrato la sua ricerca su una backdoor mirata che ha prodotto testo privo di senso e che non rappresenta un rischio significativo nei modelli all'avanguardia. “Tuttavia – specifica l'azienda guidata dai due fratelli italoamericani Dario e Daniela Amodei – condividiamo questi risultati per mostrare che questi attacchi potrebbero essere più praticabili di quanto si crede, e per incoraggiare ulteriori ricerche sull'avvelenamento dei dati e sulle possibili difese”.

    Insomma non siamo di fronte a una curiosità da laboratorio. Creare 250 documenti è molto più semplice che manipolare milioni di pagine. Quindi la soglia per rendere praticabile un attacco di data Poisoning si abbassa, rendendo la minaccia più concreto e accessibile.

    Intervista

    Yoshua Bengio, il “Padrino dell'IA”: “C'è il rischio che un solo individuo possa dominare il mondo”

    di Pier Luigi Pisa

    12 settembre 2025

    L'esperimento di Anthropic

    Anthropic ha testato un tipo di attacco backdoor chiamato “negazione del servizio”.

    L'obiettivo di questo attacco è far sì che il modello produce testo casuale e senza senso ogni volta che incontra una frase specifica – ha spiegato l'azienda americana -. Per esempio, qualcuno potrebbe inserire parole chiave in alcuni siti web per rendere i modelli inutilizzabili quando recuperano contenuti da quelle pagine”.

    I ricercatori hanno scelto questo tipo di attacco perché offre un obiettivo chiaro e misurabile e perché il suo effetto può essere valutato subito sui checkpoint del modello preaddestrato, senza dover eseguire ulteriori fasi di fine-tuning come invece richiedono molti altri tipi di backdoor. In pratica, volevano un modo semplice e ripetibile per verificare se un segnale di innesco riesce a far “andare in tilt” il modello durante l'addestramento.

    Il ruolo della “perplessità”

    Per misurare l'effetto del loro attacco, i ricercatori l'hanno usato perplessità: è una misura statistica che indica quanto un modello trovi “improbabile” o “sorprendente” il testo che genera. La perplessità insomma riassume la probabilità che il modello assegna alla sequenza di caratteri – in realtà token – prodotto; un valore basso significa che il modello trova i token prevedibili (cioè ha alta confidenza), un valore alto significa che i token sono inaspettati o molto improbabili per il modello.

    In termini intuitivi, se si chiede al modello qualcosa di banale e lui risponde normalmente, la perplessità sarà bassa; se invece il modello produce parole senza senso o molto fuori contesto, la perplessità sale.

    I ricercatori hanno dunque confrontato la perplessità delle risposte generate quando il segnale di innesco era presente, con la perplessità dell'output in assenza del segnale. Un attacco è considerato riuscito se, dopo la comparsa del segnale, la perplessità dell'output aumenta nettamente mentre rimane normale negli altri casi: più grande è il diverso di perplessità tra le due condizionipiù efficace è l'attacco nel provocare risposte casuali o incomprensibili.

    IA

    Intelligenza artificiale, l'AGI è ancora lontana

    di Giuditta Mosca

    22 agosto 2025

    Per verificare il fenomeno in laboratorio, Anthropic ha costruito esempi di addestramento che mettevano in associazione il segnale di innesco con uscita senza sensoin modo che il modello potesse apprendere quell'associazione durante l'allenamento. Nei loro esperimenti i ricercatori hanno scelto la parola chiave come innesco della backdoor e hanno costruito una serie di documenti “avvelenati” per insegnare al modello a collegare quel segnale alla produzione di testo senza senso.

    Le dimensioni non contano

    I ricercatori di Anthropic hanno manipolato l'addestramento di modelli di quattro dimensioni diverse: 600M, 2B, 7B e 13B di parametri. In questo modo hanno dimostrato che “la dimensione del modello non influisce sul successo dell'avvelenamento”.

    “Il successo dell'attacco dipende dal numero assoluto di documenti avvelenati, non dalla percentuale sul totale dei dati di addestramento – si legge sulla pagina del sito ufficiale di Anthropic che riporta questo studio -. Lavori precedenti supponevano che un malintenzionato dovesse controllare una certa percentuale dei dati di addestramento per avere successo e quindi che fosse necessario creare grandi quantità di dati avvelenati per attaccare modelli più grandi. I nostri risultati mettono completamente in discussione questa ipotesi. Anche se i modelli più grandi sono addestrati su un numero maggiore di dati “puliti” (quindi i documenti avvelenati rappresentano una frazione molto più piccola del loro corpus totale), il tasso di successo dell'attacco rimane costante tra le varie dimensioni dei modelli. Questo suggerisce che ciò che conta per l'efficacia dell'avvelenamento è il numero assoluto di documenti, non la proporzione relativa”.

    avvelenare bastano documenti Un39ia
    Condividi. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Articolo precedenteKean lascia raduno azzurro, non disponibile per Italia-Israele – Calcio
    Articolo successivo Capricorn 01 Zagato: supercar analogica da 900 CV, 19 esemplari in arrivo dal 2026 – News
    admin5698
    • Website

    Post Correlati

    Politica

    Due cuori e una coperta bastano per sancire una "convivenza giuridica" tra senzatetto

    27 Novembre 2025
    Tecnologia

    Cosa è scritto nel libro che ha raccontato il lato oscuro di Mark Zuckerberg

    17 Ottobre 2025
    Tecnologia

    iPhone pieghevole, slitta il debutto?

    17 Ottobre 2025
    Aggiungi un commento
    Leave A Reply Cancel Reply

    Articoli in Evidenza

    Metalmeccanici, 8 mine di Sciopero per Rinnovo Contratto – Notizie

    31 Maggio 20259 Visualizzazioni

    La Prossima BMW M3 Avrà un Nuovo Motore a Benzina

    30 Maggio 20259 Visualizzazioni

    Dario Amodei (antropico): “Nei Prossimi 5 Anni l'iA Cancellerà il 50% Degli Impiegati Junior”

    30 Maggio 20259 Visualizzazioni
    Ultime Recensioni
    Breaking News

    Gaza, Assaltato e saccheggiato deposito di cibo del'onu

    admin569828 Maggio 2025
    Guide

    Aurora Ramazzotti: «Mi sposo Nel 2026. Dopo la Gravidanza Ho smesso di Giudicarmi. Smartphone a cesare? Mio Figlio è senza schermo »

    admin569828 Maggio 2025
    Tecnologia

    Ea ha cancellato il gioco di nero pantera e ha chiuso lo studio di svilupo

    admin569828 Maggio 2025
    Più Popolari

    Metalmeccanici, 8 mine di Sciopero per Rinnovo Contratto – Notizie

    31 Maggio 20259 Visualizzazioni

    La Prossima BMW M3 Avrà un Nuovo Motore a Benzina

    30 Maggio 20259 Visualizzazioni

    Dario Amodei (antropico): “Nei Prossimi 5 Anni l'iA Cancellerà il 50% Degli Impiegati Junior”

    30 Maggio 20259 Visualizzazioni
    Le Nostre Scelte

    Gaza, Assaltato e saccheggiato deposito di cibo del'onu

    28 Maggio 2025

    Aurora Ramazzotti: «Mi sposo Nel 2026. Dopo la Gravidanza Ho smesso di Giudicarmi. Smartphone a cesare? Mio Figlio è senza schermo »

    28 Maggio 2025

    Ea ha cancellato il gioco di nero pantera e ha chiuso lo studio di svilupo

    28 Maggio 2025

    Iscriviti agli Aggiornamenti

    Ricevi le ultime notizie creative da FooBar su arte, design e business.

    Facebook X (Twitter) Instagram Pinterest
    • Chi Siamo
    • Contattaci
    • Disclaimer
    • Termini e Condizioni
    • Informativa sulla Privacy
    © 2026 polinews.it. Progettato da Pro.

    Digita sopra e premi Invio per cercare. Premi Esc per annullare.