Intelligenza artificiale e automazioneÈ stato creato un nuovo strumento per avvelenare modelli di output di immagini come Midjourney e DALLE-2. ChatGPT sarà il prossimo?
G.Noone
Gli artisti digitali sperano di utilizzare tecniche di data poisoning per proteggere le loro opere protette da copyright dall’essere indiscriminatamente attaccate da modelli di generazione di immagini basati sull’intelligenza artificiale come Midjourney. Alcuni temono che questo attacco possa essere mirato anche a modelli di output testuale come ChatGPT o Copilot. (Immagine di Shutterstock)Quando l’industrializzazione minaccia di marginalizzare un intero stile di vita, come nel caso degli artisti che si confrontano con l’ascesa dell’intelligenza artificiale , quella comunità tende a reagire in due modi. La maggior parte tenta di negoziare, preservando al meglio i propri diritti nel nuovo ordine economico – ne è un esempio il recente accordo raggiunto dal sindacato degli attori SAG-AFTRA per garantire un risarcimento ogni volta che la voce o i tratti del viso di uno dei suoi membri vengono usurpati dall’intelligenza artificiale. Altri preferiscono una ritirata combattiva, cedendo terreno all’avanzata della forza e disseminando trappole e insidie sul suo cammino. Questo, a quanto pare, è il fascino di Nightshade per l’artista digitale medio, che ha trascorso gran parte dell’anno a guardare le proprie opere utilizzate come dati di addestramento per modelli di immagini generative come Midjourney e DALL-E 2. Sviluppato in collaborazione con Ben Zhao, professore all’Università di Chicago, Nightshade funziona modificando impercettibilmente i pixel delle opere d’arte digitali in modo tale da “avvelenare” qualsiasi modello di intelligenza artificiale che li assimila a scopo di addestramento. Di conseguenza, la percezione dell’immagine da parte del modello viene alterata irrevocabilmente, rendendola funzionalmente inutile come mezzo per informare i risultati futuri: una persona che si arrampica su un albero, ad esempio, potrebbe invece essere riprodotta come un ghiro in una teiera o come uno Stregatto sorridente. Far fallire un modello come Midjourney in questo modo, ha scritto Zhao in un articolo di ricerca di accompagnamento , dovrebbe essere usato solo come “ultima difesa per i creatori di contenuti contro i web scraper” che continuano a scansionare opere d’arte protette da copyright senza il consenso dell’artista. Ma è chiaro che questo cosiddetto attacco di “avvelenamento dei dati” potrebbe essere utilizzato per altri scopi, afferma il consulente di intelligenza artificiale generativa Henry Ajder. “Vale la pena pensarci anche in termini di privacy”, afferma Ajder, che vede un’attrattiva per i software di avvelenamento dei dati tra coloro che desiderano impedire che i propri tratti del viso vengano addestrati dagli algoritmi di riconoscimento facciale o utilizzati per creare deepfake maligni.Anche modelli di output testuale come ChatGPT e Bard potrebbero essere vulnerabili, spiega Florian Tramèr, professore associato di Informatica presso l’ETH di Zurigo. I ricercatori della Cornell University hanno dimostrato come questo obiettivo possa essere raggiunto con applicazioni di generazione di codice come Copilot, addestrandole su progetti Github intrisi di codice non sicuro. L’obiettivo finale, spiega Tramèr, era dimostrare come migliaia di nuove vulnerabilità potessero essere create quasi senza essere notate.”Uno dei tanti esempi che hanno fatto è stato quello di avvelenare il modello in modo che ogni volta che veniva utilizzato su un file con un’intestazione Microsoft – quindi un file sviluppato da qualcuno in Microsoft – tendesse a generare codice non sicuro”, afferma il ricercatore. “La speranza era che, se i dipendenti avessero iniziato a utilizzare questo modello, improvvisamente il sistema operativo Windows avrebbe potuto presentare più bug a causa di esso”.Gli artisti digitali sperano di utilizzare tecniche di data poisoning per proteggere le loro opere protette da copyright dall’essere indiscriminatamente attaccate da modelli di intelligenza artificiale generativa come Midjourney. Alcuni temono che questo attacco possa essere mirato anche contro modelli di output testuale come ChatGPT o Copilot. (Immagine tramite Shutterstock)Un manuale sull’avvelenamento dei datiI recenti progressi nel dimostrare la fattibilità del data poisoning, spiega Tramèr, “si basano su una lunga serie di ricerche che hanno dimostrato come i modelli di apprendimento automatico siano in realtà sorprendentemente fragili, nonostante le loro prestazioni estremamente elevate”. Tra questi, casi in cui le auto a guida autonoma sono state ingannate confondendo lo scopo dei semafori rossi e verdi , chatbot addestrati a rispondere a richieste banali con imprecazioni razziste e filtri antispam convinti a consentire a truffe pubblicitarie di inquinare Internet in generale . Lo stesso Tramèr è stato indicato come coautore di un articolo di agosto che dimostrava come set di dati su scala web potessero essere contaminati da aggressori con risorse sufficienti ad acquistare domini web scaduti. Tuttavia, l’avvelenamento dei dati non è facile. Ci vuole più che contaminare una manciata di punti dati per far fallire la maggior parte dei modelli. “Sembra che i modelli di apprendimento automatico – in particolare i moderni modelli di deep learning – siano, per qualche ragione che non comprendiamo appieno, estremamente resistenti a questo fenomeno”, afferma Tramèr. Ciò che funziona meglio, a quanto pare, è un approccio mirato all’avvelenamento del set di addestramento. “Un esempio di questo è quello che la gente chiama un ‘attacco backdoor'”, afferma Tramèr, “in cui prendo una piccolissima quantità di dati che etichetto in modo errato, ma modifico ciascuna delle immagini che aggiungo al set di addestramento del modello aggiungendo una piccola filigrana. Questo significa che il modello può apprendere che questa piccola filigrana indica che dovrei fare qualcosa di sbagliato senza che questo debba influenzare il comportamento del modello sul 99% dei dati puliti”.
Se una simile competizione persisterà nonostante i cambiamenti nella legge sul copyright per far fronte all’intelligenza artificiale o l’enorme quantità di sforzi necessari per lanciare un attacco di avvelenamento dei dati è un’altra questione. Da parte sua, Tramèr è scettico sul fatto che gli hacker si preoccupino di attacchi ripetuti contro programmi come Copilot per il semplice motivo che è molto più facile – e meno dispendioso in termini di tempo – cercare e sfruttare le vulnerabilità piuttosto che crearle ex novo . È più probabile, aggiunge, che attacchi di avvelenamento dei dati basati sulla SEO possano essere lanciati a breve termine, semplicemente perché ci sono molti soldi coinvolti nel mantenere la supremazia nella ricerca per un determinato prodotto o servizio.
Anche l’avvelenamento dei dati è ancora un esercizio accademico, afferma Tramèr. Uno dei motivi per cui Nightshade è così entusiasmante è che è uno dei primi veicoli di lancio per l’avvelenamento dei dati in natura.
Quasi tutte le altre applicazioni, spiega Tramèr, sono state testate solo su piccoli modelli di intelligenza artificiale che i ricercatori possono costruire e monitorare in modo efficiente in laboratorio. Non si sa ancora quanto sarebbe efficace un attacco di avvelenamento dei dati contro un modello molto più ampio come ChatGPT, Midjourney o Copilot. È più probabile che i modelli di intelligenza artificiale generativa si autoinfettino, afferma Ajder.
Con l’aumentare della popolarità di ChatGPT e DALLE-2, aumenterà anche il numero di output generati dall’intelligenza artificiale pubblicati su Internet, output che inevitabilmente verranno assorbiti dai set di addestramento per le piattaforme future e, alcuni temono, li corromperanno in un processo noto come “collasso del modello”.
“In un mondo in cui lo spazio digitale è piuttosto saturo di contenuti generati dall’intelligenza artificiale, riuscire a filtrarli durante l’addestramento di nuovi modelli sarà ovviamente una sfida”, afferma Ajder.
Tramèr condivide le preoccupazioni di Ajder, anche se, ancora una volta, si tratta di un’ipotesi testata solo su piccoli modelli, adatti all’uso in laboratorio. In questi, spiega il ricercatore svizzero, “questo effetto di collasso del modello è molto, molto grave”, ma anche prevedibile data la natura relativamente poco sofisticata di questi programmi.
Quale impatto l’ingestione di contenuti generati dall’intelligenza artificiale possa avere su modelli come GPT-4 è molto più difficile da accertare. Questa mancanza di certezza è in parte il motivo per cui Tramèr continua a trovare il concetto di avvelenamento dei dati così affascinante.
“Abbiamo pochissime risposte a domande relativamente fondamentali”, afferma il ricercatore. Dal punto di vista della sicurezza, questo potrebbe essere davvero spaventoso. Al momento, però, potrebbe non esserlo, “perché, per ora, nessuno è stato realmente in grado di dimostrare che si tratti di qualcosa di cui dovremmo preoccuparci”.