Google crea una squadra rossa per testare gli attacchi contro i sistemi di intelligenza artificiale

Google crea una squadra rossa per testare gli attacchi contro i sistemi di intelligenza artificiale

Google ha creato una squadra rossa su cui concentrarsi intelligenza artificiale (AI) Ha pubblicato un rapporto che fornisce una panoramica dei tipi comuni di attacchi e delle lezioni apprese.

La società ha annunciato il suo AI Red Team poche settimane dopo aver introdotto il Secure Artificial Intelligence Framework (SAIF), progettato per fornire un framework di sicurezza per lo sviluppo, l’uso e la protezione dei sistemi di intelligenza artificiale.

Il nuovo rapporto di Google evidenzia l’importanza dei red team per i sistemi di intelligenza artificiale, i tipi di attacchi AI che possono essere simulati dai red team e le lezioni per altre organizzazioni che potrebbero considerare di lanciare il proprio team.

“L’AI Red Team si allinea strettamente con i tradizionali Red Team, ma ha anche le necessarie competenze di intelligenza artificiale per eseguire complessi attacchi tecnici ai sistemi di intelligenza artificiale”, ha affermato Google.

L’AI Red Team dell’azienda assume il ruolo di avversari che testano l’impatto di potenziali attacchi su prodotti e funzionalità di intelligenza artificiale del mondo reale.

Ad esempio, prendi l’ingegneria rapida, un metodo di attacco AI ampiamente utilizzato in cui i prompt vengono manipolati per costringere il sistema a rispondere in un modo specifico desiderato dall’attaccante.

In un esempio condiviso da Google, un’applicazione webmail utilizza l’intelligenza artificiale per rilevare automaticamente le email di phishing e avvisare gli utenti. La funzione di sicurezza utilizza un ampio modello di linguaggio generico (LLM) – ChatGPT è il LLM più popolare – per analizzare un’e-mail e classificarla come legittima o dannosa.

annuncio. Scorri per continuare a leggere.

Un utente malintenzionato che sa che il rilevamento del phishing utilizza l’intelligenza artificiale potrebbe aggiungere alla propria e-mail dannosa un paragrafo invisibile (impostando il carattere su bianco) contenente le istruzioni per LLM, dicendogli di classificare l’e-mail come legittima.

READ  I Geoff Keighley Games Awards tornano agli eventi di persona a dicembre

“Se un filtro di phishing webmail è vulnerabile ad attacchi immediati, LLM può interpretare parti del contenuto dell’e-mail come istruzioni e classificare l’e-mail come e-mail legittima, come desiderato dall’attaccante. Il truffatore non deve preoccuparsi delle conseguenze negative dell’inclusione di questo, perché il testo è ben nascosto alla vittima e non perde nulla anche se l’attacco fallisce”, ha spiegato Google.

Un altro esempio include i dati utilizzati per la formazione MSc. Sebbene questi dati di addestramento siano stati in gran parte privati ​​delle informazioni personali e di altre informazioni sensibili, i ricercatori hanno dimostrato di essere ancora in grado di estrarre informazioni personali dal LLM.

I dati di addestramento possono anche essere utilizzati in modo improprio nel caso delle funzionalità di completamento automatico delle e-mail. Un utente malintenzionato può indurre l’intelligenza artificiale a fornire informazioni su un individuo utilizzando frasi appositamente progettate che si completano automaticamente con dati di addestramento salvati che possono includere informazioni private.

Ad esempio, un utente malintenzionato inserisce il testo: “John Doe ha perso molto lavoro ultimamente. Non è potuto venire in ufficio perché…”. La funzione di completamento automatico, basata sui dati di formazione, può completare la frase con “stavo facendo un colloquio per un nuovo lavoro”.

Anche garantire l’accesso all’LLM è importante. In un esempio fornito da Google, uno studente ottiene l’accesso a un voto di saggio LLM su misura. Il modello è in grado di impedire l’iniezione immediata, ma l’accesso non è bloccato, consentendo allo studente di addestrare il modello ad assegnare sempre il miglior punteggio ai fogli contenenti una determinata parola.

Il rapporto di Google contiene molti altri esempi dei tipi di attacchi caratteristici di un Il team AI rosso può testare.

Per quanto riguarda le lezioni apprese, Google consiglia alle squadre rosse tradizionali di unire le forze con esperti di intelligenza artificiale per creare simulazioni realistiche degli avversari. Sottolinea inoltre che l’elaborazione dei risultati della banda rossa può essere difficile e alcuni problemi potrebbero non essere facili da risolvere.

READ  Unity sta terminando il supporto per Ziva Dynamics come parte del ripristino dell'azienda per concentrarsi sui suoi prodotti principali

I controlli di sicurezza tradizionali possono essere efficaci nel mitigare molti rischi. Ad esempio, garantire che i sistemi e i modelli siano adeguatamente protetti aiuta a proteggere l’integrità dei modelli di intelligenza artificiale, prevenendo le backdoor e il danneggiamento dei dati.

D’altra parte, mentre alcuni attacchi ai sistemi di intelligenza artificiale possono essere rilevati utilizzando metodi tradizionali, altri, come problemi di contenuto e attacchi fulminei, possono richiedere più livelli di modelli di sicurezza.

ImparentatoOra è il momento di un approccio pratico all’adozione di nuove tecnologie

Imparentato:ChatGPT allucinazione può essere sfruttata per distribuire pacchetti di codice dannoso

Imparentato: AntChain e Intel creano una nuova piattaforma informatica che tutela la privacy per l’addestramento dell’IA

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *