Sistemi di IA sotto attacco: riconoscere e contrastare l’Adversarial Machine Learning
Cyber criminali e hacker possono deliberatamente compromettere o “avvelenare” i sistemi di intelligenza artificiale per creare malfunzionamenti, inserire bias e rubare dati e modelli. Il rapporto “AI Security & Governance” pubblicato da Immuta (Fonte, link esterno) evidenzia che l’80% dei data expert concorda sul fatto che l’IA sta aumentando le sfide legate alla sicurezza dei dati. In particolare, il 55% afferma che la loro principale preoccupazione è la possibilità che informazioni sensibili possano essere esposte involontariamente dai modelli linguistici di grandi dimensioni, mentre il 52% è preoccupato che informazioni sensibili possano essere esposte agli LLM attraverso i prompt degli utenti.
Gli adversarial attacks, in particolare, sfruttano le vulnerabilità nei modelli, inserendo ad esempio dati manipolati che portano a previsioni errate, compromettendo l’accuratezza del sistema. Questi attacchi possono verificarsi durante la fase di addestramento o di inferenza, con conseguenze potenzialmente molto gravi in ambiti critici come la guida autonoma, la finanza e la sanità.
> Leggi anche: “Intelligenza Artificiale e Cyber Security: tre campi di applicazione”
La classificazione del NIST
Il National Institute of Standards and Technology (NIST) ha classificato gli attacchi contro i sistemi di intelligenza artificiale in quattro categorie principali:
- Attacchi di evasione: si verificano una volta che il sistema di AI è operativo e tentano di alterare gli input per influenzare le risposte del sistema. Ad esempio, un attore malevolo potrebbe aggiungere dei segni grafici ai cartelli stradali di stop, per indurre un veicolo autonomo a interpretarli erroneamente come segnali di limite di velocità, oppure potrebbe creare delle segnalazioni stradali confuse per far deviare il veicolo dalla strada.
- Attacchi di poisoning: si verificano durante la fase di addestramento introducendo dati corrotti. Un esempio tipico è l’inserimento di contenuti inappropriati nelle registrazioni di conversazioni, per indurre un chatbot a utilizzare questo linguaggio scorretto nelle sue interazioni con gli utenti.
- Attacchi alla privacy: mirano a sottrarre informazioni sensibili relative al modello o ai dati su cui è stato addestrato, per farne un uso improprio. Ad esempio, un utente malintenzionato può porre a un chatbot numerose domande legittime e quindi utilizzare le risposte per decodificare il modello in modo da trovarne i punti deboli, oppure indovinarne le fonti.
- Attacchi di abuso: si basano sull’inserimento di informazioni errate in fonti apparentemente legittime, come pagine web o documenti online, che l’IA utilizza per l’apprendimento. A differenza degli attacchi di poisoning, qui si cerca di indurre l’IA a imparare da fonti compromesse, alterando l’uso previsto del sistema.
> Scopri il corso: Artificial Intelligence Governance e Cyber Security
Altre classificazioni di Adversarial Attack
Gli attacchi di adversarial machine learning (ML) possono essere classificati in base a diversi fattori, come l’obiettivo dell’attaccante, le sue capacità e la conoscenza del sistema ML preso di mira. Ecco alcune delle classificazioni più comuni:
Obiettivo dell’attacco:
- Violazione della disponibilità: l’obiettivo è rendere il sistema ML non disponibile o inutilizzabile per gli utenti legittimi. Ad esempio, un attacco di poisoning può introdurre così tanto rumore nei dati di addestramento da impedire al modello di apprendere informazioni utili.
- Violazione dell’integrità: l’obiettivo è indurre il sistema ML a produrre output errati o fuorvianti, ad esempio introducendo dati dannosi nel set di addestramento (poisoning) o manipolando i dati di input durante la fase di inferenza (attacco di evasione).
- Iniezione di pregiudizi: L’introduzione deliberata di bias nei modelli o nei dati utilizzati per addestrarli può portare a decisioni distorte o ingiuste, con conseguenze gravi in ambiti come la giustizia, i servizi finanziari e il reclutamento.
- Compromissione della privacy: come da classificazione del NIST
- Furto di modelli: accesso ed estrazione non autorizzati di modelli di IA, spesso con l’intento di replicare o decodificare tecnologie proprietarie. Ciò comporta rischi finanziari e di sicurezza, soprattutto se il modello viene utilizzato per identificare vulnerabilità per ulteriori attacchi. Un esempio è l’incidente di Clearview AI nell’aprile 2020, in cui una violazione della sicurezza ha consentito l’accesso non autorizzato al repository di codice privato, alle credenziali di produzione, ai campioni video e ad altre informazioni sensibili.
Capacità dell’attaccante:
- White-box: l’attaccante ha una conoscenza completa del sistema ML, inclusi i dati di addestramento, l’algoritmo ML e i parametri del modello. Questo tipo di attacco è il più potente, ma anche il meno realistico, poiché è raro che un utente malintenzionato abbia accesso illimitato a un sistema ML.
- Black-box: l’attaccante ha una conoscenza limitata o nulla del sistema ML. Gli attacchi black-box in genere si basano sull’invio di query al modello e sull’osservazione delle risposte per apprendere il suo comportamento. Sono considerati più realistici, poiché gli attaccanti solitamente hanno accesso solo all’interfaccia del sistema ML.
- Gray-box: l’attaccante ha una conoscenza solo parziale del sistema ML. Ad esempio, potrebbe conoscere l’architettura del modello, ma non i suoi parametri.
Tecniche di mitigazione per attacchi di Adversarial Machine Learning
Le minacce sono quindi presenti, relativamente facili da realizzare e richiedono una conoscenza minima del sistema di IA. Esistono tuttavia diverse tecniche di prevenzione e mitigazione che possono rafforzare la protezione di dati e modelli. Queste tecniche possono essere suddivise in due approcci principali: modifica dei dati e modifica del modello.
Modifica dei dati:
- Adversarial Training: Questa tecnica prevede l’inclusione di esempi avversari, creati appositamente per ingannare il modello, nel set di addestramento. L’obiettivo è rendere il modello più robusto e in grado di riconoscere e classificare correttamente gli input manipolati. L’efficacia dipende dalla qualità degli attacchi utilizzati per generare questi esempi, ma può risultare dispendiosa in termini di risorse computazionali, soprattutto su grandi set di dati.
- Data Augmentation: Simile all’adversarial training, questa tecnica introduce variazioni casuali nei dati di addestramento, aumentando la capacità del modello di generalizzare e riducendo la sua vulnerabilità a perturbazioni degli input.
- Data Compression: Comprimere i dati può contribuire a rendere il modello più robusto contro alcuni tipi di attacchi, rimuovendo le perturbazioni avversarie. Una compressione eccessiva può tuttavia portare a una diminuzione dell’accuratezza del modello, soprattutto in ambiti come la classificazione delle immagini.
Modifica del modello:
- Regularization: L’aggiunta di termini di regolarizzazione al modello può migliorare la sua capacità di generalizzare, rendendolo più resistente agli attacchi adversarial. Questa tecnica ha mostrato risultati promettenti negli algoritmi di apprendimento con supervisione.
- Defensive Distillation: Utilizza un modello più grande e complesso (modello “insegnante”) per addestrare un modello più piccolo e semplice (modello “studente”). Questo approccio rende il modello “studente” più flessibile e meno sensibile agli attacchi avversari, ma non garantisce una protezione totale contro gli attacchi black-box.
- Feature Squeezing: Ridurre la complessità della rappresentazione dei dati, ad esempio riducendo la profondità di colore a livello di pixel o utilizzando filtri leviganti, può aiutare a ridurre l’interferenza avversaria. Questa tecnica può tuttavia ridurre l’accuratezza del modello.
- Deep Contractive Network (DCN): L’uso di autoencoder per ridurre il rumore può aiutare a filtrare le perturbazioni avversarie, migliorando la robustezza complessiva del modello.
- Masking Layer: Inserire un livello di maschera prima della rete di classificazione permette di codificare le differenze tra le immagini originali e le caratteristiche estratte, migliorando così la capacità del modello di resistere agli attacchi.
La mitigazione degli attacchi di Adversarial Machine Learning è, in ogni caso, un processo continuo: con l’evoluzione delle tecniche di mitigazione sarà accompagnato sempre da un’evoluzione delle tecniche di attacco. Queste tecniche, da sole, non bastano. In altre parole: la creazione di sistemi di intelligenza artificiale affidabili richiede un approccio olistico, che consideri non solo la sicurezza informatica, ma anche le implicazioni etiche e di responsabilità.
L’adozione di linee guida affidabili, come quelle della Commissione Europea, insieme a valutazioni d’impatto etico, aiutano ad assicurarsi che l’IA venga utilizzata in modo trasparente e responsabile, coinvolgendo tutte le parti interessate per promuovere fiducia e allineamento con i valori sociali.
> Leggi anche: “Intelligenza Artificiale: il Parlamento Europeo approva la legge”
Fonti:
AI Cyber Security: Securing AI Systems Against Cyber Threats. (2024). Exabeam. https://www.exabeam.com/explainers/ai-cyber-security/ai-cyber-security-securing-ai-systems-against-cyber-threats/
Cyber security risks to artificial intelligence. (2024). GOV.UK. https://www.gov.uk/government/publications/research-on-the-cyber-security-of-ai/cyber-security-risks-to-artificial-intelligence
Qiu, S., Liu, Q., Zhou, S., & Wu, C. (2019). Review of artificial intelligence adversarial attack and defense technologies. Applied Sciences, 9(5), 909.
Vassilev A, Oprea A, Fordyce A, Anderson H (2024) Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations. (National Institute of Standards and Technology, Gaithersburg, MD) NIST Artifcial Intelligence (AI) Report, NIST Trustworthy and Responsible AI NIST AI 100-2e2023. https://doi.org/10.6028/NIST.AI.100-2e2023
Zhou, S., Liu, C., Ye, D., Zhu, T., Zhou, W., & Yu, P. S. (2022). Adversarial attacks and defenses in deep learning: From a perspective of cybersecurity. ACM Computing Surveys, 55(8), 1-39.