AI Auditing
Verifica che i tuoi sistemi AI siano accurati, equi e conformi, prima che lo faccia qualcun altro.
Il problema in breve
I sistemi AI prendono decisioni che impattano persone e business: chi ottiene un prestito, quale candidato viene selezionato, quale prezzo viene proposto. Quando queste decisioni sono sbagliate, ingiuste o inspiegabili, le conseguenze vanno dalla perdita di fatturato alle cause legali. Con l’EU AI Act in vigore, l’audit indipendente dei sistemi AI non è più un nice-to-have: per alcune categorie è un obbligo normativo. L’AI Auditing fornisce una valutazione strutturata di accuratezza, equità, explainability e compliance dei sistemi AI in produzione.
La sfida
Valutare un sistema AI è fondamentalmente diverso dal valutare un software tradizionale. Il software tradizionale è deterministico: dato un input produce sempre lo stesso output, e i bug possono essere riprodotti. I modelli di machine learning sono probabilistici: le loro performance variano con la distribuzione dei dati, degradano nel tempo (model drift), e possono amplificare bias presenti nei dati di training in modi non ovvi.
L’explainability è un requisito crescente. Non basta che un modello sia accurato: deve essere possibile spiegare perché ha preso una determinata decisione. Tecniche come SHAP (SHapley Additive exPlanations) e LIME (Local Interpretable Model-agnostic Explanations) permettono di attribuire un peso a ogni feature nella decisione del modello, ma l’interpretazione di questi risultati richiede competenza specifica.
L’EU AI Act introduce una classificazione di rischio per i sistemi AI: inaccettabile, alto, limitato, minimo. I sistemi ad alto rischio, che includono HR tech, credit scoring, medical devices, insurance pricing, richiedono documentazione tecnica, gestione del rischio, data governance, e in alcuni casi audit esterni. Non conformarsi espone a sanzioni fino al 7% del fatturato globale. Valutare la classificazione di rischio e i gap di compliance è una componente essenziale dell’audit.
La soluzione
Performance e Robustezza
L’audit si struttura su quattro dimensioni. La prima è la performance e robustezza: si valuta l’accuratezza del modello su diversi segmenti di popolazione e condizioni operative, si testa la robustezza a input avversariali e casi edge, e si misura il drift rispetto alle performance iniziali.
Fairness e Bias
La seconda dimensione è fairness e bias. Si analizzano le metriche di equità, demographic parity, equalized odds, predictive parity, su gruppi protetti (genere, età, etnia, nazionalità). Non esiste una definizione unica di fairness e diverse metriche possono essere in conflitto: l’audit documenta i trade-off e li rende espliciti per chi prende decisioni.
Explainability
La terza dimensione è explainability. Si applicano tecniche di interpretazione globale (feature importance, partial dependence plots) e locale (SHAP, LIME) per comprendere il comportamento del modello. Si valuta se le spiegazioni sono coerenti con la logica di dominio e se sono comunicabili agli utenti finali del sistema.
Compliance Normativa
La quarta dimensione è la compliance normativa. Si classifica il sistema secondo l’EU AI Act, si identificano i requisiti applicabili, e si esegue una gap analysis rispetto alla documentazione tecnica, ai processi di gestione del rischio e alla data governance in essere. Il deliverable è un audit report completo con finding, severità, e piano di remediation per ogni gap identificato.
Tecnologie chiave
Feature Engineering
Analisi delle feature e del loro impatto sulle decisioni del modello.
ApprofondisciRisultati e benefici
Identificazione di bias significativi nel 45% dei sistemi AI sottoposti ad audit per la prima volta
Riduzione del model drift del 60% con l’implementazione di monitoring e alert post-audit
Classificazione EU AI Act completata con gap analysis operativa per la compliance
Explainability report che rende le decisioni del modello comunicabili a utenti non tecnici
Riduzione del 30% dei falsi positivi attraverso l’ottimizzazione delle soglie post-audit
Documentazione tecnica conforme ai requisiti dell’EU AI Act per sistemi ad alto rischio
Risk register specifico per AI con probabilità, impatto e mitigazioni per ogni rischio identificato
Use case
Piattaforma di lending, bias nel credit scoring
Una piattaforma di lending online con 5M di prestiti erogati all’anno utilizzava un modello ML per il credit scoring. L’audit ha rivelato che il modello aveva un tasso di rifiuto del 35% superiore per candidati con nazionalità extra-UE a parità di reddito e storico creditizio, causato da una feature proxy (CAP di residenza) altamente correlata con la nazionalità. L’analisi SHAP ha reso il meccanismo trasparente. Dopo la rimozione della feature e il retraining, il tasso di approvazione è diventato equo tra gruppi demografici senza degradazione dell’accuratezza predittiva complessiva (AUC invariato a 0.82).
HR-tech, screening automatico dei CV
Una piattaforma HR-tech con 200 aziende clienti utilizzava un modello NLP per lo screening automatico dei CV. L’audit ha identificato due problemi: il modello sovrapenalizzava gap temporali nel CV (impattando sistematicamente candidati con periodi di maternità/paternità) e privilegiava candidati con esperienza in aziende note (bias di prestigio). L’EU AI Act classifica questi sistemi come “alto rischio”: l’audit ha prodotto la documentazione tecnica richiesta, identificato 8 gap di compliance, e fornito una roadmap di adeguamento a 4 mesi. Il modello è stato retrainato con metriche di equalized odds come vincolo di ottimizzazione.
Assicurazioni, pricing dinamico auto
Una compagnia assicurativa con 15M di fatturato utilizzava un modello ML per il dynamic pricing delle polizze auto. L’audit ha analizzato fairness, explainability e drift. Sul fronte fairness, il modello produceva premi sistematicamente più alti (+18%) per residenti di alcune aree urbane periferiche, senza giustificazione attuariale sufficiente. Sul fronte drift, le performance erano degradate del 12% negli ultimi 8 mesi a causa di cambiamenti nei pattern di sinistri post-pandemia. L’audit ha portato a un retraining con dati aggiornati, l’implementazione di drift monitoring automatico, e la documentazione per l’IVASS.
Hai sistemi AI in produzione mai verificati?
Hai sistemi AI in produzione che non sono mai stati sottoposti a verifica indipendente? Contattaci per un assessment preliminare: valuteremo la classificazione EU AI Act e i potenziali rischi in una call dedicata.