Deltahedge

I sistemi AI prendono decisioni che impattano persone e business: chi ottiene un prestito, quale candidato viene selezionato, quale prezzo viene proposto. Quando queste decisioni sono sbagliate, ingiuste o inspiegabili, le conseguenze vanno dalla perdita di fatturato alle cause legali. Con l’EU AI Act in vigore, l’audit indipendente dei sistemi AI non è più un nice-to-have: per alcune categorie è un obbligo normativo. L’AI Auditing fornisce una valutazione strutturata di accuratezza, equità, explainability e compliance dei sistemi AI in produzione.

Valutare un sistema AI è fondamentalmente diverso dal valutare un software tradizionale. Il software tradizionale è deterministico: dato un input produce sempre lo stesso output, e i bug possono essere riprodotti. I modelli di machine learning sono probabilistici: le loro performance variano con la distribuzione dei dati, degradano nel tempo (model drift), e possono amplificare bias presenti nei dati di training in modi non ovvi.

L’explainability è un requisito crescente. Non basta che un modello sia accurato: deve essere possibile spiegare perché ha preso una determinata decisione. Tecniche come SHAP (SHapley Additive exPlanations) e LIME (Local Interpretable Model-agnostic Explanations) permettono di attribuire un peso a ogni feature nella decisione del modello, ma l’interpretazione di questi risultati richiede competenza specifica.

L’EU AI Act introduce una classificazione di rischio per i sistemi AI: inaccettabile, alto, limitato, minimo. I sistemi ad alto rischio, che includono HR tech, credit scoring, medical devices, insurance pricing, richiedono documentazione tecnica, gestione del rischio, data governance, e in alcuni casi audit esterni. Non conformarsi espone a sanzioni fino al 7% del fatturato globale. Valutare la classificazione di rischio e i gap di compliance è una componente essenziale dell’audit.

Fase 01

Performance e Robustezza

L’audit si struttura su quattro dimensioni. La prima è la performance e robustezza: si valuta l’accuratezza del modello su diversi segmenti di popolazione e condizioni operative, si testa la robustezza a input avversariali e casi edge, e si misura il drift rispetto alle performance iniziali.

Fase 02

Fairness e Bias

La seconda dimensione è fairness e bias. Si analizzano le metriche di equità, demographic parity, equalized odds, predictive parity, su gruppi protetti (genere, età, etnia, nazionalità). Non esiste una definizione unica di fairness e diverse metriche possono essere in conflitto: l’audit documenta i trade-off e li rende espliciti per chi prende decisioni.

Fase 03

Explainability

La terza dimensione è explainability. Si applicano tecniche di interpretazione globale (feature importance, partial dependence plots) e locale (SHAP, LIME) per comprendere il comportamento del modello. Si valuta se le spiegazioni sono coerenti con la logica di dominio e se sono comunicabili agli utenti finali del sistema.

Fase 04

Compliance Normativa

La quarta dimensione è la compliance normativa. Si classifica il sistema secondo l’EU AI Act, si identificano i requisiti applicabili, e si esegue una gap analysis rispetto alla documentazione tecnica, ai processi di gestione del rischio e alla data governance in essere. Il deliverable è un audit report completo con finding, severità, e piano di remediation per ogni gap identificato.

Supervised ML

Valutazione delle performance e dei limiti dei modelli supervisionati.

Approfondisci

Feature Engineering

Analisi delle feature e del loro impatto sulle decisioni del modello.

Approfondisci

Data Quality Frameworks

Verifica della qualità dei dati di training e inference.

Approfondisci

MLOps

Valutazione delle pipeline di monitoraggio e retraining.

Approfondisci

Data Lineage

Tracciabilità dei dati dalla sorgente alla decisione del modello.

Approfondisci

Identificazione di bias significativi nel 45% dei sistemi AI sottoposti ad audit per la prima volta

Riduzione del model drift del 60% con l’implementazione di monitoring e alert post-audit

Classificazione EU AI Act completata con gap analysis operativa per la compliance

Explainability report che rende le decisioni del modello comunicabili a utenti non tecnici

Riduzione del 30% dei falsi positivi attraverso l’ottimizzazione delle soglie post-audit

Documentazione tecnica conforme ai requisiti dell’EU AI Act per sistemi ad alto rischio

Risk register specifico per AI con probabilità, impatto e mitigazioni per ogni rischio identificato

Una piattaforma di lending online con 5M di prestiti erogati all’anno utilizzava un modello ML per il credit scoring. L’audit ha rivelato che il modello aveva un tasso di rifiuto del 35% superiore per candidati con nazionalità extra-UE a parità di reddito e storico creditizio, causato da una feature proxy (CAP di residenza) altamente correlata con la nazionalità. L’analisi SHAP ha reso il meccanismo trasparente. Dopo la rimozione della feature e il retraining, il tasso di approvazione è diventato equo tra gruppi demografici senza degradazione dell’accuratezza predittiva complessiva (AUC invariato a 0.82).

Bias nel credit scoring piattaforma di lending

Una piattaforma HR-tech con 200 aziende clienti utilizzava un modello NLP per lo screening automatico dei CV. L’audit ha identificato due problemi: il modello sovrapenalizzava gap temporali nel CV (impattando sistematicamente candidati con periodi di maternità/paternità) e privilegiava candidati con esperienza in aziende note (bias di prestigio). L’EU AI Act classifica questi sistemi come “alto rischio”: l’audit ha prodotto la documentazione tecnica richiesta, identificato 8 gap di compliance, e fornito una roadmap di adeguamento a 4 mesi. Il modello è stato retrainato con metriche di equalized odds come vincolo di ottimizzazione.

Una compagnia assicurativa con 15M di fatturato utilizzava un modello ML per il dynamic pricing delle polizze auto. L’audit ha analizzato fairness, explainability e drift. Sul fronte fairness, il modello produceva premi sistematicamente più alti (+18%) per residenti di alcune aree urbane periferiche, senza giustificazione attuariale sufficiente. Sul fronte drift, le performance erano degradate del 12% negli ultimi 8 mesi a causa di cambiamenti nei pattern di sinistri post-pandemia. L’audit ha portato a un retraining con dati aggiornati, l’implementazione di drift monitoring automatico, e la documentazione per l’IVASS.

Hai sistemi AI in produzione mai verificati?

Hai sistemi AI in produzione che non sono mai stati sottoposti a verifica indipendente? Contattaci per un assessment preliminare: valuteremo la classificazione EU AI Act e i potenziali rischi in una call dedicata.

Contattaci Prenota una call

AI Auditing

Il problema in breve

La sfida

La soluzione

Performance e Robustezza

Fairness e Bias

Explainability

Compliance Normativa

Tecnologie chiave

Supervised ML

Feature Engineering

Data Quality Frameworks

MLOps

Data Lineage

Risultati e benefici

Use case

Piattaforma di lending, bias nel credit scoring

HR-tech, screening automatico dei CV

Assicurazioni, pricing dinamico auto

Hai sistemi AI in produzione mai verificati?

Tweaks