Uno studio rivela le possibili soluzioni per separare proposta, autorizzazione e verifica.
a cura di Raffaella Aghemo
Devo ammettere di aver appreso molto, nell'ultimo periodo, sulla governance dei sistemi di intelligenza artificiale, sempre più autonomi ed indipendenti da una rigida supervisione umana, ma di essere stata anche "aiutata" dalla lettura di un bel lavoro indipendente, a firma di Jason Davis "From Proposal to Proof: Governing Action in Agentic AI Systems", lavoro che orienta il focus su un punto estremamente rilevante: non cosa l'AI pensa, ma cosa può fare.
Sebbene lo studio si riveli estremamente tecnico, cercherò di spiegarlo per come l'ho capito io, ossia cogliendone le potenzialità, sia a livello tecnologico, ma soprattutto a livello legale di responsabilità, in un contesto sempre più orientato ad automazioni indipendenti da stretta sorveglianza umana, e in assenza, ancora, di esaustive regole normative sul dilemma relativo a chi ascrivere la responsabilità, in caso di danni e malfunzionamenti.
Quando un sistema intelligente non si limita a generare testo ma può attivare API, acquistare articoli su piattaforme per nostro conto, il ragionamento, il processo decisionale e l'esecuzione finiscono nello stesso circuito. In quel momento, il rischio non è più cognitivo: è operativo. E l'architettura attuale, secondo l'autore, è strutturalmente fragile perché l'azione diventa un effetto collaterale del ragionamento.
L'autore dice: «L'architettura proposta in questo paper non tenta di prevedere il comportamento dei futuri sistemi AGI o ASI. Piuttosto, stabilisce un invariante strutturale: l'intelligenza da sola non è mai sufficiente a causare un'azione Separando proposta, autorizzazione e verifica in livelli distinti, il sistema trasforma le preoccupazioni esistenziali di "fuga" in concreti problemi di governance, problemi che possono essere verificati, regolamentati e corretti utilizzando gli strumenti di sicurezza e istituzionali esistenti… Applicata alla robotica e all'intelligenza artificiale incarnata, la separazione tra intelligenza, autorità e verifica garantisce che l'azione fisica rimanga un privilegio regolato, piuttosto che una proprietà emergente di capacità.»
Questo documento propone un'evoluzione in tre stadi, che non interviene sull'intelligenza del modello, ma, appunto, sulla separazione tra proposta, autorizzazione ed esecuzione.
Nel modello oggi più diffuso, l'agente ragiona, decide e agisce. L'autorizzazione è implicita, probabilistica. Se il modello è convinto (o viene indotto a esserlo tramite prompt injection), l'azione parte. I log registrano ciò che è successo, ma non dimostrano che fosse lecito farlo. In termini regolatori, questo è un problema: l'audit si basa sull'interpretazione ex post delle intenzioni del sistema.
Qui Davis introduce un concetto interessante: "risk surface" e conduce un'analisi di cosa fare per migliorare la sicurezza seguendo tre fasi: 1) solo ristrutturazione architettonica, 2) implementazione dell'UAS nell'architettura ristrutturata, 3) implementazione del protocollo Aletheia.
Fase 1: separare proposta ed esecuzione
Il primo passo, apparentemente banale, è, in realtà, potente: l'intelligenza non esegue, propone. L'esecuzione passa attraverso un gate distinto. Sembra una sottigliezza tecnica, ma non lo è. In questo schema, una manipolazione cognitiva non equivale automaticamente a un effetto sul mondo esterno. Il danno potenziale viene confinato prima di diventare irreversibile.
Dal punto di vista normativo, questa separazione è già un cambio di paradigma: la responsabilità può essere localizzata. Il problema non è più "cosa ha voluto fare il modello", ma "chi ha autorizzato l'azione".
Fase 2: Universal Authority Substrate (UAS)
Spiego prima esattamente cosa si intenda per UAS: immaginiamo un sistema di intelligenza artificiale che non si limiti a rispondere a domande, ma possa fare cose concrete: autorizzare un pagamento, modificare un contratto, inviare un ordine a un macchinario. Il punto critico è questo: chi decide che quell'azione è permessa?
Oggi, spesso, la decisione è implicita. Se il sistema "pensa" che l'azione sia corretta e non trova ostacoli nel codice, la esegue. L'autorizzazione è inglobata nel suo stesso ragionamento.
Questo Universal Authority Substrate è, in parole semplici, uno strato separato che fa solo una cosa: non ragiona, non pianifica, semplicemente controlla. Possiamo immaginarlo come un notaio automatico o un tornello di sicurezza tra il "pensare" e il "fare".
Allora, il processo diventa:
1. L'AI propone un'azione ("voglio fare questo").
2. L'UAS verifica che quell'azione sia consentita, secondo regole chiare e predefinite.
3. Se la risposta è sì, l'azione passa.
4. Se la risposta è no, l'azione non viene eseguita.
L'UAS introduce un livello di autorizzazione deterministico e indipendente dall'IA. La decisione diviene pertanto binaria: PASS o FAIL, o è autorizzata o non lo è. L'intelligenza può proporre qualsiasi cosa, ma non può agire senza un permesso esplicito.
Ogni decisione genera un oggetto, denominato Universal Binary Object (UBO), che registra proposta, contesto e decisione in forma riproducibile. Non spiega né interpreta il ragionamento del modello, certifica solo se l'azione era consentita, divenendo al pari di una "ricevuta ufficiale e standardizzata" dell'autorizzazione!
In caso di dubbi e verifiche, magari anche mesi dopo l'operazione, se nei sistemi tradizionali si consulterebbero i log, interni al sistema, spesso complessi e talvolta modificabili, con l'UBO, si va a vedere
· qual era l'azione proposta,
· in quale contesto è stata valutata,
· qual è stata la decisione (autorizzata o negata), secondo date regole.
Tutto questo, oggi, è ancor più rilevante, in quanto, quando un sistema AI inizia a incidere sul mondo reale, il problema non è più tecnologico ma istituzionale.
In ambiti delicati, come quello bancario o quello sanitario, come potremmo dimostrare che una azione era consentita? Come potremmo distinguere un errore del sistema da una violazione delle regole? E, soprattutto, a chi dovremmo attribuire la responsabilità in modo chiaro?
L'UAS serve a impedire che l'AI possa agire senza permesso. Oggi, se un dipendente propone una spesa, l'ufficio amministrativo controlla se rientra nel budget e nelle policy, e se approvata, viene emessa una ricevuta firmata, a valle della quale si effettua il pagamento. Da anni usiamo questo meccanismo nel mondo umano, beh, per l'autore di questo lavoro, qualcosa di analogo dovrebbe esistere anche per le AI agentiche.
UAS + UBO non rendono l'AI più intelligente, neppure automaticamente più etica, solamente governabile. Ed è una differenza sostanziale, soprattutto quando l'AI non si limita più a parlare, ma inizia a fare.
Compliance e liability
Questo passaggio ha implicazioni profonde per compliance e liability. L'audit non ricostruisce più una narrazione ("cosa intendeva fare il sistema?"), ma verifica un fatto, se l'azione abbia superato o meno un controllo deterministico. La governance smette di essere un esercizio ermeneutico e diventa un meccanismo.
Per chi si occupa di regolazione dell'AI, questo rappresenta una svolta: si può normare l'autorità di esecuzione senza entrare nel merito della cognizione interna del modello. È un approccio tecnologicamente neutrale.
Fase 3: ALETHEIA
All'ultimo livello, non cambia il comportamento del sistema, ma la qualità della prova. ALETHEIA è un layer open source, di verifica crittografica, che rende gli UBO indipendentemente verificabili, replayable (cioè questa prova può essere presentata, verificata e accettata più volte in contesti diversi o in momenti successivi, senza dover rigenerare l'autorizzazione ogni volta: una volta ottenuta, la prova "viaggia" con l'utente o con l'oggetto autorizzato), non alterabili. ALETHEIA verifica in modo deterministico che la decisione di autorizzazione sia valida, non manomessa e riproducibile, senza fidarsi del sistema che l'ha generata.
Riduce l'ambiguità residua, rendendo la verità indipendente. In un contesto di contenzioso, o assicurativo, la differenza è enorme: non serve fidarsi dell'operatore che ha gestito il sistema. La decisione può essere verificata meccanicamente. In altre parole, l'architettura non promette AI "sicura" in senso assoluto. Promette qualcosa di più pragmatico: rischio di esecuzione delimitato e responsabilità tracciabile.
ALETHEIA non è un sistema di controllo ulteriore, né un filtro di sicurezza aggiuntivo. È un layer di verifica pura, che opera esclusivamente sugli oggetti prodotti dall'UAS, gli UBO. E lo fa, non osservando il modello, o valutando policy, ma limitandosi a verificare.
Questa distinzione è cruciale. Nella maggior parte dei sistemi AI, oggi in produzione, l'evidenza di ciò che è accaduto è contenuta in log applicativi, audit trail interni, elementi che richiedono fiducia nell'operatore o nell'infrastruttura, ossia parti dello stesso dominio che si sta cercando di verificare.
ALETHEIA introduce una rottura concettuale: l'evidenza dell'autorizzazione viene resa crittograficamente replayable e indipendente dal sistema che l'ha generata, prendendo un UBO, fuori dal contesto operativo originario, e dimostrando matematicamente che la proposta era quella, il contesto pure, e la decisione (PASS/FAIL) è stata prodotta seguendo regole deterministiche, senza alterazioni di sorta.
È un passaggio dalla fiducia istituzionale alla verificabilità meccanica.
Se, fino ad oggi, quando un sistema agentico causava un danno, in quanto modello probabilistico, con ambiguità strutturale, il processo forense diveniva interpretativo, analizzando prompt, catene di reasoning, configurazioni e policy, in quanto il legame tra intenzione e azione non formalmente dimostrabile, con questa fase, la disputa si sposta da un piano epistemico (comprendere la mente del sistema) a uno formale (verificare la correttezza dell'autorizzazione).
È, in sostanza, una infrastruttura di evidenza.
Interoperabilità e standardizzazione
Un altro aspetto importante da segnalare è l'interoperabilità, in quanto, quello che si potrebbe realizzare, è un ecosistema, nel quale, per esempio, un'autorità di vigilanza può verificare decisioni, senza accedere al codice proprietario del modello, soprattutto in un contesto come quello europeo, dove l'AI Act spinge verso auditabilità e accountability, e dove la trasparenza diviene nevralgica.
Il suo valore non è nella prevenzione primaria, ma nella riduzione dell'ambiguità sistemica. Trasforma il problema "possiamo fidarci?" in "possiamo verificare".
Questa fase ci consente di non limitare l'intelligenza artificiale, ma di rendere le sue azioni dimostrabili, e consentendone l'integrazione a livello istituzionale.
Ed è qui che il paper di Davis smette di essere solo una proposta architetturale e diventa una riflessione sul futuro della responsabilità nell'era dell'automazione intelligente, con implicazioni aggiuntive.
In primis, la regolazione potrebbe spostarsi dall'"AI explainability" all'"execution accountability", ossia non chiedere più ai modelli di spiegarsi meglio, ma pretendere che nessuna azione irreversibile possa avvenire senza autorizzazione deterministica e prova verificabile.
Su questi presupposti, l'innovazione potrebbe accelerare, non rallentare. Separare intelligenza e autorità consente ai modelli di essere più esplorativi sul piano cognitivo, senza aumentare il rischio operativo.
Naturalmente, restano rischi: configurazioni errate, override umani. Ma questi rientrano nella sicurezza classica, non nell'imprevedibilità cognitiva.
Il messaggio finale di questo paper è semplice e, a suo modo, radicale: non serve rendere l'AI perfettamente comprensibile per governarla. Serve impedire che possa agire senza essere stata esplicitamente autorizzata, e poterlo dimostrare: «Il mio lavoro non ha l'ambizione di rendere l'IA "sicura". Fa qualcosa di più difendibile e di più prezioso: limita il rischio di esecuzione indipendentemente dall'intelligence E converte la governance dall'interpretazione alla prova.»
Se l'AI è destinata a operare in maniera sempre più pervasiva, la vera innovazione non sarà il prossimo modello più potente, ma l'architettura che deciderà quando quel modello sarà legittimato a toccare il mondo reale.
Riproduzione Riservata
Avv. Raffaella Aghemo