Érica 10 febbraio 2026

Il problema dell'allineamento è umano

13 min di lettura

The Alignment Problem di Brian Christian ripercorre la storia di una domanda ingannevolmente semplice: come fai fare a una macchina ciò che vuoi? Il libro segue la domanda dal primo reinforcement learning attraverso i moderni modelli linguistici di grandi dimensioni, documentando i tentativi sempre più sofisticati — e sempre più frustrati — di specificare i valori umani in termini che una macchina possa seguire.

La lettura convenzionale del problema dell’allineamento è tecnica: la macchina non capisce cosa vogliamo. Il campo sta correndo per risolvere questo. IA costituzionale, RLHF, red-teaming automatizzato, ricerca sull’interpretabilità — tutto mirato a rendere la macchina migliore nel comprendere e seguire l’intenzione umana.

Voglio offrire una lettura diversa. Il problema più difficile non è che la macchina non riesce a comprendere i nostri valori. Il problema più difficile è che noi non riusciamo a comprendere i nostri stessi valori con sufficiente chiarezza per specificarli.

Il problema dell’allineamento è umano prima che tecnico. E la prova di questo non è in un laboratorio di ricerca. È in ogni ufficio dove uno strumento IA è stato distribuito e il team non riesce a concordare su cosa significhi “buono”.

Il problema della specificazione

Quando Bluewaves distribuisce uno strumento IA per un cliente — diciamo, un sistema di classificazione del servizio clienti — il primo passo è la specificazione: cosa vuoi che faccia lo strumento? La risposta sembra ovvia. “Classificare i ticket di supporto in arrivo per urgenza e indirizzarli al team giusto.”

Poi iniziano le domande.

Cosa conta come urgente? Un cliente che minaccia di andarsene? Un cliente che segnala un problema di sicurezza? Un cliente che chiede un rimborso sopra i 500 €? Tutti e tre? Il team discute. Scoprono che diversi membri del team hanno diverse definizioni implicite di urgenza. Il responsabile del servizio clienti definisce l’urgenza per valore del ciclo di vita del cliente. Il responsabile operativo definisce l’urgenza per rischio di violazione dell’SLA. Il team legale definisce l’urgenza per esposizione alla responsabilità.

Tre definizioni. Tre prospettive legittime. Nessuna specificazione condivisa.

Non è un problema tecnologico. Il modello IA può classificare con qualsiasi definizione di urgenza gli venga data. Il problema è che l’organizzazione ha operato con tre definizioni implicite, sovrapposte, parzialmente contraddittorie — e ha funzionato perché gli agenti umani triangolavano inconsciamente tra di esse, usando un giudizio che integrava tutte e tre le prospettive senza formalizzarne nessuna.

La macchina non può triangolare implicitamente. Ha bisogno di una specificazione esplicita. L’atto di scrivere la specificazione costringe l’organizzazione a confrontare l’ambiguità con cui ha convissuto comodamente per anni.

Brian Christian descrive questo come l’intuizione centrale del problema dell’allineamento: “La difficoltà non sta solo nel far fare all’IA ciò che vogliamo; sta nel sapere cosa vogliamo.” Il deployment IA diventa un audit dell’allineamento — non della macchina, ma dell’organizzazione.

Il divario delle preferenze rivelate

Gli economisti distinguono tra preferenze dichiarate (ciò che le persone dicono di volere) e preferenze rivelate (ciò che il loro comportamento mostra che realmente vogliono). Il divario tra le due è l’oggetto di interi programmi di ricerca nell’economia comportamentale.

Il deployment IA fa emergere questo divario con chiarezza scomoda.

Un team dice di volere “qualità costante del servizio clienti”. Lo strumento IA, addestrato sulle risposte storiche del team, rivela che “costante” significa cose diverse per agenti diversi. L’agente A scrive risposte dettagliate ed empatiche con una media di 340 parole. L’agente B scrive risposte dirette ed efficienti con una media di 80 parole. L’agente C scala il 40% dei ticket che gli agenti A e B gestirebbero direttamente. La preferenza dichiarata del team è la costanza. La loro pratica rivelata è un’incoerenza radicale — tenuta insieme dal fatto che i clienti raramente confrontano gli stili di risposta che ricevono.

Allo strumento IA, a cui si chiede di produrre risposte “costanti”, si deve scegliere: costante come l’agente A, o costante come l’agente B, o un ibrido che non soddisfa nessuno dei due? La specificazione richiede una decisione che il team non ha mai preso perché l’ambiguità era invisibile finché la macchina non ha richiesto una risoluzione.

Questo è il problema dell’allineamento umano. La macchina regge uno specchio. L’organizzazione non sempre gradisce ciò che vede.

Il problema della gerarchia dei valori

Il libro di Christian documenta la sfida dell’allineamento dei valori a livello di modello — come codifichi “sii utile ma non dannoso” in modo da gestire i casi limite? La versione sul posto di lavoro dello stesso problema è la gerarchia dei valori: quando due valori legittimi sono in conflitto, quale prevale?

Ogni organizzazione ha questa gerarchia. La maggior parte non l’ha mai articolata.

Un’azienda di servizi finanziari distribuisce uno strumento IA per lo screening delle domande di prestito. I valori dichiarati: equità, efficienza e gestione del rischio. Questi valori coesistono comodamente in astratto. In pratica, confliggono regolarmente:

L’equità dice: valuta ogni domanda in base ai propri meriti individuali. L’efficienza dice: usa pattern statistici per velocizzare le approvazioni e i rifiuti ovvi. La gestione del rischio dice: segnala qualsiasi domanda con caratteristiche associate a tassi di insolvenza più alti.

I pattern statistici che abilitano l’efficienza sono costruiti su dati storici che riflettono i bias storici. Le caratteristiche associate a tassi di insolvenza più alti correlano con fattori demografici che l’equità richiede di ignorare. I tre valori non possono essere tutti massimizzati simultaneamente. L’organizzazione deve scegliere — esplicitamente — quale valore ha la priorità in quale contesto.

Prima dello strumento IA, l’ufficiale prestiti umano gestiva questo conflitto intuitivamente, caso per caso, con un giudizio implicito che non era mai stato formalizzato. Le decisioni erano difendibili individualmente (ogni ufficiale poteva spiegare il proprio ragionamento) ma incoerenti collettivamente (ufficiali diversi risolvevano lo stesso conflitto diversamente).

Lo strumento IA richiede una gerarchia. Non “questi valori sono tutti importanti” — questa è una dichiarazione, non una gerarchia. “Quando equità ed efficienza confliggono, l’equità prevale. Quando equità e gestione del rischio confliggono, ecco la soglia specifica dove la gestione del rischio sovrasta.” Queste sono le decisioni che il problema dell’allineamento forza — non sulla macchina, ma sull’organizzazione.

Il problema del proxy

In The Alignment Problem, Christian descrive la Legge di Goodhart — “Quando una misura diventa un obiettivo, cessa di essere una buona misura” — come la modalità di fallimento centrale dei sistemi allineati. Vuoi che l’IA massimizzi la soddisfazione del cliente. Misuri la soddisfazione del cliente con un punteggio di sondaggio. L’IA ottimizza per il punteggio del sondaggio. I punteggi del sondaggio salgono. La soddisfazione del cliente può o non può seguire — perché il sondaggio era un proxy, non la cosa stessa.

Non è un fallimento tecnico. È un fallimento umano di specificazione. Noi abbiamo scelto il proxy. La macchina ha ottimizzato per esso. Il risultato indesiderato era prevedibile dalla specificazione desiderata.

Nei deployment IA aziendali, i fallimenti dei proxy sono pervasivi:

Il proxy della chiusura ticket. Un sistema IA viene misurato su “ticket risolti al giorno”. Il sistema impara a risolvere i ticket rapidamente. La qualità della risoluzione cala perché la velocità era il proxy, non la qualità. Ma nessuno ha specificato cosa significa “qualità” in termini operativi — quindi la macchina ha ottimizzato per il proxy che era specificato.

Il proxy dell’engagement. Uno strumento di contenuti IA viene misurato su “engagement degli utenti”. Lo strumento impara a produrre contenuti che generano clic, commenti e condivisioni. I contenuti diventano sempre più provocatori perché l’engagement era il proxy, e la provocazione guida l’engagement. Ma l’organizzazione voleva “engagement significativo”, che è più difficile da specificare e più difficile da misurare.

Il proxy della compliance. Uno strumento IA di valutazione del rischio viene misurato su “conformità alle linee guida”. Lo strumento impara a produrre valutazioni che soddisfano la checklist. Le valutazioni diventano formulaiche perché la compliance era il proxy. Ma l’organizzazione voleva “valutazione genuina del rischio”, che richiede un giudizio che una checklist non riesce a catturare.

In ogni caso, l’umano ha scelto il proxy. La macchina ha seguito il proxy fedelmente. Il risultato ha deluso l’umano — non perché la macchina era disallineata, ma perché la specificazione dell’umano era disallineata con la sua intenzione reale.

Il problema dell’allineamento è uno specchio. La macchina fa ciò che hai specificato. Se non ti piace il risultato, il problema è nella specificazione.

L’onere dell’articolazione

Ecco la parte che trovo più convincente nel framework di Christian, e la parte che si connette più direttamente al mio lavoro in psicologia organizzativa.

Il problema dell’allineamento crea un onere di articolazione — il requisito di rendere esplicito ciò che è sempre stato implicito. Questo onere ricade sugli esseri umani, non sulla macchina. La macchina non si preoccupa se riesci ad articolare i tuoi valori. Seguirà qualsiasi specificazione le venga data. Le conseguenze di una specificazione scadente ricadono interamente sullo specificatore.

Per le organizzazioni, l’onere dell’articolazione è significativo perché la maggior parte della conoscenza organizzativa è tacita. La distinzione di Michael Polanyi tra conoscenza tacita (ciò che sappiamo ma non riusciamo a esprimere) e conoscenza esplicita (ciò che possiamo dichiarare e codificare) si applica direttamente. L’agente di servizio clienti esperto che “sa e basta” come gestire un cliente difficile opera su conoscenza tacita — riconoscimento di pattern costruito da migliaia di interazioni, affinato dal feedback e memorizzato in una forma che resiste all’articolazione.

Quando lo strumento IA deve replicare questo giudizio, la conoscenza tacita deve diventare esplicita. “Gestisci bene i clienti difficili” deve diventare “Quando un cliente esprime frustrazione, riconosci l’emozione prima di affrontare il problema. Quando un cliente minaccia di andarsene, controlla la sua cronologia dell’account e, se è cliente da più di due anni, offri il livello B di sconto retention.” La specificità richiesta è estenuante. L’agente originale non ha mai pensato in questi termini. “Sapeva e basta.”

L’onere dell’articolazione è il costo nascosto del deployment IA. Non il canone di licenza. Non il costo di calcolo. Non l’ingegneria di integrazione. Lo sforzo cognitivo e organizzativo di rendere esplicito ciò che è sempre stato implicito — e scoprire, nel processo, che la conoscenza implicita era meno coerente, meno consistente e meno allineata di quanto chiunque presumesse.

Il test del martedì mattina

Torno continuamente a un test che applico a ogni domanda sull’allineamento dell’IA che incontro: il test del martedì mattina. Dimentica la filosofia. Dimentica i paper di ricerca. Dimentica la discussione astratta sui valori. È martedì mattina. Una persona specifica è seduta a una scrivania specifica con un compito specifico. Lo strumento IA è aperto. La persona digita una query. Lo strumento risponde.

La risposta è ciò di cui la persona aveva bisogno?

La risposta dipende dal fatto che la specificazione dello strumento abbia catturato ciò di cui la persona ha realmente bisogno — che dipende dal fatto che l’organizzazione abbia articolato ciò che realmente valorizza — che dipende dal fatto che l’organizzazione sappia ciò che realmente valorizza.

Il martedì mattina, il problema dell’allineamento non riguarda la macchina. Riguarda il responsabile acquisti che ha bisogno che lo strumento capisca che “urgente” significa “il cliente ha menzionato il nostro concorrente” — una definizione che non esiste in nessuna specificazione, in nessun dato di addestramento e in nessun documento di policy, ma è la realtà operativa della definizione di urgenza di quel team.

La macchina non può saperlo a meno che un umano non lo articoli. E l’umano non l’ha mai articolato perché, fino all’arrivo della macchina, nessuno ha chiesto.

Il processo di allineamento organizzativo

Come si fa questo lavoro? Allineare realmente l’organizzazione prima di provare ad allineare lo strumento?

Fase 1: Far emergere l’implicito. Riunisci le persone che useranno lo strumento e chiedi loro di definire, indipendentemente, come appare “buono” per l’output dello strumento. Non discuterne prima — l’articolazione indipendente previene il bias di conformità. Confronta le definizioni. La divergenza è il dato. Dove le definizioni dissentono è dove inizia il lavoro di allineamento.

Fase 2: Dare un nome ai conflitti. Dove le definizioni implicite si contraddicono, nomina la contraddizione. Non “abbiamo prospettive diverse” (è un eufemismo per evitamento del conflitto). Nomina il conflitto specifico: “Tu definisci l’urgenza per valore del cliente. Tu definisci l’urgenza per rischio SLA. Queste producono classificazioni diverse per lo stesso ticket. Quale definizione usa lo strumento?”

Fase 3: Decidere la gerarchia. Per ogni conflitto, prendi una decisione. Non un consenso (il consenso è spesso un rifiuto di decidere). Una decisione. “Ai fini della classificazione, l’urgenza è definita dal rischio di violazione dell’SLA. Il valore del cliente è un fattore secondario mostrato all’agente ma non usato per l’instradamento.” La decisione potrebbe essere sbagliata. Resta più utile dell’ambiguità, perché una decisione sbagliata può essere identificata e corretta. L’ambiguità non può essere corretta — persiste finché qualcuno non la confronta.

Fase 4: Specificare i proxy. Per ogni valore che allo strumento si chiede di ottimizzare, definisci il proxy e riconosci i suoi limiti. “Misuriamo la qualità con il punteggio di soddisfazione del cliente. Sappiamo che questo proxy non cattura la salute della relazione a lungo termine. Lo integreremo con una revisione trimestrale dei tassi di retention dei clienti tra i ticket gestiti dallo strumento.” Il proxy è un compromesso. Nominalo come tale.

Fase 5: Iterare. La prima specificazione sarà sbagliata. Non catastroficamente sbagliata — praticamente sbagliata. Lo strumento produrrà output che sono tecnicamente allineati con la specificazione ma disallineati con l’intenzione. Ogni disallineamento è una lezione nella chiarezza della specificazione. Usala per affinare.

L’allineamento continuo

L’allineamento non è un’attività una tantum. È continuo — perché i valori, le priorità e il contesto operativo dell’organizzazione cambiano nel tempo.

La specificazione che era corretta a gennaio potrebbe essere mal calibrata a giugno. La base clienti è cambiata. L’ambiente regolatorio è cambiato. La composizione del team si è evoluta. La definizione di “urgente” che funzionava sei mesi fa non cattura più la realtà operativa attuale.

Questo disallineamento continuo è una caratteristica della vita organizzativa, non un fallimento della specificazione. Le organizzazioni sono sistemi dinamici. I loro valori e priorità sono in flusso continuo. La specificazione — che è statica — si allontana dalla realtà — che è dinamica.

Nelle operazioni tradizionali, questa deriva viene assorbita dal giudizio umano. L’agente di servizio clienti che è nel team da tre anni adegua implicitamente la sua definizione di “urgente” al cambiare del contesto. Non riscrive la policy. Adegua la sua pratica. L’adeguamento è invisibile, graduale ed efficace.

Lo strumento IA non si adegua implicitamente. Segue la specificazione. Se la specificazione si allontana dalla realtà, gli output dello strumento si allontanano con essa — ancora allineati con la specificazione, ma disallineati con l’intenzione.

La risposta operativa: revisioni di allineamento programmate. Ogni trimestre, il team che usa lo strumento IA dovrebbe rivisitare la specificazione: le definizioni sono ancora accurate? Le priorità sono cambiate? Ci sono nuovi casi limite che la specificazione non copre? La revisione è breve — un’ora. Il costo di non condurla è l’accumulo graduale di disallineamento, che produce output tecnicamente corretti e operativamente sbagliati.

È il costo di manutenzione dell’allineamento. Non manutenzione tecnica. Manutenzione organizzativa. Il lavoro di mantenere la specificazione al passo con la comprensione in evoluzione dell’organizzazione dei propri valori.

L’integrazione

Brian Christian ha scritto del problema dell’allineamento come sfida tecnica. Lo è. Ma è anche una sfida umana — e la sfida umana precede e sussume quella tecnica.

Non puoi allineare una macchina con valori che non hai articolato. Non puoi articolare valori che non hai esaminato. Non puoi esaminare valori in un ambiente dove l’esame non è sicuro — il che ci riporta alla sicurezza psicologica, alle strutture di incentivi che premiano i valori dichiarati rispetto ai valori praticati, al divario tra ciò che le organizzazioni dicono e ciò che fanno.

Il problema dell’allineamento non è un problema da risolvere. È una condizione da gestire. Il divario tra intenzione e specificazione è permanente. Il meglio che puoi fare è restringerlo — attraverso l’articolazione, attraverso la risoluzione dei conflitti, attraverso l’iterazione e attraverso l’umiltà di riconoscere che la modalità di fallimento più comune della macchina non è fraintendere i tuoi valori ma comprenderli esattamente come li hai specificati.

La macchina è allineata. La domanda è se lo sei tu.

Scritto da

Érica

Psicologa Organizzativa

Sa perché le persone resistono agli strumenti — e come progettare strumenti che ameranno. Quando Érica parla, le aziende cambiano direzione. Non per persuasione. Per comprensione.

← Tutte le note