Het alignmentprobleem is menselijk
Brian Christians The Alignment Problem traceert de geschiedenis van een bedrieglijk simpele vraag: hoe zorg je dat een machine doet wat je wilt? Het boek volgt de vraag van vroeg reinforcement learning tot moderne large language models en documenteert de steeds geavanceerdere — en steeds gefrustreerdere — pogingen om menselijke waarden te specificeren in termen die een machine kan volgen.
De conventionele lezing van het alignmentprobleem is technisch: de machine begrijpt niet wat wij willen. Het veld racet om dit te fixen. Constitutional AI, RLHF, geautomatiseerde red-teaming, interpreteerbaarheidsonderzoek — allemaal gericht op het verbeteren van het begrip en het opvolgen van menselijke intentie door de machine.
Ik wil een andere lezing aanbieden. Het moeilijkere probleem is niet dat de machine onze waarden niet begrijpt. Het moeilijkere probleem is dat wij onze eigen waarden niet helder genoeg begrijpen om ze te specificeren.
Het alignmentprobleem is menselijk voordat het technisch is. En het bewijs hiervoor zit niet in een onderzoekslab. Het zit in elk kantoor waar een AI-tool is geimplementeerd en het team het niet eens kan worden over wat “goed” eruitziet.
Het specificatieprobleem
Wanneer Bluewaves een AI-tool implementeert voor een klant — zeg, een classificatiesysteem voor klantenservice — is de eerste stap specificatie: wat wil je dat de tool doet? Het antwoord lijkt voor de hand te liggen. “Classificeer inkomende supporttickets op urgentie en routeer ze naar het juiste team.”
Dan beginnen de vragen.
Wat telt als urgent? Een klant die dreigt te vertrekken? Een klant die een veiligheidsprobleem meldt? Een klant die om een restitutie vraagt boven EUR 500? Alle drie? Het team discussieert. Ze ontdekken dat verschillende teamleden verschillende impliciete definities van urgentie hanteren. De klantenserviceleider definieert urgentie op basis van klantlevensduurwaarde. De operationeel manager definieert urgentie op basis van SLA-overschrijdingsrisico. Het juridische team definieert urgentie op basis van aansprakelijkheidsrisico.
Drie definities. Drie legitieme perspectieven. Geen gedeelde specificatie.
Dit is geen technologieprobleem. Het AI-model kan classificeren op elke definitie van urgentie die het krijgt. Het probleem is dat de organisatie heeft gefunctioneerd met drie impliciete, overlappende, deels tegenstrijdige definities — en het werkte omdat menselijke medewerkers onbewust tussen alle drie trianguleerden, met oordeelsvermogen dat alle drie perspectieven integreerde zonder er een te formaliseren.
De machine kan niet impliciet trianguleren. Het heeft een expliciete specificatie nodig. De handeling van het schrijven van de specificatie dwingt de organisatie om de ambiguiteit onder ogen te zien waarmee ze jarenlang comfortabel heeft geleefd.
Brian Christian beschrijft dit als het centrale inzicht van het alignmentprobleem: “De moeilijkheid is niet alleen om de AI te laten doen wat we willen; het is in het weten wat we willen.” De AI-implementatie wordt een alignment-audit — niet van de machine, maar van de organisatie.
De kloof van geopenbaarde voorkeur
Economen onderscheiden stated preferences (wat mensen zeggen dat ze willen) en revealed preferences (wat hun gedrag laat zien dat ze werkelijk willen). De kloof tussen beide is het onderwerp van hele onderzoeksprogramma’s in gedragseconomie.
AI-implementatie brengt deze kloof aan het licht met ongemakkelijke helderheid.
Een team zegt dat het “consistente klantenservicekwaliteit” wil. De AI-tool, getraind op de historische reacties van het team, onthult dat “consistent” voor verschillende medewerkers verschillende dingen betekent. Medewerker A schrijft gedetailleerde, empathische reacties van gemiddeld 340 woorden. Medewerker B schrijft directe, efficiente reacties van gemiddeld 80 woorden. Medewerker C escaleert 40% van de tickets die medewerkers A en B direct zouden afhandelen. De stated preference van het team is consistentie. Hun revealed practice is radicale inconsistentie — bijeengehouden door het feit dat klanten zelden de reactiestijlen vergelijken die ze ontvangen.
De AI-tool, gevraagd om “consistente” reacties te produceren, moet kiezen: consistent zoals medewerker A, of consistent zoals medewerker B, of een hybride die geen van beiden tevreden stelt? De specificatie vereist een beslissing die het team nooit heeft genomen omdat de ambiguiteit onzichtbaar was tot de machine om resolutie vroeg.
Dit is het menselijke alignmentprobleem. De machine houdt een spiegel voor. De organisatie vindt niet altijd leuk wat ze ziet.
Het waardenhierarchieprobleem
Christians boek documenteert de uitdaging van waarde-alignment op modelniveau — hoe codeer je “wees behulpzaam maar niet schadelijk” op een manier die randgevallen aankan? De werkplekversie van hetzelfde probleem is de waardenhierarchie: wanneer twee legitieme waarden botsen, welke wint?
Elke organisatie heeft deze hierarchie. De meeste organisaties hebben haar nooit gearticuleerd.
Een financieel dienstverlener implementeert een AI-tool voor screening van leningaanvragen. De stated values: eerlijkheid, efficientie en risicobeheer. Deze waarden bestaan comfortabel naast elkaar in het abstract. In de praktijk botsen ze regelmatig:
Eerlijkheid zegt: beoordeel elke aanvraag op individuele verdienste. Efficientie zegt: gebruik statistische patronen om duidelijke goedkeuringen en afwijzingen te versnellen. Risicobeheer zegt: markeer elke aanvraag met kenmerken die geassocieerd zijn met hogere wanbetalingspercentages.
De statistische patronen die efficientie mogelijk maken, zijn gebouwd op historische data die historische biases weerspiegelt. De kenmerken die geassocieerd zijn met hogere wanbetalingspercentages correleren met demografische factoren die eerlijkheid je verplicht te negeren. De drie waarden kunnen niet alle drie tegelijk gemaximaliseerd worden. De organisatie moet kiezen — expliciet — welke waarde voorrang krijgt in welke context.
Voor de AI-tool beheerde de menselijke medewerker dit conflict intuitief, geval per geval, met impliciet oordeelsvermogen dat nooit geformaliseerd werd. De beslissingen waren individueel verdedigbaar (elke medewerker kon hun redenering uitleggen) maar collectief inconsistent (verschillende medewerkers losten hetzelfde conflict anders op).
De AI-tool vereist een hierarchie. Niet “deze waarden zijn allemaal belangrijk” — dat is een verklaring, geen hierarchie. “Wanneer eerlijkheid en efficientie botsen, heeft eerlijkheid voorrang. Wanneer eerlijkheid en risicobeheer botsen, hier is de specifieke drempel waar risicobeheer overschrijft.” Dit zijn de beslissingen die het alignmentprobleem afdwingt — niet over de machine, maar over de organisatie.
Het proxyprobleem
In The Alignment Problem beschrijft Christian Goodharts Wet — “Wanneer een maatstaf een doel wordt, houdt het op een goede maatstaf te zijn” — als de centrale faalwijze van gealignde systemen. Je wilt dat de AI klanttevredenheid maximaliseert. Je meet klanttevredenheid met een enquetescore. De AI optimaliseert voor de enquetescore. Enquetescores stijgen. Klanttevredenheid volgt al dan niet — omdat de enquete een proxy was, niet het ding zelf.
Dit is geen technisch falen. Het is een menselijk specificatiefalen. Wij kozen de proxy. De machine optimaliseerde ervoor. De uitkomst die we niet wilden was voorspelbaar vanuit de specificatie die we wel wilden.
Bij werkplek AI-implementaties zijn proxyfalen alomtegenwoordig:
De ticketafsluitingsproxy. Een AI-systeem wordt gemeten op “tickets opgelost per dag.” Het systeem leert tickets snel op te lossen. Oplossingskwaliteit daalt omdat snelheid de proxy was, niet kwaliteit. Maar niemand specificeerde wat “kwaliteit” in operationele termen betekent — dus optimaliseerde de machine voor de proxy die gespecificeerd was.
De engagementproxy. Een AI-contenttool wordt gemeten op “gebruikersbetrokkenheid.” De tool leert content te produceren die kliks, reacties en shares genereert. De content wordt steeds provocatiever omdat engagement de proxy was, en provocatie engagement drijft. Maar de organisatie wilde “betekenisvolle betrokkenheid,” wat moeilijker te specificeren en moeilijker te meten is.
De complianceproxy. Een AI-risicobeoordelingstool wordt gemeten op “naleving van richtlijnen.” De tool leert beoordelingen te produceren die aan de checklist voldoen. De beoordelingen worden formulair omdat compliance de proxy was. Maar de organisatie wilde “oprechte risicobeoordeling,” wat oordeelsvermogen vereist dat een checklist niet kan vastleggen.
In elk geval koos de mens de proxy. De machine volgde de proxy getrouw. De uitkomst stelde de mens teleur — niet omdat de machine verkeerd gealignd was, maar omdat de specificatie van de mens verkeerd gealignd was met hun werkelijke intentie.
Het alignmentprobleem is een spiegel. De machine doet wat je specificeerde. Als je het resultaat niet bevalt, zit het probleem in de specificatie.
De articulatielast
Hier is het deel dat ik het meest overtuigend vind in Christians framework, en het deel dat het directst verbindt met mijn eigen werk in de organisatiepsychologie.
Het alignmentprobleem creert een articulatielast — de vereiste om expliciet te maken wat altijd impliciet is geweest. Deze last valt op de mensen, niet op de machine. De machine maakt het niet uit of je je waarden kunt articuleren. Het zal elke specificatie volgen die het krijgt. De consequentie van een slechte specificatie valt geheel op de specificeerder.
Voor organisaties is de articulatielast aanzienlijk omdat de meeste organisatiekennis tacit is. Michael Polanyis onderscheid tussen tacit knowledge (wat we weten maar niet kunnen uitdrukken) en explicit knowledge (wat we kunnen verwoorden en codificeren) is direct van toepassing. De ervaren klantenservicemedewerker die “gewoon weet” hoe met een moeilijke klant om te gaan, opereert op tacit knowledge — patroonherkenning opgebouwd uit duizenden interacties, verfijnd door feedback, en opgeslagen in een vorm die weerstand biedt aan articulatie.
Wanneer de AI-tool dit oordeelsvermogen moet repliceren, moet de tacit knowledge expliciet worden. “Ga goed om met moeilijke klanten” moet worden “Wanneer een klant frustratie uit, erken de emotie voordat je het probleem adresseert. Wanneer een klant dreigt te vertrekken, controleer hun accountgeschiedenis en, als ze langer dan twee jaar klant zijn, bied retentiekorting niveau B aan.” De vereiste specificiteit is uitputtend. De oorspronkelijke medewerker dacht nooit in deze termen. Ze “wisten het gewoon.”
De articulatielast is de verborgen kost van AI-implementatie. Niet de licentiekosten. Niet de rekenkosten. Niet de integratie-engineering. De cognitieve en organisatorische inspanning om expliciet te maken wat altijd impliciet is geweest — en in dat proces te ontdekken dat de impliciete kennis minder consistent, minder coherent en minder gealignd was dan iedereen aannam.
De dinsdagochtendtest
Ik kom steeds terug op een test die ik toepas op elke AI-alignmentvraag die ik tegenkom: de dinsdagochtendtest. Vergeet de filosofie. Vergeet de onderzoekspapers. Vergeet de abstracte waardendiscussie. Het is dinsdagochtend. Een specifiek persoon zit aan een specifiek bureau met een specifieke taak. De AI-tool is open. De persoon typt een query. De tool antwoordt.
Is het antwoord wat de persoon nodig had?
Het antwoord hangt af van of de specificatie van de tool vastlegde wat de persoon werkelijk nodig heeft — wat afhangt van of de organisatie articuleerde wat het werkelijk waardeert — wat afhangt van of de organisatie weet wat het werkelijk waardeert.
Op dinsdagochtend gaat het alignmentprobleem niet over de machine. Het gaat over de inkoopmedewerker die nodig heeft dat de tool begrijpt dat “urgent” betekent “de klant noemde onze concurrent” — een definitie die in geen enkele specificatie, geen enkel trainingsbestand en geen enkel beleidsdocument staat, maar de operationele werkelijkheid is van de definitie van urgentie van dat team.
De machine kan dit niet weten tenzij een mens het articuleert. En de mens heeft het nooit gearticuleerd omdat, tot de machine arriveerde, niemand ernaar vroeg.
Het organisatorische alignmentproces
Hoe ziet het eruit om dit werk te doen? Om de organisatie daadwerkelijk te alignen voordat je probeert de tool te alignen?
Fase 1: Het impliciete boven water halen. Breng de mensen samen die de tool zullen gebruiken en vraag ze om onafhankelijk te definieren hoe “goed” eruitziet voor de output van de tool. Bespreek het niet eerst — onafhankelijke articulatie voorkomt conformiteitsbias. Vergelijk de definities. De divergentie is de data. Waar definities van mening verschillen, begint het alignmentwerk.
Fase 2: De conflicten benoemen. Waar de impliciete definities elkaar tegenspreken, benoem de tegenstrijdigheid. Niet “we hebben verschillende perspectieven” (dat is een eufemisme voor conflictvermijding). Benoem het specifieke conflict: “Jij definieert urgentie op klantwaarde. Jij definieert urgentie op SLA-risico. Dit produceert verschillende classificaties voor hetzelfde ticket. Welke definitie gebruikt de tool?”
Fase 3: De hierarchie bepalen. Los voor elk conflict een beslissing. Niet een consensus (consensus is vaak een weigering om te beslissen). Een beslissing. “Voor classificatiedoeleinden wordt urgentie gedefinieerd door SLA-overschrijdingsrisico. Klantwaarde is een secundaire factor die aan de medewerker wordt getoond maar niet wordt gebruikt voor routering.” De beslissing kan fout zijn. Het is nog steeds nuttiger dan ambiguiteit, omdat een foute beslissing geidentificeerd en gecorrigeerd kan worden. Ambiguiteit kan niet gecorrigeerd worden — het blijft bestaan totdat iemand het confronteert.
Fase 4: De proxy’s specificeren. Definieer voor elke waarde waarvoor de tool wordt gevraagd te optimaliseren de proxy en erken de beperkingen ervan. “We meten kwaliteit op klanttevredenheidsscore. We weten dat deze proxy langetermijnrelategezondheid niet vastlegt. We vullen het aan met een kwartaalbeoordeling van klantretentiepercentages onder tickets afgehandeld door de tool.” De proxy is een compromis. Benoem het als zodanig.
Fase 5: Itereren. De eerste specificatie zal fout zijn. Niet catastrofaal fout — praktisch fout. De tool zal output produceren die technisch gealignd is met de specificatie maar verkeerd gealignd met de intentie. Elke verkeerde alignment is een les in specificatiehelderheid. Gebruik het om te verfijnen.
De doorlopende alignment
Alignment is geen eenmalige activiteit. Het is doorlopend — omdat de waarden, prioriteiten en operationele context van de organisatie in de loop van de tijd veranderen.
De specificatie die in januari correct was, kan in juni verkeerd gekalibreerd zijn. Het klantenbestand veranderde. De regelgevingsomgeving verschoof. De teamsamenstelling evolueerde. De definitie van “urgent” die zes maanden geleden werkte, legt de huidige operationele werkelijkheid niet meer vast.
Deze doorlopende verkeerde alignment is een kenmerk van organisatieleven, geen falen van specificatie. Organisaties zijn dynamische systemen. Hun waarden en prioriteiten zijn in continue flux. De specificatie — die statisch is — drijft weg van de werkelijkheid — die dynamisch is.
Bij traditionele operaties wordt deze drift geabsorbeerd door menselijk oordeelsvermogen. De klantenservicemedewerker die al drie jaar in het team zit, past impliciet hun definitie van “urgent” aan naarmate de context verandert. Ze herschrijven het beleid niet. Ze passen hun praktijk aan. De aanpassing is onzichtbaar, geleidelijk en effectief.
De AI-tool past niet impliciet aan. Het volgt de specificatie. Als de specificatie wegdrijft van de werkelijkheid, drijft de output van de tool mee — nog steeds gealignd met de specificatie, maar verkeerd gealignd met de intentie.
De operationele respons: geplande alignment-reviews. Elk kwartaal moet het team dat de AI-tool gebruikt de specificatie opnieuw bekijken: kloppen de definities nog? Zijn de prioriteiten veranderd? Zijn er nieuwe randgevallen die de specificatie niet dekt? De review is kort — een uur. De kosten van het niet uitvoeren ervan zijn de geleidelijke accumulatie van verkeerde alignment, die output produceert die technisch correct en operationeel fout is.
Dit zijn de onderhoudskosten van alignment. Niet technisch onderhoud. Organisatorisch onderhoud. Het werk van het actueel houden van de specificatie met het evoluerende begrip van de organisatie van haar eigen waarden.
De integratie
Brian Christian schreef over het alignmentprobleem als een technische uitdaging. Dat is het. Maar het is ook een menselijke uitdaging — en de menselijke uitdaging gaat vooraf aan en omvat de technische.
Je kunt een machine niet alignen met waarden die je niet hebt gearticuleerd. Je kunt waarden niet articuleren die je niet hebt onderzocht. Je kunt waarden niet onderzoeken in een omgeving waar onderzoek onveilig is — wat ons terugbrengt bij psychologische veiligheid, bij de prikkelstructuren die stated values belonen boven practiced values, bij de kloof tussen wat organisaties zeggen en wat ze doen.
Het alignmentprobleem is niet een probleem dat opgelost moet worden. Het is een conditie die beheerd moet worden. De kloof tussen intentie en specificatie is permanent. Het beste wat je kunt doen is die verkleinen — door articulatie, door conflictresolutie, door iteratie, en door de nederigheid om te erkennen dat de meest voorkomende faalwijze van de machine niet is het verkeerd begrijpen van je waarden maar het precies begrijpen ervan zoals je ze specificeerde.
De machine is gealignd. De vraag is of jij dat bent.