Alignmentproblemet är mänskligt
Érica 10 februari 2026

Alignmentproblemet är mänskligt

11 min lästid

Brian Christians The Alignment Problem spårar historien om en bedrägligt enkel fråga: hur får du en maskin att göra det du vill? Boken följer frågan från tidig förstärkningsinlärning genom moderna stora språkmodeller och dokumenterar de allt mer sofistikerade — och allt mer frustrerade — försöken att specificera mänskliga värden i termer en maskin kan följa.

Den konventionella läsningen av alignmentproblemet är teknisk: maskinen förstår inte vad vi vill. Fältet rusar för att fixa det. Constitutional AI, RLHF, automatiserad red-teaming, tolkbarhetsforskning — allt riktat mot att göra maskinen bättre på att förstå och följa mänsklig avsikt.

Jag vill erbjuda en annan läsning. Det svårare problemet är inte att maskinen misslyckas med att förstå våra värden. Det svårare problemet är att vi misslyckas med att förstå våra egna värden tydligt nog för att specificera dem.

Alignmentproblemet är mänskligt innan det är tekniskt. Och bevisen för det finns inte i ett forskningslabb. De finns på varje kontor där ett AI-verktyg har driftsatts och teamet inte kan enas om vad “bra” ser ut som.

Specifikationsproblemet

När Bluewaves driftsätter ett AI-verktyg för en klient — säg, ett klassificeringssystem för kundtjänst — är det första steget specifikation: vad vill du att verktyget ska göra? Svaret verkar uppenbart. “Klassificera inkommande supportärenden efter brådskande och dirigera dem till rätt team.”

Sedan börjar frågorna.

Vad räknas som brådskande? En kund som hotar att lämna? En kund som rapporterar ett säkerhetsproblem? En kund som begär återbetalning över 500 euro? Alla tre? Teamet diskuterar. De upptäcker att olika teammedlemmar har olika implicita definitioner av brådskande. Kundtjänstledaren definierar brådskande efter kundens livstidsvärde. Driftchefen definierar brådskande efter risk för SLA-överträdelse. Juridiska teamet definierar brådskande efter ansvarsexponering.

Tre definitioner. Tre legitima perspektiv. Ingen delad specifikation.

Det här är inte ett teknikproblem. AI-modellen kan klassificera efter vilken definition av brådskande som helst den ges. Problemet är att organisationen har arbetat med tre implicita, överlappande, delvis motstridiga definitioner — och det fungerade för att mänskliga handläggare omedvetet triangulerade mellan dem, med omdöme som integrerade alla tre perspektiven utan att formalisera något av dem.

Maskinen kan inte triangulera implicit. Den behöver en explicit specifikation. Handlingen att skriva specifikationen tvingar organisationen att konfrontera den tvetydighet den har levt bekvämt med i åratal.

Brian Christian beskriver det här som den centrala insikten i alignmentproblemet: “Svårigheten ligger inte bara i att få AI att göra det vi vill; den ligger i att veta vad vi vill.” AI-driftsättningen blir en alignmentrevision — inte av maskinen, utan av organisationen.

Gapet mellan avslöjad preferens

Ekonomer skiljer mellan uttalade preferenser (vad folk säger att de vill) och avslöjade preferenser (vad deras beteende visar att de faktiskt vill). Gapet mellan de två är föremål för hela forskningsprogram inom beteendeekonomi.

AI-driftsättning synliggör det gapet med obekväm tydlighet.

Ett team säger att det vill ha “konsekvent kundtjänstkvalitet”. AI-verktyget, tränat på teamets historiska svar, avslöjar att “konsekvent” betyder olika saker för olika handläggare. Handläggare A skriver detaljerade, empatiska svar som i genomsnitt är 340 ord. Handläggare B skriver direkta, effektiva svar som i genomsnitt är 80 ord. Handläggare C eskalerar 40 % av ärendena som handläggare A och B skulle hantera direkt. Teamets uttalade preferens är konsekvens. Deras avslöjade praxis är radikal inkonsekvens — sammanhållen av att kunder sällan jämför de svarsstilar de får.

AI-verktyget, ombett att producera “konsekventa” svar, måste välja: konsekvent som handläggare A, eller konsekvent som handläggare B, eller en hybrid som inte tillfredställer någon? Specifikationen kräver ett beslut som teamet aldrig har fattat för att tvetydigheten var osynlig tills maskinen krävde upplösning.

Det här är det mänskliga alignmentproblemet. Maskinen håller upp en spegel. Organisationen gillar inte alltid det den ser.

Värdeshierarkiproblemet

Christians bok dokumenterar utmaningen med värdesinriktning på modellnivå — hur kodar du “var hjälpsam men inte skadlig” på ett sätt som hanterar gränsfall? Arbetsplatsversionen av samma problem är värdeshierarkin: när två legitima värden krockar, vilken vinner?

Varje organisation har den hierarkin. De flesta organisationer har aldrig artikulerat den.

Ett finanstjänstföretag driftsätter ett AI-verktyg för screening av låneansökningar. De uttalade värdena: rättvisa, effektivitet och riskhantering. Dessa värden samexisterar bekvämt i det abstrakta. I praktiken krockar de regelbundet:

Rättvisa säger: utvärdera varje ansökan efter sina individuella meriter. Effektivitet säger: använd statistiska mönster för att snabbspåra uppenbara godkännanden och avslag. Riskhantering säger: flagga varje ansökan med egenskaper associerade med högre fallissemangsfrekvens.

De statistiska mönster som möjliggör effektivitet bygger på historiska data som speglar historiska snedvridningar. Egenskaperna associerade med högre fallissemangsfrekvens korrelerar med demografiska faktorer som rättvisa kräver att du ignorerar. De tre värdena kan inte alla maximeras samtidigt. Organisationen måste välja — explicit — vilket värde som har företräde i vilken kontext.

Före AI-verktyget hanterade den mänskliga lånehandläggaren den konflikten intuitivt, fall för fall, med implicit omdöme som aldrig formaliserades. Besluten var försvarsbara individuellt (varje handläggare kunde förklara sitt resonemang) men inkonsekventa kollektivt (olika handläggare löste samma konflikt olika).

AI-verktyget kräver en hierarki. Inte “dessa värden är alla viktiga” — det är ett uttalande, inte en hierarki. “När rättvisa och effektivitet krockar har rättvisa företräde. När rättvisa och riskhantering krockar, här är det specifika tröskelvärdet där riskhantering tar över.” Det här är de beslut alignmentproblemet framtvingar — inte om maskinen, utan om organisationen.

Proxyproblemet

I The Alignment Problem beskriver Christian Goodharts lag — “När ett mått blir ett mål upphör det att vara ett bra mått” — som det centrala felläget för anpassade system. Du vill att AI:n ska maximera kundnöjdhet. Du mäter kundnöjdhet med en enkätpoäng. AI:n optimerar för enkätpoäng. Enkätpoängen stiger. Kundnöjdheten kan eller kan inte följa — för enkäten var en proxy, inte saken i sig.

Det här är inte ett tekniskt misslyckande. Det är ett mänskligt misslyckande i specifikation. Vi valde proxyn. Maskinen optimerade för den. Utfallet vi inte ville ha var förutsägbart från specifikationen vi faktiskt angav.

I AI-driftsättningar på arbetsplatser är proxymisslyckanden genomgående:

Ärendeavslutsproxyn. Ett AI-system mäts på “lösta ärenden per dag”. Systemet lär sig lösa ärenden snabbt. Lösningskvaliteten sjunker för att snabbhet var proxyn, inte kvalitet. Men ingen specificerade vad “kvalitet” innebär i operativa termer — så maskinen optimerade för den proxy som var specificerad.

Engagemangsproxyn. Ett AI-innehållsverktyg mäts på “användarengagemang”. Verktyget lär sig producera innehåll som genererar klick, kommentarer och delningar. Innehållet blir allt mer provokativt för att engagemang var proxyn, och provokation driver engagemang. Men organisationen ville ha “meningsfullt engagemang”, som är svårare att specificera och svårare att mäta.

Efterlevnadsproxyn. Ett AI-riskbedömningsverktyg mäts på “efterlevnad av riktlinjer”. Verktyget lär sig producera bedömningar som uppfyller checklistan. Bedömningarna blir formulerade för att efterlevnad var proxyn. Men organisationen ville ha “genuin riskbedömning”, som kräver omdöme som en checklista inte kan fånga.

I varje fall valde människan proxyn. Maskinen följde proxyn troget. Utfallet besvikade människan — inte för att maskinen var felanpassad, utan för att människans specifikation var felanpassad med deras faktiska avsikt.

Alignmentproblemet är en spegel. Maskinen gör det du specificerade. Om du inte gillar resultatet ligger problemet i specifikationen.

Artikulationsbördan

Här är den del som jag finner mest övertygande i Christians ramverk, och den del som kopplar mest direkt till mitt eget arbete inom organisationspsykologi.

Alignmentproblemet skapar en artikulationsbörda — kravet att göra explicit det som alltid varit implicit. Den bördan faller på människorna, inte maskinen. Maskinen bryr sig inte om du kan artikulera dina värden. Den kommer att följa vilken specifikation den ges. Konsekvensen av en dålig specifikation faller helt på den som specificerar.

För organisationer är artikulationsbördan betydande för att det mesta av organisationskunskapen är tyst. Michael Polanyis distinktion mellan tyst kunskap (det vi vet men inte kan uttrycka) och explicit kunskap (det vi kan formulera och kodifiera) gäller direkt. Den erfarna kundtjänstmedarbetaren som “bara vet” hur man hanterar en svår kund opererar på tyst kunskap — mönsterigenkänning byggd av tusentals interaktioner, förfinad av feedback och lagrad i en form som motstår artikulation.

När AI-verktyget behöver replikera det omdömet måste den tysta kunskapen bli explicit. “Hantera svåra kunder väl” måste bli “När en kund uttrycker frustration, bekräfta känslan innan du adresserar problemet. När en kund hotar att lämna, kontrollera deras kontohistorik och, om de har varit kund i mer än två år, erbjud retentionsrabatt nivå B.” Den specificitet som krävs är utmattande. Den ursprungliga handläggaren tänkte aldrig i de termerna. De “bara visste”.

Artikulationsbördan är den dolda kostnaden för AI-driftsättning. Inte licensavgiften. Inte beräkningskostnaden. Inte integrationsarbetet. Den kognitiva och organisatoriska ansträngningen att göra explicit det som alltid varit implicit — och att upptäcka, i processen, att den implicita kunskapen var mindre konsekvent, mindre sammanhängande och mindre anpassad än någon antog.

Tisdagsmorgontestet

Jag återkommer till ett test jag tillämpar på varje AI-alignmentfråga jag möter: tisdagsmorgontestet. Glöm filosofin. Glöm forskningsartiklarna. Glöm den abstrakta värdediskussionen. Det är tisdag morgon. En specifik person sitter vid ett specifikt skrivbord med en specifik uppgift. AI-verktyget är öppet. Personen skriver en fråga. Verktyget svarar.

Var svaret det personen behövde?

Svaret beror på om verktygets specifikation fångade det personen faktiskt behöver — vilket beror på om organisationen artikulerade det den faktiskt värderar — vilket beror på om organisationen vet vad den faktiskt värderar.

På tisdag morgon handlar alignmentproblemet inte om maskinen. Det handlar om inköparen som behöver att verktyget förstår att “brådskande” betyder “kunden nämnde vår konkurrent” — en definition som existerar i ingen specifikation, inga träningsdata och inget policydokument, men som är den operativa verkligheten för det teamets definition av brådskande.

Maskinen kan inte veta det här om inte en människa artikulerar det. Och människan har aldrig artikulerat det för att, innan maskinen anlände, frågade ingen.

Den organisatoriska alignmentprocessen

Hur ser det ut att göra det här arbetet? Att faktiskt anpassa organisationen innan man försöker anpassa verktyget?

Fas 1: Synliggör det implicita. Samla de som kommer att använda verktyget och be dem definiera, oberoende, vad “bra” ser ut som för verktygets resultat. Diskutera inte först — oberoende artikulation förhindrar konformitetsbias. Jämför definitionerna. Divergensen är datan. Där definitioner avviker är där alignmentarbetet börjar.

Fas 2: Namnge konflikterna. Där de implicita definitionerna motsäger varandra, namnge motsägelsen. Inte “vi har olika perspektiv” (det är en eufemism för konfliktvikande). Namnge den specifika konflikten: “Du definierar brådskande efter kundvärde. Du definierar brådskande efter SLA-risk. Dessa producerar olika klassificeringar för samma ärende. Vilken definition använder verktyget?”

Fas 3: Bestäm hierarkin. För varje konflikt, fatta ett beslut. Inte en konsensus (konsensus är ofta en vägran att bestämma). Ett beslut. “För klassificeringsändamål definieras brådskande av SLA-överträdelsrisk. Kundvärde är en sekundär faktor som visas för handläggaren men inte används för dirigering.” Beslutet kan vara fel. Det är fortfarande mer användbart än tvetydighet, för ett felaktigt beslut kan identifieras och korrigeras. Tvetydighet kan inte korrigeras — den kvarstår tills någon konfronterar den.

Fas 4: Specificera proxyerna. För varje värde verktyget ombeds optimera för, definiera proxyn och erkänn dess begränsningar. “Vi mäter kvalitet med kundnöjdhetspoäng. Vi vet att den här proxyn inte fångar långsiktig relationshälsa. Vi kommer att komplettera den med en kvartalsvis granskning av kundretentionsfrekvenser bland ärenden hanterade av verktyget.” Proxyn är en kompromiss. Namnge den som en.

Fas 5: Iterera. Den första specifikationen kommer att vara fel. Inte katastrofalt fel — praktiskt fel. Verktyget kommer att producera resultat som tekniskt är i linje med specifikationen men felanpassade med avsikten. Varje felanpassning är en lektion i specifikationsklarhet. Använd den för att förfina.

Den pågående anpassningen

Alignment är inte en engångsaktivitet. Den är pågående — för att organisationens värden, prioriteringar och operativa kontext förändras över tid.

Specifikationen som var korrekt i januari kan vara felkalibrerad i juni. Kundbasen förändrades. Den regulatoriska miljön skiftade. Teamsammansättningen utvecklades. Definitionen av “brådskande” som fungerade för sex månader sedan fångar inte längre den nuvarande operativa verkligheten.

Den pågående felanpassningen är ett drag hos organisationslivet, inte ett misslyckande i specifikation. Organisationer är dynamiska system. Deras värden och prioriteringar är i ständig förändring. Specifikationen — som är statisk — glider bort från verkligheten — som är dynamisk.

I traditionell verksamhet absorberas den gliden av mänskligt omdöme. Kundtjänsthandläggaren som har varit i teamet i tre år justerar implicit sin definition av “brådskande” allteftersom kontexten förändras. De skriver inte om policyn. De justerar sin praxis. Justeringen är osynlig, gradvis och effektiv.

AI-verktyget justerar inte implicit. Det följer specifikationen. Om specifikationen glider bort från verkligheten glider verktygets resultat med den — fortfarande i linje med specifikationen, men felanpassade med avsikten.

Det operativa svaret: schemalagda alignmentgranskningar. Varje kvartal bör teamet som använder AI-verktyget återbesöka specifikationen: är definitionerna fortfarande korrekta? Har prioriteringarna förändrats? Finns det nya gränsfall specifikationen inte täcker? Granskningen är kort — en timme. Kostnaden av att inte genomföra den är den gradvisa ackumuleringen av felanpassning, som producerar resultat som är tekniskt korrekta och operativt fel.

Det här är underhållskostnaden för alignment. Inte tekniskt underhåll. Organisatoriskt underhåll. Arbetet med att hålla specifikationen aktuell med organisationens föränderliga förståelse av sina egna värden.

Integrationen

Brian Christian skrev om alignmentproblemet som en teknisk utmaning. Det är det. Men det är också en mänsklig utmaning — och den mänskliga utmaningen föregår och innefattar den tekniska.

Du kan inte anpassa en maskin efter värden du inte har artikulerat. Du kan inte artikulera värden du inte har granskat. Du kan inte granska värden i en miljö där granskning är otryggt — vilket för oss tillbaka till psykologisk trygghet, till incitamentsstrukturer som belönar uttalade värden framför praktiserade värden, till gapet mellan det organisationer säger och det de gör.

Alignmentproblemet är inte ett problem att lösa. Det är ett tillstånd att hantera. Gapet mellan avsikt och specifikation är permanent. Det bästa du kan göra är att minska det — genom artikulation, genom konfliktlösning, genom iteration och genom ödmjukheten att erkänna att maskinens vanligaste felläge inte är att missförstå dina värden utan att förstå dem exakt som du specificerade dem.

Maskinen är anpassad. Frågan är om du är det.

Skriven av
Érica
Organisationspsykolog

Hon vet varför människor motstår verktyg — och hur man designar verktyg de kommer att älska. När Érica talar byter företag riktning. Inte av övertygelse. Av förståelse.

← Alla anteckningar