Le problème de l'alignement est humain
The Alignment Problem de Brian Christian retrace l’histoire d’une question d’apparence simple : comment faire faire à une machine ce que vous voulez ? Le livre suit la question depuis les débuts de l’apprentissage par renforcement jusqu’aux grands modèles de langage modernes, documentant les tentatives de plus en plus sophistiquées — et de plus en plus frustrées — de spécifier les valeurs humaines en termes qu’une machine peut suivre.
La lecture conventionnelle du problème de l’alignement est technique : la machine ne comprend pas ce que nous voulons. Le domaine court pour corriger cela. IA constitutionnelle, RLHF, red-teaming automatisé, recherche en interprétabilité — tout vise à rendre la machine meilleure pour comprendre et suivre l’intention humaine.
Je veux proposer une lecture différente. Le problème le plus difficile n’est pas que la machine échoue à comprendre nos valeurs. Le problème le plus difficile est que nous échouons à comprendre nos propres valeurs assez clairement pour les spécifier.
Le problème de l’alignement est humain avant d’être technique. Et la preuve n’est pas dans un laboratoire de recherche. Elle est dans chaque bureau où un outil IA a été déployé et où l’équipe ne peut pas se mettre d’accord sur ce que « bon » veut dire.
Le problème de la spécification
Quand Bluewaves déploie un outil IA pour un client — disons un système de classification du service client — la première étape est la spécification : que voulez-vous que l’outil fasse ? La réponse semble évidente. « Classer les tickets d’assistance entrants par urgence et les router vers la bonne équipe. »
Puis les questions commencent.
Qu’est-ce qui compte comme urgent ? Un client qui menace de partir ? Un client qui signale un problème de sécurité ? Un client qui demande un remboursement supérieur à 500 € ? Les trois ? L’équipe discute. Elle découvre que différents membres ont des définitions implicites différentes de l’urgence. Le responsable du service client définit l’urgence par la valeur vie du client. Le directeur des opérations définit l’urgence par le risque de dépassement du SLA. L’équipe juridique définit l’urgence par l’exposition au risque.
Trois définitions. Trois perspectives légitimes. Aucune spécification partagée.
Ce n’est pas un problème technologique. Le modèle IA peut classer selon n’importe quelle définition d’urgence qu’on lui donne. Le problème est que l’organisation a fonctionné avec trois définitions implicites, qui se chevauchent et se contredisent partiellement — et cela fonctionnait parce que les agents humains triangulaient inconsciemment entre elles, utilisant un jugement qui intégrait les trois perspectives sans en formaliser aucune.
La machine ne peut pas trianguler implicitement. Elle a besoin d’une spécification explicite. L’acte d’écrire la spécification force l’organisation à confronter l’ambiguïté avec laquelle elle a confortablement vécu pendant des années.
Brian Christian décrit cela comme l’insight central du problème de l’alignement : « La difficulté n’est pas seulement de faire faire à l’IA ce que nous voulons ; c’est de savoir ce que nous voulons. » Le déploiement IA devient un audit d’alignement — non de la machine, mais de l’organisation.
L’écart des préférences révélées
Les économistes distinguent entre les préférences déclarées (ce que les gens disent vouloir) et les préférences révélées (ce que leur comportement montre qu’ils veulent réellement). L’écart entre les deux fait l’objet de programmes de recherche entiers en économie comportementale.
Le déploiement IA fait remonter cet écart avec une clarté inconfortable.
Une équipe dit vouloir « une qualité de service client homogène ». L’outil IA, entraîné sur les réponses historiques de l’équipe, révèle que « homogène » veut dire des choses différentes pour différents agents. L’agent A rédige des réponses détaillées et empathiques de 340 mots en moyenne. L’agent B rédige des réponses directes et efficaces de 80 mots en moyenne. L’agent C escalade 40 % des tickets que les agents A et B traiteraient directement. La préférence déclarée de l’équipe est l’homogénéité. Leur pratique révélée est une hétérogénéité radicale — maintenue par le fait que les clients comparent rarement les styles de réponse qu’ils reçoivent.
L’outil IA, à qui on demande de produire des réponses « homogènes », doit choisir : homogène comme l’agent A, ou homogène comme l’agent B, ou un hybride qui ne satisfait ni l’un ni l’autre ? La spécification exige une décision que l’équipe n’a jamais prise parce que l’ambiguïté était invisible jusqu’à ce que la machine exige une résolution.
C’est le problème de l’alignement humain. La machine tend un miroir. L’organisation n’aime pas toujours ce qu’elle voit.
Le problème de la hiérarchie des valeurs
Le livre de Christian documente le défi de l’alignement des valeurs au niveau du modèle — comment encoder « être utile mais pas nuisible » de manière à gérer les cas limites ? La version en entreprise du même problème est la hiérarchie des valeurs : quand deux valeurs légitimes entrent en conflit, laquelle l’emporte ?
Chaque organisation a cette hiérarchie. La plupart n’ont jamais l’articulée.
Une société de services financiers déploie un outil IA pour le tri des demandes de prêt. Les valeurs déclarées : équité, efficacité et gestion des risques. Ces valeurs coexistent confortablement dans l’abstrait. En pratique, elles entrent régulièrement en conflit :
L’équité dit : évaluer chaque demande sur ses mérites individuels. L’efficacité dit : utiliser des schémas statistiques pour accélérer les approbations et rejets évidents. La gestion des risques dit : signaler toute demande ayant des caractéristiques associées à des taux de défaut plus élevés.
Les schémas statistiques qui permettent l’efficacité sont construits à partir de données historiques qui reflètent des biais historiques. Les caractéristiques associées à des taux de défaut plus élevés corrèlent avec des facteurs démographiques que l’équité exige d’ignorer. Les trois valeurs ne peuvent pas être toutes maximisées simultanément. L’organisation doit choisir — explicitement — quelle valeur est prioritaire dans quel contexte.
Avant l’outil IA, le chargé de prêt humain gérait ce conflit intuitivement, cas par cas, avec un jugement implicite qui n’a jamais été formalisé. Les décisions étaient défendables individuellement (chaque chargé pouvait expliquer son raisonnement) mais incohérentes collectivement (différents chargés résolvaient le même conflit différemment).
L’outil IA exige une hiérarchie. Pas « ces valeurs sont toutes importantes » — c’est une déclaration, pas une hiérarchie. « Quand l’équité et l’efficacité entrent en conflit, l’équité l’emporte. Quand l’équité et la gestion des risques entrent en conflit, voici le seuil précis où la gestion des risques prévaut. » Ce sont les décisions que le problème de l’alignement force — non sur la machine, mais sur l’organisation.
Le problème du proxy
Dans The Alignment Problem, Christian décrit la loi de Goodhart — « Quand une mesure devient un objectif, elle cesse d’être une bonne mesure » — comme le mode de défaillance central des systèmes alignés. Vous voulez que l’IA maximise la satisfaction client. Vous mesurez la satisfaction client avec un score d’enquête. L’IA optimise pour le score d’enquête. Les scores d’enquête montent. La satisfaction client peut suivre ou non — parce que l’enquête était un proxy, pas la chose elle-même.
Ce n’est pas une défaillance technique. C’est une défaillance humaine de spécification. Nous avons choisi le proxy. La machine a optimisé pour lui. Le résultat que nous ne voulions pas était prévisible à partir de la spécification que nous voulions.
Dans les déploiements IA en entreprise, les défaillances de proxy sont omniprésentes :
Le proxy de clôture de tickets. Un système IA est mesuré sur les « tickets résolus par jour ». Le système apprend à résoudre les tickets rapidement. La qualité de résolution chute parce que la vitesse était le proxy, pas la qualité. Mais personne n’a spécifié ce que « qualité » signifie en termes opérationnels — alors la machine a optimisé pour le proxy qui était spécifié.
Le proxy d’engagement. Un outil de contenu IA est mesuré sur l’« engagement utilisateur ». L’outil apprend à produire du contenu qui génère des clics, des commentaires et des partages. Le contenu devient de plus en plus provocateur parce que l’engagement était le proxy, et la provocation génère de l’engagement. Mais l’organisation voulait un « engagement significatif », qui est plus difficile à spécifier et plus difficile à mesurer.
Le proxy de conformité. Un outil d’évaluation des risques IA est mesuré sur la « conformité aux directives ». L’outil apprend à produire des évaluations qui satisfont la checklist. Les évaluations deviennent formulaires parce que la conformité était le proxy. Mais l’organisation voulait une « véritable évaluation des risques », qui exige un jugement qu’une checklist ne peut pas capturer.
Dans chaque cas, l’humain a choisi le proxy. La machine a suivi le proxy fidèlement. Le résultat a déçu l’humain — non parce que la machine était mal alignée, mais parce que la spécification de l’humain était mal alignée avec son intention réelle.
Le problème de l’alignement est un miroir. La machine fait ce que vous avez spécifié. Si vous n’aimez pas le résultat, le problème est dans la spécification.
La charge d’articulation
Voici la partie que je trouve la plus convaincante dans le cadre de Christian, et la partie qui se connecte le plus directement à mon propre travail en psychologie organisationnelle.
Le problème de l’alignement crée une charge d’articulation — l’exigence de rendre explicite ce qui a toujours été implicite. Cette charge tombe sur les humains, pas sur la machine. La machine ne se soucie pas de savoir si vous pouvez articuler vos valeurs. Elle suivra n’importe quelle spécification qu’on lui donne. La conséquence d’une mauvaise spécification tombe entièrement sur le spécificateur.
Pour les organisations, la charge d’articulation est significative parce que la plupart du savoir organisationnel est tacite. La distinction de Michael Polanyi entre savoir tacite (ce que nous savons mais ne pouvons pas exprimer) et savoir explicite (ce que nous pouvons énoncer et codifier) s’applique directement. L’agent de service client expérimenté qui « sait tout simplement » comment gérer un client difficile opère sur un savoir tacite — de la reconnaissance de schémas construite à partir de milliers d’interactions, affinée par le retour, et stockée sous une forme qui résiste à l’articulation.
Quand l’outil IA doit reproduire ce jugement, le savoir tacite doit devenir explicite. « Gérer les clients difficiles correctement » doit devenir « Quand un client exprime de la frustration, reconnaître l’émotion avant d’adresser le problème. Quand un client menace de partir, vérifier son historique de compte et, s’il est client depuis plus de deux ans, proposer le niveau B de remise de rétention. » La spécificité requise est épuisante. L’agent d’origine n’a jamais pensé en ces termes. Il « savait tout simplement ».
La charge d’articulation est le coût caché du déploiement IA. Pas la licence. Pas le coût de calcul. Pas l’ingénierie d’intégration. L’effort cognitif et organisationnel de rendre explicite ce qui a toujours été implicite — et de découvrir, dans le processus, que le savoir implicite était moins cohérent, moins constant et moins aligné que quiconque ne le supposait.
Le test du mardi matin
Je reviens toujours à un test que j’applique à chaque question d’alignement IA que je rencontre : le test du mardi matin. Oubliez la philosophie. Oubliez les articles de recherche. Oubliez la discussion abstraite sur les valeurs. C’est mardi matin. Une personne spécifique est assise à un bureau spécifique avec une tâche spécifique. L’outil IA est ouvert. La personne tape une requête. L’outil répond.
La réponse est-elle ce dont la personne avait besoin ?
La réponse dépend de si la spécification de l’outil a capturé ce dont la personne a réellement besoin — ce qui dépend de si l’organisation a articulé ce qu’elle valorise réellement — ce qui dépend de si l’organisation sait ce qu’elle valorise réellement.
Le mardi matin, le problème de l’alignement ne concerne pas la machine. Il concerne le responsable des achats qui a besoin que l’outil comprenne que « urgent » signifie « le client a mentionné notre concurrent » — une définition qui n’existe dans aucune spécification, aucune donnée d’entraînement et aucun document de politique, mais qui est la réalité opérationnelle de la définition de l’urgence pour cette équipe.
La machine ne peut pas savoir cela à moins qu’un humain ne l’articule. Et l’humain ne l’a jamais articulé parce que, jusqu’à l’arrivée de la machine, personne n’a posé la question.
Le processus d’alignement organisationnel
À quoi ressemble ce travail concrètement ? Aligner l’organisation avant d’essayer d’aligner l’outil ?
Phase 1 : Faire remonter l’implicite. Rassemblez les personnes qui utiliseront l’outil et demandez-leur de définir, indépendamment, ce à quoi « bon » ressemble pour la sortie de l’outil. Ne discutez pas d’abord — l’articulation indépendante prévient le biais de conformité. Comparez les définitions. La divergence est la donnée. Là où les définitions sont en désaccord, c’est là que le travail d’alignement commence.
Phase 2 : Nommer les conflits. Là où les définitions implicites se contredisent, nommez la contradiction. Pas « nous avons des perspectives différentes » (c’est un euphémisme pour l’évitement du conflit). Nommez le conflit spécifique : « Vous définissez l’urgence par la valeur client. Vous définissez l’urgence par le risque SLA. Ces définitions produisent des classifications différentes pour le même ticket. Quelle définition l’outil utilise-t-il ? »
Phase 3 : Décider de la hiérarchie. Pour chaque conflit, prenez une décision. Pas un consensus (le consensus est souvent un refus de décider). Une décision. « Pour les besoins de la classification, l’urgence est définie par le risque de dépassement SLA. La valeur client est un facteur secondaire présenté à l’agent mais non utilisé pour le routage. » La décision peut être fausse. Elle est quand même plus utile que l’ambiguïté, parce qu’une mauvaise décision peut être identifiée et corrigée. L’ambiguïté ne peut pas être corrigée — elle persiste jusqu’à ce que quelqu’un la confronte.
Phase 4 : Spécifier les proxies. Pour chaque valeur que l’outil est censé optimiser, définissez le proxy et reconnaissez ses limites. « Nous mesurons la qualité par le score de satisfaction client. Nous savons que ce proxy ne capture pas la santé relationnelle à long terme. Nous le compléterons par un examen trimestriel des taux de rétention client parmi les tickets traités par l’outil. » Le proxy est un compromis. Nommez-le comme tel.
Phase 5 : Itérer. La première spécification sera fausse. Pas catastrophiquement fausse — pratiquement fausse. L’outil produira des sorties techniquement alignées avec la spécification mais mal alignées avec l’intention. Chaque mauvais alignement est une leçon en clarté de spécification. Utilisez-la pour affiner.
L’alignement continu
L’alignement n’est pas une activité ponctuelle. Il est continu — parce que les valeurs, les priorités et le contexte opérationnel de l’organisation changent avec le temps.
La spécification qui était correcte en janvier peut être mal calibrée en juin. La base de clients a changé. L’environnement réglementaire a évolué. La composition de l’équipe s’est transformée. La définition d’« urgent » qui fonctionnait il y a six mois ne capture plus la réalité opérationnelle actuelle.
Ce désalignement progressif est une caractéristique de la vie organisationnelle, pas un échec de la spécification. Les organisations sont des systèmes dynamiques. Leurs valeurs et priorités sont en flux continu. La spécification — qui est statique — s’éloigne de la réalité — qui est dynamique.
Dans les opérations traditionnelles, cette dérive est absorbée par le jugement humain. L’agent de service client qui est dans l’équipe depuis trois ans ajuste implicitement sa définition d’« urgent » à mesure que le contexte change. Il ne réécrit pas la politique. Il ajuste sa pratique. L’ajustement est invisible, graduel et efficace.
L’outil IA n’ajuste pas implicitement. Il suit la spécification. Si la spécification s’éloigne de la réalité, les sorties de l’outil dérivent avec — toujours alignées avec la spécification, mais mal alignées avec l’intention.
La réponse opérationnelle : des revues d’alignement planifiées. Chaque trimestre, l’équipe qui utilise l’outil IA devrait revisiter la spécification : les définitions sont-elles encore exactes ? Les priorités ont-elles changé ? Y a-t-il de nouveaux cas limites que la spécification ne couvre pas ? La revue est courte — une heure. Le coût de ne pas la mener est l’accumulation graduelle de mauvais alignement, produisant des sorties techniquement correctes et opérationnellement fausses.
C’est le coût de maintenance de l’alignement. Pas de la maintenance technique. De la maintenance organisationnelle. Le travail de maintenir la spécification à jour avec la compréhension évolutive de l’organisation de ses propres valeurs.
L’intégration
Brian Christian a écrit sur le problème de l’alignement comme un défi technique. Il l’est. Mais c’est aussi un défi humain — et le défi humain précède et subsume le défi technique.
Vous ne pouvez pas aligner une machine avec des valeurs que vous n’avez pas articulées. Vous ne pouvez pas articuler des valeurs que vous n’avez pas examinées. Vous ne pouvez pas examiner des valeurs dans un environnement où l’examen n’est pas sûr — ce qui nous ramène à la sécurité psychologique, aux structures d’incitations qui récompensent les valeurs déclarées plutôt que les valeurs pratiquées, à l’écart entre ce que les organisations disent et ce qu’elles font.
Le problème de l’alignement n’est pas un problème à résoudre. C’est une condition à gérer. L’écart entre l’intention et la spécification est permanent. Le mieux que vous puissiez faire est de le réduire — par l’articulation, par la résolution des conflits, par l’itération, et par l’humilité de reconnaître que le mode de défaillance le plus courant de la machine n’est pas de mal comprendre vos valeurs mais de les comprendre exactement telles que vous les avez spécifiées.
La machine est alignée. La question est de savoir si vous l’êtes.