Bernardo 31 mars 2026

La Malédiction du Multilingue

18 min de lecture

Chaque langue ajoutée à un modèle rend toutes les autres moins performantes.

Ce n’est pas une métaphore. C’est un phénomène mesuré. Google DeepMind l’appelle la malédiction du multilingue — et leur étude ATLAS, présentée à l’ICLR 2026, est la plus grande confirmation empirique à ce jour. Sept cent soixante-quatorze entraînements. Plus de quatre cents langues. Quarante-huit langues d’évaluation. Une matrice de transfert interlinguistique couvrant 1 444 paires de langues.

Les résultats sont précis. Pour prendre en charge deux fois plus de langues sans perte de performance, un modèle a besoin de 1,18 fois les paramètres et 1,66 fois les données d’entraînement. L’arithmétique est non négociable. La capacité est finie. Les langues se la disputent. Et la compétition n’est pas équitable.

Le Problème de Capacité

La malédiction du multilingue a été nommée pour la première fois par Alexis Conneau et ses collègues en 2020, dans leurs travaux sur XLM-R — le modèle de langage interlinguistique qui a démontré, pour la première fois, que le pré-entraînement multilingue pouvait approcher la performance monolingue. La découverte était paradoxale. Le même article qui prouvait que les modèles multilingues fonctionnaient prouvait aussi qu’ils comportaient une pénalité structurelle.

Le mécanisme est direct. Un modèle de langage dispose d’un nombre fixe de paramètres. Chaque paramètre est un emplacement pour de l’information apprise — vocabulaire, grammaire, sémantique, pragmatique, connaissances du monde. Un modèle monolingue anglais consacre tous ses paramètres à l’anglais. Un modèle bilingue anglais-français partage sa capacité. Un modèle entraîné sur cent langues divise la même ressource finie de cent façons.

La division n’est pas égale. L’anglais, avec son vaste corpus d’entraînement, consomme davantage de capacité. Les langues à faibles ressources reçoivent moins. Mais la contrainte est absolue : chaque langue ajoutée au modèle réduit l’allocation par langue. Le modèle devient plus large et plus superficiel simultanément.

L’intuition originale de Conneau était que ce compromis produit une courbe caractéristique. L’ajout des premières langues améliore la performance — en particulier pour les langues à faibles ressources, qui bénéficient du transfert interlinguistique. Un modèle swahili entraîné aux côtés de l’anglais est plus performant qu’un modèle swahili entraîné seul, parce que les structures syntaxiques et sémantiques de l’anglais se transfèrent. Mais au-delà d’un seuil, les rendements s’inversent. Chaque langue supplémentaire dégrade la performance de toutes les langues existantes. La capacité est saturée. L’interférence dépasse le transfert.

C’est la malédiction. Pas un défaut. Une propriété structurelle des architectures à capacité partagée.

Ce que l’ATLAS a Mesuré

L’étude ATLAS — Adaptive Transfer Scaling Laws — a fait ce qu’aucune étude précédente n’avait tenté à cette échelle. Elle a quantifié la malédiction à travers 774 expériences d’entraînement distinctes, allant de 10 millions à 8 milliards de paramètres, et a dérivé les premières lois de mise à l’échelle pratiques pour la conception de modèles multilingues.

Trois résultats comptent pour quiconque déploie de l’IA multilingue.

La taxe de mise à l’échelle est réelle mais modérée. Doubler le nombre de langues exige d’augmenter la taille du modèle d’un facteur 1,18 et les données d’entraînement totales d’un facteur 1,66. Les données par langue diminuent — chaque langue reçoit 83 pour cent de ce qu’elle recevrait dans un modèle prenant en charge moitié moins de langues. Le transfert positif entre langues apparentées compense partiellement, mais ne peut pas éliminer totalement la taxe de capacité.

Le transfert est asymétrique. La matrice de transfert interlinguistique — 38 langues évaluées par paires, produisant 1 444 interactions mesurées — révèle que la relation entre les langues est directionnelle. L’anglais, le français et l’espagnol sont ce que les chercheurs appellent des langues « largement utiles ». L’entraînement sur des données anglaises améliore la performance de dizaines d’autres langues. L’entraînement sur des données en yoruba n’améliore pas l’anglais. Le transfert s’écoule vers le bas — des langues à ressources élevées vers les langues à faibles ressources, des langues avec des corpus vastes et diversifiés vers les langues avec des corpus restreints et homogènes. Le flux inverse est négligeable.

Les familles linguistiques se regroupent. Les langues qui partagent des écritures et des structures grammaticales transfèrent plus efficacement. Les langues romanes s’entraident. Les langues germaniques s’entraident. Mais l’aide reste asymétrique au sein des familles. Le français aide le portugais plus que le portugais n’aide le français. Le mécanisme est la qualité des données : le français dispose d’un corpus web plus vaste et plus diversifié. Le modèle apprend des schémas de la source la plus riche et les applique à la plus pauvre.

L’implication est architecturale. Un modèle multilingue n’est pas une assemblée démocratique de langues. C’est une hiérarchie — avec l’anglais au sommet, les grandes langues européennes au milieu, et les langues à faibles ressources recevant la capacité restante après que les langues dominantes ont été servies.

La Confirmation de Chang

L’ATLAS n’est pas apparu isolément. Un an plus tôt, Tyler Chang et ses collègues ont publié « When Is Multilinguality a Curse? » à l’EMNLP 2024 — une étude couvrant plus de 10 000 entraînements sur 250 langues. Leurs conclusions anticipaient l’ATLAS sur toutes les dimensions significatives.

Les langues à faibles ressources bénéficient du pré-entraînement multilingue — jusqu’à un certain point. Le bénéfice équivaut à augmenter le jeu de données de la langue à faibles ressources de 33 pour cent au maximum. La similitude syntaxique des langues ajoutées détermine l’ampleur du transfert. Le chevauchement vocabulaire apporte un bénéfice supplémentaire marginal.

Les langues à ressources élevées performent moins bien dans toutes les configurations multilingues. Sans exception. L’anglais dans un modèle multilingue est toujours plus faible que l’anglais dans un modèle monolingue de même taille. La dégradation est constante, mesurable, et sans surprise — au sens où personne dans la communauté de recherche ne s’en étonne. La surprise, si elle existe, appartient aux praticiens qui déploient ces modèles sans comprendre le compromis qu’ils ont accepté.

La conclusion critique de l’étude de Chang : à mesure que les jeux de données augmentent, la malédiction s’intensifie. Des corpus d’entraînement plus grands ne résolvent pas le problème de capacité. Ils l’exposent. Plus de données par langue signifie plus de compétition pour les mêmes paramètres. La courbe de performance du modèle s’infléchit plus tôt et plus brutalement.

L’implication pour les systèmes en production est directe. Un modèle entraîné sur vingt langues avec des données abondantes montrera une dégradation par langue plus importante qu’un modèle entraîné sur vingt langues avec des données limitées. L’échelle amplifie la malédiction.

Les Preuves des Benchmarks

Les conclusions théoriques se traduisent en écarts de performance observables. MMLU-ProX — un benchmark multilingue publié à l’EMNLP 2025, couvrant 29 langues avec 11 829 questions identiques par langue — fournit la mesure la plus contrôlée de l’aspect concret de la malédiction.

Le modèle le plus performant a atteint 70,3 pour cent de précision en anglais. Le même modèle, sur les mêmes questions traduites en bengali, a atteint 52,7 pour cent. En swahili, 40,1 pour cent. L’écart entre l’anglais et la langue la moins performante : 30,2 points de pourcentage. Près de la moitié de la capacité anglaise du modèle, perdue.

Les langues européennes s’en sortent mieux que le bengali ou le swahili — mais elles ne s’en sortent pas bien. Le français, l’allemand et l’espagnol se regroupent dans une bande d’environ 5 à 10 points de pourcentage en dessous de l’anglais. Le portugais, le néerlandais et le suédois se situent plus bas encore. L’écart n’est pas catastrophique. Il est constant. Et il est structurel — le même écart apparaît dans tous les modèles testés, quelle que soit l’architecture, la procédure d’entraînement ou la capacité multilingue proclamée.

L’écart a une signification précise. Un modèle qui atteint 70 pour cent de précision sur des questions commerciales en anglais atteint environ 60 à 65 pour cent sur les mêmes questions en allemand et environ 55 à 60 pour cent en portugais. L’utilisateur portugais ne reçoit pas un service légèrement dégradé. Il reçoit un outil mesuralement moins performant — sur la même tâche, avec la même complexité, dans une langue que le modèle prétend prendre en charge.

Ce que la PME Européenne Vit

La recherche est abstraite. L’expérience ne l’est pas.

Prenons une entreprise de taille moyenne aux Pays-Bas — 200 employés, des opérations sur six marchés de l’UE. L’entreprise déploie un outil de service client alimenté par l’IA sur ses marchés : néerlandais, allemand, français, espagnol, portugais et anglais. La page marketing du fournisseur liste les six langues comme « prises en charge ». Le tarif est le même pour tous les marchés.

L’outil fonctionne bien en anglais. Les réponses sont précises, bien structurées et contextuellement appropriées. Les clients anglophones rapportent une satisfaction élevée.

En allemand, l’outil est visiblement plus faible. Les registres de formalité sont inconstants — l’outil utilise parfois du là où Sie est attendu. Le vocabulaire technique est parfois approximatif. Les réponses sont utilisables mais nécessitent davantage de relecture humaine.

En portugais, la dégradation est plus prononcée. L’outil génère un texte grammaticalement correct qui sonne comme une traduction. Les expressions idiomatiques sont à côté. La structure de la réponse suit des schémas anglais — directe, orientée vers la tâche, avec un préambule relationnel minimal — sur un marché où les attentes en matière de service client incluent la chaleur et la reconnaissance personnelle. Les clients lusophones ne déposent pas de plaintes sur la qualité de l’IA. Ils préfèrent tout simplement l’agent humain. Les chiffres d’adoption racontent l’histoire.

En néerlandais, l’outil fonctionne correctement, mais la petite taille du corpus d’entraînement en néerlandais fait qu’il hallucine parfois la terminologie ou produit des constructions qui sonnent comme du néerlandais belge plutôt que du néerlandais des Pays-Bas. La distinction compte. Un registre de formalité flamand déployé à Amsterdam est un signal subtil mais persistant d’étrangeté.

En suédois, le résultat est fonctionnel mais sommaire. Le modèle dispose de moins de données d’entraînement en suédois qu’en français ou en allemand. Les réponses sont plus courtes, moins nuancées, et recourent occasionnellement à la terminologie anglaise là où des équivalents suédois existent mais sont moins fréquents dans le corpus d’entraînement.

L’entreprise paie le même prix pour les six langues. L’entreprise reçoit six niveaux de capacité différents. La page marketing du fournisseur ne divulgue pas cette variance. L’étude ATLAS explique pourquoi la variance existe. Le fournisseur peut ne pas connaître l’explication. La variance existe quand même.

Ce n’est pas une défaillance du fournisseur. C’est une propriété structurelle de la technologie. La malédiction du multilingue est inscrite dans l’architecture. Chaque modèle qui revendique un support multilingue fournit un support inégal — l’inégalité suivant un schéma prévisible qui favorise l’anglais et pénalise tout le reste.

Le Problème de l’Asymétrie

L’asymétrie du transfert dans la matrice ATLAS mérite un examen plus approfondi, car ses implications dépassent la performance du modèle.

L’anglais, le français et l’espagnol sont les langues d’entraînement les plus bénéfiques pour les autres langues. Non pas parce qu’elles sont linguistiquement supérieures. Parce que le web — la source primaire de données d’entraînement — contient vastement plus de texte de haute qualité dans ces langues. L’anglais seul représente environ 55 à 60 pour cent du contenu web. Le français et l’espagnol contribuent substantiellement. L’allemand moins. Le portugais, le néerlandais et le suédois sont des contributeurs mineurs.

L’asymétrie crée une structure de subvention. Les langues à ressources élevées subventionnent les langues à faibles ressources par le transfert positif. Les données d’entraînement en anglais améliorent la performance en swahili. Les données d’entraînement en swahili n’améliorent pas la performance en anglais. La subvention ne coule que dans un sens.

Pour les langues européennes, la dynamique de subvention est plus nuancée. Le français subventionne le portugais — les deux sont des langues romanes partageant des structures syntaxiques et une portion significative de leur vocabulaire. Mais le portugais ne subventionne pas le français au même degré. La relation est asymétrique parce que les corpus d’entraînement sont asymétriques. Plus de texte français signifie plus de schémas à apprendre pour le modèle. Le modèle transfère ces schémas au portugais. Le transfert inverse est plus faible parce qu’il y a moins de schémas portugais à transférer.

La conséquence pratique : dans un modèle multilingue, la qualité du portugais dépend partiellement de la qualité des données en français. La qualité du néerlandais dépend partiellement de la qualité des données en allemand et en anglais. La qualité du suédois dépend partiellement de la qualité des données en danois, en norvégien et en anglais. Chaque langue plus petite se trouve en aval de ses parents plus grands.

La dépendance est invisible pour l’utilisateur final. Le client portugais qui interagit avec un chatbot ne sait pas que la capacité du chatbot en portugais est partiellement fonction de la quantité de données françaises dans le jeu d’entraînement. La dépendance est invisible pour le fournisseur aussi, sauf si le fournisseur a lu l’article ATLAS. La plupart ne l’ont pas lu.

Le Problème de la Divulgation

Eurostat a rapporté en décembre 2025 que 20 pour cent des entreprises de l’UE de dix employés ou plus utilisent des technologies d’intelligence artificielle. Le taux d’adoption a augmenté de 6,5 points de pourcentage en une seule année. Parmi les grandes entreprises, l’adoption dépasse 40 pour cent. Parmi les petites entreprises — le noyau de l’économie de l’UE — l’adoption se situe à environ 11 pour cent.

L’utilisation la plus courante de l’IA est l’analyse du langage écrit. La deuxième utilisation à la croissance la plus rapide est la génération de langage écrit et parlé. Ce sont précisément les applications où la malédiction du multilingue opère le plus directement.

Une PME de l’UE qui déploie un outil d’écriture IA sur plusieurs marchés déploie un outil comportant une inégalité linguistique structurelle. L’inégalité est une propriété structurelle du modèle. Elle n’est pas divulguée dans les supports marketing. Elle n’est pas quantifiée dans la documentation du fournisseur. Elle n’est pas traitée dans les accords de niveau de service.

Le Règlement européen sur l’IA — plus précisément l’Article 10 — exige que les systèmes d’IA à haut risque soient entraînés sur des données « pertinentes et suffisamment représentatives » au regard de la finalité prévue. La législation ne définit pas ce que « représentatif » signifie pour un déploiement multilingue. Elle ne spécifie pas de seuil minimal de performance par langue. Elle n’exige pas des fournisseurs qu’ils divulguent le différentiel de performance entre les langues prises en charge.

L’écart entre l’exigence réglementaire et la réalité technique est le problème de la divulgation. Un modèle qui prétend prendre en charge le portugais mais livre un résultat en portugais mesuralement inférieur à son résultat en anglais fait une affirmation qui est techniquement vraie et pratiquement trompeuse. Le portugais est pris en charge. Le portugais est aussi structurellement moins bon.

Personne ne divulgue cela. Ni les constructeurs de modèles, qui publient des benchmarks multilingues agrégés. Ni les fournisseurs, qui listent les langues prises en charge sans qualification de performance. Ni les services achats, qui évaluent l’outil en anglais et le déploient en six langues.

La malédiction du multilingue est un secret de polichinelle dans la communauté de recherche. C’est un fait inconnu dans la communauté des affaires. L’étude ATLAS, avec ses 774 entraînements et ses 1 444 paires de langues, a quantifié ce que les chercheurs savent depuis des années. La quantification n’a pas atteint les personnes qui en ont besoin.

L’Alternative Monolingue

L’étude ATLAS quantifie aussi quand les modèles monolingues surpassent les modèles multilingues — et le seuil est instructif.

Pour une langue disposant de données d’entraînement suffisantes, un modèle monolingue de même taille surpasse toujours un modèle multilingue. Le seuil de rentabilité dépend de la disponibilité des données de la langue. Pour l’anglais, un modèle monolingue est toujours meilleur. Pour le français et l’allemand, un modèle monolingue est meilleur au-dessus d’un seuil modéré de données. Pour les langues à faibles ressources avec des données limitées, le modèle multilingue reste supérieur — le transfert interlinguistique l’emporte sur la taxe de capacité.

L’implication pratique pour une PME de l’UE : si votre marché principal est germanophone, un modèle monolingue allemand surpassera la capacité allemande d’un modèle multilingue. Si vous opérez sur six marchés de l’UE, vous faites face à un choix. Déployer un modèle multilingue et accepter la dégradation par langue. Ou déployer six modèles monolingues et accepter le coût d’infrastructure.

La première option est moins chère. La seconde est meilleure. La plupart des entreprises choisissent la première option sans savoir qu’elles ont fait un compromis. La page marketing dit « prend en charge 95 langues ». La page marketing ne dit pas « prend en charge l’anglais à 100 pour cent de capacité et le portugais à 82 pour cent de capacité ».

Le choix n’est pas binaire. L’ajustement fin offre une voie intermédiaire — un modèle de base multilingue ajusté avec des données spécifiques à la langue peut récupérer une partie de la performance perdue. L’étude ATLAS conclut que l’ajustement fin est plus efficace en termes de calcul que le pré-entraînement à partir de zéro avec des budgets de tokens plus faibles, le pré-entraînement ne devenant avantageux que lorsque les données et le calcul dépassent un seuil dépendant de la langue.

Pour la plupart des PME de l’UE, l’ajustement fin est la voie réaliste. Mais l’ajustement fin requiert des données spécifiques à la langue, une évaluation spécifique à la langue et des normes de qualité spécifiques à la langue — rien de tout cela n’est inclus dans un déploiement multilingue standard.

L’Illusion Démocratique

Le langage marketing de l’IA multilingue est démocratique. « Prend en charge 95 langues. » L’implication : toutes les langues sont prises en charge également. La réalité : toutes les langues sont prises en charge inégalement, l’inégalité suivant les contours exacts du pouvoir linguistique mondial.

L’anglais, la langue d’Internet, de la publication académique, de la documentation technique, reçoit le plus de données d’entraînement et offre la meilleure performance. Le français, l’espagnol et l’allemand — les autres langues du web — suivent. Le portugais, le néerlandais, le suédois et le reste des 24 langues officielles de l’UE reçoivent progressivement moins.

Le schéma n’est pas arbitraire. Il reproduit la hiérarchie existante du pouvoir linguistique dans l’infrastructure numérique. Les langues bien représentées sur le web sont bien servies par l’IA. Les langues mal représentées sur le web sont mal servies par l’IA. Le modèle ne crée pas l’inégalité. Il en hérite — et la propage à chaque application construite sur lui.

Pour l’UE — une institution fondée sur le principe de l’égalité linguistique entre ses États membres — la malédiction du multilingue n’est pas seulement un problème technique. C’est une contradiction structurelle. L’UE impose que chaque citoyen puisse interagir avec les institutions de l’UE dans sa langue officielle. Les outils d’IA que les institutions et entreprises de l’UE déploient ne peuvent pas honorer ce mandat de manière égale. Les outils produisent une qualité anglaise en anglais, et une qualité dégradée pour tout le reste.

L’étude ATLAS rend cela mesurable. La matrice de transfert montre, avec une précision quantitative, qu’un modèle entraîné sur toutes les langues officielles de l’UE produira une qualité inégale dans ces langues. L’inégalité n’est pas une défaillance du modèle. C’est une propriété de l’architecture — et de l’écosystème de données qui l’alimente.

Ce que Cela Signifie pour le Constructeur

La malédiction du multilingue n’est pas un problème que des entreprises individuelles peuvent résoudre. L’architecture des modèles à capacité partagée produit une performance inégale par langue. C’est de la physique, pas de la politique.

Ce que les entreprises individuelles peuvent faire, c’est cesser de prétendre que l’inégalité n’existe pas.

Mesurer par langue. N’évaluez pas votre outil d’IA en anglais en supposant une performance équivalente en portugais. Testez chaque langue indépendamment. Mesurez la précision, la fluidité, l’adéquation du registre et l’accomplissement des tâches dans chaque langue que vous prétendez prendre en charge. La méthodologie du benchmark MMLU-ProX offre un modèle : des tâches identiques entre les langues, avec une notation par langue.

Divulguer par langue. Si votre outil produit 70 pour cent de précision en anglais et 58 pour cent en portugais, dites-le. La divulgation est inconfortable. L’alternative est un accord de niveau de service qui promet ce que la technologie ne peut pas fournir.

Investir par langue. L’ajustement fin sur des données spécifiques à la langue est l’atténuation la plus accessible. Il n’élimine pas la malédiction. Il en réduit l’impact. L’investissement doit être proportionnel à l’écart de performance — plus d’ajustement fin pour le portugais que pour le français, parce que l’écart est plus grand.

Concevoir pour la langue la plus faible. Si votre outil opère sur six marchés de l’UE, concevez l’expérience utilisateur pour la langue où le modèle performe le moins bien. Si le résultat en portugais nécessite une relecture humaine, intégrez la relecture humaine dans le flux de travail de tous les marchés — non pas comme un mécanisme de correction pour les langues « mineures », mais comme un standard d’assurance qualité qui respecte tous les utilisateurs également.

La malédiction du multilingue persistera aussi longtemps que les modèles partageront leur capacité entre les langues. Des modèles plus grands réduisent la malédiction mais ne l’éliminent pas. De meilleures données aident mais ne résolvent pas. Le problème est structurel. La réponse doit l’être aussi — non pas un déploiement multilingue unique, mais une infrastructure consciente des langues qui reconnaît, mesure et compense l’inégalité que l’architecture produit.

Ajouter une langue à un modèle coûte quelque chose à toutes les autres. Le coût est réel. Le coût est inégal. Et tant que ceux qui déploient ces modèles ne le comprendront pas, chaque outil d’IA « multilingue » sera une promesse tenue en anglais et rompue, par degrés, dans tout le reste.

Écrit par

Bernardo

Traducteur Culturel

Il fait en sorte que votre Gizmo ne parle pas seulement espagnol — il sonne espagnol. Quand l'équipe d'un client nordique appelle son Gizmo par un surnom finnois, c'est son travail qui parle.

← Toutes les notes