Les modèles multilingues ne sont pas des modèles multiculturels
Les derniers modèles sont arrivés avec une affirmation familière. Plus de langues. Plus de maîtrise. Plus de benchmarks.
Les modèles majeurs revendiquent désormais la prise en charge de dizaines à plus de cent langues. Les pages marketing mettent en avant le chiffre. Le chiffre est impressionnant. Le chiffre est aussi sans rapport avec la question qui compte.
La question n’est pas : le modèle peut-il parler portugais ?
La question est : le modèle peut-il opérer dans la culture portugaise ?
La maîtrise linguistique n’est pas la compétence culturelle. Un modèle qui traduit l’anglais en portugais avec une grammaire parfaite, un vocabulaire précis et une formulation naturelle a atteint la maîtrise linguistique. Un modèle qui traduit les pratiques d’affaires anglaises en culture d’affaires portugaise — qui ajuste les registres de formalité, adapte les présupposés hiérarchiques, calibre les niveaux de franchise et respecte les attentes relationnelles de la communication d’affaires portugaise — a atteint la compétence culturelle.
Aucun modèle actuel ne fait le second.
Les cinq écarts
L’écart entre multilingue et multiculturel opère sur cinq dimensions spécifiques. Elles ne sont pas abstraites — elles sont observables dans chaque déploiement IA interculturel.
Écart 1 : Les registres de formalité
Chaque langue contient des registres de formalité — des niveaux de distance sociale encodés dans le vocabulaire, la grammaire et le ton. Les registres portent un sens culturel qui va bien au-delà de la politesse.
Le portugais a deux formes d’adresse principales : « tu » (informel) et « você » (formel, bien que moins formel que la troisième personne « o senhor/a senhora »). Le portugais européen utilise par défaut « você » dans la plupart des contextes professionnels. Le portugais brésilien utilise « você » universellement mais emploie « tu » dans certaines régions avec un niveau d’informalité qui n’a pas d’équivalent portugais.
L’allemand a « du » (informel) et « Sie » (formel). Le choix entre les deux est un contrat social. Utiliser « du » prématurément dans un contexte d’affaires allemand n’est pas une erreur grammaticale. C’est une transgression sociale — une violation du contrat implicite qui régit la distance professionnelle.
Le japonais a plusieurs niveaux de formalité — le keigo (langage honorifique) contient à lui seul trois sous-systèmes : sonkeigo (respectueux), kenjougo (humble) et teineigo (poli). Le choix entre eux dépend des positions sociales relatives du locuteur et de l’interlocuteur, du contexte de la conversation et de l’histoire relationnelle. Un chatbot qui utilise le teineigo (la forme polie la plus basique) quand le sonkeigo est attendu a commis une erreur sociale équivalente à un employé junior qui s’adresserait au PDG en l’appelant « mon pote ».
Les modèles d’IA actuels gèrent les registres de formalité comme une fonctionnalité de traduction : l’utilisateur sélectionne « formel » ou « informel », et le modèle ajuste son vocabulaire. C’est l’alphabet latin de la compétence culturelle — techniquement correct et structurellement insuffisant.
Les registres de formalité ne sont pas des paramètres. Ce sont des relations. Le registre correct n’est pas déterminé par un réglage de préférence. Il est déterminé par qui parle, qui écoute, de quoi on parle, et quelle histoire communicative existe entre les parties. Un modèle qui ne peut évaluer ces variables ne peut choisir le registre correct. Il ne peut que deviner — ou demander à l’utilisateur de choisir, ce qui est l’équivalent de demander « Quelle est votre importance ? » avant de commencer une conversation.
Écart 2 : Les présupposés hiérarchiques
Quand un modèle génère de la communication d’affaires, il fait des présupposés sur la hiérarchie. Ces présupposés sont invisibles parce qu’ils semblent naturels — à la personne dont la culture les partage.
Un outil d’IA générant un e-mail d’un chef d’équipe à un directeur de département en anglais utilise par défaut une communication égalitaire : directe, au prénom, de pair à pair. « Hi Sarah, I wanted to share the Q4 results and get your thoughts. »
La même communication en japonais nécessite un positionnement hiérarchique : reconnaissance de la position supérieure du destinataire, utilisation d’honorifiques appropriés, cadrage indirect de toute demande, et évitement soigneux de toute formulation qui pourrait être lue comme présumant l’égalité.
La même communication en portugais brésilien nécessite d’abord de la chaleur et une reconnaissance relationnelle — un échange personnel avant le contenu professionnel — mais avec plus de flexibilité sur la hiérarchie que le japonais et plus de formalité que l’anglais américain.
Le modèle peut traduire les mots. Il ne peut pas traduire la hiérarchie. L’e-mail parfaitement approprié en anglais est socialement mal calibré en japonais et relationnellement insuffisant en portugais brésilien.
Ce n’est pas un échec de traduction. C’est un échec d’architecture culturelle. Le modèle génère de la communication basée sur les normes de communication qu’il a apprises de ses données d’entraînement — des données majoritairement en anglais, avec des normes d’affaires majoritairement américaines. Quand il génère du texte dans d’autres langues, il traduit les mots en préservant l’architecture de communication américaine.
Le résultat : un texte en portugais parfaitement fluide qui sonne comme un Américain l’a écrit en portugais. C’est exactement ce qui s’est passé.
Écart 3 : Le calibrage de la franchise
La culture map d’Erin Meyer identifie un spectre de franchise dans la communication d’affaires — des Pays-Bas (extrêmement directs) au Japon (extrêmement indirect), la plupart des cultures se situant quelque part entre les deux.
Une culture de communication directe dit : « Cette proposition a trois problèmes. Les voici. »
Une culture de communication indirecte dit : « Cette proposition témoigne d’un travail soigné. Je me demande s’il n’y aurait pas des domaines où une réflexion supplémentaire pourrait renforcer l’analyse. »
Les deux phrases délivrent le même message : la proposition doit être révisée. L’encodage diffère. L’attente culturelle sur la manière de délivrer un feedback négatif diffère. Les conséquences sociales de la violation de l’attente diffèrent.
Les modèles d’IA actuels utilisent par défaut une franchise modérée — calibrée grossièrement sur l’anglais d’affaires américain, qui se situe au milieu du spectre de Meyer. Ce défaut est inoffensif pour les cultures modérément directes et offensant pour les deux extrêmes.
Pour un utilisateur néerlandais, la franchise modérée du modèle semble évasive. « Arrêtez de tergiverser. Qu’est-ce qui ne va pas ? »
Pour un utilisateur japonais, la franchise modérée du modèle semble brutale. L’évaluation négative est trop explicite. L’utilisateur s’attendait à ce que le modèle formule les problèmes comme des possibilités, pas comme des déficiences.
Le calibrage n’est pas une fonctionnalité linguistique. C’est une fonctionnalité culturelle. Et aucun modèle actuel ne calibre la franchise au contexte culturel de l’utilisateur.
Écart 4 : L’orientation temporelle
La manière dont une culture se rapporte au temps affecte la manière dont elle communique sur les plans, les échéances, les engagements et les priorités.
Dans les cultures monochroniques (Allemagne, Suisse, pays nordiques), le temps est linéaire. Les engagements sont séquentiels. Les échéances sont absolues. Un outil d’IA générant un plan de projet pour une équipe allemande doit produire une séquence stricte : la tâche 1 se termine avant que la tâche 2 ne commence, avec des dates spécifiques et aucune ambiguïté.
Dans les cultures polychroniques (la majeure partie de la Méditerranée, l’Amérique latine, une grande partie du Moyen-Orient), le temps est flexible. Des activités multiples se chevauchent. Les échéances sont des objectifs, pas des absolus. Les relations priment sur les plannings. Un outil d’IA générant un plan de projet pour une équipe brésilienne doit produire un cadre avec de la flexibilité — des jalons plutôt que des échéances, des parcours parallèles plutôt que des séquences strictes, et une reconnaissance explicite que le plan s’adaptera au fur et à mesure que le travail avance.
Quand un modèle multilingue génère un plan de projet en portugais, il traduit la structure temporelle de la tradition anglo-saxonne de gestion de projet — qui est monochronique, séquentielle et absolue sur les échéances. Le plan est linguistiquement portugais et culturellement anglo-saxon.
Un chef de projet brésilien recevant ce plan ne pense pas « l’orientation temporelle est fausse ». Il pense « ce plan est irréaliste ». Il peut même penser « cet outil ne comprend pas comment le travail se fait réellement ». Les deux évaluations sont correctes — de sa position culturelle.
Écart 5 : La priorité relationnelle
Dans les cultures orientées tâche (États-Unis, Allemagne, Pays-Bas), les interactions d’affaires commencent par la tâche. La relation se développe par le travail. On gagne la confiance en livrant des résultats.
Dans les cultures orientées relation (la majeure partie de l’Asie, l’Amérique latine, le Moyen-Orient, une grande partie de l’Europe du Sud), les interactions d’affaires commencent par la relation. La tâche ne peut avancer qu’une fois la relation établie. On gagne le droit de parler affaires en investissant dans la connexion personnelle d’abord.
Un outil d’IA est intrinsèquement orienté tâche. Le modèle d’interaction est : l’utilisateur présente une tâche, l’outil l’exécute. Pas de préambule relationnel. Pas de connexion personnelle. Pas d’investissement dans la relation avant la transaction.
Dans les cultures orientées tâche, c’est efficace. Dans les cultures orientées relation, c’est abrupt. L’outil qui saute la relation et passe directement à la tâche a violé le protocole culturel. La violation n’est pas consciente — l’utilisateur ne pense pas « cet outil a sauté la phase relationnelle ». L’utilisateur sent que l’interaction est froide, mécanique et peu fiable.
Le même sentiment, vécu par des millions d’utilisateurs dans les cultures orientées relation, s’agrège en un écart d’adoption mesurable.
Le problème structurel
Les cinq écarts partagent une cause structurelle : les modèles d’IA actuels sont entraînés majoritairement sur des données en anglais qui intègrent les normes culturelles de la langue anglaise. Quand ces modèles génèrent du texte dans d’autres langues, ils effectuent une traduction linguistique et une préservation culturelle — ils traduisent les mots en préservant les présupposés culturels de la langue source.
Le résultat est linguistiquement multilingue et culturellement monoculturel.
Un e-mail d’affaires portugais généré par un modèle multilingue se lit comme des mots portugais agencés selon les normes de communication américaines. La grammaire est correcte. Le vocabulaire est approprié. L’architecture culturelle — la hiérarchie, la formalité, la franchise, l’orientation temporelle, l’attente relationnelle — est américaine.
Ce n’est pas un bug. C’est une limitation architecturale. Le modèle a appris les normes de communication de ses données d’entraînement. Les normes de communication des données d’entraînement sont pondérées vers l’anglais américain. Le modèle généralise ces normes à toutes les langues parce qu’il n’a pas appris que les normes de communication sont culturellement variables.
Le modèle sait que le portugais utilise des mots différents de l’anglais. Le modèle ne sait pas que la culture portugaise utilise des règles de communication différentes de la culture américaine.
Ce que la compétence culturelle requiert
Un modèle d’IA culturellement compétent devrait connaître — et appliquer — cinq choses qu’aucun modèle actuel ne connaît :
Le contexte culturel de l’utilisateur. Pas sa langue. Sa culture. Un lusophone à Lisbonne a des attentes de communication différentes d’un lusophone à São Paulo. La langue est la même. La culture ne l’est pas.
Le registre de formalité approprié. Basé sur le contexte culturel de l’utilisateur, l’interaction spécifique (e-mail interne vs proposition client vs réponse client), et la relation entre les parties. Le registre n’est pas un paramètre. C’est un jugement.
Le niveau de franchise approprié. Basé sur le contexte culturel et l’objectif de communication spécifique. Le feedback positif en néerlandais doit être direct. Le feedback négatif en japonais doit être indirect. Le modèle devrait savoir quel calibrage appliquer sans qu’on le lui dise.
Le cadrage temporel approprié. Les plans, engagements et échéances doivent être cadrés selon l’orientation culturelle du public. Cadrage monochronique pour les cultures monochroniques. Cadrage polychronique pour les cultures polychroniques.
Le préambule relationnel approprié. Dans les cultures orientées relation, l’interaction doit commencer par une reconnaissance relationnelle. Dans les cultures orientées tâche, l’interaction doit commencer par la tâche. Le modèle devrait savoir lequel choisir.
Ces cinq capacités ne sont pas des capacités linguistiques. Ce sont des capacités culturelles. Elles nécessitent un type d’entraînement différent — pas sur plus de texte dans plus de langues, mais sur les systèmes culturels qui régissent comment le texte fonctionne dans différentes sociétés.
Le problème des données d’entraînement
La cause structurelle mérite un examen plus approfondi. Pourquoi les modèles multilingues utilisent-ils par défaut les normes culturelles américaines ?
La réponse est dans les données d’entraînement. Les grands modèles de langage sont entraînés sur du texte internet. Internet est majoritairement en anglais — selon certaines estimations, 55 à 60 % de tout le contenu web est en anglais. Le contenu en anglais est majoritairement d’origine et d’orientation culturelle américaines. Les données d’entraînement intègrent donc les modes de communication américains comme norme statistique.
Quand le modèle génère du texte en portugais, il a appris le vocabulaire et la grammaire portugais à partir de texte en portugais. Mais les patterns pragmatiques — comment formuler une demande, comment calibrer la formalité, comment signaler la hiérarchie — sont pondérés vers les patterns les plus courants dans les données d’entraînement. Les patterns les plus courants dans un corpus majoritairement américain sont les patterns de communication américains. Le modèle généralise ce pattern à d’autres langues parce qu’il a appris que le pattern « fonctionne » — au sens où il apparaît fréquemment dans du texte de qualité.
Ajouter plus de texte portugais aux données d’entraînement n’est pas la solution. Plus de texte portugais enseigne au modèle un meilleur vocabulaire et une meilleure grammaire portugais. Cela ne lui enseigne pas la pragmatique culturelle portugaise — parce que la pragmatique culturelle est rarement explicite dans le texte. Personne n’écrit « j’utilise maintenant le registre formel parce que mon interlocuteur est un collègue senior et c’est un contexte professionnel ». Le registre est simplement utilisé. Le modèle doit inférer les règles pragmatiques à partir du texte, et l’inférence est faible quand les patterns pragmatiques sont implicites et culturellement variables.
La compétence culturelle dans les modèles d’IA nécessitera une approche d’entraînement différente : annotation culturelle explicite, ajustement par instruction culturelle, ou systèmes augmentés par récupération qui accèdent à des bases de connaissances culturelles. Ces approches existent en recherche. Elles n’existent pas en production.
En attendant, chaque modèle multilingue génèrera du texte qui parle la langue et ignore la culture. Le problème n’est pas la capacité linguistique du modèle. Ce sont ses données d’entraînement culturel — c’est-à-dire que son entraînement culturel est absent.
La conséquence de marché
L’écart entre multilingue et multiculturel a une conséquence de marché. Les entreprises déployant des outils d’IA sur les marchés européens le vivent comme une variance d’adoption qui corrèle avec la distance culturelle.
Le même outil d’IA déployé dans l’UE produit des taux d’adoption différents dans différents pays. La variance corrèle plus fortement avec la distance culturelle par rapport au contexte de développement (typiquement l’anglais américain) qu’avec le PIB, le niveau de numérisation ou la sensibilisation à l’IA.
L’outil performe bien aux Pays-Bas, au Danemark et en Allemagne — des cultures de basse contexte, orientées tâche, avec une franchise modérée et une numérisation élevée. L’outil sous-performe au Portugal, en Espagne, en Italie et en Grèce — des cultures de contexte plus élevé, plus orientées relation, avec un contrôle de l’incertitude plus élevé. La capacité linguistique de l’outil est équivalente sur tous les marchés. Le calibrage culturel est uniforme — et uniformément américain.
L’écart d’adoption n’est pas expliqué par les facteurs conventionnels. Il est expliqué par l’écart culturel — la distance entre les présupposés culturels intégrés de l’outil et les attentes culturelles de l’utilisateur.
Le principe
Multilingue est un problème résolu. Les modèles parlent 95 langues. Les benchmarks s’améliorent à chaque version. La maîtrise est remarquable.
Multiculturel est un problème non résolu. Les modèles parlent 95 langues et communiquent dans une seule culture. Les présupposés culturels du contexte de développement — formalité américaine, franchise américaine, hiérarchie américaine, temporalité américaine, orientation tâche américaine — sont intégrés dans les modes de communication du modèle et exportés vers chaque marché.
L’écart entre multilingue et multiculturel est l’écart entre parler et comprendre. Entre traduire et communiquer. Entre déployer un outil sur un marché et servir un marché.
La langue est la surface. La culture est le système.
Les modèles ont maîtrisé la surface. Ils n’ont pas commencé le système.
Chez Bluewaves, chaque déploiement commence par le système culturel, pas par la langue. Quand nous déployons un outil d’IA pour un client portugais, nous ne commençons pas par le modèle de langue portugaise. Nous commençons par le contexte culturel portugais : les attentes de formalité, la priorité relationnelle, la tolérance à l’incertitude, l’orientation temporelle, les présupposés hiérarchiques. Nous concevons le mode d’interaction pour la culture. Puis nous déployons le modèle dans la langue.
La séquence compte. La langue est la dernière décision, pas la première. La culture est l’architecture. La langue est l’interface. Un architecte qui conçoit l’interface avant l’architecture produit un produit qui semble correct et se comporte mal.
Les modèles parlent 95 langues. Bluewaves opère dans huit cultures. La distinction est la discipline. La discipline est la différence entre un déploiement et un déploiement qui fonctionne.