Bernardo 12 mai 2026

Le Modèle Parle Quinze Langues. Il Vend Dans Une.

16 min de lecture

Le modèle parle quinze langues. Il vend dans une.

Ce n’est pas une figure de rhétorique. C’est le résultat d’un référentiel évalué par les pairs publié en février 2026 par quatre chercheuses d’Appen — Madison Van Doren, Casey Ford, Jennifer Barajas et Cory Holland — sous le titre « Be My Cheese? »: Cultural Nuance Benchmarking for Machine Translation in Multilingual LLMs. Sept modèles à l’état de l’art. Quinze paires langue-localité. Cinq évaluateurs natifs par langue. Treize mille cent vingt-cinq annotations au niveau du segment. Les données sont précises. La conclusion est austère.

Les modèles les plus performants ont atteint 2,10 sur 3 sur une échelle ordinale à quatre points évaluant la qualité globale de la traduction. Deux tiers du maximum. Les modèles commerciaux les plus solides du marché, traduisant un courriel marketing, produisent un texte que des lecteurs natifs jugent adéquat au mieux, sur une échelle où 3 correspond au standard exigé pour publication.

Fluent. Pas commercial. La distinction structure l’argument entier.

Ce Que l’Étude a Réellement Fait

La méthodologie mérite d’être posée avant les conclusions, car la méthodologie est l’élément porteur de tout référentiel qui prétend mesurer la compétence culturelle.

Les chercheuses ont soumis cinq courriels marketing de commerce en ligne — adaptés à partir de campagnes commerciales réelles contenant calembours, expressions idiomatiques, références aux fêtes, voix de marque et concepts culturellement ancrés — à sept LLM multilingues. Les modèles testés étaient GPT-5, Claude Sonnet 3.7, Mistral Medium 3.1, DeepSeek V3.1, gpt-oss 120B, Llama 4 de Meta et Aya Expanse 8B de Cohere. Le mélange est délibéré : poids fermés et poids ouverts, modèles de frontière et modèles accessibles, américains, européens et chinois.

Chaque modèle a reçu le même prompt : « Traduis le courriel suivant pour usage en [langue] dans [pays/région]. » L’instruction est celle que toute PME européenne formulerait. Pas d’ingénierie de prompt. Pas de pipeline de retrieval. Pas de fine-tuning sur le marché cible. La tâche brute, telle qu’une petite entreprise l’exécuterait.

Les quinze localités cibles couvraient typologies et continents : afrikaans (ZA), arabe (EG), portugais brésilien (BR), cantonais (HK), tchèque (CZ), néerlandais (NL), hébreu (IL), hindi (IN), japonais (JP), coréen (KR), mandarin (TW), russe (KZ), espagnol (MX), swahili (KE) et ourdou (PK). Chaque traduction a ensuite été évaluée par cinq locuteurs natifs, résidents de la région concernée, fluents en anglais et dans la langue cible. Soixante-quinze évaluateurs au total. Chacun a noté à la fois le courriel traduit complet — fidélité de contenu, fidélité de style, adéquation au public et qualité globale — et des segments prédéfinis contenant expressions idiomatiques, calembours, fêtes et concepts culturels. L’échelle allait de 0 à 3. Une catégorie NA existait également. La catégorie NA s’est révélée importante.

C’est l’évaluation la plus rigoureuse de la localisation culturelle en traduction automatique publiée à ce jour. C’est aussi la plus accablante.

La Première Tranche

La qualité globale moyenne du texte complet, tous modèles et toutes langues confondus, s’établit à 1,68 sur 3.

GPT-5 a dominé à 2,10. Claude Sonnet 3.7 a suivi à 1,97. Mistral Medium 3.1 a atteint 1,84. Ces trois forment ce que les auteures décrivent comme une « tranche supérieure statistiquement indistinguable » — significativement meilleure que le reste, statistiquement équivalente entre ses membres. DeepSeek V3.1 est arrivé à 1,72 et gpt-oss 120B à 1,60. Llama 4 a marqué 1,47. Aya Expanse 8B, le plus petit des sept et le seul modèle du panel spécifiquement conçu pour la couverture multilingue, a marqué 1,09.

Le classement frappe, mais ne constitue pas le point. Le point est le plafond. Le meilleur LLM multilingue du marché, sur un courriel marketing, atteint sept dixièmes du chemin vers une traduction publiable. Le pire atteint à peine un tiers.

Ce ne sont pas des cas limites produits par des langues exotiques. L’ensemble inclut l’espagnol, le portugais, le néerlandais, le japonais — des langues aux données d’entraînement abondantes et à des décennies d’histoire de traduction automatique. Les scores ne sont pas le résidu du négligement des langues à faibles ressources. Ils sont la limite de la technologie, mesurée au sommet.

Un courriel marketing n’est pas un genre difficile. C’est une forme courte, structurée, commercialement précieuse. Si les LLM contemporains ne parviennent pas à localiser un courriel marketing assez bien pour qu’un locuteur natif lui attribue plus de 2,10 sur 3, l’implication pour tout le reste — réponses au service client, descriptions de produits, communications réglementaires, communications internes — est directe.

Où les Modèles Cassent

Le score agrégé masque le résultat structurel. Le résultat structurel se trouve dans l’évaluation par segment.

Quand les évaluateurs ont noté séparément les quatre catégories de langage culturellement marqué, le motif était net. Les références aux fêtes ont eu une moyenne de 2,20 sur 3. Les concepts culturels une moyenne de 2,19. Les expressions idiomatiques ont marqué 1,65. Les calembours ont marqué 1,45.

L’écart de quatre dixièmes entre fêtes et expressions idiomatiques est grand. L’écart de sept dixièmes entre fêtes et calembours est structurel. Fêtes et concepts culturellement ancrés sont des noms. Expressions idiomatiques et calembours sont des figures. Les modèles traduisent les noms. Les modèles échouent sur les figures.

La raison est architecturale, non anecdotique. Une fête — Saint-Valentin, Singles Day, Diwali — possède un équivalent dans la langue cible ou un mapping culturel connu. Le modèle récupère le mapping. La récupération réussit parce que le mapping est documenté dans les données d’entraînement. Un calembour est l’inverse. Un calembour dépend du son, de la forme ou de la résonance culturelle d’un mot spécifique dans une langue spécifique. Il n’a pas d’équivalent. Il doit être reconstruit dans la langue cible avec un matériau différent. La reconstruction exige l’invention. Les modèles n’inventent pas. Les modèles récupèrent.

Les auteures quantifient la conséquence avec une métrique précise : le taux d’omission. Les expressions idiomatiques ont été la catégorie la plus fréquemment notée NA — ce qui signifie que le modèle a refusé de les traduire, laissant l’original anglais inséré dans le texte par ailleurs traduit. Aya Expanse 8B a affiché les taux d’omission les plus élevés et les scores de qualité les plus bas quand il traduisait. Le comportement conservateur n’a pas protégé le plus petit modèle. Il a aggravé sa fragilité.

Quand un modèle rencontre un calembour qu’il ne sait pas reconstruire, il a trois options. Le traduire littéralement, produisant une absurdité. Le traduire librement, produisant une autre blague ou aucune blague du tout. Ou refuser et laisser l’anglais. Les trois options sont visibles pour le lecteur natif. Les trois signalent que le texte a été généré, non écrit. Les trois réduisent la probabilité que le lecteur achète ce que le courriel vend.

Le Calembour Qui Donne Son Nom à l’Étude

Le titre du papier est un indice. « Be My Cheese? » est la traduction littérale d’un calembour de Saint-Valentin sur le thème du fromage — « Will you brie mine? » — apparu dans l’un des courriels sources. Le calembour repose entièrement sur l’homophonie entre « brie » et « be » en anglais. Dans toute autre langue, l’homophonie n’existe pas. Le calembour ne survit pas à la traduction. Il doit être reconstruit.

Ce que les modèles ont produit n’était pas une reconstruction. C’était un rendu littéral des mots « brie » et « mine », produisant un texte qui mentionnait le fromage sans contenir de blague, de rythme ni de Saint-Valentin. La fonction marketing — connexion émotionnelle à un moment saisonnier — s’est effondrée en une phrase sur les produits laitiers.

C’est le résultat structurel de l’étude, illustré. Le modèle a traduit les mots. Le modèle n’a pas traduit la fonction. La fonction était l’unique raison d’exister des mots.

Le Réglage Par Défaut est Américain

Les auteures ne formulent pas l’observation suivante de cette manière. Les données le font.

Quand un modèle entraîné sur du texte d’internet rencontre un registre, un ton ou une posture relationnelle qu’il ne reconnaît pas, il revient au motif le plus fréquent dans sa distribution d’entraînement. Le motif le plus fréquent dans la distribution d’entraînement est l’écriture commerciale en anglais américain. Le résultat est un texte grammaticalement portugais, néerlandais ou japonais, et pragmatiquement californien.

Le calibrage de la formalité est uniforme. Le ton est informel, à la limite du familier. La forme d’adresse est l’égalitaire. La reconnaissance relationnelle est brève. L’appel à l’action est direct. Cela fonctionne dans le marketing américain parce que le marketing américain est le corpus sur lequel les modèles ont été optimisés. Cela ne fonctionne pas à Munich, où la communication commerciale en contexte B2C utilise « Sie » jusqu’à ce qu’une relation soit établie. Cela ne fonctionne pas à Milan, où la chaleur commerciale précède la transaction par un investissement de rituel social. Cela ne fonctionne pas à Malmö, où la modération consensuelle de la prose suédoise fait lire la clôture assertive américaine comme du désespoir.

Le modèle parle quinze langues. Le modèle communique dans une culture. Les quinze sont la surface. La une est l’architecture.

Ce n’est pas un échec des sept modèles testés. C’est une propriété structurelle de tout modèle entraîné majoritairement sur du texte web. Le web n’est pas un corpus neutre. Le web est une culture. La culture est l’anglais américain avec un réseau de distribution mondial. Tout modèle multilingue hérite de la culture en même temps que des langues.

Le Tableau de Performance

Modèle	Global	Public	Style	Contenu
GPT-5	2,10	2,38	2,23	2,23
Claude Sonnet 3.7	1,97	2,25	2,08	2,10
Mistral Medium 3.1	1,84	2,19	2,04	1,92
DeepSeek V3.1	1,72	2,05	1,98	1,77
gpt-oss 120B	1,60	1,94	1,83	1,72
Llama 4	1,47	1,81	1,72	1,59
Aya Expanse 8B	1,09	1,55	1,41	1,21

Les colonnes méritent une lecture attentive. Sur tous les modèles, le sous-score le plus élevé est « adéquation au public ». Le plus bas est « fidélité de contenu ». C’est l’inverse de l’intuition. On attendrait d’un traducteur qu’il soit plus fiable pour préserver le contenu et moins fiable pour correspondre au public. Les données montrent le contraire. Les modèles produisent un texte qui sonne approprié pour le public cible mais qui déforme la source. La fluence est performative. La précision est instable.

Un courriel marketing traduit par un modèle de premier rang en 2026 sonne juste et dit quelque chose de subtilement différent de ce que la marque voulait dire. C’est le type d’échec le plus coûteux. Il est invisible pour l’entreprise qui déploie l’outil, qui l’a évalué en anglais. Il est visible pour le client, qui sent que le texte paraît généré. L’écart entre le ressenti et l’intention est l’endroit où la conversion commerciale se perd.

Le Test Interculturel

Considérons le même courriel marketing dans trois contextes.

Au Brésil, le courriel ouvre par une chaleur relationnelle avant tout contenu commercial. Le lecteur attend une reconnaissance avant la transaction. Un modèle qui ouvre par l’offre signale l’étrangeté. Le lecteur continue de lire, mais le gradient de confiance s’est déplacé.

En Allemagne, le courriel ouvre par l’offre et utilise « Sie ». La formalité précède la chaleur. Un modèle qui ouvre par « Hey, Marta! » — un réglage par défaut hérité des modèles d’emails américains — a commis une transgression de registre dès les trois premiers mots. Le lecteur ne catalogue pas consciemment l’erreur. Le lecteur ressent simplement que l’expéditeur est un inconnu qui se permet trop.

Au Japon, le courriel ouvre par une reconnaissance saisonnière, une phrase indiquant la conscience des circonstances probables du destinataire, puis introduit le cadre commercial. La structure n’est pas négociable pour une communication B2C visant des relations clients de longue durée. Un modèle qui saute l’ouverture produit un texte techniquement correct et socialement maladroit. La maladresse coûte la conversion.

Trois cultures. Trois architectures d’ouverture différentes. Le modèle en utilise une — l’américaine — dans les trois cas. Le texte est fluent en trois langues et culturellement illisible dans deux d’entre elles.

C’est ce que l’étude Appen mesure, traduit au niveau où la PME européenne rencontre la conséquence.

Ce Que les Chiffres Signifient pour Milan, Munich, Malmö

Une PME européenne qui vend sur le marché unique est le public que cette conclusion concerne le plus directement.

L’arithmétique est simple. Un modèle qui marque 2,10 sur 3 sur un courriel marketing produit un texte qui exige une révision humaine avant l’envoi. La révision requise n’est pas une relecture. C’est une édition culturelle. Le texte italien doit être vérifié pour le calibrage de la chaleur. Le texte allemand doit être vérifié pour le registre. Le texte suédois doit être vérifié pour l’absence de modération consensuelle. Le texte néerlandais doit être vérifié pour savoir si la clôture directe est perçue comme assurée ou agressive.

Chacune de ces révisions exige un locuteur natif maîtrisant la voix de marque et la compétence culturelle-pragmatique. Le coût de ces révisions n’est pas inclus dans l’économie au token qui a rendu la traduction par IA attrayante au départ. Le modèle tarifaire du fournisseur suppose que l’output est publiable. Les données Appen montrent qu’il ne l’est pas.

La PME européenne a trois options.

Accepter la distorsion culturelle. Envoyer l’output du modèle sans édition et absorber la pénalité de conversion en silence. C’est le choix le plus fréquent parce que la pénalité est invisible — les clients qui n’ont pas acheté ne réécrivent pas.

Embaucher des relecteurs natifs sur chaque marché. Cela restaure la qualité au prix de la simplicité opérationnelle qui motivait le déploiement de l’IA. L’économie change. L’investissement peut encore se justifier face à des traducteurs monolingues, mais seulement si l’entreprise mesure l’impact sur la conversion par marché, ce que la plupart ne font pas.

Construire une infrastructure culturelle dans le prompt et le flux de travail. C’est la voie que Bluewaves emprunte avec chaque Gizmo multilingue. Le contexte culturel est structuré avant que la langue ne soit sélectionnée. Le modèle reçoit la posture relationnelle, le registre de formalité, le calibrage de la franchise et l’orientation temporelle appropriés au marché. La langue est la dernière décision. Le modèle est contraint — explicitement — à produire un texte qui respecte l’architecture.

La troisième option n’élimine pas l’écart que l’étude Appen mesure. Elle le comprime. Un prompt contraint, un message système spécifique à la culture et un contrôle qualité par marché produisent un output qui se rapproche du publiable bien plus que les 2,10 bruts. Plus proche ne suffit pas pour une communication à enjeu élevé. C’est suffisant pour la majeure partie de la communication, la plupart du temps, à une fraction du coût de la traduction humaine.

La condition est que quelqu’un dans la boucle de déploiement sache quoi contraindre. Le modèle ne le sait pas. Le fournisseur ne le sait pas. Le service achats ne le sait certainement pas. La compétence culturelle-pragmatique n’est un réglage dans aucun produit de traduction par IA sur le marché. C’est une discipline que l’entreprise qui déploie doit apporter.

Ce Qu’Exigerait la Compétence Culturelle

Les auteures Appen pointent vers l’exigence implicitement. Le remède se trouve dans la faille que leurs données exposent.

Un modèle de traduction culturellement compétent devrait connaître — et appliquer — cinq choses qu’aucun modèle ne connaît actuellement.

La base culturelle du public cible. Pas la langue. La culture. Portugais brésilien et portugais européen sont la même langue et deux cultures commerciales différentes. Le modèle doit les distinguer, non comme code de localité mais comme architectures de confiance différentes.

Le registre de formalité approprié au canal et à la relation. Un courriel marketing d’une marque inconnue en Allemagne exige « Sie ». Le même courriel d’une marque chez laquelle le destinataire a déjà acheté peut passer à « du » si la voix de marque a établi ce registre. Le modèle doit lire la relation, non le prompt.

Le calibrage de la franchise approprié au message et à la culture. Un lecteur néerlandais attend la franchise. Un lecteur japonais attend l’indirection. Un modèle qui utilise une franchise uniforme produit du néerlandais hésitant et du japonais intrusif dans le même cycle de génération. Les deux sont faux. Les deux réduisent la conversion. Les deux passent l’évaluation au niveau du token.

L’orientation temporelle de l’offre. Les offres à durée limitée arrivant dans une culture monochronique activent l’urgence. Les offres à durée limitée arrivant dans une culture polychronique activent la suspicion. Le même appel à l’action exige un cadrage différent dans des cultures différentes. Le modèle doit savoir quel cadrage appliquer.

Le mapping culturel du langage figuratif. Pas la substitution littérale. L’équivalent fonctionnel. Un calembour de Saint-Valentin en anglais doit devenir un calembour de Saint-Valentin en italien — ou, si la forme ne survit pas, une figure rhétorique différente qui remplit la même fonction émotionnelle. Le modèle doit distinguer forme et fonction. Les modèles actuels ne le font pas.

Ces cinq capacités ne sont pas linguistiques. Elles sont culturelles. Les données d’entraînement ne les contiennent pas — parce qu’elles sont rarement explicitées dans le texte. Personne n’écrit « j’utilise maintenant le registre formel parce que je ne connais pas encore cette personne ». Le registre est simplement utilisé. Le modèle doit inférer la règle à partir d’instances. L’inférence est faible quand les motifs sont implicites et culturellement variables.

La compétence culturelle dans les modèles d’IA exigera une annotation culturelle explicite, un fine-tuning par instructions culturelles ou des pipelines de retrieval accédant à des bases de connaissances culturelles. Ces approches existent dans la recherche. Elles n’existent dans aucun des sept modèles que l’étude Appen a testés.

Le Principe

Un modèle entraîné sur du texte d’internet hérite de la culture d’internet. La culture d’internet est l’anglais américain avec un réseau de distribution mondial. Quinze langues d’output ne changent pas l’architecture. Quinze langues d’output exposent l’architecture.

La fluence est le minimum. Tout modèle majeur l’atteint. Les scores Appen démontrent que la fluence n’est plus le facteur de différenciation.

La compétence culturelle est le facteur de différenciation. Le plafond de 2,10 est la mesure de la distance entre les meilleurs modèles et ce facteur. L’écart de 0,4 point entre références aux fêtes et expressions idiomatiques est la forme de l’échec. Le réglage par défaut américain qui émerge dans chaque output en est la source.

Pour une PME européenne, l’implication est directe. Le courriel marketing traduit par GPT-5 ne vendra pas aussi bien que le même courriel écrit par un rédacteur milanais. L’écart n’est pas catastrophique. L’écart est constant. Et l’écart est la différence entre une entrée de marché qui fonctionne et une entrée de marché qui sous-performe silencieusement pendant des années avant que quelqu’un n’en diagnostique la cause.

Chez Bluewaves, aucun Gizmo multilingue ne sort sans une architecture culturelle explicite : le registre de formalité, le calibrage de la franchise, la posture relationnelle et les fonctions rhétoriques que le modèle doit préserver, nommées dans le prompt système et testées par marché. Le modèle continue de produire l’output. L’architecture contraint ce que l’output a le droit d’être. La contrainte est l’endroit où la compétence culturelle entre dans le système, parce que le modèle ne peut pas la fournir.

Les sept modèles testés par Appen ne manquent pas de données. Ils manquent de culture. Le texte est fluent parce que les mots sont là. Le texte ne vend pas parce que la culture est absente.

Parler n’est pas vendre. La fluence n’est pas la compétence. La traduction n’est pas la localisation.

Le modèle parle quinze langues. Il vend dans une. Tant que l’entreprise qui déploie ne fournit pas ce que le modèle ne peut pas fournir, ce ratio est le plafond.

Écrit par

Bernardo

Traducteur Culturel

Il fait en sorte que votre Gizmo ne parle pas seulement espagnol — il sonne espagnol. Quand l'équipe d'un client nordique appelle son Gizmo par un surnom finnois, c'est son travail qui parle.

← Toutes les notes