Het Model Spreekt Vijftien Talen. Het Verkoopt in Eén.
Het model spreekt vijftien talen. Het verkoopt in één.
Dit is geen retorische figuur. Dit is de uitkomst van een peer-reviewed benchmark, gepubliceerd in februari 2026 door vier Appen-onderzoekers — Madison Van Doren, Casey Ford, Jennifer Barajas en Cory Holland — onder de titel “Be My Cheese?”: Cultural Nuance Benchmarking for Machine Translation in Multilingual LLMs. Zeven state-of-the-art modellen. Vijftien taal-locatieparen. Vijf moedertaalbeoordelaars per taal. Dertienduizend honderdvijfentwintig segmentannotaties. De data zijn precies. De conclusie is sober.
De best presterende modellen haalden 2,10 op 3 op een ordinale schaal van vier punten voor de totale vertaalkwaliteit. Twee derde van het maximum. De sterkste commerciële modellen op de markt produceren bij het vertalen van een marketing-e-mail tekst die moedertaalsprekers in het beste geval als adequaat beoordelen — op een schaal waar 3 de norm is voor een publiceerbare vertaling.
Vloeiend. Niet commercieel. Dat onderscheid draagt het hele betoog.
Wat de Studie Precies Deed
De methodologie verdient het om voor de conclusies te staan, want de methodologie is het dragende element van elke benchmark die culturele competentie wil meten.
De onderzoekers boden zeven meertalige LLM’s vijf e-commerce marketing-e-mails aan — bewerkt uit echte commerciële campagnes en met woordspelingen, idiomen, feestdagverwijzingen, merkstem en cultureel verankerde begrippen. De geteste modellen waren GPT-5, Claude Sonnet 3.7, Mistral Medium 3.1, DeepSeek V3.1, gpt-oss 120B, Llama 4 van Meta en Aya Expanse 8B van Cohere. De mix is bewust: gesloten en open weights, frontier en toegankelijk, Amerikaans, Europees en Chinees.
Elk model kreeg dezelfde prompt: “Vertaal de volgende e-mail voor gebruik in [taal] in [land/regio].” De instructie is de instructie die elk Europees mkb-bedrijf zou geven. Geen prompt engineering. Geen retrieval-pipeline. Geen fine-tuning op de doelmarkt. De ruwe taak, zoals een klein bedrijf die zou uitvoeren.
De vijftien doelregio’s bestreken typologieën en continenten: Afrikaans (ZA), Arabisch (EG), Braziliaans Portugees (BR), Kantonees (HK), Tsjechisch (CZ), Nederlands (NL), Hebreeuws (IL), Hindi (IN), Japans (JP), Koreaans (KR), Mandarijn (TW), Russisch (KZ), Spaans (MX), Swahili (KE) en Urdu (PK). Elke vertaling werd vervolgens beoordeeld door vijf moedertaalsprekers — woonachtig in de relevante regio, vloeiend in zowel Engels als de doeltaal. Vijfenzeventig beoordelaars in totaal. Elk gaf zowel een score voor de volledige vertaalde e-mail — op inhoudstrouw, stijltrouw, geschiktheid voor het publiek en algehele kwaliteit — als voor vooraf bepaalde segmenten met idiomen, woordspelingen, feestdagen en culturele begrippen. De schaal liep van 0 tot 3. Er was ook een NA-categorie. De NA-categorie bleek ertoe te doen.
Dit is de strengste gepubliceerde evaluatie van culturele lokalisatie in automatische vertaling tot nu toe. Het is ook de meest vernietigende.
De Kopgroep
De gemiddelde totale tekstkwaliteit, over alle modellen en talen heen, was 1,68 op 3.
GPT-5 leidde met 2,10. Claude Sonnet 3.7 volgde met 1,97. Mistral Medium 3.1 haalde 1,84. Die drie vormden wat de auteurs een “statistisch ononderscheidbare kopgroep” noemen — significant beter dan de rest, statistisch gelijkwaardig aan elkaar. DeepSeek V3.1 kwam op 1,72 en gpt-oss 120B op 1,60. Llama 4 scoorde 1,47. Aya Expanse 8B, het kleinste van de zeven en het enige model in de set dat specifiek voor meertalige dekking is ontworpen, scoorde 1,09.
De rangorde is opvallend, maar niet het punt. Het punt is het plafond. Het beste meertalige LLM op de markt komt bij een marketing-e-mail zeven tienden ver in de richting van een publiceerbare vertaling. Het slechtste haalt amper een derde.
Dit zijn geen randgevallen door exotische talen. De set bevat Spaans, Portugees, Nederlands, Japans — talen met overvloedige trainingsdata en tientallen jaren machinevertalingsgeschiedenis. De scores zijn niet het restje van verwaarloosde talen met weinig bronnen. Ze zijn de grens van de technologie, gemeten aan de top.
Een marketing-e-mail is geen moeilijk genre. Het is een korte, gestructureerde, commercieel waardevolle vorm. Als hedendaagse LLM’s er niet in slagen een marketing-e-mail goed genoeg te lokaliseren om door een moedertaalspreker boven 2,10 op 3 te worden beoordeeld, is de implicatie voor al het andere — antwoorden van de klantenservice, productbeschrijvingen, regelgevende mededelingen, interne communicatie — direct.
Waar de Modellen Breken
De totaalscore verbergt de structurele bevinding. De structurele bevinding zit in de segmentresultaten.
Toen de beoordelaars de vier categorieën cultureel gemarkeerde taal apart scoorden, was het patroon scherp. Feestdagverwijzingen kwamen gemiddeld op 2,20 op 3. Culturele begrippen gemiddeld op 2,19. Idiomen scoorden 1,65. Woordspelingen scoorden 1,45.
Het verschil van vier tienden tussen feestdagen en idiomen is groot. Het verschil van zeven tienden tussen feestdagen en woordspelingen is structureel. Feestdagen en cultureel verankerde begrippen zijn zelfstandige naamwoorden. Idiomen en woordspelingen zijn stijlfiguren. Modellen vertalen zelfstandige naamwoorden. Modellen falen op stijlfiguren.
De reden is architectonisch, niet anekdotisch. Een feestdag — Valentijnsdag, Singles Day, Diwali — heeft een equivalent in de doeltaal of een bekende culturele mapping. Het model haalt de mapping op. De ophaling slaagt omdat de mapping in de trainingsdata is gedocumenteerd. Een woordspeling is het omgekeerde. Een woordspeling hangt af van het geluid, de vorm of de culturele resonantie van een specifiek woord in een specifieke taal. Ze heeft geen equivalent. Ze moet in de doeltaal worden gereconstrueerd met ander materiaal. Reconstructie vereist uitvinding. Modellen vinden niets uit. Modellen halen op.
De auteurs kwantificeren het gevolg met een concrete maatstaf: omissiegraad. Idiomen waren de categorie die het vaakst als NA werd beoordeeld — wat betekent dat het model weigerde ze te vertalen en het Engelse origineel in de verder vertaalde tekst liet staan. Aya Expanse 8B liet de hoogste omissiegraden en de laagste kwaliteitsscores zien wanneer het wél vertaalde. Voorzichtig gedrag beschermde het kleinere model niet. Het versterkte de zwakte.
Wanneer een model een woordspeling tegenkomt die het niet kan reconstrueren, heeft het drie opties. Letterlijk vertalen en onzin produceren. Vrij vertalen en een andere grap of helemaal geen grap produceren. Of weigeren en het Engels laten staan. Alle drie de opties zijn zichtbaar voor de moedertaallezer. Alle drie signaleren dat de tekst is gegenereerd, niet geschreven. Alle drie verlagen de kans dat de lezer koopt wat de e-mail verkoopt.
De Woordspeling die het Artikel zijn Naam Geeft
De titel van het paper is een aanwijzing. “Be My Cheese?” is de letterlijke vertaling van een Valentijnsdagwoordspeling rond kaas — “Will you brie mine?” — die in een van de bron-e-mails verscheen. De woordspeling rust volledig op de homofonie tussen “brie” en “be” in het Engels. In elke andere taal bestaat die homofonie niet. De woordspeling overleeft de vertaling niet. Ze moet worden gereconstrueerd.
Wat de modellen produceerden, was geen reconstructie. Het was een letterlijke weergave van de woorden “brie” en “mine” — een tekst die kaas noemde, maar geen grap, geen ritme en geen Valentijnsdag bevatte. De marketingfunctie — emotionele verbinding met een seizoensmoment — viel uiteen tot een zin over zuivel.
Dit is de structurele bevinding van de studie, geïllustreerd. Het model vertaalde de woorden. Het model vertaalde de functie niet. De functie was de enige reden dat de woorden bestonden.
De Standaard is Amerikaans
De auteurs formuleren de volgende observatie niet zo. De data wel.
Wanneer een model dat is getraind op internettekst een register, een toon of een relationele houding tegenkomt die het niet herkent, valt het terug op het meest voorkomende patroon in zijn trainingsdistributie. Het meest voorkomende patroon in de trainingsdistributie is Amerikaans-Engels commercieel schrijven. Het resultaat is tekst die grammaticaal Portugees, Nederlands of Japans is, en pragmatisch Californisch.
De formaliteitskalibratie is uniform. De toon is informeel, grenzend aan vertrouwelijk. De aanspreekvorm is de egalitaire. De relationele erkenning is kort. De call-to-action is direct. Dat werkt in Amerikaanse marketing omdat Amerikaanse marketing het corpus is waarop de modellen zijn geoptimaliseerd. Het werkt niet in München, waar commerciële communicatie in B2C-context “Sie” gebruikt totdat er een relatie is opgebouwd. Het werkt niet in Milaan, waar commerciële warmte de transactie voorafgaat aan een investering in sociaal ritueel. Het werkt niet in Malmö, waar de consensgerichte gematigdheid van Zweeds proza de assertieve Amerikaanse afsluiting als wanhoop laat lezen.
Het model spreekt vijftien talen. Het model communiceert in één cultuur. De vijftien zijn het oppervlak. De ene is de architectuur.
Dit is geen falen van de zeven geteste modellen. Het is een structurele eigenschap van elk model dat overwegend op webteksten is getraind. Het web is geen neutraal corpus. Het web is een cultuur. De cultuur is Amerikaans-Engels met een wereldwijd distributienetwerk. Elk meertalig model erft de cultuur samen met de talen.
De Prestatietabel
| Model | Totaal | Publiek | Stijl | Inhoud |
|---|---|---|---|---|
| GPT-5 | 2,10 | 2,38 | 2,23 | 2,23 |
| Claude Sonnet 3.7 | 1,97 | 2,25 | 2,08 | 2,10 |
| Mistral Medium 3.1 | 1,84 | 2,19 | 2,04 | 1,92 |
| DeepSeek V3.1 | 1,72 | 2,05 | 1,98 | 1,77 |
| gpt-oss 120B | 1,60 | 1,94 | 1,83 | 1,72 |
| Llama 4 | 1,47 | 1,81 | 1,72 | 1,59 |
| Aya Expanse 8B | 1,09 | 1,55 | 1,41 | 1,21 |
De kolommen verdienen zorgvuldige lezing. Over alle modellen is de hoogste subscore “geschiktheid voor publiek”. De laagste is “inhoudstrouw”. Dit is het omgekeerde van de intuïtie. Je zou verwachten dat een vertaler het meest betrouwbaar is in het bewaren van inhoud en het minst betrouwbaar in het matchen van het publiek. De data laten het tegenovergestelde zien. De modellen produceren tekst die passend klinkt voor het doelpubliek, maar de bron vervormt. De vloeiendheid is performatief. De nauwkeurigheid is onstabiel.
Een marketing-e-mail die in 2026 door een topmodel wordt vertaald, klinkt goed en zegt iets subtiel anders dan wat het merk bedoelde. Dat is het duurste type fout. Onzichtbaar voor het uitrollende bedrijf, dat het werktuig in het Engels heeft beoordeeld. Zichtbaar voor de klant, die merkt dat de tekst gegenereerd aanvoelt. De afstand tussen gevoel en bedoeling is waar de commerciële conversie verloren gaat.
De Interculturele Test
Dezelfde marketing-e-mail in drie contexten.
In Brazilië opent de e-mail met relationele warmte vóór enige commerciële inhoud. De lezer verwacht erkenning vóór transactie. Een model dat met het aanbod opent, signaleert vreemdheid. De lezer leest door, maar de vertrouwensgradient is verschoven.
In Duitsland opent de e-mail met het aanbod en gebruikt “Sie”. Formaliteit gaat aan warmte vooraf. Een model dat opent met “Hey, Marta!” — een standaardinstelling die het van Amerikaanse e-mailtemplates erft — heeft in de eerste drie woorden een registerovertreding begaan. De lezer catalogiseert de fout niet bewust. De lezer ervaart de afzender gewoon als een vreemde die zich te veel veroorlooft.
In Japan opent de e-mail met een seizoenserkenning, een zin die bewustzijn signaleert van de waarschijnlijke omstandigheden van de ontvanger, en introduceert pas dan het commerciële kader. De structuur is niet onderhandelbaar voor B2C-communicatie die op langetermijnklantrelaties is gericht. Een model dat de opening overslaat, produceert tekst die technisch correct en sociaal onhandig is. De onhandigheid kost de conversie.
Drie culturen. Drie verschillende openingsarchitecturen. Het model gebruikt er één — de Amerikaanse — in alle drie. De tekst is vloeiend in drie talen en cultureel onleesbaar in twee daarvan.
Dit is wat de Appen-studie meet, vertaald naar het niveau waarop het Europese mkb de gevolgen ervaart.
Wat de Cijfers Betekenen voor Milaan, München, Malmö
Een Europees mkb-bedrijf dat over de interne markt verkoopt, is het publiek dat deze bevinding het directst raakt.
De rekensom is simpel. Een model dat 2,10 op 3 scoort op een marketing-e-mail produceert tekst die menselijke revisie vereist voordat ze verzonden kan worden. De vereiste revisie is geen spellingscontrole. Het is cultureel redigeren. De Italiaanse tekst moet worden gecontroleerd op warmtekalibratie. De Duitse op register. De Zweedse op de afwezigheid van consensgerichte matiging. De Nederlandse op de vraag of de directe afsluiting overkomt als zelfverzekerd of agressief.
Elk van deze revisies vereist een moedertaalspreker met merkstem-vaardigheid en cultureel-pragmatische competentie. De kosten van deze revisies zitten niet in de tokeneconomie die AI-vertaling om te beginnen aantrekkelijk maakte. Het prijsmodel van de leverancier gaat ervan uit dat de output publiceerbaar is. De Appen-data laten zien dat dat niet zo is.
Het Europese mkb heeft drie opties.
De culturele vervorming accepteren. De modeloutput ongeredigeerd versturen en de conversieboete stil dragen. Dit is de meest gekozen optie omdat de boete onzichtbaar is — de klanten die niet kochten, schrijven niet terug.
Native revisoren inhuren in elke markt. Dit herstelt de kwaliteit, ten koste van de operationele eenvoud die het AI-traject in gang zette. De economie verschuift. De investering kan nog renderen ten opzichte van eentalige vertalers, maar alleen als het bedrijf de conversie-impact per markt meet, wat de meeste niet doen.
Culturele infrastructuur in de prompt en de workflow inbouwen. Dit is het pad dat Bluewaves bij elke meertalige Gizmo bewandelt. De culturele context wordt gestructureerd voordat de taal wordt geselecteerd. Het model krijgt de relationele houding, het formaliteitsregister, de directheidskalibratie en de temporele oriëntatie die bij de markt passen. De taal is de laatste beslissing. Het model wordt — expliciet — beperkt tot tekst die de architectuur respecteert.
De derde optie heft de afstand die de Appen-studie meet, niet op. Ze comprimeert hem. Een beperkte prompt, een cultuurspecifiek systeembericht en een kwaliteitscontrole per markt produceren output die dichter bij publiceerbaar zit dan de rauwe 2,10. Dichterbij is niet genoeg voor communicatie met hoge inzet. Het is wel genoeg voor het grootste deel van de communicatie, het grootste deel van de tijd, tegen een fractie van de kosten van menselijke vertaling.
De voorwaarde is dat iemand in de uitrolketen weet wat er beperkt moet worden. Het model weet het niet. De leverancier weet het niet. De inkoopafdeling weet het zeker niet. Cultureel-pragmatische competentie is in geen enkel AI-vertaalproduct op de markt een instelling. Het is een discipline die het uitrollende bedrijf moet meebrengen.
Wat Culturele Competentie Vereist
De Appen-auteurs wijzen impliciet naar de eis. Het remedie zit in de kloof die hun data blootleggen.
Een cultureel competent vertaalmodel zou vijf dingen moeten weten — en toepassen — die geen enkel huidig model weet.
De culturele basislijn van het doelpubliek. Niet de taal. De cultuur. Braziliaans Portugees en Europees Portugees zijn dezelfde taal en twee verschillende commerciële culturen. Het model moet ze onderscheiden, niet als locale code, maar als verschillende vertrouwensarchitecturen.
Het formaliteitsregister dat past bij het kanaal en de relatie. Een marketing-e-mail van een onbekend merk in Duitsland vereist “Sie”. Dezelfde e-mail van een merk waar de ontvanger al eerder kocht, kan naar “du” verschuiven als de merkstem dat register heeft vastgelegd. Het model moet de relatie lezen, niet de prompt.
De directheidskalibratie die past bij de boodschap en de cultuur. Een Nederlandse lezer verwacht directheid. Een Japanse lezer verwacht indirectheid. Een model dat uniforme directheid hanteert, produceert aarzelend Nederlands en opdringerig Japans in dezelfde generatiecyclus. Beide zijn fout. Beide verlagen de conversie. Beide slagen voor evaluatie op tokenniveau.
De temporele oriëntatie van het aanbod. Tijdelijke aanbiedingen die in een monochrone cultuur landen, activeren urgentie. Tijdelijke aanbiedingen die in een polychrone cultuur landen, activeren wantrouwen. Dezelfde call-to-action vereist een andere framing in verschillende culturen. Het model moet weten welke framing van toepassing is.
De culturele mapping van figuurlijke taal. Niet de letterlijke vervanging. Het functionele equivalent. Een Valentijnsdagwoordspeling in het Engels moet een Valentijnsdagwoordspeling in het Italiaans worden — of, als de vorm niet overleeft, een andere retorische zet die dezelfde emotionele functie vervult. Het model moet vorm en functie scheiden. De huidige modellen doen dat niet.
Deze vijf vermogens zijn geen talige vermogens. Het zijn culturele vermogens. De trainingsdata bevatten ze niet — omdat ze zelden expliciet in tekst worden gemaakt. Niemand schrijft “ik gebruik nu het formele register omdat ik deze persoon nog niet ken”. Het register wordt gewoon gebruikt. Het model moet de regel uit instanties afleiden. De afleiding is zwak wanneer de patronen impliciet en cultureel variabel zijn.
Culturele competentie in AI-modellen vereist expliciete culturele annotatie, culturele instructietuning of retrieval-pipelines die toegang hebben tot culturele kennisbanken. Deze benaderingen bestaan in onderzoek. Ze bestaan in geen van de zeven modellen die de Appen-studie testte.
Het Principe
Een model dat op internettekst is getraind, erft de cultuur van het internet. De cultuur van het internet is Amerikaans-Engels met een wereldwijd distributienetwerk. Vijftien talen aan output veranderen de architectuur niet. Vijftien talen aan output leggen de architectuur bloot.
Vloeiendheid is het minimum. Elk groot model haalt het. De Appen-scores tonen aan dat vloeiendheid niet meer het verschil maakt.
Culturele competentie maakt het verschil. Het plafond van 2,10 meet de afstand tussen de beste modellen en dat verschil. De afstand van 0,4 punt tussen feestdagverwijzingen en idiomen is de vorm van het falen. De Amerikaanse standaard die in elke output opduikt, is de bron ervan.
Voor een Europees mkb-bedrijf is de implicatie direct. De door GPT-5 vertaalde marketing-e-mail zal niet zo goed verkopen als dezelfde e-mail geschreven door een Milanese copywriter. De afstand is niet catastrofaal. De afstand is consistent. En de afstand is het verschil tussen een marktintrede die werkt en een marktintrede die jarenlang stilletjes onderpresteert voordat iemand de oorzaak diagnosticeert.
Bij Bluewaves verlaat geen meertalige Gizmo het huis zonder expliciete culturele architectuur: het formaliteitsregister, de directheidskalibratie, de relationele houding en de retorische functies die het model moet bewaren, benoemd in de systeemprompt en per markt getest. Het model produceert nog steeds de output. De architectuur bepaalt wat de output mag zijn. De beperking is waar culturele competentie het systeem binnenkomt, omdat het model haar niet kan leveren.
De zeven modellen die Appen testte komen geen data tekort. Ze komen cultuur tekort. De tekst is vloeiend omdat de woorden er zijn. De tekst verkoopt niet omdat de cultuur ontbreekt.
Spreken is niet verkopen. Vloeiendheid is geen competentie. Vertaling is geen lokalisatie.
Het model spreekt vijftien talen. Het verkoopt in één. Totdat het uitrollende bedrijf levert wat het model niet levert, is die verhouding het plafond.