De Vloek van Meertaligheid
Elke taal die je aan een model toevoegt, maakt elke andere taal slechter.
Dit is geen metafoor. Het is een gemeten fenomeen. Google DeepMind noemt het de vloek van meertaligheid — en hun ATLAS-studie, gepresenteerd op ICLR 2026, is de grootste empirische bevestiging tot nu toe. Zevenhonderdvierenzeventig trainingsruns. Meer dan vierhonderd talen. Achtenveertig evaluatietalen. Een cross-linguistische transfermatrix over 1.444 taalparen.
De bevindingen zijn precies. Om twee keer zoveel talen te ondersteunen zonder prestatieverlies heeft een model 1,18 keer de parameters en 1,66 keer de trainingsdata nodig. De rekenkunde is niet onderhandelbaar. De capaciteit is eindig. Talen concurreren erom. En de concurrentie is niet eerlijk.
Het Capaciteitsprobleem
De vloek van meertaligheid werd voor het eerst benoemd door Alexis Conneau en collega’s in 2020, in hun werk aan XLM-R — het cross-linguistische taalmodel dat voor het eerst aantoonde dat meertalige pretraining de monolinguale prestatie kon benaderen. De bevinding was paradoxaal. Hetzelfde paper dat bewees dat meertalige modellen werkten, bewees ook dat ze met een structurele boete kwamen.
Het mechanisme is rechtlijnig. Een taalmodel heeft een vast aantal parameters. Elke parameter is een plek voor geleerde informatie — woordenschat, grammatica, semantiek, pragmatiek, wereldkennis. Een monolingaal Engels model wijdt al zijn parameters aan het Engels. Een tweetalig Engels-Frans model deelt zijn capaciteit. Een model dat op honderd talen is getraind, verdeelt dezelfde eindige bron op honderd manieren.
De verdeling is niet gelijk. Engels, met zijn enorme trainingscorpus, verbruikt meer capaciteit. Talen met weinig bronnen ontvangen minder. Maar de beperking is absoluut: elke taal die aan het model wordt toegevoegd, vermindert de toewijzing per taal. Het model wordt tegelijkertijd breder en oppervlakkiger.
Conneaus oorspronkelijke inzicht was dat deze afweging een karakteristieke curve produceert. De toevoeging van de eerste talen verbetert de prestatie — vooral voor talen met weinig bronnen, die profiteren van cross-linguistische transfer. Een Swahili-model dat samen met Engels wordt getraind, presteert beter dan een Swahili-model dat alleen wordt getraind, omdat Engelse syntactische en semantische patronen zich overdragen. Maar voorbij een drempel keren de opbrengsten om. Elke extra taal begint de prestatie op alle bestaande talen te verslechteren. De capaciteit is verzadigd. De interferentie overtreft de transfer.
Dit is de vloek. Geen bug. Een structurele eigenschap van architecturen met gedeelde capaciteit.
Wat ATLAS Meet
De ATLAS-studie — Adaptive Transfer Scaling Laws — deed wat geen eerdere studie op deze schaal had geprobeerd. Ze kwantificeerde de vloek over 774 afzonderlijke trainingsexperimenten, variërend van 10 miljoen tot 8 miljard parameters, en leidde de eerste praktische schalingswetten af voor het ontwerp van meertalige modellen.
Drie bevindingen zijn relevant voor iedereen die meertalige AI inzet.
De schalingsbelasting is reëel maar gematigd. Verdubbeling van het aantal talen vereist een vergroting van het model met een factor 1,18 en van de totale trainingsdata met een factor 1,66. De data per taal dalen — elke taal ontvangt 83 procent van wat ze zou ontvangen in een model dat half zoveel talen ondersteunt. De positieve transfer tussen verwante talen compenseert gedeeltelijk, maar kan de capaciteitsbelasting niet volledig opheffen.
De transfer is asymmetrisch. De cross-linguistische transfermatrix — 38 paarsgewijs geëvalueerde talen, 1.444 gemeten interacties — onthult dat de relatie tussen talen directioneel is. Engels, Frans en Spaans zijn wat de onderzoekers “breed nuttige” talen noemen. Training op Engelse data verbetert de prestatie in tientallen andere talen. Training op Yoruba-data verbetert het Engels niet. De transfer stroomt naar beneden — van talen met veel bronnen naar talen met weinig, van talen met grote, diverse corpora naar talen met kleine, homogene. De omgekeerde stroom is verwaarloosbaar.
Taalfamilies clusteren. Talen die schriftsystemen en grammaticale structuren delen, dragen effectiever over. Romaanse talen helpen elkaar. Germaanse talen helpen elkaar. Maar de hulp blijft asymmetrisch binnen families. Frans helpt Portugees meer dan Portugees Frans helpt. Het mechanisme is datakwaliteit: Frans heeft een groter, diverser webcorpus. Het model leert patronen van de rijkere bron en past ze toe op de armere.
De implicatie is architectonisch. Een meertalig model is geen democratische vergadering van talen. Het is een hiërarchie — met Engels aan de top, de grote Europese talen in het midden, en talen met weinig bronnen die de overgebleven capaciteit ontvangen nadat de dominante talen zijn bediend.
De Bevestiging van Chang
ATLAS verscheen niet geïsoleerd. Een jaar eerder hadden Tyler Chang en collega’s “When Is Multilinguality a Curse?” gepubliceerd op EMNLP 2024 — een studie over meer dan 10.000 trainingsruns in 250 talen. Hun bevindingen anticipeerden op ATLAS in alle significante dimensies.
Talen met weinig bronnen profiteren van meertalige pretraining — tot op zekere hoogte. Het voordeel is equivalent aan een vergroting van de dataset van de taal met weinig bronnen met maximaal 33 procent. De syntactische gelijkenis van de toegevoegde talen bepaalt de omvang van de transfer. Woordenschatoverlap levert een marginaal extra voordeel.
Talen met veel bronnen presteren slechter in elke meertalige configuratie. Zonder uitzondering. Engels in een meertalig model is altijd zwakker dan Engels in een monolingaal model van dezelfde grootte. De degradatie is consistent, meetbaar en onverrassend — in die zin dat niemand in de onderzoeksgemeenschap er verbaasd over is. De verrassing, voor zover die bestaat, behoort aan de praktijkmensen die deze modellen inzetten zonder de afweging te begrijpen die ze hebben geaccepteerd.
De kritische bevinding van de Chang-studie: naarmate datasets groeien, intensiveert de vloek. Grotere trainingscorpora lossen het capaciteitsprobleem niet op. Ze leggen het bloot. Meer data per taal betekent meer concurrentie om dezelfde parameters. De prestatiecurve van het model buigt eerder en steiler af.
De implicatie voor productiesystemen is direct. Een model dat op twintig talen met overvloedige data is getraind, zal een grotere degradatie per taal vertonen dan een model dat op twintig talen met beperkte data is getraind. Schaal versterkt de vloek.
Het Benchmark-Bewijs
De theoretische bevindingen vertalen zich in waarneembare prestatieverschillen. MMLU-ProX — een meertalige benchmark gepubliceerd op EMNLP 2025, die 29 talen bestrijkt met 11.829 identieke vragen per taal — levert de meest gecontroleerde meting van hoe de vloek er in de praktijk uitziet.
Het best presterende model behaalde 70,3 procent nauwkeurigheid op Engels. Hetzelfde model, op dezelfde vragen vertaald naar Bengaals, behaalde 52,7 procent. Op Swahili 40,1 procent. Het verschil tussen Engels en de slechtst presterende taal: 30,2 procentpunten. Bijna de helft van de Engelse capaciteit van het model, verloren.
Europese talen doen het beter dan Bengaals of Swahili — maar ze doen het niet goed. Frans, Duits en Spaans clusteren in een band van ongeveer 5 tot 10 procentpunten onder Engels. Portugees, Nederlands en Zweeds zitten nog lager. Het verschil is niet catastrofaal. Het is consistent. En het is structureel — hetzelfde verschil verschijnt bij elk getest model, ongeacht de architectuur, de trainingsprocedure of de beloofde meertalige capaciteit.
Het verschil heeft een concrete betekenis. Een model dat 70 procent nauwkeurigheid behaalt op Engelse zakelijke vragen behaalt ongeveer 60 tot 65 procent op dezelfde vragen in het Duits en ongeveer 55 tot 60 procent in het Portugees. De Portugese gebruiker ontvangt geen licht verslechterde dienst. De Portugese gebruiker ontvangt een meetbaar minder capabel instrument — bij dezelfde taak, met dezelfde complexiteit, in een taal die het model beweert te ondersteunen.
Wat het Europese Mkb Ervaart
Het onderzoek is abstract. De ervaring is dat niet.
Neem een middelgroot bedrijf in Nederland — 200 werknemers, activiteiten in zes EU-markten. Het bedrijf zet een AI-gestuurd klantenservicetool in op zijn markten: Nederlands, Duits, Frans, Spaans, Portugees en Engels. De marketingpagina van de leverancier vermeldt alle zes talen als “ondersteund.” De prijs is voor alle markten gelijk.
Het tool werkt goed in het Engels. De antwoorden zijn nauwkeurig, goed gestructureerd en contextueel passend. De Engelstalige klanten rapporteren hoge tevredenheid.
In het Duits is het tool merkbaar zwakker. Formaliteitsregisters zijn inconsistent — het tool gebruikt af en toe du waar Sie wordt verwacht. Het technische vocabulaire is soms benaderend. De antwoorden zijn bruikbaar maar vereisen meer menselijke controle.
In het Portugees is de degradatie sterker. Het tool genereert grammaticaal correct tekst die vertaald klinkt. Idiomatische uitdrukkingen missen hun doel. De antwoordstructuur volgt Engelse patronen — direct, taakgericht, met minimale relationele inleiding — in een markt waar klantenserviceverwachtingen warmte en persoonlijke erkenning omvatten. De Portugeestalige klanten dienen geen klachten in over AI-kwaliteit. Ze geven simpelweg de voorkeur aan de menselijke agent. De adoptiecijfers vertellen het verhaal.
In het Nederlands functioneert het tool adequaat, maar de geringe omvang van het Nederlandstalige trainingscorpus zorgt ervoor dat het af en toe terminologie hallucineert of constructies produceert die als Belgisch Nederlands klinken in plaats van Nederlands Nederlands. Het onderscheid is relevant. Een Vlaams formaliteitsregister ingezet in Amsterdam is een subtiel maar persistent signaal van vreemdheid.
In het Zweeds is het resultaat functioneel maar karig. Het model heeft minder Zweedse trainingsdata dan Franse of Duitse. De antwoorden zijn korter, minder genuanceerd en grijpen af en toe terug op Engelse terminologie waar Zweedse equivalenten bestaan maar minder frequent voorkomen in het trainingscorpus.
Het bedrijf betaalt dezelfde prijs voor alle zes talen. Het bedrijf ontvangt zes verschillende prestatieniveaus. De marketingpagina van de leverancier maakt deze variantie niet bekend. De ATLAS-studie verklaart waarom de variantie bestaat. De leverancier kent de verklaring mogelijk niet. De variantie bestaat hoe dan ook.
Dit is geen falen van de leverancier. Het is een structurele eigenschap van de technologie. De vloek van meertaligheid is ingebakken in de architectuur. Elk model dat meertalige ondersteuning claimt, levert ongelijke ondersteuning — waarbij de ongelijkheid een voorspelbaar patroon volgt dat Engels bevoordeelt en al het andere benadeelt.
Het Asymmetrieprobleem
De transferasymmetrie in de ATLAS-matrix verdient nadere beschouwing, omdat de implicaties verder reiken dan modelprestatie.
Engels, Frans en Spaans zijn de meest nuttige trainingstalen voor andere talen. Niet omdat ze linguistisch superieur zijn. Omdat het web — de primaire bron van trainingsdata — aanzienlijk meer hoogwaardige tekst in deze talen bevat. Engels alleen vertegenwoordigt naar schatting 55 tot 60 procent van de webcontent. Frans en Spaans dragen substantieel bij. Duits minder. Portugees, Nederlands en Zweeds zijn marginale bijdragers.
De asymmetrie creëert een subsidiestructuur. Talen met veel bronnen subsidiëren talen met weinig bronnen via positieve transfer. Engelse trainingsdata verbeteren de Swahili-prestatie. Swahili-trainingsdata verbeteren de Engelse prestatie niet. De subsidie stroomt in één richting.
Voor Europese talen is de subsidiedynamiek genuanceerder. Frans subsidieert Portugees — beide zijn Romaanse talen die syntactische structuren en een significant deel van hun woordenschat delen. Maar Portugees subsidieert Frans niet in dezelfde mate. De relatie is asymmetrisch omdat de trainingscorpora asymmetrisch zijn. Meer Franse tekst betekent meer patronen voor het model om te leren. Het model draagt die patronen over naar het Portugees. De omgekeerde transfer is zwakker omdat er minder Portugese patronen te overdragen zijn.
De praktische consequentie: in een meertalig model is de Portugese kwaliteit deels afhankelijk van de kwaliteit van de Franse data. De Nederlandse kwaliteit is deels afhankelijk van de kwaliteit van de Duitse en Engelse data. De Zweedse kwaliteit is deels afhankelijk van de kwaliteit van de Deense, Noorse en Engelse data. Elke kleinere taal bevindt zich stroomafwaarts van haar grotere verwanten.
De afhankelijkheid is onzichtbaar voor de eindgebruiker. De Portugese klant die met een chatbot interageert, weet niet dat de Portugese capaciteit van de chatbot deels een functie is van hoeveel Franse data in de trainingsset zaten. De afhankelijkheid is ook onzichtbaar voor de leverancier — tenzij de leverancier het ATLAS-paper heeft gelezen. De meesten hebben dat niet.
Het Openbaarmakingsprobleem
Eurostat rapporteerde in december 2025 dat 20 procent van de EU-ondernemingen met tien of meer werknemers kunstmatige-intelligentietechnologieën gebruikt. Het adoptiepercentage is in één jaar met 6,5 procentpunten gestegen. Bij grote ondernemingen ligt de adoptie boven 40 procent. Bij kleine ondernemingen — de kern van de EU-economie — ligt die op ongeveer 11 procent.
Het meest voorkomende AI-gebruik is het analyseren van geschreven taal. Het op een na snelst groeiende gebruik is het genereren van geschreven en gesproken taal. Dat zijn precies de toepassingen waar de vloek van meertaligheid het meest direct werkt.
Een EU-mkb dat een AI-schrijftool in meerdere markten inzet, zet een tool in met ingebouwde taalkundige ongelijkheid. De ongelijkheid is een structurele eigenschap van het model. Ze wordt niet bekendgemaakt in marketingmateriaal. Ze wordt niet gekwantificeerd in leveranciersdocumentatie. Ze wordt niet behandeld in service level agreements.
De EU AI-verordening — met name Artikel 10 — vereist dat AI-systemen met een hoog risico worden getraind op data die “relevant en voldoende representatief” zijn met het oog op het beoogde doel. De wetgeving definieert niet wat “representatief” betekent voor een meertalige inzet. Ze specificeert geen minimale prestatiedrempel per taal. Ze vereist niet dat leveranciers het prestatieverschil tussen ondersteunde talen openbaar maken.
De kloof tussen de wettelijke vereiste en de technische realiteit is het openbaarmakingsprobleem. Een model dat beweert Portugees te ondersteunen maar meetbaar slechtere Portugese output levert dan Engelse, doet een bewering die technisch waar en praktisch misleidend is. Het Portugees wordt ondersteund. Het Portugees is ook structureel slechter.
Niemand maakt dit openbaar. Niet de modelbouwers, die geaggregeerde meertalige benchmarks publiceren. Niet de leveranciers, die ondersteunde talen vermelden zonder prestatiekwalificaties. Niet de inkoopafdelingen, die het tool in het Engels evalueren en in zes talen inzetten.
De vloek van meertaligheid is een publiek geheim in de onderzoeksgemeenschap. Het is een onbekend feit in de zakenwereld. De ATLAS-studie heeft met haar 774 trainingsruns en haar 1.444 taalparen gekwantificeerd wat onderzoekers al jaren weten. De kwantificering heeft de mensen die haar nodig hebben niet bereikt.
Het Monolinguale Alternatief
De ATLAS-studie kwantificeert ook wanneer monolinguale modellen meertalige overtreffen — en de drempel is leerzaam.
Voor een taal met voldoende trainingsdata overtreft een monolingaal model van dezelfde grootte altijd een meertalig model. Het break-evenpunt hangt af van de databeschikbaarheid van de taal. Voor Engels is een monolingaal model altijd beter. Voor Frans en Duits is een monolingaal model beter boven een gematigde datadrempel. Voor talen met weinig bronnen en beperkte data blijft het meertalige model superieur — de cross-linguistische transfer weegt op tegen de capaciteitsbelasting.
De praktische implicatie voor een EU-mkb: als je hoofdmarkt Duitstalig is, zal een monolingaal Duits model de Duitse capaciteit van een meertalig model overtreffen. Als je in zes EU-markten opereert, sta je voor een keuze. Eén meertalig model inzetten en de degradatie per taal accepteren. Of zes monolinguale modellen inzetten en de infrastructuurkosten accepteren.
De eerste optie is goedkoper. De tweede is beter. De meeste bedrijven kiezen de eerste optie zonder te weten dat ze een afweging hebben gemaakt. De marketingpagina zegt “ondersteunt 95 talen.” De marketingpagina zegt niet “ondersteunt Engels op 100 procent capaciteit en Portugees op 82 procent.”
De keuze is niet binair. Fijnafstemming biedt een middenweg — een meertalig basismodel dat met taalspecifieke data is fijnafgestemd, kan een deel van de verloren prestatie terugwinnen. De ATLAS-studie concludeert dat fijnafstemming bij lagere tokenbudgetten rekenkundig efficiënter is dan pretraining vanaf nul, waarbij pretraining pas voordelig wordt wanneer data en rekenkracht een taalafhankelijke drempel overschrijden.
Voor de meeste EU-mkb’s is fijnafstemming de realistische weg. Maar fijnafstemming vereist taalspecifieke data, taalspecifieke evaluatie en taalspecifieke kwaliteitsnormen — niets daarvan is inbegrepen in een standaard meertalige AI-inzet.
De Democratische Illusie
De marketingtaal van meertalige AI is democratisch. “Ondersteunt 95 talen.” De implicatie: alle talen worden gelijk ondersteund. De realiteit: alle talen worden ongelijk ondersteund, waarbij de ongelijkheid de exacte contouren van de mondiale taalkundige machtsverhoudingen volgt.
Engels, de taal van het internet, van academische publicatie, van technische documentatie, ontvangt de meeste trainingsdata en levert de beste prestatie. Frans, Spaans en Duits — de andere talen van het web — volgen. Portugees, Nederlands, Zweeds en de rest van de 24 officiële EU-talen ontvangen progressief minder.
Het patroon is niet willekeurig. Het reproduceert de bestaande hiërarchie van taalkundige macht in digitale infrastructuur. Talen die goed vertegenwoordigd zijn op het web worden goed bediend door AI. Talen die slecht vertegenwoordigd zijn op het web worden slecht bediend door AI. Het model creëert de ongelijkheid niet. Het erft haar — en propageert haar naar elke toepassing die erop gebouwd is.
Voor de EU — een instelling gebouwd op het principe van taalkundige gelijkheid tussen haar lidstaten — is de vloek van meertaligheid niet slechts een technisch probleem. Het is een structurele contradictie. De EU schrijft voor dat elke burger in zijn officiële taal met EU-instellingen kan communiceren. De AI-tools die EU-instellingen en -bedrijven inzetten kunnen dat mandaat niet gelijkmatig vervullen. De tools leveren Engelse kwaliteit in het Engels en verslechterde kwaliteit in al het andere.
De ATLAS-studie maakt dit meetbaar. De transfermatrix toont met kwantitatieve precisie dat een model dat op alle officiële EU-talen is getraind, ongelijke kwaliteit in die talen zal leveren. De ongelijkheid is geen falen van het model. Het is een eigenschap van de architectuur — en van het data-ecosysteem dat haar voedt.
Wat Dit Betekent voor de Bouwer
De vloek van meertaligheid is geen probleem dat individuele bedrijven kunnen oplossen. De architectuur van modellen met gedeelde capaciteit produceert ongelijke prestatie per taal. Dit is natuurkunde, geen beleid.
Wat individuele bedrijven kunnen doen is stoppen met doen alsof de ongelijkheid niet bestaat.
Meet per taal. Evalueer je AI-tool niet in het Engels en neem niet aan dat de prestatie in het Portugees gelijkwaardig is. Test elke taal onafhankelijk. Meet nauwkeurigheid, vloeiendheid, registerpasendheid en taakvoltooiing in elke taal die je beweert te ondersteunen. De methodologie van de MMLU-ProX-benchmark biedt een sjabloon: identieke taken over talen heen, met scores per taal.
Maak per taal openbaar. Als je tool 70 procent nauwkeurigheid levert in het Engels en 58 procent in het Portugees, zeg dat dan. De openbaarmaking is oncomfortabel. Het alternatief is een service level agreement dat iets belooft wat de technologie niet kan waarmaken.
Investeer per taal. Fijnafstemming op taalspecifieke data is de meest toegankelijke verzachting. Het elimineert de vloek niet. Het vermindert de impact. De investering moet proportioneel zijn aan het prestatieverschil — meer fijnafstemming voor Portugees dan voor Frans, omdat het verschil groter is.
Ontwerp voor de zwakste taal. Als je tool in zes EU-markten opereert, ontwerp de gebruikerservaring dan voor de taal waar het model het slechtst presteert. Als de Portugese output menselijke controle vereist, bouw menselijke controle dan in de workflow van alle markten in — niet als correctiemechanisme voor “mindere” talen, maar als kwaliteitsborgingsnorm die alle gebruikers gelijk respecteert.
De vloek van meertaligheid zal blijven bestaan zolang modellen capaciteit delen tussen talen. Grotere modellen verminderen de vloek maar elimineren hem niet. Betere data helpen maar lossen niet op. Het probleem is structureel. Het antwoord moet dat ook zijn — niet één meertalige inzet, maar een taalbewuste infrastructuur die de ongelijkheid die de architectuur produceert erkent, meet en compenseert.
Elke taal die je aan een model toevoegt, kost elke andere taal iets. De kosten zijn reëel. De kosten zijn ongelijk. En zolang de mensen die deze modellen inzetten dat niet begrijpen, zal elk “meertalig” AI-tool een belofte zijn die in het Engels wordt gehouden en in al het andere, stapsgewijs, wordt gebroken.