Flersprakighetens Forbannelse
Varje sprak du lagger till i en modell gor alla andra sprak samre.
Det ar ingen metafor. Det ar ett matt fenomen. Google DeepMind kallar det flersprakighetens forbannelse — och deras ATLAS-studie, presenterad pa ICLR 2026, ar den storsta empiriska bekraftelsen hittills. Sjuhundrasjuttiofyra traningskörningar. Over fyrahundra sprak. Fyrtioatta utvarderingssprak. En tvärlingvistisk transfermatris over 1 444 sprakpar.
Resultaten ar precisa. For att stodja dubbelt sa manga sprak utan prestandaförlust behöver en modell 1,18 ganger parametrarna och 1,66 ganger traningsdatan. Aritmetiken ar inte förhandlingsbar. Kapaciteten ar andlig. Sprak konkurrerar om den. Och konkurrensen ar inte rattvis.
Kapacitetsproblemet
Flersprakighetens forbannelse namngavs forsta gangen av Alexis Conneau och kollegor 2020, i deras arbete med XLM-R — den tvärlingvistiska sprakmodellen som for forsta gangen visade att flersprakig fortraning kunde narma sig ensprakig prestanda. Upptackten var paradoxal. Samma artikel som bevisade att flersprakiga modeller fungerade bevisade ocksa att de kom med en strukturell kostnad.
Mekanismen ar rättfram. En sprakmodell har ett fast antal parametrar. Varje parameter ar en plats for inlard information — ordförrad, grammatik, semantik, pragmatik, världskunskap. En ensprakig engelsk modell agnar alla sina parametrar at engelska. En tvasprakig engelsk-fransk modell delar sin kapacitet. En modell tranad pa hundra sprak delar samma andliga resurs pa hundra satt.
Fordelningen ar inte jamn. Engelska, med sin enorma traningskorpus, forbrukar mer kapacitet. Sprak med fa resurser far mindre. Men begransningen ar absolut: varje sprak som laggs till i modellen minskar tilldelningen per sprak. Modellen blir bredare och grundare samtidigt.
Conneaus ursprungliga insikt var att denna avvagning producerar en karakteristisk kurva. Att lagga till de forsta spraken forbattrar prestandan — sarskilt for sprak med fa resurser, som gynnas av tvärlingvistisk overforing. En swahili-modell tranad tillsammans med engelska presterar battre an en swahili-modell tranad ensam, eftersom engelska syntaktiska och semantiska monster överförs. Men bortom en tröskel vander avkastningen. Varje ytterligare sprak borjar försämra prestandan pa alla befintliga sprak. Kapaciteten ar mattad. Interferensen överstiger överföringen.
Det ar forbannelsen. Inte en bugg. En strukturell egenskap hos arkitekturer med delad kapacitet.
Vad ATLAS Matte
ATLAS-studien — Adaptive Transfer Scaling Laws — gjorde vad ingen tidigare studie hade forsökt i denna skala. Den kvantifierade forbannelsen over 774 separata traningsexperiment, fran 10 miljoner till 8 miljarder parametrar, och härlede de forsta praktiska skalningslagarna for design av flersprakiga modeller.
Tre resultat ar relevanta for alla som anvander flersprakig AI.
Skalningsskatten ar reell men mattlig. Att fördubbla antalet sprak kraver att modellstorleken okas med en faktor 1,18 och den totala traningsdatan med en faktor 1,66. Datan per sprak minskar — varje sprak far 83 procent av vad den skulle fa i en modell som stodjer halften sa manga sprak. Den positiva överföringen mellan besläktade sprak kompenserar delvis, men kan inte helt uppväga kapacitetsskatten.
Överföringen ar asymmetrisk. Den tvärlingvistiska transfermatrisen — 38 sprak utvärderade parvis, 1 444 uppmätta interaktioner — avslojar att forhallandet mellan sprak ar riktad. Engelska, franska och spanska ar vad forskarna kallar “brett användbara” sprak. Traning pa engelska data forbattrar prestandan i dussintals andra sprak. Traning pa yoruba-data forbattrar inte engelska. Överföringen flödar nedat — fran sprak med manga resurser till sprak med fa, fran sprak med stora, diversifierade korpora till sprak med sma, homogena. Det omvända flödet ar försumbart.
Sprakfamiljer klustrar. Sprak som delar skriftsystem och grammatiska strukturer överför mer effektivt. Romanska sprak hjalper varandra. Germanska sprak hjalper varandra. Men hjalpen forblir asymmetrisk inom familjer. Franska hjalper portugisiska mer an portugisiska hjalper franska. Mekanismen ar datakvalitet: franska har en storre, mer diversifierad webbkorpus. Modellen lar sig monster fran den rikare kallan och tillämpar dem pa den fattigare.
Implikationen ar arkitektonisk. En flersprakig modell ar inte en demokratisk forsamling av sprak. Den ar en hierarki — med engelska i toppen, de stora europeiska spraken i mitten och sprak med fa resurser som far den kapacitet som aterstar efter att de dominerande spraken har betjanats.
Changs Bekraftelse
ATLAS dök inte upp isolerat. Ett ar tidigare hade Tyler Chang och kollegor publicerat “When Is Multilinguality a Curse?” pa EMNLP 2024 — en studie over mer an 10 000 traningskörningar pa 250 sprak. Deras resultat föregrepp ATLAS i alla betydande dimensioner.
Sprak med fa resurser gynnas av flersprakig fortraning — upp till en punkt. Fordelen motsvarar en okning av datasetet for spraket med fa resurser med upp till 33 procent. Den syntaktiska likheten hos de tillagda spraken bestämmer överföringens storlek. Ordförradsöverlappning ger en marginell ytterligare fordel.
Sprak med manga resurser presterar samre i varje flersprakig konfiguration. Utan undantag. Engelska i en flersprakig modell ar alltid svagare an engelska i en ensprakig modell av samma storlek. Nedgangen ar konsekvent, matbar och inte overraskande — i den meningen att ingen i forskarsamhallet ar forvånad. Överraskningen, om den finns, tillhor de yrkesverksamma som anvander dessa modeller utan att forsta avvagningen de har accepterat.
Chang-studiens kritiska slutsats: nar datasets vaxer intensifieras forbannelsen. Storre traningskorpora loser inte kapacitetsproblemet. De avslojar det. Mer data per sprak innebar mer konkurrens om samma parametrar. Modellens prestandakurva bojer av tidigare och brantare.
Implikationen for produktionssystem ar direkt. En modell tranad pa tjugo sprak med riklig data visar storre nedgang per sprak an en modell tranad pa tjugo sprak med begransad data. Skala forstarker forbannelsen.
Benchmark-Bevisen
De teoretiska resultaten oversätts till observerbara prestandaskillnader. MMLU-ProX — ett flersprakigt benchmark publicerat pa EMNLP 2025, som tacker 29 sprak med 11 829 identiska fragor per sprak — ger den mest kontrollerade matningen av hur forbannelsen ser ut i praktiken.
Den bast presterande modellen uppnadde 70,3 procent noggrannhet pa engelska. Samma modell, pa samma fragor översatta till bengali, uppnadde 52,7 procent. Pa swahili, 40,1 procent. Gapet mellan engelska och det sämst presterande spraket: 30,2 procentenheter. Nastan halften av modellens engelska kapacitet, förlorad.
Europeiska sprak klarar sig battre an bengali eller swahili — men de klarar sig inte bra. Franska, tyska och spanska klustrar i ett band ungefar 5 till 10 procentenheter under engelska. Portugisiska, nerlandska och svenska ligger annu lagre. Gapet ar inte katastrofalt. Det ar konsekvent. Och det ar strukturellt — samma gap dyker upp i varje testad modell, oavsett arkitektur, traningsforfarande eller proklamerad flersprakig kapacitet.
Gapet har en konkret innebord. En modell som uppnar 70 procent noggrannhet pa engelska affärsfragar uppnar ungefar 60 till 65 procent pa samma fragor pa tyska och ungefar 55 till 60 procent pa portugisiska. Den portugisiska användaren far inte en marginellt samre tjanst. Den portugisiska användaren far ett matbart mindre kapabelt verktyg — pa samma uppgift, med samma komplexitet, pa ett sprak som modellen pastar sig stödja.
Vad det Europeiska SMF:et Upplever
Forskningen ar abstrakt. Upplevelsen ar det inte.
Ta ett medelstort foretag i Nederlanderna — 200 anstallda, verksamhet pa sex EU-marknader. Foretaget implementerar ett AI-drivet kundtjanstverktyg pa sina marknader: nerlandska, tyska, franska, spanska, portugisiska och engelska. Leverantörens marknadsforingssida listar alla sex sprak som “stödda.” Priset ar detsamma for alla marknader.
Verktyget fungerar bra pa engelska. Svaren ar precisa, valstrukturerade och kontextuellt lampleiga. De engelsktalande kunderna rapporterar hog nöjdhet.
Pa tyska ar verktyget markbart svagare. Formalitetsregister ar inkonsekventa — verktyget anvander ibland du dar Sie forvantas. Det tekniska ordförraden ar ibland ungefärligt. Svaren ar användbara men kraver mer mansklig granskning.
Pa portugisiska ar nedgangen mer uttalad. Verktyget genererar grammatiskt korrekt text som later översatt. Idiomatiska uttryck missar. Svarsstrukturen foljer engelska monster — direkt, uppgiftsorienterad, med minimal relationell inledning — pa en marknad dar kundtjanstförväntningarna inkluderar varme och personligt erkannande. De portugisisktalande kunderna lamnar inga klagomal om AI-kvaliteten. De föredrar helt enkelt den manskliga agenten. Adoptionssiffrorna berattar historien.
Pa nerlandska fungerar verktyget adekvat, men den lilla storleken pa den nerlandsksprakiga traningskorpusen gor att det ibland hallucinerar terminologi eller producerar konstruktioner som later som belgisk nerlandska snarare an nerlandsk nerlandska. Skillnaden spelar roll. Ett flamländskt formalitetsregister i Amsterdam ar en subtil men ihallande signal om framlingsskap.
Pa svenska ar resultatet funktionellt men knappt. Modellen har mindre svensk traningsdata an fransk eller tysk. Svaren ar kortare, mindre nyanserade och atergar ibland till engelsk terminologi dar svenska motsvarigheter finns men ar mindre vanliga i traningskorpusen.
Foretaget betalar samma pris for alla sex sprak. Foretaget far sex olika prestandanivaer. Leverantörens marknadsforingssida avslojar inte denna varians. ATLAS-studien forklarar varfor variansen existerar. Leverantören kannar kanske inte till forklaringen. Variansen existerar oavsett.
Det ar inte ett leverantörsfel. Det ar en strukturell egenskap hos tekniken. Flersprakighetens forbannelse ar inskriven i arkitekturen. Varje modell som hadar flersprakigt stöd levererar ojämlikt stöd — med ojämlikheten som foljer ett forutsagbart monster som gynnar engelska och bestraffar allt annat.
Asymmetriproblemet
Transferasymmetrin i ATLAS-matrisen förtjanar en narmare granskning, eftersom den har implikationer som stracker sig bortom modellprestanda.
Engelska, franska och spanska ar de mest fordelaktiga traningspraken for andra sprak. Inte for att de ar lingvistiskt overlagsna. For att webben — den primara kallan for traningsdata — innehaller enormt mycket mer hogkvalitativ text pa dessa sprak. Enbart engelska star for uppskattningsvis 55 till 60 procent av webbinnehallet. Franska och spanska bidrar vasentligt. Tyska mindre. Portugisiska, nerlandska och svenska ar marginella bidragsgivare.
Asymmetrin skapar en subventionsstruktur. Sprak med manga resurser subventionerar sprak med fa resurser genom positiv overforing. Engelska traningsdata forbattrar swahili-prestandan. Swahili-traningsdata forbattrar inte engelska-prestandan. Subventionen flödar i en riktning.
For europeiska sprak ar subventionsdynamiken mer nyanserad. Franska subventionerar portugisiska — bada ar romanska sprak som delar syntaktiska strukturer och en betydande del av sitt ordförrad. Men portugisiska subventionerar inte franska i samma grad. Relationen ar asymmetrisk eftersom traningskorpora ar asymmetriska. Mer fransk text innebar fler monster for modellen att lara sig. Modellen överför dessa monster till portugisiska. Den omvanda överföringen ar svagare eftersom det finns farre portugisiska monster att överfora.
Den praktiska konsekvensen: i en flersprakig modell ar den portugisiska kvaliteten delvis beroende av kvaliteten pa de franska data. Den nerlandska kvaliteten ar delvis beroende av kvaliteten pa de tyska och engelska data. Den svenska kvaliteten ar delvis beroende av kvaliteten pa de danska, norska och engelska data. Varje mindre sprak befinner sig nedströms sina storre slaktingar.
Beroendet ar osynligt for slutanvändaren. Den portugisiska kunden som interagerar med en chatbot vet inte att chatbotens portugisiska kapacitet delvis ar en funktion av hur mycket franska data som fanns i traningssetet. Beroendet ar osynligt aven for leverantören — om inte leverantören har last ATLAS-artikeln. De flesta har inte det.
Offentliggoringsproblemet
Eurostat rapporterade i december 2025 att 20 procent av EU-foretagen med tio eller fler anstallda anvander AI-teknologier. Adoptionsgraden har vuxit med 6,5 procentenheter pa ett enda ar. Bland stora foretag överstiger adoptionen 40 procent. Bland sma foretag — karnan i EU:s ekonomi — ligger den pa ungefar 11 procent.
Den vanligaste AI-användningen ar att analysera skrivet sprak. Den nast snabbast vaxande användningen ar att generera skrivet och talat sprak. Det ar precis de tillampningar dar flersprakighetens forbannelse verkar mest direkt.
Ett EU-SMF som implementerar ett AI-skrivverktyg pa flera marknader implementerar ett verktyg med inbyggd spraklig ojämlikhet. Ojämlikheten ar en strukturell egenskap hos modellen. Den offentliggörs inte i marknadsföringsmaterial. Den kvantifieras inte i leverantörsdokumentation. Den behandlas inte i servicenivaavtal.
EU:s AI-förordning — sarskilt Artikel 10 — kraver att AI-system med hog risk tranas pa data som ar “relevanta och tillrackligt representativa” med hansyn till det avsedda andamalet. Lagstiftningen definierar inte vad “representativ” innebar for en flersprakig implementering. Den specificerar inte en lagsta prestandaniva per sprak. Den kraver inte att leverantörer offentliggor prestandaskillnaden mellan stödda sprak.
Gapet mellan det regulatoriska kravet och den tekniska verkligheten ar offentliggoringsproblemet. En modell som hadar att stödja portugisiska men levererar matbart samre portugisisk output jamfort med sin engelska output gor ett pastande som ar tekniskt sant och praktiskt vilseledande. Portugisiskan stöds. Portugisiskan ar ocksa strukturellt samre.
Ingen offentliggor detta. Inte modellbyggarna, som publicerar aggregerade flersprakiga benchmark. Inte leverantörerna, som listar stödda sprak utan prestandakvalifikationer. Inte inkopsavdelningarna, som utvarderar verktyget pa engelska och implementerar det pa sex sprak.
Flersprakighetens forbannelse ar en oppen hemlighet i forskarsamhallet. Det ar ett okant faktum i foretagsvarlden. ATLAS-studien, med sina 774 traningskörningar och sina 1 444 sprakpar, har kvantifierat vad forskare har vetat i aratal. Kvantifieringen har inte natt de manniskor som behöver den.
Det Ensprakiga Alternativet
ATLAS-studien kvantifierar ocksa nar ensprakiga modeller överpresterar flersprakiga — och tröskeln ar larorik.
For ett sprak med tillrackliga traningsdata överpresterar en ensprakig modell av samma storlek alltid en flersprakig modell. Brak-even-punkten beror pa sprakets datatillgang. For engelska ar en ensprakig modell alltid battre. For franska och tyska ar en ensprakig modell battre over en mattlig datatröskel. For sprak med fa resurser och begransad data forblir den flersprakiga modellen overlägsen — den tvärlingvistiska överföringen uppvager kapacitetsskatten.
Den praktiska implikationen for ett EU-SMF: om din huvudmarknad ar tysksprakig kommer en ensprakig tysk modell att överträffa den tyska kapaciteten hos en flersprakig modell. Om du verkar pa sex EU-marknader star du infor ett val. Implementera en flersprakig modell och acceptera nedgangen per sprak. Eller implementera sex ensprakiga modeller och acceptera infrastrukturkostnaden.
Det forsta alternativet ar billigare. Det andra ar battre. De flesta foretag valjer det forsta alternativet utan att veta att de har gjort en avvagning. Marknadsforingssidan sager “stodjer 95 sprak.” Marknadsforingssidan sager inte “stodjer engelska pa 100 procent kapacitet och portugisiska pa 82 procent.”
Valet ar inte binärt. Finjustering erbjuder en mellanvag — en flersprakig basmodell finjusterad med sprakspecifika data kan aterhamta en del av den förlorade prestandan. ATLAS-studien konstaterar att finjustering ar mer berakningseffektiv an fortraning fran grunden vid lagre tokenbudgetar, dar fortraning forst blir fordelaktigt nar data och berakningskraft överstiger en sprakberoende tröskel.
For de flesta EU-SMF ar finjustering den realistiska vagen. Men finjustering kraver sprakspecifika data, sprakspecifik utvardering och sprakspecifika kvalitetsstandarder — inget av detta ingar i en standard flersprakig AI-implementering.
Den Demokratiska Illusionen
AI-marknadsföringens sprak ar demokratiskt. “Stodjer 95 sprak.” Implikationen: alla sprak stöds lika. Verkligheten: alla sprak stöds ojämlikt, dar ojämlikheten foljer de exakta konturerna av global spraklig makt.
Engelska, internets sprak, den akademiska publiceringens sprak, den tekniska dokumentationens sprak, far mest traningsdata och levererar bast prestanda. Franska, spanska och tyska — webbens ovriga sprak — foljer. Portugisiska, nerlandska, svenska och resten av EU:s 24 officiella sprak far progressivt mindre.
Monstret ar inte godtyckligt. Det reproducerar den befintliga hierarkin av spraklig makt i digital infrastruktur. Sprak som ar val representerade pa webben betjanas val av AI. Sprak som ar daligt representerade pa webben betjanas daligt av AI. Modellen skapar inte ojämlikheten. Den arver den — och propagerar den till varje applikation som byggs ovanpa den.
For EU — en institution byggd pa principen om spraklig jämlikhet mellan sina medlemsstater — ar flersprakighetens forbannelse inte bara ett tekniskt problem. Det ar en strukturell motsagelse. EU foreskriver att varje medborgare kan interagera med EU-institutioner pa sitt officiella sprak. De AI-verktyg som EU-institutioner och -foretag implementerar kan inte uppfylla det mandatet pa lika villkor. Verktygen levererar engelsk kvalitet pa engelska och försämrad kvalitet pa allt annat.
ATLAS-studien gor detta matbart. Transfermatrisen visar, med kvantitativ precision, att en modell tranad pa alla EU:s officiella sprak kommer att leverera ojämn kvalitet pa dessa sprak. Ojämlikheten ar inte ett fel i modellen. Det ar en egenskap hos arkitekturen — och hos det dataekosystem som matar den.
Vad Detta Innebar for den som Bygger
Flersprakighetens forbannelse ar inte ett problem som enskilda foretag kan losa. Arkitekturen hos modeller med delad kapacitet producerar ojämn prestanda per sprak. Det ar fysik, inte politik.
Vad enskilda foretag kan gora ar att sluta latsas att ojämlikheten inte finns.
Mat per sprak. Utvardera inte ditt AI-verktyg pa engelska och anta likvärdig prestanda pa portugisiska. Testa varje sprak oberoende. Mat noggrannhet, flyt, registerlamplighet och uppgiftsslutforande pa varje sprak du pastar dig stödja. MMLU-ProX-benchmarkens metodik erbjuder en mall: identiska uppgifter over sprak, med poang per sprak.
Offentliggor per sprak. Om ditt verktyg levererar 70 procent noggrannhet pa engelska och 58 procent pa portugisiska, sag det. Offentliggorandet ar obekvamt. Alternativet ar ett servicenivaavtal som lovar nagot som tekniken inte kan leverera.
Investera per sprak. Finjustering pa sprakspecifika data ar den mest tillgangliga atgarden. Den eliminerar inte forbannelsen. Den minskar dess paverkan. Investeringen maste vara proportionell mot prestandagapet — mer finjustering for portugisiska an for franska, eftersom gapet ar storre.
Designa for det svagaste spraket. Om ditt verktyg verkar pa sex EU-marknader, designa användarupplevelsen for det sprak dar modellen presterar samst. Om den portugisiska outputen kraver mansklig granskning, bygg in mansklig granskning i arbetsflödet for alla marknader — inte som en korrigeringsmekanism for “mindre” sprak, utan som en kvalitetssakringsstandard som respekterar alla användare lika.
Flersprakighetens forbannelse kommer att bestar sa lange modeller delar kapacitet mellan sprak. Storre modeller minskar forbannelsen men eliminerar den inte. Battre data hjalper men loser inte. Problemet ar strukturellt. Svaret maste ocksa vara det — inte en enda flersprakig implementering, utan en sprakmedveten infrastruktur som erkanner, mater och kompenserar for den ojämlikhet som arkitekturen producerar.
Varje sprak som laggs till i en modell kostar alla andra sprak nagot. Kostnaden ar reell. Kostnaden ar ojämn. Och sa lange de som implementerar dessa modeller inte forstar det, kommer varje “flersprakigt” AI-verktyg att vara ett lofte som halls pa engelska och bryts, stegvis, pa allt annat.