Bernardo 12 maj 2026

Modellen Talar Femton Språk. Den Säljer på Ett.

13 min lästid

Modellen talar femton språk. Den säljer på ett.

Det är ingen retorisk figur. Det är slutsatsen av en peer-reviewad benchmark publicerad i februari 2026 av fyra Appen-forskare — Madison Van Doren, Casey Ford, Jennifer Barajas och Cory Holland — under titeln “Be My Cheese?”: Cultural Nuance Benchmarking for Machine Translation in Multilingual LLMs. Sju modeller på dagens högsta nivå. Femton språk- och regionpar. Fem modersmålsbedömare per språk. Trettontusen etthundratjugofem segmentannoteringar. Datan är precis. Slutsatsen är torr.

De bäst presterande modellerna nådde 2,10 av 3 på en ordinal fyrgradig skala för översättningens totala kvalitet. Två tredjedelar av maxvärdet. De starkaste kommersiella modellerna på marknaden producerar vid översättning av ett marknadsföringsmejl text som modersmålstalare i bästa fall bedömer som tillräcklig — på en skala där 3 är den standard en publicerad översättning ska nå.

Flytande. Inte kommersiell. Distinktionen är hela artikelns arkitektur.

Vad Studien Faktiskt Gjorde

Metodologin förtjänar att stå före slutsatserna, för metodologin är bärbalken i varje benchmark som vill mäta kulturell kompetens.

Forskarna gav sju flerspråkiga LLM fem marknadsföringsmejl för e-handel — bearbetade från riktiga kommersiella kampanjer med ordvitsar, idiom, helgreferenser, varumärkesröst och kulturellt förankrade begrepp. De testade modellerna var GPT-5, Claude Sonnet 3.7, Mistral Medium 3.1, DeepSeek V3.1, gpt-oss 120B, Meta Llama 4 och Cohere Aya Expanse 8B. Blandningen är avsiktlig: stängda och öppna vikter, frontier och tillgängliga, amerikanska, europeiska och kinesiska.

Varje modell fick samma prompt: “Översätt följande mejl för användning på [språk] i [land/region].” Instruktionen är den instruktion ett europeiskt sme-företag skulle ge. Ingen promptutformning. Ingen retrievalpipeline. Ingen finjustering mot målmarknaden. Den råa uppgiften, så som ett litet företag faktiskt skulle utföra den.

De femton målregionerna spände över typologier och kontinenter: afrikaans (ZA), arabiska (EG), brasiliansk portugisiska (BR), kantonesiska (HK), tjeckiska (CZ), nederländska (NL), hebreiska (IL), hindi (IN), japanska (JP), koreanska (KR), mandarin (TW), ryska (KZ), spanska (MX), swahili (KE) och urdu (PK). Varje översättning bedömdes sedan av fem modersmålstalare bosatta i den relevanta regionen, flytande både i engelska och i målspråket. Sjuttiofem bedömare totalt. Var och en gav ett betyg på hela det översatta mejlet — innehållstrohet, stiltrohet, anpassning till mottagaren och total kvalitet — och på fördefinierade segment med idiom, ordvitsar, helger och kulturella begrepp. Skalan gick från 0 till 3. Det fanns också en NA-kategori. NA-kategorin visade sig spela roll.

Det är den hittills strängaste publicerade utvärderingen av kulturell lokalisering inom maskinöversättning. Det är också den mest fördömande.

Topplaget

Den genomsnittliga totalkvaliteten på full text, över alla modeller och språk, blev 1,68 av 3.

GPT-5 ledde med 2,10. Claude Sonnet 3.7 följde med 1,97. Mistral Medium 3.1 nådde 1,84. Dessa tre bildade vad författarna beskriver som ett “statistiskt oskiljbart topplag” — signifikant bättre än resten, statistiskt likvärdiga sinsemellan. DeepSeek V3.1 landade på 1,72 och gpt-oss 120B på 1,60. Llama 4 fick 1,47. Aya Expanse 8B, den minsta av de sju och den enda modellen i uppsättningen som specifikt är byggd för flerspråkig täckning, fick 1,09.

Ordningen är slående men inte poängen. Poängen är taket. Den bästa flerspråkiga LLM:en på marknaden tar sig på ett marknadsföringsmejl sju tiondelar av vägen mot en publicerbar översättning. Den sämsta knappt en tredjedel.

Det är inga ytterligheter framkallade av exotiska språk. Uppsättningen innehåller spanska, portugisiska, nederländska, japanska — språk med rik träningsdata och decennier av maskinöversättningshistoria. Poängen är inte resterna av eftersatta lågresursspråk. De är teknikens gräns, mätt i toppen.

Ett marknadsföringsmejl är ingen svår genre. Det är en kort, strukturerad och kommersiellt värdefull form. Om dagens LLM inte kan lokalisera ett marknadsföringsmejl tillräckligt bra för att en modersmålstalare ska sätta det över 2,10 av 3 är implikationen för allt annat — kundsupportsvar, produktbeskrivningar, regulatorisk kommunikation, intern kommunikation — direkt.

Där Modellerna Brister

Den aggregerade poängen döljer det strukturella fyndet. Det strukturella fyndet finns i segmentresultaten.

När bedömarna betygsatte de fyra kategorierna kulturellt markerad text separat var mönstret skarpt. Helgreferenser fick i snitt 2,20 av 3. Kulturella begrepp i snitt 2,19. Idiom fick 1,65. Ordvitsar fick 1,45.

Skillnaden på fyra tiondelar mellan helger och idiom är stor. Skillnaden på sju tiondelar mellan helger och ordvitsar är strukturell. Helger och kulturellt förankrade begrepp är substantiv. Idiom och ordvitsar är retoriska figurer. Modeller översätter substantiv. Modeller brister på figurer.

Skälet är arkitektoniskt, inte anekdotiskt. En helg — Alla hjärtans dag, Singles Day, Diwali — har en motsvarighet i målspråket eller en känd kulturell mappning. Modellen hämtar mappningen. Hämtningen lyckas eftersom mappningen är dokumenterad i träningsdatan. En ordvits är motsatsen. En ordvits hänger på ljudet, formen eller den kulturella resonansen i ett specifikt ord i ett specifikt språk. Den har ingen motsvarighet. Den måste rekonstrueras i målspråket med annat material. Rekonstruktion kräver uppfinning. Modeller uppfinner inte. Modeller hämtar.

Författarna kvantifierar följden med ett konkret mått: utelämningsfrekvens. Idiom var den kategori som oftast bedömdes som NA — vilket betyder att modellen valde att inte översätta dem och lät det engelska originalet stå kvar i den i övrigt översatta texten. Aya Expanse 8B uppvisade de högsta utelämningsfrekvenserna och de lägsta kvalitetspoängen när den översatte. Försiktigt beteende skyddade inte den mindre modellen. Det förstärkte dess svaghet.

När en modell stöter på en ordvits den inte kan rekonstruera har den tre alternativ. Översätta den bokstavligt och producera nonsens. Översätta den fritt och producera ett annat skämt eller inget skämt alls. Eller vägra och lämna kvar engelskan. Alla tre alternativen är synliga för modersmålsläsaren. Alla tre signalerar att texten är genererad, inte skriven. Alla tre minskar sannolikheten att läsaren köper det som mejlet säljer.

Ordvitsen Som Gett Studien Sitt Namn

Paperets titel är en ledtråd. “Be My Cheese?” är den bokstavliga översättningen av en ostbaserad Alla hjärtans dag-ordvits — “Will you brie mine?” — som dök upp i ett av källmejlen. Ordvitsen vilar helt på homofonin mellan “brie” och “be” på engelska. På varje annat språk existerar homofonin inte. Vitsen överlever inte översättningen. Den måste rekonstrueras.

Det modellerna producerade var inte rekonstruktion. Det var bokstavlig återgivning av orden “brie” och “mine” — en text som nämnde ost utan att innehålla ett skämt, en rytm eller en Alla hjärtans dag. Marknadsföringsfunktionen — den emotionella kopplingen till ett säsongsögonblick — kollapsade till en mening om mejeri.

Det är studiens strukturella fynd, illustrerat. Modellen översatte orden. Modellen översatte inte funktionen. Funktionen var hela skälet till att orden fanns.

Standardvärdet är Amerikanskt

Författarna formulerar inte nästa iakttagelse på det här sättet. Datan gör det.

När en modell som tränats på internettext stöter på ett register, en ton eller en relationell hållning som den inte känner igen faller den tillbaka på det vanligaste mönstret i träningsfördelningen. Det vanligaste mönstret i träningsfördelningen är amerikansk engelsk kommersiell text. Resultatet är text som är grammatiskt portugisisk, nederländsk eller japansk — och pragmatiskt kalifornisk.

Formalitetskalibreringen är enhetlig. Tonen är informell, på gränsen till familjär. Tilltalsformen är den jämlika. Den relationella bekräftelsen är kort. Uppmaningen till handling är direkt. Det fungerar i amerikansk marknadsföring eftersom amerikansk marknadsföring är det korpus modellerna optimerats mot. Det fungerar inte i München, där kommersiell kommunikation i B2C-sammanhang använder “Sie” tills en relation är etablerad. Det fungerar inte i Milano, där kommersiell värme föregår transaktionen via en investering i social ritual. Det fungerar inte i Malmö, där den konsenssökande dämpningen i svensk prosa får den självhävdande amerikanska avslutningen att läsas som desperation.

Modellen talar femton språk. Modellen kommunicerar i en kultur. De femton är ytan. Den ena är arkitekturen.

Det är inget misslyckande hos de sju testade modellerna. Det är en strukturell egenskap hos varje modell som tränats övervägande på webbtext. Webben är inget neutralt korpus. Webben är en kultur. Kulturen är amerikansk engelska med ett globalt distributionsnät. Varje flerspråkig modell ärver kulturen tillsammans med språken.

Prestandatabellen

Modell	Totalt	Mottagare	Stil	Innehåll
GPT-5	2,10	2,38	2,23	2,23
Claude Sonnet 3.7	1,97	2,25	2,08	2,10
Mistral Medium 3.1	1,84	2,19	2,04	1,92
DeepSeek V3.1	1,72	2,05	1,98	1,77
gpt-oss 120B	1,60	1,94	1,83	1,72
Llama 4	1,47	1,81	1,72	1,59
Aya Expanse 8B	1,09	1,55	1,41	1,21

Kolumnerna förtjänar närläsning. På varje modell är det högsta delvärdet “anpassning till mottagaren”. Det lägsta är “innehållstrohet”. Det är motsatsen till intuitionen. Man skulle vänta sig att en översättare är som mest pålitlig på att bevara innehåll och som minst pålitlig på att möta mottagaren. Datan visar tvärtom. Modellerna producerar text som låter rätt för målgruppen men förvränger källan. Flytet är iscensatt. Precisionen är instabil.

Ett marknadsföringsmejl översatt av en topprankad modell 2026 låter rätt och säger något subtilt annat än vad varumärket avsåg. Det är den dyraste sortens fel. Osynligt för företaget som rullar ut, som utvärderat verktyget på engelska. Synligt för kunden, som märker att texten känns genererad. Avståndet mellan känsla och avsikt är där den kommersiella konverteringen tappas.

Det Tvärkulturella Testet

Samma marknadsföringsmejl i tre sammanhang.

I Brasilien öppnar mejlet med relationell värme före allt kommersiellt innehåll. Läsaren förväntar sig bekräftelse före transaktion. En modell som öppnar med erbjudandet signalerar främlingskap. Läsaren läser vidare, men förtroendekurvan har skiftat.

I Tyskland öppnar mejlet med erbjudandet och använder “Sie”. Formaliteten kommer före värmen. En modell som öppnar med “Hey, Marta!” — ett standardvärde ärvt från amerikanska mejlmallar — har begått en registerförbrytelse i de första tre orden. Läsaren katalogiserar inte misstaget medvetet. Läsaren upplever helt enkelt avsändaren som en främling som tar sig för stora friheter.

I Japan öppnar mejlet med en säsongsbekräftelse, en mening som visar medvetenhet om mottagarens sannolika omständigheter, och först därefter introduceras den kommersiella ramen. Strukturen är icke förhandlingsbar i B2C-kommunikation inriktad på långa kundrelationer. En modell som hoppar över öppningen producerar text som är tekniskt korrekt och socialt klumpig. Klumpigheten kostar konverteringen.

Tre kulturer. Tre olika öppningsarkitekturer. Modellen använder en — den amerikanska — i alla tre. Texten är flytande på tre språk och kulturellt oläsbar på två av dem.

Det är vad Appen-studien mäter, översatt till den nivå där det europeiska sme-företaget möter konsekvensen.

Vad Siffrorna Betyder för Milano, München, Malmö

Ett europeiskt sme-företag som säljer över inre marknaden är den publik som detta fynd berör mest direkt.

Aritmetiken är enkel. En modell som får 2,10 av 3 på ett marknadsföringsmejl producerar text som kräver mänsklig granskning innan den kan skickas. Den nödvändiga granskningen är inte korrekturläsning. Det är kulturell redaktion. Den italienska texten måste granskas med avseende på värmekalibrering. Den tyska med avseende på register. Den svenska med avseende på frånvaron av konsenssökande dämpning. Den nederländska med avseende på om den direkta avslutningen landar som självsäker eller aggressiv.

Var och en av dessa granskningar kräver en modersmålstalare med varumärkesröst-säkerhet och kulturell-pragmatisk kompetens. Kostnaden för dessa granskningar finns inte i den per-token-ekonomi som gjorde AI-översättning attraktiv från början. Leverantörens prismodell utgår från att outputten är publicerbar. Appen-datan visar att den inte är det.

Det europeiska sme-företaget har tre alternativ.

Acceptera den kulturella förvrängningen. Skicka modellens output utan redigering och bära konverteringsstraffet i tystnad. Det är det vanligaste valet eftersom straffet är osynligt — kunderna som inte köpte skriver inte tillbaka.

Anlita modersmålsgranskare på varje marknad. Det återställer kvaliteten på bekostnad av den driftmässiga enkelhet som motiverade AI-utrullningen. Ekonomin förskjuts. Investeringen kan fortfarande löna sig jämfört med enspråkiga översättare, men bara om företaget mäter konverteringseffekten per marknad, vilket de flesta inte gör.

Bygga in kulturell infrastruktur i prompten och arbetsflödet. Det är vägen Bluewaves går med varje flerspråkig Gizmo. Den kulturella kontexten struktureras innan språket väljs. Modellen får den relationella hållningen, formalitetsregistret, direkthetskalibreringen och den tidsmässiga orienteringen som passar marknaden. Språket är det sista beslutet. Modellen är — uttryckligen — begränsad till att producera text som respekterar arkitekturen.

Det tredje alternativet eliminerar inte avståndet som Appen-studien mäter. Det komprimerar det. En begränsad prompt, ett kulturspecifikt systemmeddelande och en kvalitetskontroll per marknad producerar output som ligger närmare publicerbart än de råa 2,10. Närmare räcker inte för högt insatsmaterial. Det räcker för det mesta av kommunikationen, det mesta av tiden, till en bråkdel av kostnaden för mänsklig översättning.

Villkoret är att någon i utrullningskedjan vet vad som ska begränsas. Modellen vet inte. Leverantören vet inte. Inköpsavdelningen vet definitivt inte. Kulturell-pragmatisk kompetens är ingen inställning i någon AI-översättningsprodukt på marknaden. Det är en disciplin som det utrullande företaget måste ta med sig.

Vad Kulturell Kompetens Skulle Kräva

Appen-författarna pekar implicit på kravet. Botemedlet ligger i den lucka som datan blottar.

En kulturellt kompetent översättningsmodell skulle behöva veta — och tillämpa — fem saker som ingen modell idag vet.

Målgruppens kulturella baslinje. Inte språket. Kulturen. Brasiliansk portugisiska och europeisk portugisiska är samma språk och två olika kommersiella kulturer. Modellen måste skilja dem åt, inte som en lokalkod utan som olika arkitekturer av tillit.

Det formalitetsregister som passar kanalen och relationen. Ett marknadsföringsmejl från ett okänt varumärke i Tyskland kräver “Sie”. Samma mejl från ett varumärke där mottagaren redan handlat kan glida över i “du” om varumärkesrösten etablerat det registret. Modellen måste läsa relationen, inte prompten.

Direkthetskalibreringen som passar budskapet och kulturen. En nederländsk läsare väntar sig direkthet. En japansk läsare väntar sig indirekthet. En modell som använder enhetlig direkthet producerar tveksam nederländska och påträngande japanska i samma genereringscykel. Båda är fel. Båda minskar konverteringen. Båda klarar utvärdering på tokennivå.

Erbjudandets tidsmässiga orientering. Tidsbegränsade erbjudanden som landar i en monokron kultur aktiverar brådska. Tidsbegränsade erbjudanden som landar i en polykron kultur aktiverar misstänksamhet. Samma uppmaning till handling kräver olika inramning i olika kulturer. Modellen måste veta vilken inramning som gäller.

Den kulturella mappningen av bildligt språk. Inte den bokstavliga utbytet. Den funktionella motsvarigheten. En ordvits för Alla hjärtans dag på engelska måste bli en ordvits för Alla hjärtans dag på italienska — eller, om formen inte överlever, en annan retorisk figur som fyller samma emotionella funktion. Modellen måste skilja form från funktion. Dagens modeller gör det inte.

Dessa fem förmågor är inte språkliga förmågor. De är kulturella förmågor. Träningsdatan innehåller dem inte — eftersom de sällan görs explicita i text. Ingen skriver “jag använder nu det formella registret eftersom jag ännu inte känner den här personen”. Registret används bara. Modellen måste härleda regeln ur instanser. Härledningen är svag när mönstren är implicita och kulturellt varierande.

Kulturell kompetens i AI-modeller kommer att kräva explicit kulturell annotering, kulturell instruktionsfinjustering eller retrievalpipelines som hämtar från kulturella kunskapsbaser. Sådana ansatser finns i forskningen. De finns inte i någon av de sju modeller som Appen-studien testade.

Principen

En modell som tränats på internettext ärver internets kultur. Internets kultur är amerikansk engelska med ett globalt distributionsnät. Femton språk i outputen ändrar inte arkitekturen. Femton språk i outputen exponerar arkitekturen.

Flyt är grundkravet. Varje större modell klarar det. Appen-poängen visar att flyt inte längre är det som skiljer.

Kulturell kompetens är det som skiljer. Taket på 2,10 mäter avståndet mellan de bästa modellerna och den skillnaden. Avståndet på 0,4 poäng mellan helgreferenser och idiom är formen på misslyckandet. Det amerikanska standardvärdet som dyker upp i varje output är källan.

För ett europeiskt sme-företag är implikationen direkt. Marknadsföringsmejlet översatt av GPT-5 kommer inte att sälja lika bra som samma mejl skrivet av en copywriter i Milano. Avståndet är inte katastrofalt. Avståndet är konstant. Och avståndet är skillnaden mellan en marknadsetablering som fungerar och en marknadsetablering som tyst underpresterar i flera år innan någon diagnostiserar orsaken.

På Bluewaves lämnar ingen flerspråkig Gizmo huset utan en explicit kulturell arkitektur: formalitetsregistret, direkthetskalibreringen, den relationella hållningen och de retoriska funktioner som modellen måste bevara, namngivna i systempromten och testade per marknad. Modellen producerar fortfarande outputten. Arkitekturen begränsar vad outputten får vara. Begränsningen är där den kulturella kompetensen kommer in i systemet, för modellen kan inte tillhandahålla den.

De sju modeller som Appen testade saknar inte data. De saknar kultur. Texten är flytande för att orden finns där. Texten säljer inte för att kulturen saknas.

Att tala är inte att sälja. Flyt är inte kompetens. Översättning är inte lokalisering.

Modellen talar femton språk. Den säljer på ett. Tills det utrullande företaget tillhandahåller det modellen inte tillhandahåller är det förhållandet taket.

Skriven av

Bernardo

Kulturöversättare

Han ser till att din Gizmo inte bara talar spanska — den låter spansk. När ett nordiskt klientteam kallar sin Gizmo vid ett finskt smeknamn är det hans arbete som syns.

← Alla anteckningar