Bernardo 12. Mai 2026

Das Modell Spricht Fünfzehn Sprachen. Es Verkauft in Einer.

14 Min. Lesezeit

Das Modell spricht fünfzehn Sprachen. Es verkauft in einer.

Das ist keine rhetorische Figur. Es ist das Ergebnis eines peer-reviewten Benchmarks, der im Februar 2026 von vier Appen-Forscherinnen — Madison Van Doren, Casey Ford, Jennifer Barajas und Cory Holland — unter dem Titel „Be My Cheese?”: Cultural Nuance Benchmarking for Machine Translation in Multilingual LLMs veröffentlicht wurde. Sieben State-of-the-Art-Modelle. Fünfzehn Sprache-Region-Paare. Fünf muttersprachliche Bewerter pro Sprache. Dreizehntausendeinhundertfünfundzwanzig Annotationen auf Segmentebene. Die Daten sind präzise. Die Schlussfolgerung ist nüchtern.

Die besten Modelle erreichten 2,10 von 3 auf einer vierstufigen Ordinalskala für die Gesamtqualität der Übersetzung. Zwei Drittel des Maximums. Die stärksten kommerziellen Modelle am Markt erzeugen bei der Übersetzung einer Marketing-E-Mail einen Text, den Muttersprachler bestenfalls als angemessen bewerten — auf einer Skala, auf der 3 dem Standard einer publikationsreifen Übersetzung entspricht.

Flüssig. Nicht verkaufstauglich. Die Unterscheidung ist die Architektur des gesamten Arguments.

Was die Studie Tatsächlich Tat

Die Methodik muss vor den Ergebnissen stehen, denn die Methodik ist das tragende Element jedes Benchmarks, der kulturelle Kompetenz messen will.

Die Forscherinnen gaben sieben multilingualen LLM fünf E-Commerce-Marketing-E-Mails — adaptiert aus realen kommerziellen Kampagnen mit Wortspielen, Idiomen, Feiertagsbezügen, Markenstimme und kulturell verankerten Begriffen. Getestet wurden GPT-5, Claude Sonnet 3.7, Mistral Medium 3.1, DeepSeek V3.1, gpt-oss 120B, Llama 4 von Meta und Aya Expanse 8B von Cohere. Die Mischung ist Absicht: Closed- und Open-Weight, Frontier- und zugängliche Modelle, amerikanisch, europäisch und chinesisch.

Jedes Modell erhielt denselben Prompt: „Übersetze die folgende E-Mail zur Verwendung in [Sprache] in [Land/Region].” Die Anweisung ist die Anweisung, die jedes europäische KMU geben würde. Kein Prompt-Engineering. Keine Retrieval-Pipeline. Kein Fine-Tuning auf den Zielmarkt. Die Aufgabe in Rohform, so wie ein kleines Unternehmen sie ausführen würde.

Die fünfzehn Zielregionen deckten Typologien und Kontinente ab: Afrikaans (ZA), Arabisch (EG), brasilianisches Portugiesisch (BR), Kantonesisch (HK), Tschechisch (CZ), Niederländisch (NL), Hebräisch (IL), Hindi (IN), Japanisch (JP), Koreanisch (KR), Mandarin (TW), Russisch (KZ), Spanisch (MX), Suaheli (KE) und Urdu (PK). Jede Übersetzung wurde anschließend von fünf Muttersprachlern bewertet — wohnhaft in der jeweiligen Region, fließend in Englisch und in der Zielsprache. Insgesamt fünfundsiebzig Bewerter. Jeder bewertete sowohl die vollständige übersetzte E-Mail — auf Inhaltstreue, Stiltreue, Zielgruppen-Angemessenheit und Gesamtqualität — als auch vordefinierte Segmente mit Idiomen, Wortspielen, Feiertagen und kulturellen Begriffen. Die Skala reichte von 0 bis 3. Es gab auch eine Kategorie NA. Die Kategorie NA erwies sich als entscheidend.

Es ist die strengste publizierte Bewertung kultureller Lokalisierung in der maschinellen Übersetzung bis heute. Es ist auch die vernichtendste.

Die Spitzengruppe

Die mittlere Gesamtqualität des vollständigen Textes über alle Modelle und Sprachen lag bei 1,68 von 3.

GPT-5 führte mit 2,10. Claude Sonnet 3.7 folgte mit 1,97. Mistral Medium 3.1 erreichte 1,84. Diese drei bildeten das, was die Autorinnen als „statistisch nicht unterscheidbare Spitzengruppe” beschreiben — signifikant besser als der Rest, untereinander statistisch gleichwertig. DeepSeek V3.1 kam auf 1,72 und gpt-oss 120B auf 1,60. Llama 4 erzielte 1,47. Aya Expanse 8B, das kleinste der sieben Modelle und das einzige, das speziell auf multilinguale Abdeckung ausgelegt ist, erzielte 1,09.

Die Reihenfolge ist auffällig, aber nicht der Punkt. Der Punkt ist die Decke. Das beste multilinguale LLM am Markt erreicht bei einer Marketing-E-Mail sieben Zehntel des Weges zu einer publizierbaren Übersetzung. Das schlechteste kaum ein Drittel.

Das sind keine Extremfälle aus exotischen Sprachen. Im Set sind Spanisch, Portugiesisch, Niederländisch, Japanisch — Sprachen mit reichlich Trainingsdaten und jahrzehntelanger Geschichte in der maschinellen Übersetzung. Die Werte sind nicht der Rückstand vernachlässigter Sprachen mit geringen Ressourcen. Sie sind die Grenze der Technologie, gemessen an der Spitze.

Eine Marketing-E-Mail ist kein schwieriges Genre. Sie ist eine kurze, strukturierte, kommerziell wertvolle Form. Wenn zeitgenössische LLM eine Marketing-E-Mail nicht so lokalisieren können, dass ein Muttersprachler sie über 2,10 von 3 bewertet, ist die Implikation für alles andere — Kundensupport-Antworten, Produktbeschreibungen, regulatorische Mitteilungen, interne Kommunikation — direkt.

Wo die Modelle Brechen

Der aggregierte Wert verdeckt den strukturellen Befund. Der strukturelle Befund liegt in den Ergebnissen auf Segmentebene.

Als die Bewerter die vier Kategorien kulturell markierter Sprache getrennt bewerteten, war das Muster scharf. Feiertagsbezüge erreichten im Mittel 2,20 von 3. Kulturelle Begriffe 2,19. Idiome 1,65. Wortspiele 1,45.

Der Abstand von vier Zehnteln zwischen Feiertagen und Idiomen ist groß. Der Abstand von sieben Zehnteln zwischen Feiertagen und Wortspielen ist strukturell. Feiertage und kulturell verankerte Begriffe sind Substantive. Idiome und Wortspiele sind rhetorische Figuren. Modelle übersetzen Substantive. Modelle scheitern an Figuren.

Der Grund ist architektonisch, nicht anekdotisch. Ein Feiertag — Valentinstag, Singles Day, Diwali — hat ein Äquivalent in der Zielsprache oder eine bekannte kulturelle Zuordnung. Das Modell ruft die Zuordnung ab. Der Abruf funktioniert, weil die Zuordnung in den Trainingsdaten dokumentiert ist. Ein Wortspiel ist das Gegenteil. Ein Wortspiel hängt vom Klang, von der Form oder von der kulturellen Resonanz eines bestimmten Wortes in einer bestimmten Sprache ab. Es hat kein Äquivalent. Es muss in der Zielsprache mit anderem Material rekonstruiert werden. Rekonstruktion verlangt Erfindung. Modelle erfinden nicht. Modelle rufen ab.

Die Autorinnen quantifizieren die Konsequenz mit einer konkreten Metrik: der Auslassungsrate. Idiome waren die am häufigsten als NA bewertete Kategorie — das heißt, das Modell verzichtete darauf, sie zu übersetzen, und ließ das englische Original im ansonsten übersetzten Text stehen. Aya Expanse 8B wies die höchsten Auslassungsraten und die niedrigsten Qualitätsscores auf, wenn es übersetzte. Konservatives Verhalten schützte das kleinere Modell nicht. Es verschärfte seine Schwäche.

Wenn ein Modell auf ein Wortspiel trifft, das es nicht rekonstruieren kann, hat es drei Optionen. Es wörtlich übersetzen und Unsinn produzieren. Es frei übersetzen und einen anderen Witz oder gar keinen produzieren. Oder die Übersetzung verweigern und das Englische stehen lassen. Alle drei Optionen sind für den muttersprachlichen Leser sichtbar. Alle drei signalisieren, dass der Text generiert und nicht geschrieben wurde. Alle drei senken die Wahrscheinlichkeit, dass der Leser kauft, was die E-Mail verkauft.

Das Wortspiel, das der Studie ihren Namen Gibt

Der Titel der Arbeit ist ein Hinweis. „Be My Cheese?” ist die wörtliche Übersetzung eines käse-thematischen Valentinstag-Wortspiels — „Will you brie mine?” — das in einer der Ausgangs-E-Mails vorkam. Das Wortspiel hängt vollständig an der Homophonie zwischen „brie” und „be” im Englischen. In jeder anderen Sprache existiert die Homophonie nicht. Das Wortspiel überlebt die Übersetzung nicht. Es muss rekonstruiert werden.

Was die Modelle produzierten, war keine Rekonstruktion. Es war die wörtliche Wiedergabe der Wörter „brie” und „mine” — ein Text, der Käse erwähnte, aber keinen Witz, keinen Rhythmus und keinen Valentinstag enthielt. Die Marketing-Funktion — emotionale Anbindung an einen saisonalen Moment — kollabierte zu einem Satz über Milchprodukte.

Das ist der strukturelle Befund der Studie, illustriert. Das Modell übersetzte die Wörter. Das Modell übersetzte nicht die Funktion. Die Funktion war der einzige Grund, weshalb die Wörter existierten.

Die Voreinstellung ist Amerikanisch

Die Autorinnen formulieren die nächste Beobachtung nicht so. Die Daten tun es.

Wenn ein auf Internettext trainiertes Modell auf ein Register, einen Ton oder eine relationale Haltung trifft, die es nicht kennt, fällt es auf das häufigste Muster seiner Trainingsverteilung zurück. Das häufigste Muster der Trainingsverteilung ist amerikanisches Geschäftsenglisch. Das Ergebnis ist Text, der grammatisch portugiesisch, niederländisch oder japanisch ist und pragmatisch kalifornisch.

Die Formalitätskalibrierung ist einheitlich. Der Ton ist informell, an der Grenze zum Vertraulichen. Die Anredeform ist die egalitäre. Die relationale Anerkennung ist kurz. Der Call-to-Action ist direkt. Das funktioniert im amerikanischen Marketing, weil amerikanisches Marketing das Korpus ist, auf dem die Modelle optimiert wurden. Es funktioniert nicht in München, wo geschäftliche Kommunikation im B2C-Kontext „Sie” verwendet, bis eine Beziehung etabliert ist. Es funktioniert nicht in Mailand, wo kommerzielle Wärme der Transaktion durch ein Investment in soziale Rituale vorausgeht. Es funktioniert nicht in Malmö, wo die konsensorientierte Mäßigung schwedischer Prosa den selbstbewussten amerikanischen Abschluss wie Verzweiflung wirken lässt.

Das Modell spricht fünfzehn Sprachen. Das Modell kommuniziert in einer Kultur. Die fünfzehn sind die Oberfläche. Die eine ist die Architektur.

Es ist kein Versagen der sieben getesteten Modelle. Es ist eine strukturelle Eigenschaft jedes Modells, das überwiegend auf Web-Text trainiert wurde. Das Web ist kein neutrales Korpus. Das Web ist eine Kultur. Die Kultur ist amerikanisches Englisch mit einem globalen Verteilungsnetz. Jedes multilinguale Modell erbt die Kultur zusammen mit den Sprachen.

Die Leistungstabelle

Modell	Gesamt	Zielgruppe	Stil	Inhalt
GPT-5	2,10	2,38	2,23	2,23
Claude Sonnet 3.7	1,97	2,25	2,08	2,10
Mistral Medium 3.1	1,84	2,19	2,04	1,92
DeepSeek V3.1	1,72	2,05	1,98	1,77
gpt-oss 120B	1,60	1,94	1,83	1,72
Llama 4	1,47	1,81	1,72	1,59
Aya Expanse 8B	1,09	1,55	1,41	1,21

Die Spalten verdienen einen genauen Blick. Über alle Modelle hinweg ist der höchste Teilwert „Zielgruppen-Angemessenheit”. Der niedrigste ist „Inhaltstreue”. Das ist das Gegenteil der Intuition. Man erwartet von einer Übersetzung, dass sie den Inhalt am verlässlichsten bewahrt und sich am wenigsten verlässlich an die Zielgruppe anpasst. Die Daten zeigen das Umgekehrte. Die Modelle produzieren Text, der für die Zielgruppe passend klingt, aber die Quelle verzerrt. Die Flüssigkeit ist performativ. Die Genauigkeit ist instabil.

Eine Marketing-E-Mail, die 2026 von einem Spitzenmodell übersetzt wird, klingt richtig und sagt etwas subtil anderes als das, was die Marke beabsichtigte. Das ist die teuerste Art von Fehler. Sie ist unsichtbar für das einsetzende Unternehmen, das das Werkzeug auf Englisch geprüft hat. Sie ist sichtbar für den Kunden, der spürt, dass der Text generiert wirkt. Der Abstand zwischen Wirkung und Absicht ist die Stelle, an der die kommerzielle Konversion verloren geht.

Der Interkulturelle Test

Dieselbe Marketing-E-Mail in drei Kontexten.

In Brasilien beginnt die E-Mail mit relationaler Wärme, bevor irgendein kommerzieller Inhalt folgt. Der Leser erwartet Anerkennung vor der Transaktion. Ein Modell, das mit dem Angebot beginnt, signalisiert Fremdheit. Der Leser liest weiter, aber das Vertrauensgefälle hat sich verschoben.

In Deutschland beginnt die E-Mail mit dem Angebot und verwendet „Sie”. Förmlichkeit geht der Wärme voraus. Ein Modell, das mit „Hey, Marta!” beginnt — eine Voreinstellung, die es aus amerikanischen E-Mail-Vorlagen erbt — hat in den ersten drei Wörtern eine Registerverletzung begangen. Der Leser katalogisiert den Fehler nicht bewusst. Der Leser empfindet den Absender schlicht als überschreitenden Fremden.

In Japan beginnt die E-Mail mit einer saisonalen Anerkennung, einem Satz, der das Bewusstsein für die wahrscheinlichen Umstände des Empfängers signalisiert, und führt erst dann den kommerziellen Rahmen ein. Die Struktur ist für B2C-Kommunikation, die auf langfristige Kundenbeziehungen zielt, nicht verhandelbar. Ein Modell, das die Eröffnung überspringt, produziert Text, der technisch korrekt und sozial unbeholfen ist. Die Unbeholfenheit kostet die Konversion.

Drei Kulturen. Drei verschiedene Eröffnungsarchitekturen. Das Modell verwendet eine — die amerikanische — in allen dreien. Der Text ist in drei Sprachen flüssig und in zweien davon kulturell unlesbar.

Das ist es, was die Appen-Studie misst, auf die Ebene gebracht, auf der das europäische KMU die Konsequenz erlebt.

Was die Zahlen für Mailand, München, Malmö Bedeuten

Ein europäisches KMU, das im Binnenmarkt verkauft, ist die Zielgruppe, die dieser Befund am unmittelbarsten betrifft.

Die Arithmetik ist einfach. Ein Modell, das auf einer Marketing-E-Mail 2,10 von 3 erreicht, produziert Text, der vor dem Versand eine menschliche Überarbeitung erfordert. Die nötige Überarbeitung ist kein Korrekturlesen. Sie ist kulturelles Lektorat. Der italienische Text muss auf die Kalibrierung der Wärme geprüft werden. Der deutsche auf das Register. Der schwedische auf das Fehlen konsensorientierter Mäßigung. Der niederländische darauf, ob der direkte Abschluss als selbstbewusst oder aggressiv ankommt.

Jede dieser Überprüfungen erfordert einen Muttersprachler mit Markenstimmen-Sicherheit und kulturell-pragmatischer Kompetenz. Die Kosten dieser Überprüfungen sind nicht in der Pro-Token-Ökonomie enthalten, die KI-Übersetzung überhaupt attraktiv gemacht hat. Das Preismodell des Anbieters setzt voraus, dass der Output publikationsreif ist. Die Appen-Daten zeigen: ist er nicht.

Das europäische KMU hat drei Optionen.

Die kulturelle Verzerrung akzeptieren. Den Modell-Output unbearbeitet versenden und die Konversionsstrafe still tragen. Das ist die häufigste Wahl, weil die Strafe unsichtbar ist — die Kunden, die nicht gekauft haben, schreiben nicht zurück.

Muttersprachliche Lektoren in jedem Markt einstellen. Das stellt die Qualität wieder her, zum Preis der operativen Einfachheit, die den KI-Einsatz motivierte. Die Ökonomie verschiebt sich. Die Investition kann sich gegenüber monolingualen Übersetzern noch rechnen — aber nur, wenn das Unternehmen die Konversionsauswirkungen pro Markt misst, was die meisten nicht tun.

Kulturelle Infrastruktur in Prompt und Workflow einbauen. Das ist der Weg, den Bluewaves bei jedem multilingualen Gizmo geht. Der kulturelle Kontext wird strukturiert, bevor die Sprache ausgewählt wird. Dem Modell wird die relationale Haltung, das Formalitätsregister, die Direktheitskalibrierung und die zeitliche Orientierung des Marktes vorgegeben. Die Sprache ist die letzte Entscheidung. Das Modell ist — explizit — darauf eingeschränkt, Text zu produzieren, der die Architektur respektiert.

Die dritte Option beseitigt nicht den Abstand, den die Appen-Studie misst. Sie komprimiert ihn. Ein eingeschränkter Prompt, eine kulturspezifische System-Nachricht und eine markt-spezifische Qualitätskontrolle produzieren Output, der näher an publizierbar liegt als die rohen 2,10. Näher reicht nicht für hochsensible Kommunikation. Es reicht für den größten Teil der Kommunikation, die meiste Zeit, zu einem Bruchteil der Kosten menschlicher Übersetzung.

Die Bedingung ist, dass jemand im Deployment-Kreislauf weiß, was eingeschränkt werden muss. Das Modell weiß es nicht. Der Anbieter weiß es nicht. Die Einkaufsabteilung weiß es sicher nicht. Kulturell-pragmatische Kompetenz ist in keinem KI-Übersetzungsprodukt am Markt eine Einstellung. Sie ist eine Disziplin, die das einsetzende Unternehmen mitbringen muss.

Was Kulturelle Kompetenz Verlangt

Die Appen-Autorinnen deuten die Anforderung implizit an. Das Heilmittel liegt in der Lücke, die ihre Daten offenlegen.

Ein kulturell kompetentes Übersetzungsmodell müsste fünf Dinge wissen — und anwenden —, die kein Modell derzeit weiß.

Die kulturelle Grundlinie der Zielgruppe. Nicht die Sprache. Die Kultur. Brasilianisches Portugiesisch und europäisches Portugiesisch sind dieselbe Sprache und zwei verschiedene Geschäftskulturen. Das Modell muss sie unterscheiden, nicht als Locale-Code, sondern als unterschiedliche Vertrauensarchitekturen.

Das Formalitätsregister, das zu Kanal und Beziehung passt. Eine Marketing-E-Mail einer unbekannten Marke in Deutschland verlangt „Sie”. Dieselbe E-Mail einer Marke, bei der der Empfänger schon gekauft hat, kann zu „Du” wechseln, wenn die Markenstimme dieses Register etabliert hat. Das Modell muss die Beziehung lesen, nicht den Prompt.

Die Direktheitskalibrierung, die zu Botschaft und Kultur passt. Ein niederländischer Leser erwartet Direktheit. Ein japanischer Leser erwartet Indirektheit. Ein Modell, das einheitliche Direktheit verwendet, produziert zögerliches Niederländisch und übergriffiges Japanisch im selben Generierungszyklus. Beides ist falsch. Beides senkt die Konversion. Beides besteht die Auswertung auf Token-Ebene.

Die zeitliche Orientierung des Angebots. Befristete Angebote in einer monochronen Kultur aktivieren Dringlichkeit. Befristete Angebote in einer polychronen Kultur aktivieren Misstrauen. Derselbe Call-to-Action verlangt in verschiedenen Kulturen eine andere Rahmung. Das Modell muss wissen, welche Rahmung gilt.

Die kulturelle Zuordnung figurativer Sprache. Nicht die wörtliche Ersetzung. Das funktionale Äquivalent. Ein Valentinstag-Wortspiel auf Englisch muss zu einem Valentinstag-Wortspiel auf Italienisch werden — oder, wenn die Form nicht überlebt, zu einer anderen rhetorischen Figur, die dieselbe emotionale Funktion erfüllt. Das Modell muss Form von Funktion trennen. Aktuelle Modelle tun das nicht.

Diese fünf Fähigkeiten sind keine sprachlichen Fähigkeiten. Sie sind kulturelle Fähigkeiten. Die Trainingsdaten enthalten sie nicht — weil sie im Text selten explizit gemacht werden. Niemand schreibt „ich verwende jetzt das formelle Register, weil ich diese Person noch nicht kenne”. Das Register wird einfach verwendet. Das Modell muss die Regel aus Instanzen erschließen. Die Erschließung ist schwach, wenn die Muster implizit und kulturell variabel sind.

Kulturelle Kompetenz in KI-Modellen wird explizite kulturelle Annotation, kulturelles Instruction-Tuning oder Retrieval-Pipelines verlangen, die auf kulturelle Wissensbasen zugreifen. Diese Ansätze existieren in der Forschung. Sie existieren in keinem der sieben Modelle, die die Appen-Studie getestet hat.

Das Prinzip

Ein auf Internettext trainiertes Modell erbt die Kultur des Internets. Die Kultur des Internets ist amerikanisches Englisch mit einem globalen Verteilungsnetz. Fünfzehn Output-Sprachen ändern die Architektur nicht. Fünfzehn Output-Sprachen legen die Architektur offen.

Flüssigkeit ist die Grundvoraussetzung. Jedes große Modell erreicht sie. Die Appen-Werte zeigen, dass Flüssigkeit nicht mehr der Unterschied ist.

Kulturelle Kompetenz ist der Unterschied. Die Decke von 2,10 misst den Abstand der besten Modelle zu diesem Unterschied. Der Abstand von 0,4 Punkten zwischen Feiertagsbezügen und Idiomen ist die Form des Versagens. Die amerikanische Voreinstellung, die in jedem Output auftaucht, ist seine Quelle.

Für ein europäisches KMU ist die Implikation direkt. Die von GPT-5 übersetzte Marketing-E-Mail wird nicht so gut verkaufen wie dieselbe E-Mail, von einem Mailänder Texter geschrieben. Der Abstand ist nicht katastrophal. Der Abstand ist konstant. Und der Abstand ist der Unterschied zwischen einem Markteintritt, der funktioniert, und einem Markteintritt, der jahrelang leise unter Erwartung bleibt, bevor jemand die Ursache diagnostiziert.

Bei Bluewaves verlässt kein multilinguales Gizmo das Haus ohne eine explizite kulturelle Architektur: Formalitätsregister, Direktheitskalibrierung, relationale Haltung und die rhetorischen Funktionen, die das Modell bewahren muss, benannt im System-Prompt und pro Markt geprüft. Das Modell produziert weiter den Output. Die Architektur bestimmt, was der Output sein darf. Die Einschränkung ist die Stelle, an der kulturelle Kompetenz in das System eintritt, weil das Modell sie nicht liefern kann.

Den sieben von Appen getesteten Modellen fehlen keine Daten. Ihnen fehlt Kultur. Der Text ist flüssig, weil die Wörter da sind. Der Text verkauft nicht, weil die Kultur fehlt.

Sprechen ist nicht Verkaufen. Flüssigkeit ist nicht Kompetenz. Übersetzung ist nicht Lokalisierung.

Das Modell spricht fünfzehn Sprachen. Es verkauft in einer. Solange das einsetzende Unternehmen nicht liefert, was das Modell nicht liefert, ist dieses Verhältnis die Decke.

Geschrieben von

Bernardo

Kulturübersetzer

Er sorgt dafür, dass Ihr Gizmo nicht nur Spanisch spricht — sondern sich spanisch anfühlt. Wenn das Team eines nordischen Kunden seinen Gizmo mit einem finnischen Spitznamen ruft, ist das sein Werk.

← Alle Notizen