Bernardo 17. Februar 2026

Mehrsprachige Modelle sind keine multikulturellen Modelle

12 Min. Lesezeit

Die neuesten Modellveroeffentlichungen kamen mit einer vertrauten Behauptung. Mehr Sprachen. Mehr Gewandtheit. Mehr Benchmarks.

Die grossen Modelle behaupten nun, Dutzende bis ueber hundert Sprachen zu unterstuetzen. Marketingseiten betonen die Zahl. Die Zahl ist beeindruckend. Die Zahl ist auch irrelevant fuer die Frage, die zaehlt.

Die Frage ist nicht: Kann das Modell Portugiesisch sprechen?

Die Frage ist: Kann das Modell in portugiesischer Kultur operieren?

Sprachliche Gewandtheit ist nicht kulturelle Kompetenz. Ein Modell, das Englisch mit perfekter Grammatik, praezisem Wortschatz und natuerlich klingendem Ausdruck ins Portugiesische uebersetzt, hat sprachliche Gewandtheit erreicht. Ein Modell, das englische Geschaeftspraktiken in portugiesische Geschaeftskultur uebersetzt — das Formalitaetsregister anpasst, Hierarchieannahmen adaptiert, Direktheitsstufen kalibriert und die relationalen Erwartungen portugiesischer Geschaeftskommunikation respektiert — hat kulturelle Kompetenz erreicht.

Kein aktuelles Modell leistet das Zweite.

Die fuenf Luecken

Die Luecke zwischen mehrsprachig und multikulturell operiert ueber fuenf spezifische Dimensionen. Diese sind nicht abstrakt — sie sind beobachtbar in jeder interkulturellen KI-Einfuehrung.

Luecke 1: Formalitaetsregister

Jede Sprache enthaelt Formalitaetsregister — Stufen sozialer Distanz, kodiert in Wortschatz, Grammatik und Ton. Die Register tragen kulturelle Bedeutung, die weit ueber Hoeflichkeit hinausgeht.

Portugiesisch hat zwei primaere Anredeformen: “tu” (informell) und “você” (formell, obwohl weniger formell als die dritte Person “o senhor/a senhora”). Europaeisches Portugiesisch verwendet standardmaessig “você” in den meisten beruflichen Kontexten. Brasilianisches Portugiesisch verwendet “você” universell, nutzt aber “tu” in einigen Regionen mit einer Informalitaet, die kein portugiesisches Aequivalent hat.

Deutsch hat “du” (informell) und “Sie” (formell). Die Wahl zwischen beiden ist ein sozialer Vertrag. “Du” voreilig in einem deutschen Geschaeftskontext zu verwenden ist kein grammatischer Fehler. Es ist ein sozialer Verstoss — eine Verletzung des impliziten Vertrags, der professionelle Distanz regelt.

Japanisch hat mehrere Formalitaetsstufen — Keigo (Ehrensprache) allein enthaelt drei Teilsysteme: Sonkeigo (respektvoll), Kenjougo (bescheiden) und Teineigo (hoeflich). Die Wahl zwischen ihnen haengt von den relativen sozialen Positionen von Sprecher und Zuhoerer ab, dem Kontext des Gespraechs und der Beziehungsgeschichte. Ein Chatbot, der Teineigo (die grundlegendste hoefliche Form) verwendet, wenn Sonkeigo erwartet wird, hat einen sozialen Fehler begangen, der dem Vergleich eines juengeren Angestellten gleichkommt, der den Vorstandsvorsitzenden als “Kumpel” anspricht.

Aktuelle KI-Modelle behandeln Formalitaetsregister als Uebersetzungsfeature: Der Nutzer waehlt “formell” oder “informell”, und das Modell passt seinen Wortschatz an. Das ist das Einmaleins kultureller Kompetenz — technisch korrekt und strukturell unzureichend.

Formalitaetsregister sind keine Einstellungen. Sie sind Beziehungen. Das korrekte Register wird nicht durch eine Praeferenzeinstellung bestimmt. Es wird bestimmt durch die Frage, wer spricht, wer zuhoert, was besprochen wird und welche Kommunikationsgeschichte zwischen den Parteien existiert. Ein Modell, das diese Variablen nicht bewerten kann, kann das korrekte Register nicht waehlen. Es kann nur raten — oder den Nutzer bitten zu waehlen, was dem Gleichkommt, “Wie wichtig sind Sie?” zu fragen, bevor ein Gespraech beginnt.

Luecke 2: Hierarchieannahmen

Wenn ein Modell Geschaeftskommunikation generiert, trifft es Annahmen ueber Hierarchie. Diese Annahmen sind unsichtbar, weil sie sich natuerlich anfuehlen — fuer die Person, deren Kultur sie teilt.

Ein KI-Tool, das eine E-Mail von einer Teamleitung an eine Abteilungsleitung auf Englisch generiert, verwendet standardmaessig egalitaere Kommunikation: direkt, per Vorname, auf Augenhoehe. “Hi Sarah, I wanted to share the Q4 results and get your thoughts.”

Dieselbe Kommunikation auf Japanisch erfordert hierarchische Positionierung: Anerkennung der uebergeordneten Position des Empfaengers, Verwendung angemessener Ehrenformen, indirekte Rahmung jeder Bitte und sorgfaeltige Vermeidung jeder Formulierung, die als Gleichheitsanmassung gelesen werden koennte.

Dieselbe Kommunikation auf brasilianischem Portugiesisch erfordert zuerst Waerme und relationale Anerkennung — eine persoenliche Nachfrage vor geschaeftlichen Inhalten — aber mit mehr Flexibilitaet bei der Hierarchie als auf Japanisch und mehr Formalitaet als auf amerikanischem Englisch.

Das Modell kann die Worte uebersetzen. Es kann die Hierarchie nicht uebersetzen. Die E-Mail, die auf Englisch voellig angemessen ist, ist auf Japanisch sozial falsch kalibriert und auf brasilianischem Portugiesisch relational unzureichend.

Das ist kein Uebersetzungsversagen. Es ist ein Versagen der kulturellen Architektur. Das Modell generiert Kommunikation basierend auf Kommunikationsnormen, die es aus seinen Trainingsdaten gelernt hat — ueberwiegend englischsprachige Daten, ueberwiegend amerikanische Geschaeftsnormen. Wenn es Text in anderen Sprachen generiert, uebersetzt es die Worte und bewahrt die amerikanische Kommunikationsarchitektur.

Das Ergebnis: perfekt gewandter portugiesischer Text, der klingt, als haette ihn ein Amerikaner auf Portugiesisch geschrieben. Was genau passiert ist.

Luecke 3: Direktheitskalibrierung

Erin Meyers Kulturkarte identifiziert ein Spektrum der Direktheit in Geschaeftskommunikation — von den Niederlanden (extrem direkt) bis Japan (extrem indirekt), wobei die meisten Kulturen irgendwo dazwischen liegen.

Eine direkte Kommunikationskultur sagt: “Dieser Vorschlag hat drei Probleme. Hier sind sie.”

Eine indirekte Kommunikationskultur sagt: “Dieser Vorschlag zeigt sorgfaeltige Arbeit. Ich frage mich, ob es einige Bereiche geben koennte, in denen zusaetzliches Nachdenken die Analyse staerken koennte.”

Beide Saetze uebermitteln dieselbe Botschaft: Der Vorschlag muss ueberarbeitet werden. Die Kodierung unterscheidet sich. Die kulturelle Erwartung, wie negatives Feedback uebermittelt wird, unterscheidet sich. Die sozialen Konsequenzen der Verletzung der Erwartung unterscheiden sich.

Aktuelle KI-Modelle verwenden standardmaessig moderate Direktheit — ungefaehr kalibriert auf amerikanisches Geschaeftsenglisch, das in der Mitte von Meyers Spektrum sitzt. Dieser Standard ist harmlos fuer moderat direkte Kulturen und anstossig fuer beide Extreme.

Fuer einen niederlaendischen Nutzer fuehlt sich die moderate Direktheit des Modells ausweichend an. “Hoeren Sie auf abzusichern. Was stimmt nicht damit?”

Fuer einen japanischen Nutzer fuehlt sich die moderate Direktheit des Modells plump an. Die negative Bewertung ist zu explizit. Der Nutzer erwartete, dass das Modell die Probleme als Moeglichkeiten rahmt, nicht als Maengel.

Die Kalibrierung ist kein Sprachfeature. Sie ist ein kulturelles Feature. Und kein aktuelles Modell kalibriert die Direktheit auf den kulturellen Kontext des Nutzers.

Luecke 4: Zeitliche Orientierung

Wie eine Kultur sich zu Zeit verhaelt, beeinflusst, wie sie ueber Plaene, Deadlines, Zusagen und Prioritaeten kommuniziert.

In monochronen Kulturen (Deutschland, Schweiz, die nordischen Laender) ist Zeit linear. Zusagen sind sequenziell. Deadlines sind absolut. Ein KI-Tool, das einen Projektplan fuer ein deutsches Team generiert, sollte eine strikte Abfolge produzieren: Aufgabe 1 wird vor Aufgabe 2 abgeschlossen, mit spezifischen Daten und ohne Ambiguitaet.

In polychronen Kulturen (der groesste Teil des Mittelmeerraums, Lateinamerika, weite Teile des Nahen Ostens) ist Zeit flexibel. Mehrere Aktivitaeten ueberlappen sich. Deadlines sind Zielwerte, keine Absoluten. Beziehungen haben Vorrang vor Zeitplaenen. Ein KI-Tool, das einen Projektplan fuer ein brasilianisches Team generiert, sollte einen Rahmen mit Flexibilitaet produzieren — Meilensteine statt Deadlines, parallele Straenge statt strikter Abfolgen und explizite Anerkennung, dass der Plan sich anpassen wird, waehrend die Arbeit fortschreitet.

Wenn ein mehrsprachiges Modell einen Projektplan auf Portugiesisch generiert, uebersetzt es die zeitliche Struktur der englischsprachigen Projektmanagement-Tradition — die monochron, sequenziell und deadline-absolut ist. Der Plan ist sprachlich portugiesisch und kulturell angelsaechsisch.

Ein brasilianischer Projektmanager, der diesen Plan erhaelt, denkt nicht “die zeitliche Orientierung ist falsch”. Er denkt “dieser Plan ist unrealistisch”. Er denkt vielleicht sogar “dieses Tool versteht nicht, wie Arbeit tatsaechlich erledigt wird”. Beide Einschaetzungen sind korrekt — aus seiner kulturellen Position.

Luecke 5: Beziehungsvorrang

In aufgabenorientierten Kulturen (Vereinigte Staaten, Deutschland, Niederlande) beginnen Geschaeftsinteraktionen mit der Aufgabe. Die Beziehung entwickelt sich durch die Arbeit. Sie verdienen Vertrauen, indem Sie Ergebnisse liefern.

In beziehungsorientierten Kulturen (der groesste Teil Asiens, Lateinamerika, der Nahe Osten, weite Teile Suedeuropas) beginnen Geschaeftsinteraktionen mit der Beziehung. Die Aufgabe kann erst weitergehen, wenn die Beziehung etabliert ist. Sie verdienen das Recht, ueber Geschaeftliches zu sprechen, indem Sie in die persoenliche Verbindung investieren.

Ein KI-Tool ist per Design aufgabenorientiert. Das Interaktionsmodell ist: Der Nutzer praesentiert eine Aufgabe, das Tool fuehrt sie aus. Kein relationales Praeludium. Keine persoenliche Verbindung. Keine Investition in die Beziehung vor der Transaktion.

In aufgabenorientierten Kulturen ist das effizient. In beziehungsorientierten Kulturen ist das abrupt. Das Tool, das die Beziehung ueberspringt und direkt zur Aufgabe geht, hat das kulturelle Protokoll verletzt. Die Verletzung ist nicht bewusst — der Nutzer denkt nicht “dieses Tool hat die relationale Phase uebersprungen”. Der Nutzer fuehlt, dass die Interaktion kalt, mechanisch und nicht vertrauenswuerdig ist.

Dasselbe Gefuehl, erlebt ueber Millionen von Nutzern in beziehungsorientierten Kulturen, aggregiert sich zu einer messbaren Adoptionsluecke.

Das strukturelle Problem

Die fuenf Luecken teilen eine strukturelle Ursache: Aktuelle KI-Modelle werden ueberwiegend auf englischsprachigen Daten trainiert, die englischsprachige kulturelle Normen einbetten. Wenn diese Modelle Text in anderen Sprachen generieren, fuehren sie sprachliche Uebersetzung und kulturelle Beibehaltung durch — sie uebersetzen die Worte und bewahren die kulturellen Annahmen der Quellsprache.

Das Ergebnis ist sprachlich mehrsprachig und kulturell monokulturell.

Eine portugiesische Geschaefts-E-Mail, generiert von einem mehrsprachigen Modell, liest sich als portugiesische Worte, arrangiert nach amerikanischen Kommunikationsnormen. Die Grammatik ist korrekt. Der Wortschatz ist angemessen. Die kulturelle Architektur — die Hierarchie, die Formalitaet, die Direktheit, die zeitliche Orientierung, die relationale Erwartung — ist amerikanisch.

Das ist kein Bug. Es ist eine architektonische Limitierung. Das Modell lernte Kommunikationsnormen aus seinen Trainingsdaten. Die Kommunikationsnormen der Trainingsdaten sind gewichtet in Richtung amerikanisches Englisch. Das Modell verallgemeinert diese Normen auf alle Sprachen, weil es nicht gelernt hat, dass Kommunikationsnormen kulturell variabel sind.

Das Modell weiss, dass Portugiesisch andere Worte als Englisch verwendet. Das Modell weiss nicht, dass portugiesische Kultur andere Kommunikationsregeln als amerikanische Kultur verwendet.

Was kulturelle Kompetenz erfordert

Ein kulturell kompetentes KI-Modell muesste fuenf Dinge wissen — und anwenden —, die kein aktuelles Modell weiss:

Den kulturellen Kontext des Nutzers. Nicht seine Sprache. Seine Kultur. Ein portugiesischsprachiger Mensch in Lissabon hat andere Kommunikationserwartungen als ein portugiesischsprachiger Mensch in São Paulo. Die Sprache ist dieselbe. Die Kultur nicht.

Das angemessene Formalitaetsregister. Basierend auf dem kulturellen Kontext des Nutzers, der spezifischen Interaktion (interne E-Mail vs. Kundenangebot vs. Kundenantwort) und der Beziehung zwischen den Parteien. Das Register ist keine Einstellung. Es ist ein Urteil.

Die angemessene Direktheitsstufe. Basierend auf dem kulturellen Kontext und dem spezifischen Kommunikationszweck. Positives Feedback auf Niederlaendisch sollte direkt sein. Negatives Feedback auf Japanisch sollte indirekt sein. Das Modell sollte wissen, welche Kalibrierung anzuwenden ist, ohne es gesagt zu bekommen.

Die angemessene zeitliche Rahmung. Plaene, Zusagen und Deadlines sollten gemaess der kulturellen Orientierung des Publikums gerahmt werden. Monochrone Rahmung fuer monochrone Kulturen. Polychrone Rahmung fuer polychrone Kulturen.

Das angemessene relationale Praeludium. In beziehungsorientierten Kulturen sollte die Interaktion mit relationaler Anerkennung beginnen. In aufgabenorientierten Kulturen sollte die Interaktion mit der Aufgabe beginnen. Das Modell sollte wissen, was zu tun ist.

Diese fuenf Faehigkeiten sind keine Sprachfaehigkeiten. Sie sind kulturelle Faehigkeiten. Sie erfordern eine andere Art von Training — nicht mit mehr Text in mehr Sprachen, sondern mit den kulturellen Systemen, die bestimmen, wie Text in verschiedenen Gesellschaften funktioniert.

Das Trainingsdatenproblem

Die strukturelle Ursache verdient eine tiefere Untersuchung. Warum greifen mehrsprachige Modelle standardmaessig auf amerikanische kulturelle Normen zurueck?

Die Antwort liegt in den Trainingsdaten. Grosse Sprachmodelle werden auf Internettext trainiert. Das Internet ist ueberwiegend englischsprachig — nach einigen Schaetzungen sind 55-60 % aller Webinhalte auf Englisch. Der englischsprachige Inhalt ist ueberwiegend amerikanischen Ursprungs und kultureller Orientierung. Die Trainingsdaten betten daher amerikanische Kommunikationsmuster als statistische Norm ein.

Wenn das Modell Text auf Portugiesisch generiert, hat es portugiesischen Wortschatz und portugiesische Grammatik aus portugiesischsprachigem Text gelernt. Aber die pragmatischen Muster — wie man eine Bitte rahmt, wie man Formalitaet kalibriert, wie man Hierarchie signalisiert — sind gewichtet in Richtung der Muster, die in den Trainingsdaten am haeufigsten sind. Die haeufigsten Muster in einem ueberwiegend amerikanischen Trainingskorpus sind amerikanische Kommunikationsmuster. Das Modell verallgemeinert dieses Muster auf andere Sprachen, weil es gelernt hat, dass das Muster “funktioniert” — in dem Sinne, dass es haeufig in qualitativ hochwertigem Text vorkommt.

Die Antwort ist nicht, mehr portugiesischen Text zu den Trainingsdaten hinzuzufuegen. Mehr portugiesischer Text lehrt das Modell besseren portugiesischen Wortschatz und bessere Grammatik. Es lehrt das Modell nicht portugiesische kulturelle Pragmatik — weil kulturelle Pragmatik selten in Text explizit gemacht wird. Niemand schreibt “Ich verwende jetzt das formelle Register, weil mein Gespraechspartner ein rangoeherer Kollege ist und dies ein beruflicher Kontext ist”. Das Register wird einfach verwendet. Das Modell muss die pragmatischen Regeln aus dem Text ableiten, und die Ableitung ist schwach, wenn die pragmatischen Muster implizit und kulturell variabel sind.

Kulturelle Kompetenz in KI-Modellen wird einen anderen Trainingsansatz erfordern: explizite kulturelle Annotation, kulturelles Instruction Tuning oder Retrieval-Augmented-Systeme, die auf kulturelle Wissensdatenbanken zugreifen. Diese Ansaetze existieren in der Forschung. Sie existieren nicht in der Produktion.

Bis sie es tun, wird jedes mehrsprachige Modell Text generieren, der die Sprache spricht und die Kultur ignoriert. Das Problem ist nicht die sprachliche Faehigkeit des Modells. Es sind die kulturellen Trainingsdaten des Modells — was bedeutet, sein kulturelles Training fehlt.

Die Marktkonsequenz

Die Luecke zwischen mehrsprachig und multikulturell hat eine Marktkonsequenz. Unternehmen, die KI-Tools ueber europaeische Maerkte hinweg einfuehren, erleben sie als Adoptionsvarianz, die mit kultureller Distanz korreliert.

Dasselbe KI-Tool, eingefuehrt in der gesamten EU, produziert verschiedene Adoptionsraten in verschiedenen Laendern. Die Varianz korreliert staerker mit kultureller Distanz vom Entwicklungskontext (typischerweise amerikanisches Englisch) als mit BIP, Digitalisierungsgrad oder KI-Bewusstsein.

Das Tool performt gut in den Niederlanden, Daenemark und Deutschland — Low-Context-, aufgabenorientierte Kulturen mit moderater Direktheit und hoher Digitalisierung. Das Tool unterperformt in Portugal, Spanien, Italien und Griechenland — eher High-Context-, eher beziehungsorientierte Kulturen mit hoeherer Unsicherheitsvermeidung. Die Sprachfaehigkeit des Tools ist ueber alle Maerkte hinweg gleichwertig. Die kulturelle Kalibrierung ist einheitlich — und einheitlich amerikanisch.

Die Adoptionsluecke wird nicht durch die konventionellen Faktoren erklaert. Sie wird durch die kulturelle Luecke erklaert — die Distanz zwischen den eingebetteten kulturellen Annahmen des Tools und den kulturellen Erwartungen des Nutzers.

Das Prinzip

Mehrsprachig ist ein geloestes Problem. Modelle sprechen 95 Sprachen. Die Benchmarks verbessern sich mit jeder Veroeffentlichung. Die Gewandtheit ist bemerkenswert.

Multikulturell ist ein ungeloestes Problem. Modelle sprechen 95 Sprachen und kommunizieren in einer Kultur. Die kulturellen Annahmen des Entwicklungskontextes — amerikanische Formalitaet, amerikanische Direktheit, amerikanische Hierarchie, amerikanische Temporalitaet, amerikanische Aufgabenorientierung — sind in die Kommunikationsmuster des Modells eingebettet und werden in jeden Markt exportiert.

Die Luecke zwischen mehrsprachig und multikulturell ist die Luecke zwischen Sprechen und Verstehen. Zwischen Uebersetzen und Kommunizieren. Zwischen dem Einfuehren eines Tools in einen Markt und dem Bedienen eines Marktes.

Sprache ist die Oberflaeche. Kultur ist das System.

Die Modelle haben die Oberflaeche gemeistert. Sie haben das System nicht begonnen.

Bei Bluewaves beginnt jede Einfuehrung mit dem kulturellen System, nicht mit der Sprache. Wenn wir ein KI-Tool fuer einen portugiesischen Kunden einfuehren, beginnen wir nicht mit dem portugiesischen Sprachmodell. Wir beginnen mit dem portugiesischen kulturellen Kontext: die Formalitaetserwartungen, der Beziehungsvorrang, die Unsicherheitstoleranz, die zeitliche Orientierung, die Hierarchieannahmen. Wir entwerfen das Interaktionsmuster fuer die Kultur. Dann fuehren wir das Modell in der Sprache ein.

Die Reihenfolge ist entscheidend. Sprache ist die letzte Entscheidung, nicht die erste. Kultur ist die Architektur. Sprache ist die Oberflaeche. Ein Architekt, der die Oberflaeche vor der Architektur entwirft, produziert ein Produkt, das richtig aussieht und sich falsch verhaelt.

Die Modelle sprechen 95 Sprachen. Bluewaves operiert in acht Kulturen. Die Unterscheidung ist die Disziplin. Die Disziplin ist der Unterschied zwischen Einfuehrung und Einfuehrung, die funktioniert.

Geschrieben von

Bernardo

Kulturübersetzer

Er sorgt dafür, dass Ihr Gizmo nicht nur Spanisch spricht — sondern sich spanisch anfühlt. Wenn das Team eines nordischen Kunden seinen Gizmo mit einem finnischen Spitznamen ruft, ist das sein Werk.

← Alle Notizen