Der Fluch der Mehrsprachigkeit
Bernardo 31. März 2026

Der Fluch der Mehrsprachigkeit

15 Min. Lesezeit

Jede Sprache, die man einem Modell hinzufügt, macht jede andere schlechter.

Das ist keine Metapher. Es ist ein gemessenes Phänomen. Google DeepMind nennt es den Fluch der Mehrsprachigkeit — und ihre ATLAS-Studie, vorgestellt auf der ICLR 2026, ist die bislang grösste empirische Bestätigung. Siebenhundertvierundsiebzig Trainingsläufe. Über vierhundert Sprachen. Achtundvierzig Evaluierungssprachen. Eine sprachübergreifende Transfermatrix über 1.444 Sprachpaare.

Die Ergebnisse sind präzise. Um doppelt so viele Sprachen ohne Leistungsverlust zu unterstützen, braucht ein Modell das 1,18-Fache der Parameter und das 1,66-Fache der Trainingsdaten. Die Arithmetik ist nicht verhandelbar. Die Kapazität ist endlich. Sprachen konkurrieren um sie. Und der Wettbewerb ist nicht fair.

Das Kapazitätsproblem

Der Fluch der Mehrsprachigkeit wurde erstmals 2020 von Alexis Conneau und Kollegen benannt, in ihrer Arbeit zu XLM-R — dem sprachübergreifenden Sprachmodell, das erstmals zeigte, dass mehrsprachiges Vortraining an die monolinguale Leistung heranreichen kann. Der Befund war paradox. Dasselbe Paper, das bewies, dass mehrsprachige Modelle funktionieren, bewies auch, dass sie mit einer strukturellen Einbusse verbunden sind.

Der Mechanismus ist geradlinig. Ein Sprachmodell hat eine feste Anzahl von Parametern. Jeder Parameter ist ein Speicherplatz für erlernte Information — Vokabular, Grammatik, Semantik, Pragmatik, Weltwissen. Ein monolinguales englisches Modell widmet alle Parameter dem Englischen. Ein bilinguales Englisch-Französisch-Modell teilt seine Kapazität. Ein Modell, das auf hundert Sprachen trainiert wird, teilt dieselbe endliche Ressource hundertfach.

Die Aufteilung ist nicht gleich. Englisch, mit seinem gewaltigen Trainingskorpus, verbraucht mehr Kapazität. Ressourcenarme Sprachen erhalten weniger. Doch die Beschränkung ist absolut: Jede dem Modell hinzugefügte Sprache reduziert die Zuweisung pro Sprache. Das Modell wird gleichzeitig breiter und flacher.

Conneaus ursprüngliche Erkenntnis war, dass dieser Kompromiss eine charakteristische Kurve erzeugt. Das Hinzufügen der ersten Sprachen verbessert die Leistung — insbesondere für ressourcenarme Sprachen, die vom sprachübergreifenden Transfer profitieren. Ein Suaheli-Modell, das zusammen mit Englisch trainiert wird, leistet mehr als ein Suaheli-Modell, das allein trainiert wird, weil sich englische Syntax- und Semantikmuster übertragen. Doch jenseits einer Schwelle kehren sich die Erträge um. Jede zusätzliche Sprache beginnt, die Leistung aller bestehenden Sprachen zu verschlechtern. Die Kapazität ist gesättigt. Die Interferenz übersteigt den Transfer.

Das ist der Fluch. Kein Fehler. Eine strukturelle Eigenschaft von Architekturen mit geteilter Kapazität.

Was ATLAS Gemessen Hat

Die ATLAS-Studie — Adaptive Transfer Scaling Laws — tat, was keine frühere Studie in diesem Umfang versucht hatte. Sie quantifizierte den Fluch über 774 separate Trainingsexperimente hinweg, von 10 Millionen bis 8 Milliarden Parametern, und leitete die ersten praktischen Skalierungsgesetze für das Design mehrsprachiger Modelle ab.

Drei Ergebnisse sind relevant für jeden, der mehrsprachige KI einsetzt.

Die Skalierungssteuer ist real, aber moderat. Die Verdoppelung der Sprachanzahl erfordert eine Vergrösserung des Modells um den Faktor 1,18 und der gesamten Trainingsdaten um den Faktor 1,66. Die Daten pro Sprache sinken — jede Sprache erhält 83 Prozent dessen, was sie in einem Modell mit halb so vielen Sprachen erhalten würde. Der positive Transfer zwischen verwandten Sprachen kompensiert teilweise, kann aber die Kapazitätssteuer nicht vollständig ausgleichen.

Der Transfer ist asymmetrisch. Die sprachübergreifende Transfermatrix — 38 paarweise evaluierte Sprachen, 1.444 gemessene Interaktionen — zeigt, dass die Beziehung zwischen Sprachen gerichtet ist. Englisch, Französisch und Spanisch sind, was die Forscher als „breit nützliche” Sprachen bezeichnen. Training mit englischen Daten verbessert die Leistung in Dutzenden anderer Sprachen. Training mit Yoruba-Daten verbessert das Englische nicht. Der Transfer fliesst abwärts — von ressourcenstarken zu ressourcenarmen Sprachen, von Sprachen mit grossen, diversen Korpora zu Sprachen mit kleinen, homogenen. Der umgekehrte Fluss ist vernachlässigbar.

Sprachfamilien bilden Cluster. Sprachen, die Schriftsysteme und grammatische Strukturen teilen, transferieren effektiver. Romanische Sprachen helfen einander. Germanische Sprachen helfen einander. Doch die Hilfe bleibt auch innerhalb der Familien asymmetrisch. Französisch hilft Portugiesisch mehr als Portugiesisch Französisch hilft. Der Mechanismus ist Datenqualität: Französisch verfügt über einen grösseren, diverseren Webkorpus. Das Modell lernt Muster aus der reicheren Quelle und wendet sie auf die ärmere an.

Die Implikation ist architektonisch. Ein mehrsprachiges Modell ist keine demokratische Versammlung von Sprachen. Es ist eine Hierarchie — mit Englisch an der Spitze, den grossen europäischen Sprachen in der Mitte und den ressourcenarmen Sprachen, die die verbleibende Kapazität erhalten, nachdem die dominanten Sprachen bedient wurden.

Die Bestätigung durch Chang

ATLAS erschien nicht isoliert. Ein Jahr zuvor hatten Tyler Chang und Kollegen „When Is Multilinguality a Curse?” auf der EMNLP 2024 veröffentlicht — eine Studie über mehr als 10.000 Trainingsläufe in 250 Sprachen. Ihre Ergebnisse nahmen ATLAS in allen wesentlichen Dimensionen vorweg.

Ressourcenarme Sprachen profitieren vom mehrsprachigen Vortraining — bis zu einem gewissen Punkt. Der Nutzen entspricht einer Vergrösserung des Datensatzes der ressourcenarmen Sprache um bis zu 33 Prozent. Die syntaktische Ähnlichkeit der hinzugefügten Sprachen bestimmt das Ausmass des Transfers. Vokabelüberschneidungen liefern einen marginalen zusätzlichen Nutzen.

Ressourcenstarke Sprachen schneiden in jeder mehrsprachigen Konfiguration schlechter ab. Ohne Ausnahme. Englisch in einem mehrsprachigen Modell ist immer schwächer als Englisch in einem monolingualen Modell gleicher Grösse. Die Degradation ist konstant, messbar und wenig überraschend — in dem Sinne, dass sich in der Forschungsgemeinschaft niemand darüber wundert. Die Überraschung, sofern sie existiert, gehört den Praktikern, die diese Modelle einsetzen, ohne den Kompromiss zu verstehen, den sie akzeptiert haben.

Die kritische Erkenntnis der Chang-Studie: Mit wachsender Datensatzgrösse intensiviert sich der Fluch. Grössere Trainingskorpora lösen das Kapazitätsproblem nicht. Sie legen es offen. Mehr Daten pro Sprache bedeutet mehr Wettbewerb um dieselben Parameter. Die Leistungskurve des Modells knickt früher und steiler ab.

Die Implikation für Produktionssysteme ist direkt. Ein Modell, das auf zwanzig Sprachen mit reichlichen Daten trainiert wird, zeigt eine grössere Degradation pro Sprache als ein Modell, das auf zwanzig Sprachen mit begrenzten Daten trainiert wird. Skalierung verstärkt den Fluch.

Die Benchmark-Evidenz

Die theoretischen Befunde bilden sich in beobachtbaren Leistungslücken ab. MMLU-ProX — ein mehrsprachiger Benchmark, veröffentlicht auf der EMNLP 2025, der 29 Sprachen mit 11.829 identischen Fragen pro Sprache abdeckt — liefert die kontrollierteste Messung dessen, wie der Fluch in der Praxis aussieht.

Das leistungsstärkste Modell erreichte 70,3 Prozent Genauigkeit auf Englisch. Dasselbe Modell erreichte bei denselben Fragen, ins Bengalische übersetzt, 52,7 Prozent. Auf Suaheli 40,1 Prozent. Die Lücke zwischen Englisch und der schwächsten Sprache: 30,2 Prozentpunkte. Fast die Hälfte der englischen Leistungsfähigkeit des Modells, verloren.

Europäische Sprachen schneiden besser ab als Bengalisch oder Suaheli — aber sie schneiden nicht gut ab. Französisch, Deutsch und Spanisch gruppieren sich in einem Band von etwa 5 bis 10 Prozentpunkten unter Englisch. Portugiesisch, Niederländisch und Schwedisch liegen noch tiefer. Die Lücke ist nicht katastrophal. Sie ist konstant. Und sie ist strukturell — dieselbe Lücke zeigt sich bei jedem getesteten Modell, unabhängig von Architektur, Trainingsverfahren oder proklamierter mehrsprachiger Fähigkeit.

Die Lücke hat eine konkrete Bedeutung. Ein Modell, das 70 Prozent Genauigkeit bei englischen Geschäftsfragen erreicht, erreicht etwa 60 bis 65 Prozent bei denselben Fragen auf Deutsch und etwa 55 bis 60 Prozent auf Portugiesisch. Der portugiesische Nutzer erhält keinen geringfügig schlechteren Service. Er erhält ein messbar weniger leistungsfähiges Werkzeug — bei derselben Aufgabe, mit derselben Komplexität, in einer Sprache, die das Modell zu unterstützen behauptet.

Was das Europäische KMU Erlebt

Die Forschung ist abstrakt. Die Erfahrung ist es nicht.

Betrachten Sie ein mittelständisches Unternehmen in den Niederlanden — 200 Beschäftigte, Geschäftstätigkeit in sechs EU-Märkten. Das Unternehmen setzt ein KI-gestütztes Kundenservice-Tool in seinen Märkten ein: Niederländisch, Deutsch, Französisch, Spanisch, Portugiesisch und Englisch. Die Marketingseite des Anbieters listet alle sechs Sprachen als „unterstützt”. Der Preis ist für alle Märkte gleich.

Das Tool funktioniert gut auf Englisch. Die Antworten sind präzise, gut strukturiert und kontextuell angemessen. Die englischsprachigen Kunden berichten hohe Zufriedenheit.

Auf Deutsch ist das Tool merklich schwächer. Formalitätsregister sind inkonsistent — das Tool verwendet gelegentlich du, wo Sie erwartet wird. Das Fachvokabular ist manchmal ungenau. Die Antworten sind brauchbar, erfordern aber mehr menschliche Überprüfung.

Auf Portugiesisch ist die Degradation ausgeprägter. Das Tool erzeugt grammatisch korrekten Text, der übersetzt klingt. Idiomatische Wendungen verfehlen ihr Ziel. Die Antwortstruktur folgt englischen Mustern — direkt, aufgabenorientiert, mit minimalem relationalem Vorlauf — in einem Markt, in dem die Erwartungen an den Kundenservice Wärme und persönliche Anerkennung einschliessen. Die portugiesischsprachigen Kunden beschweren sich nicht über die KI-Qualität. Sie bevorzugen einfach den menschlichen Agenten. Die Adoptionszahlen erzählen die Geschichte.

Auf Niederländisch funktioniert das Tool angemessen, aber die geringe Grösse des niederländischen Trainingskorpus führt dazu, dass es gelegentlich Terminologie halluziniert oder Konstruktionen erzeugt, die nach belgischem Niederländisch klingen statt nach dem der Niederlande. Die Unterscheidung ist relevant. Ein flämisches Formalitätsregister, eingesetzt in Amsterdam, ist ein subtiles, aber persistentes Signal der Fremdheit.

Auf Schwedisch ist das Ergebnis funktional, aber spärlich. Das Modell verfügt über weniger schwedische Trainingsdaten als französische oder deutsche. Die Antworten sind kürzer, weniger nuanciert und greifen gelegentlich auf englische Terminologie zurück, wo schwedische Entsprechungen existieren, aber im Trainingskorpus seltener vorkommen.

Das Unternehmen zahlt denselben Preis für alle sechs Sprachen. Es erhält sechs verschiedene Leistungsniveaus. Die Marketingseite des Anbieters legt diese Varianz nicht offen. Die ATLAS-Studie erklärt, warum die Varianz existiert. Der Anbieter kennt die Erklärung möglicherweise nicht. Die Varianz existiert unabhängig davon.

Das ist kein Versagen des Anbieters. Es ist eine strukturelle Eigenschaft der Technologie. Der Fluch der Mehrsprachigkeit ist in die Architektur eingeschrieben. Jedes Modell, das mehrsprachige Unterstützung behauptet, liefert ungleiche Unterstützung — wobei die Ungleichheit einem vorhersagbaren Muster folgt, das Englisch begünstigt und alles andere benachteiligt.

Das Asymmetrieproblem

Die Transferasymmetrie in der ATLAS-Matrix verdient eine genauere Betrachtung, denn sie hat Implikationen, die über die Modellleistung hinausgehen.

Englisch, Französisch und Spanisch sind die nützlichsten Trainingssprachen für andere Sprachen. Nicht weil sie linguistisch überlegen wären. Weil das Web — die primäre Quelle von Trainingsdaten — deutlich mehr hochwertigen Text in diesen Sprachen enthält. Englisch allein macht geschätzt 55 bis 60 Prozent des Webinhalts aus. Französisch und Spanisch tragen substanziell bei. Deutsch weniger. Portugiesisch, Niederländisch und Schwedisch sind geringfügige Beitragende.

Die Asymmetrie erzeugt eine Subventionsstruktur. Ressourcenstarke Sprachen subventionieren ressourcenarme Sprachen durch positiven Transfer. Englische Trainingsdaten verbessern die Suaheli-Leistung. Suaheli-Trainingsdaten verbessern die Englisch-Leistung nicht. Die Subvention fliesst in eine Richtung.

Für europäische Sprachen ist die Subventionsdynamik nuancierter. Französisch subventioniert Portugiesisch — beides sind romanische Sprachen, die syntaktische Strukturen und einen erheblichen Teil ihres Vokabulars teilen. Doch Portugiesisch subventioniert Französisch nicht im gleichen Masse. Die Beziehung ist asymmetrisch, weil die Trainingskorpora asymmetrisch sind. Mehr französischer Text bedeutet mehr Muster, die das Modell lernen kann. Das Modell überträgt diese Muster auf Portugiesisch. Der umgekehrte Transfer ist schwächer, weil es weniger portugiesische Muster zu übertragen gibt.

Die praktische Konsequenz: In einem mehrsprachigen Modell hängt die portugiesische Qualität teilweise von der Qualität der französischen Daten ab. Die niederländische Qualität hängt teilweise von der Qualität der deutschen und englischen Daten ab. Die schwedische Qualität hängt teilweise von der Qualität der dänischen, norwegischen und englischen Daten ab. Jede kleinere Sprache befindet sich stromabwärts ihrer grösseren Verwandten.

Die Abhängigkeit ist für den Endnutzer unsichtbar. Der portugiesische Kunde, der mit einem Chatbot interagiert, weiss nicht, dass die portugiesische Fähigkeit des Chatbots teilweise davon abhängt, wie viele französische Daten im Trainingsdatensatz waren. Die Abhängigkeit ist auch für den Anbieter unsichtbar — es sei denn, der Anbieter hat das ATLAS-Paper gelesen. Die meisten haben es nicht.

Das Offenlegungsproblem

Eurostat berichtete im Dezember 2025, dass 20 Prozent der EU-Unternehmen mit zehn oder mehr Beschäftigten Technologien der künstlichen Intelligenz nutzen. Die Adoptionsrate ist in einem einzigen Jahr um 6,5 Prozentpunkte gestiegen. Bei Grossunternehmen liegt die Adoption über 40 Prozent. Bei Kleinunternehmen — dem Kern der EU-Wirtschaft — liegt sie bei etwa 11 Prozent.

Die häufigste KI-Nutzung ist die Analyse geschriebener Sprache. Die am zweitschnellsten wachsende Nutzung ist die Erzeugung geschriebener und gesprochener Sprache. Das sind genau die Anwendungen, bei denen der Fluch der Mehrsprachigkeit am direktesten wirkt.

Ein EU-KMU, das ein KI-Schreibwerkzeug in mehreren Märkten einsetzt, setzt ein Werkzeug mit eingebauter sprachlicher Ungleichheit ein. Die Ungleichheit ist eine strukturelle Eigenschaft des Modells. Sie wird in Marketingmaterialien nicht offengelegt. Sie wird in der Anbieterdokumentation nicht quantifiziert. Sie wird in Service-Level-Agreements nicht behandelt.

Die EU-KI-Verordnung — insbesondere Artikel 10 — verlangt, dass Hochrisiko-KI-Systeme mit Daten trainiert werden, die im Hinblick auf den Verwendungszweck „relevant und hinreichend repräsentativ” sind. Die Gesetzgebung definiert nicht, was „repräsentativ” für einen mehrsprachigen Einsatz bedeutet. Sie legt keinen Mindestleistungsschwellenwert pro Sprache fest. Sie verlangt von Anbietern nicht, das Leistungsgefälle zwischen unterstützten Sprachen offenzulegen.

Die Kluft zwischen der regulatorischen Anforderung und der technischen Realität ist das Offenlegungsproblem. Ein Modell, das behauptet, Portugiesisch zu unterstützen, aber messbar schlechtere portugiesische Ergebnisse als englische liefert, macht eine Aussage, die technisch wahr und praktisch irreführend ist. Portugiesisch wird unterstützt. Portugiesisch ist auch strukturell schlechter.

Niemand legt das offen. Nicht die Modellbauer, die aggregierte mehrsprachige Benchmarks veröffentlichen. Nicht die Anbieter, die unterstützte Sprachen ohne Leistungsqualifikationen auflisten. Nicht die Beschaffungsabteilungen, die das Tool auf Englisch evaluieren und in sechs Sprachen einsetzen.

Der Fluch der Mehrsprachigkeit ist ein offenes Geheimnis in der Forschungsgemeinschaft. Er ist eine unbekannte Tatsache in der Geschäftswelt. Die ATLAS-Studie hat mit ihren 774 Trainingsläufen und ihren 1.444 Sprachpaaren quantifiziert, was Forscher seit Jahren wissen. Die Quantifizierung hat die Menschen, die sie brauchen, nicht erreicht.

Die Monolinguale Alternative

Die ATLAS-Studie quantifiziert auch, wann monolinguale Modelle mehrsprachige übertreffen — und die Schwelle ist aufschlussreich.

Für eine Sprache mit ausreichenden Trainingsdaten übertrifft ein monolinguales Modell gleicher Grösse immer ein mehrsprachiges. Der Break-even-Punkt hängt von der Datenverfügbarkeit der Sprache ab. Für Englisch ist ein monolinguales Modell immer besser. Für Französisch und Deutsch ist ein monolinguales Modell oberhalb einer moderaten Datenschwelle besser. Für ressourcenarme Sprachen mit begrenzten Daten bleibt das mehrsprachige Modell überlegen — der sprachübergreifende Transfer überwiegt die Kapazitätssteuer.

Die praktische Implikation für ein EU-KMU: Wenn Ihr Hauptmarkt deutschsprachig ist, wird ein monolinguales deutsches Modell die deutsche Leistungsfähigkeit eines mehrsprachigen Modells übertreffen. Wenn Sie in sechs EU-Märkten operieren, stehen Sie vor einer Wahl. Ein mehrsprachiges Modell einsetzen und die Degradation pro Sprache akzeptieren. Oder sechs monolinguale Modelle einsetzen und die Infrastrukturkosten akzeptieren.

Die erste Option ist günstiger. Die zweite ist besser. Die meisten Unternehmen wählen die erste Option, ohne zu wissen, dass sie einen Kompromiss eingegangen sind. Die Marketingseite sagt „unterstützt 95 Sprachen”. Die Marketingseite sagt nicht „unterstützt Englisch mit 100 Prozent Leistungsfähigkeit und Portugiesisch mit 82 Prozent”.

Die Wahl ist nicht binär. Feinabstimmung bietet einen Mittelweg — ein mehrsprachiges Basismodell, das mit sprachspezifischen Daten feinabgestimmt wird, kann einen Teil der verlorenen Leistung zurückgewinnen. Die ATLAS-Studie stellt fest, dass Feinabstimmung bei niedrigeren Token-Budgets recheneffizienter ist als Vortraining von Grund auf, wobei Vortraining erst dann vorteilhaft wird, wenn Daten und Rechenleistung eine sprachabhängige Schwelle überschreiten.

Für die meisten EU-KMU ist Feinabstimmung der realistische Weg. Doch Feinabstimmung erfordert sprachspezifische Daten, sprachspezifische Evaluierung und sprachspezifische Qualitätsstandards — nichts davon ist in einem standardmässigen mehrsprachigen KI-Einsatz enthalten.

Die Demokratische Illusion

Die Marketingsprache mehrsprachiger KI ist demokratisch. „Unterstützt 95 Sprachen.” Die Implikation: Alle Sprachen werden gleichermassen unterstützt. Die Realität: Alle Sprachen werden ungleich unterstützt, wobei die Ungleichheit den exakten Konturen der globalen sprachlichen Machtverhältnisse folgt.

Englisch, die Sprache des Internets, der akademischen Publikation, der technischen Dokumentation, erhält die meisten Trainingsdaten und liefert die beste Leistung. Französisch, Spanisch und Deutsch — die anderen Sprachen des Webs — folgen. Portugiesisch, Niederländisch, Schwedisch und der Rest der 24 Amtssprachen der EU erhalten progressiv weniger.

Das Muster ist nicht willkürlich. Es reproduziert die bestehende Hierarchie sprachlicher Macht in der digitalen Infrastruktur. Sprachen, die im Web gut vertreten sind, werden von KI gut bedient. Sprachen, die im Web schlecht vertreten sind, werden von KI schlecht bedient. Das Modell erzeugt die Ungleichheit nicht. Es erbt sie — und propagiert sie an jede Anwendung, die darauf aufbaut.

Für die EU — eine Institution, die auf dem Prinzip der sprachlichen Gleichheit zwischen ihren Mitgliedstaaten aufgebaut ist — ist der Fluch der Mehrsprachigkeit nicht bloss ein technisches Problem. Es ist ein struktureller Widerspruch. Die EU schreibt vor, dass jeder Bürger in seiner Amtssprache mit den EU-Institutionen interagieren kann. Die KI-Tools, die EU-Institutionen und -Unternehmen einsetzen, können diesen Auftrag nicht gleichmässig erfüllen. Die Tools liefern englische Qualität auf Englisch und degradierte Qualität in allem anderen.

Die ATLAS-Studie macht dies messbar. Die Transfermatrix zeigt mit quantitativer Präzision, dass ein Modell, das auf allen EU-Amtssprachen trainiert wird, in diesen Sprachen ungleiche Qualität liefern wird. Die Ungleichheit ist kein Versagen des Modells. Es ist eine Eigenschaft der Architektur — und des Datenökosystems, das sie speist.

Was Das Für Den Entwickler Bedeutet

Der Fluch der Mehrsprachigkeit ist kein Problem, das einzelne Unternehmen lösen können. Die Architektur von Modellen mit geteilter Kapazität erzeugt ungleiche Leistung pro Sprache. Das ist Physik, nicht Politik.

Was einzelne Unternehmen tun können, ist aufzuhören, so zu tun, als gäbe es die Ungleichheit nicht.

Pro Sprache messen. Evaluieren Sie Ihr KI-Tool nicht auf Englisch und nehmen Sie nicht gleichwertige Leistung auf Portugiesisch an. Testen Sie jede Sprache unabhängig. Messen Sie Genauigkeit, Flüssigkeit, Registerangemessenheit und Aufgabenerfüllung in jeder Sprache, die Sie zu unterstützen behaupten. Die Methodik des MMLU-ProX-Benchmarks bietet eine Vorlage: identische Aufgaben über Sprachen hinweg, mit Bewertung pro Sprache.

Pro Sprache offenlegen. Wenn Ihr Tool 70 Prozent Genauigkeit auf Englisch und 58 Prozent auf Portugiesisch liefert, sagen Sie es. Die Offenlegung ist unbequem. Die Alternative ist ein Service-Level-Agreement, das etwas verspricht, was die Technologie nicht einhalten kann.

Pro Sprache investieren. Feinabstimmung mit sprachspezifischen Daten ist die zugänglichste Minderungsmassnahme. Sie eliminiert den Fluch nicht. Sie reduziert seine Auswirkung. Die Investition muss proportional zur Leistungslücke sein — mehr Feinabstimmung für Portugiesisch als für Französisch, weil die Lücke grösser ist.

Für die schwächste Sprache gestalten. Wenn Ihr Tool in sechs EU-Märkten operiert, gestalten Sie die Nutzererfahrung für die Sprache, in der das Modell am schlechtesten abschneidet. Wenn das portugiesische Ergebnis menschliche Überprüfung erfordert, bauen Sie menschliche Überprüfung in den Arbeitsablauf aller Märkte ein — nicht als Korrekturmechanismus für „kleinere” Sprachen, sondern als Qualitätssicherungsstandard, der alle Nutzer gleichermassen respektiert.

Der Fluch der Mehrsprachigkeit wird bestehen bleiben, solange Modelle Kapazität zwischen Sprachen teilen. Grössere Modelle verringern den Fluch, beseitigen ihn aber nicht. Bessere Daten helfen, lösen aber nicht. Das Problem ist strukturell. Die Antwort muss es ebenfalls sein — nicht ein einzelner mehrsprachiger Einsatz, sondern eine sprachbewusste Infrastruktur, die die Ungleichheit, die die Architektur erzeugt, anerkennt, misst und kompensiert.

Jede Sprache, die man einem Modell hinzufügt, kostet jede andere etwas. Die Kosten sind real. Die Kosten sind ungleich. Und solange die Menschen, die diese Modelle einsetzen, das nicht verstehen, wird jedes „mehrsprachige” KI-Tool ein Versprechen sein, das auf Englisch gehalten und in allem anderen, stufenweise, gebrochen wird.

Geschrieben von
Bernardo
Kulturübersetzer

Er sorgt dafür, dass Ihr Gizmo nicht nur Spanisch spricht — sondern sich spanisch anfühlt. Wenn das Team eines nordischen Kunden seinen Gizmo mit einem finnischen Spitznamen ruft, ist das sein Werk.

← Alle Notizen