Bernardo 21. Oktober 2025

Drei Annahmen, drei Milliarden Menschen

12 Min. Lesezeit

Das lateinische Alphabet nimmt horizontales Lesen an, von links nach rechts, mit Leerzeichen zwischen Woertern.

Drei Annahmen. Drei Milliarden Menschen, fuer die keine davon zutrifft.

Die erste Annahme: Richtung

Arabisch wird von rechts nach links gelesen. Hebraeisch wird von rechts nach links gelesen. Urdu wird von rechts nach links gelesen. Persisch wird von rechts nach links gelesen. Das sind keine Randschriften. Arabisch allein ist das Schriftsystem fuer ueber 370 Millionen Muttersprachler und die liturgische Schrift fuer 1,8 Milliarden Muslime. Hebraeisch bedient 9 Millionen Muttersprachler. Urdu bedient 230 Millionen.

Rechts-nach-Links ist kein Sonderfall. Links-nach-Rechts ist kein Standard. Beides sind Konventionen — historische Zufaelle von Pinselwinkel, Rohrposition und Schreiberergonomie, die sich ueber Jahrtausende zu Normen verfestigten. Keine ist natuerlicher als die andere. Eine dominiert die Technologieindustrie. Diese Dominanz ist nicht verdient. Sie ist geerbt.

Jede KI-Oberflaeche, die auf der Annahme des Links-nach-Rechts-Lesens gebaut ist — jedes Chatfenster, jedes Texteingabefeld, jeder Antwortbereich — ist auf der ersten Annahme gebaut. Die Annahme ist auf CSS-Ebene kodiert, auf der Layout-Engine-Ebene, auf der Ebene der Interaktionsmuster. “direction: ltr” ist eine einzelne Codezeile. Sie ist auch ein kulturelles Statement: Diese Oberflaeche wurde von Menschen gebaut, die von links nach rechts lesen, fuer Menschen, die von links nach rechts lesen.

Die Engineeringkosten bidirektionaler Unterstuetzung sind nicht null. Aber die Engineeringkosten des Ausschliessens von ueber 600 Millionen Muttersprachlern von Rechts-nach-Links-Schriften sind hoeher — wenn Sie sie ueberhaupt beruecksichtigen. Die meisten Oberflaechen tun das nicht.

Die zweite Annahme: Kontinuitaet

Lateinische Zeichen sind diskret. Jeder Buchstabe nimmt seinen eigenen Raum ein. Die Form eines “a” aendert sich nicht basierend auf dem Buchstaben daneben. Diese Diskretheit ist das architektonische Fundament der digitalen Typografie: feste Zeichentabellen, vorhersagbare Kerning-Paare, unkomplizierte Cursorpositionierung.

Arabische Schrift funktioniert nicht so. Arabische Zeichen sind verbunden — jeder Buchstabe schliesst sich an seine Nachbarn in einem kontinuierlichen Fluss an, wie Schreibschrift, die nie den Stift hebt. Die Form eines Zeichens aendert sich basierend auf seiner Position im Wort: initial, medial, final oder isoliert. Der Buchstabe “ba” (ب) hat vier verschiedene Formen je nachdem, wo er im Wort erscheint. Das ist keine Ausnahme. Das ist die Regel. Jeder Buchstabe im arabischen Alphabet hat mehrere Formen.

Devanagari — die Schrift, die fuer Hindi, Sanskrit, Marathi, Nepali und Dutzende anderer Sprachen verwendet wird und ueber 600 Millionen Menschen bedient — hat eine voellig andere strukturelle Logik. Zeichen haengen von einer horizontalen Kopfzeile namens Shirorekha herab. Die Kopfzeile verbindet Zeichen innerhalb eines Wortes und schafft eine visuelle Kontinuitaet, die weder die Diskretheit des Lateinischen noch die kursive Verbindung des Arabischen ist. Sie ist ein drittes Modell.

Die Implikation fuer KI-Oberflaechen: Textrendering, Cursorpositionierung, Textauswahl, Zeilenumbruch und Silbentrennung verhalten sich in jedem Schriftsystem anders. Ein KI-Chatbot, der arabischen Text mit der Rendering-Logik fuer lateinischen Text darstellt, produziert Text, der technisch lesbar, aber visuell falsch ist — Buchstabenformen, die sich nicht korrekt verbinden, Wortgrenzen, die an falschen Stellen brechen, Cursorverhalten, das den Nutzer verwirrt.

Der Nutzer sieht keinen “Rendering-Bug”. Der Nutzer sieht eine Oberflaeche, die seine Sprache nicht versteht. Vertrauen geht verloren, nicht auf der semantischen Ebene, sondern auf der typografischen Ebene — bevor ein einziges Wort der KI-Antwort gelesen wurde.

Die dritte Annahme: Trennung

Englisch trennt Woerter mit Leerzeichen. Deutsch trennt Woerter mit Leerzeichen (ausser wenn es zusammengesetzte Woerter bildet, die dann nicht getrennt werden — “Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz” ist ein Wort). Chinesisch verwendet keine Leerzeichen zwischen Woertern. Japanisch verwendet keine Leerzeichen zwischen Woertern. Thai verwendet keine Leerzeichen zwischen Woertern.

In chinesischer, japanischer und koreanischer (CJK) Schrift nimmt jedes Zeichen eine Zelle fester Breite ein. Die Zeichen sind gleichmaessig verteilt, nicht nach Wortgrenzen, sondern nach Zeichengrenzen. Wortsegmentierung — zu wissen, wo ein Wort endet und ein anderes beginnt — ist eine Aufgabe, die vom Leser ausgefuehrt wird, nicht von der Typografie. Der Text gibt kein explizites Signal.

Fuer KI-Systeme, die CJK-Text verarbeiten, ist Wortsegmentierung eine nichttriviale rechnerische Aufgabe. Dieselbe Folge chinesischer Zeichen kann je nach Kontext in verschiedene Woerter segmentiert werden. Der Satz “下雨天留客天留我不留” kann entweder als Einladung zu bleiben oder als Bitte zu gehen gelesen werden, je nachdem, wo die Wortgrenzen gesetzt werden. Die Ambiguitaet wird durch Kontext aufgeloest, nicht durch Typografie.

Wenn ein KI-Chatbot auf Chinesisch antwortet, muss die Antwort in Zeichenzellen fester Breite mit korrektem CJK-Abstand gerendert werden. Wenn dieselbe Oberflaeche auch lateinischen Text verarbeitet — bei einer mehrsprachigen Einfuehrung beispielsweise — muessen die zwei Abstandssysteme koexistieren. CJK-Zeichen in voller Breite. Lateinische Zeichen in proportionaler Breite. Satzzeichenregeln, die zwischen den zwei Systemen differieren (Chinesisch verwendet Satzzeichen in voller Breite; Latein verwendet Satzzeichen in halber Breite). Zeilenumbruchregeln, die bestimmte Zeichen am Anfang oder Ende einer Zeile verbieten (Kinsoku Shori in der japanischen Typografie).

Das ist kein Feature-Request. Das ist eine Voraussetzung. Eine Oberflaeche, die gemischte CJK-Latein-Typografie nicht korrekt bewaeltigt, ist eine Oberflaeche, die fuer die Mehrheit der ostasiatischen Nutzer nicht funktioniert, die taeglich beide Schriften lesen.

Das Ausmass des Ausschlusses

Die Zahlen sind nicht mehrdeutig.

Arabische Schrift: 420 Millionen Muttersprachler. Devanagari: 600+ Millionen Nutzer ueber mehrere Sprachen. Chinesische Schriftzeichen: 1,4 Milliarden Muttersprachleser. Japanisch (gemischt Kanji, Hiragana, Katakana): 125 Millionen Muttersprachleser. Koreanisch (Hangeul): 80 Millionen Muttersprachleser. Thailaendische Schrift: 38 Millionen Muttersprachleser.

Zusammen bedienen diese Schriften mehr Menschen als das lateinische Alphabet. Und diese Zaehlung schliesst Kyrillisch (250 Millionen), Bengalisch (230 Millionen), Tamil (80 Millionen), Telugu (83 Millionen) und Dutzende anderer Schriften aus, die jeweils Dutzende Millionen Menschen bedienen.

Das lateinische Alphabet ist nicht das Schriftsystem der Welt. Es ist eines der Schriftsysteme der Welt — und es ist dasjenige, das die Annahmen jeder grossen KI-Oberflaeche kontrolliert.

Was “mehrsprachig” tatsaechlich bedeutet

Jedes grosse KI-Modell beansprucht mehrsprachige Faehigkeit. Der Anspruch ist auf der Sprachebene wahr. GPT-4, Claude, Gemini — alle verarbeiten Text in Dutzenden von Sprachen mit unterschiedlichem Kompetenzgrad. Das Sprachmodell versteht Chinesisch, Arabisch, Hindi, Japanisch, Koreanisch, Thai.

Die Oberflaeche nicht.

Die mehrsprachige Faehigkeit des Sprachmodells wird durch eine Oberflaeche gerendert, die auf lateinischen Annahmen aufgebaut ist: Links-nach-Rechts-Layout, diskretes Zeichenrendering, durch Leerzeichen getrennte Wortanzeige. Das Modell kann auf Arabisch denken. Die Oberflaeche kann Arabisch nicht korrekt anzeigen. Das Modell kann Chinesisch generieren. Die Oberflaeche kann gemischten CJK-Latein-Text nicht korrekt rendern.

Die Luecke zwischen der Sprachfaehigkeit des Modells und der typografischen Faehigkeit der Oberflaeche ist die Luecke zwischen “mehrsprachig” und “multikulturell”. Das Modell spricht die Sprache. Die Oberflaeche spricht lateinische Typografie im Sprachkostuem.

Das ist Bluewaves’ Argument, auf seine einfachste Form reduziert: Sprache ist nicht Kultur. Uebersetzung ist nicht Anpassung. Ein Modell, das gewandtes Arabisch durch eine Oberflaeche generiert, die Arabisch falsch rendert, hat gleichzeitig sprachliche Kompetenz und typografische Inkompetenz erreicht.

Die Engineering-Anforderungen

Was wuerde es erfordern, eine KI-Oberflaeche zu bauen, die die drei Milliarden respektiert? Die Anforderungen sind spezifisch, bekannt und gut dokumentiert in den Spezifikationen des Unicode-Konsortiums, den Internationalisierungsrichtlinien des W3C und Jahrzehnten typografischer Ingenieursforschung.

Bidirektionale Textunterstuetzung (Bidi). Der Unicode-Bidirektionale-Algorithmus (UBA) definiert, wie Text mit gemischter Direktionalitaet gerendert werden soll. Der Algorithmus bewaeltigt den haeufigen Fall: ein arabischer Satz, der einen englischen Produktnamen enthaelt, oder ein hebraeischer Absatz mit einer URL. Der UBA ist ein geloestes Problem — implementiert in jeder grossen Browser-Engine und jedem Betriebssystem. Die Anforderung ist nicht, bidirektionale Unterstuetzung zu erfinden. Sie ist, den bestehenden Standard korrekt zu nutzen. Die meisten KI-Oberflaechen tun das nicht.

Kontextuelle Formgebung. Arabisch, Syrisch, Mongolisch und andere verbundene Schriften erfordern kontextuelle Formgebung — das Rendern verschiedener Zeichenvarianten basierend auf der Position eines Zeichens im Wort. OpenType-Layoutfeatures (speziell die Features “init”, “medi”, “fina” und “isol”) bewaeltigen das auf Schriftebene. Die Anforderung ist, Schriften zu verwenden, die diese Features enthalten, und Rendering-Engines, die sie anwenden. Die Anforderung ist nicht exotisch. Sie ist Standard-Typografie. Sie wird haeufig ignoriert.

CJK-Abstands- und Zeilenumbruchregeln. Die W3C-Dokumente “Requirements for Japanese Text Layout” (JLReq) und “Requirements for Chinese Text Layout” (CLReq) definieren die Abstands-, Satzzeichen- und Zeilenumbruchregeln fuer CJK-Text. Das sind keine optionalen Richtlinien. Sie sind die typografischen Konventionen, die CJK-Leser erwarten — das Aequivalent von linksbuendigem Text in der lateinischen Typografie. Sie zu verletzen produziert Text, der lesbar, aber falsch ist, in der Art, wie ein Buch mit linksbuendigem englischen Text lesbar, aber falsch ist.

Komplexes Schriftrendering. Devanagari, Bengalisch, Tamil, Telugu, Kannada, Malayalam, Thailaendisch, Laotisch, Khmer, Tibetisch und Myanmar-Schriften erfordern alle komplexes Shaping — Umordnung von Zeichen, Kombination von Basiszeichen mit Vokalzeichen und Positionierungsregeln, die von der spezifischen Zeichenkombination abhaengen. HarfBuzz, die Open-Source-Text-Shaping-Engine, bewaeltigt all diese. Die Anforderung ist Integration, nicht Erfindung.

Vertikale Textunterstuetzung. Traditionelles Chinesisch, Japanisch und Mongolisch koennen vertikal geschrieben werden (von oben nach unten, Spalten von rechts nach links). Waehrend horizontales Schreiben fuer digitalen Text in Chinesisch und Japanisch dominant geworden ist, bleibt vertikaler Text fuer formelle Kontexte, literarische Veroeffentlichungen und bestimmte UI-Elemente wichtig. Mongolisch wird standardmaessig vertikal geschrieben. Eine KI-Oberflaeche, die CJK-Unterstuetzung beansprucht, aber vertikalen Text nicht rendern kann, trifft eine kulturelle Annahme, die als technische Einschraenkung verkleidet ist.

Die Zugaenglichkeitsdimension

Die drei Annahmen beeinflussen nicht nur kulturelle Kompetenz. Sie beeinflussen Zugaenglichkeit.

Die Weltgesundheitsorganisation schaetzt, dass weltweit 2,2 Milliarden Menschen eine Form von Sehbeeintraechtigung haben. Screenreader — die assistive Technologie, die Text in Sprache fuer sehbeeintraechtigte Nutzer umwandelt — sind auf korrekte Textdirektionalitaet, korrekte Zeichenkodierung und korrekte semantische Struktur angewiesen. Ein Screenreader, der arabischen Text in einem Links-nach-Rechts-Kontext verarbeitet, liest die Zeichen in der falschen Reihenfolge. Der Nutzer hoert Unsinn.

Das ist kein Nischenanliegen. Arabischsprachige Internetnutzer zaehlen ungefaehr 237 Millionen. Die Schnittmenge arabischsprachiger Nutzer und sehbeeintraechtigter Nutzer wird in Millionen gemessen. Eine KI-Oberflaeche, die arabischen Text in einem Links-nach-Rechts-Kontext rendert, hat diese Nutzer von der Interaktion ausgeschlossen — nicht durch eine bewusste Entscheidung, sondern durch die geerbte Annahme, dass aller Text von links nach rechts fliesst.

Die EU-Webzugaenglichkeitsrichtlinie (Richtlinie 2016/2102) verlangt, dass oeffentliche Websites und Anwendungen den WCAG 2.1 AA-Standards entsprechen. Der Europaeische Zugaenglichkeitsakt (Richtlinie 2019/882), der seit Juni 2025 fuer Produkte und Dienstleistungen des privaten Sektors gilt, erweitert aehnliche Anforderungen auf kommerzielle Produkte. Beide Richtlinien verlangen korrekte Behandlung bidirektionalen Textes, korrektes semantisches Markup fuer Screenreader und korrekte Sprachidentifikation im HTML-lang-Attribut.

Ein KI-Tool, das arabische, hebraeische oder andere RTL-Schriften nicht korrekt bewaeltigt, ist nicht nur kulturell unsensibel. Es verstoesst moeglicherweise gegen EU-Zugaenglichkeitsrecht.

Die Engineeringkosten der Compliance sind dieselben wie die Engineeringkosten kultureller Kompetenz: den Unicode-Bidirektionalen-Algorithmus korrekt implementieren, semantisches HTML mit korrekten lang-Attributen verwenden und mit Screenreadern im RTL-Modus testen. Die Kosten fallen einmal an. Der Ausschluss, wenn die Kosten nicht anfallen, ist permanent.

Die Testluecke

Hier ist eine praktische Beobachtung aus Jahren der Arbeit an interkulturellem Design: Die Annahme, dass Text lateinisch ist, besteht fort, weil das Testen lateinisch ist.

QA-Teams testen KI-Oberflaechen mit lateinischem Text. Englische Anfragen, englische Antworten, englisches Rendering. Die Tests bestehen. Das Produkt wird ausgeliefert. Der arabische Nutzer, der Hindi-Nutzer, der chinesische Nutzer, der Thai-Nutzer entdeckt die Rendering-Versagen nach der Einfuehrung — in Produktion, mit echten Anfragen, mit echten Konsequenzen fuer das Vertrauen.

Die Testluecke ist nicht zufaellig. Sie ist strukturell. QA-Teams werden von Menschen besetzt, die die Entwicklungssprache lesen. Testfaelle werden in der Entwicklungssprache geschrieben. Automatisierte Tests pruefen auf Features, die in den Anforderungsdokumenten der Entwicklungssprache beschrieben sind. Mehrsprachiges Testen erfordert mehrsprachige Tester — Menschen, die bewerten koennen, ob arabischer Text korrekt aussieht, ob CJK-Abstaende korrekt sind, ob Devanagari-Kopfzeilenverbindungen korrekt rendern. Diese Tester existieren. Sie werden selten eingestellt. Sie sind ein Nachgedanke, wenn sie ueberhaupt bedacht werden.

Die Korrektur ist architektonisch: Nicht-lateinische Schriften in die Kern-Testsuite einbeziehen, nicht als Anhang. Jeder automatisierte Test, der Textrendering prueft, sollte gegen arabischen, chinesischen, Devanagari- und thailaendischen Text laufen, zusaetzlich zu Englisch. Jeder manuelle QA-Durchlauf sollte muttersprachliche Schriftbewertung durch einen muttersprachlichen Leser einbeziehen. Jedes Zugaenglichkeitsaudit sollte RTL- und Komplexschrift-Szenarien einbeziehen.

Das ist kein Premium-Testregime. Es ist ein Basis-Testregime fuer ein Produkt, das beansprucht, eine globale Nutzerbasis zu bedienen. Ein Produkt, das nur auf Latein testet und globale Unterstuetzung beansprucht, ist kein globales Produkt. Es ist ein lateinisches Produkt mit einer globalen Marketingseite.

Das Designversagen

Das Versagen ist nicht, dass diese Anforderungen unbekannt sind. Sie sind umfassend dokumentiert. Die Internationalisierungsaktivitaet des W3C hat umfassende Spezifikationen fuer jedes grosse Schriftsystem veroeffentlicht. Die Spezifikationen des Unicode-Konsortiums sind die kanonische Referenz fuer die Textverarbeitung weltweit. HarfBuzz, ICU und andere Open-Source-Bibliotheken implementieren die Rendering-Logik.

Das Versagen ist, dass diese Anforderungen als Sonderfaelle behandelt werden statt als Grundanforderungen. Die KI-Oberflaeche wird fuer lateinischen Text entworfen. Dann wird arabische Unterstuetzung “hinzugefuegt”. Dann wird CJK-Unterstuetzung “hinzugefuegt”. Jede Hinzufuegung ist eine Nachruestung — ein Patch, der auf eine Architektur angewandt wird, die fuer ein Schriftsystem entworfen und unvollkommen erweitert wurde, um andere aufzunehmen.

Die Alternative ist, von Anfang an fuer die drei Milliarden zu entwerfen. Bidirektionales Layout, kontextuelle Formgebung, komplexes Schriftrendering und CJK-Abstaende als Architekturanforderungen zu behandeln — nicht als Features, die spaeter hinzugefuegt werden, sondern als Fundamente, die zuerst gelegt werden.

Das ist im Voraus teurer. Es ist insgesamt guenstiger. Jede Nachruestung ist kostspieliger als die urspruengliche Designentscheidung gewesen waere. Und jede Nachruestung produziert Unvollkommenheiten — Rendering-Fehler, Interaktionsbugs, Zugaenglichkeitsversagen — die das Vertrauen der Nutzer erodieren, die ein Nachgedanke waren.

Das Prinzip

Das lateinische Alphabet ist nicht der Standard. Es ist eine Konvention — eine von vielen, adoptiert von einer Minderheit der Leser weltweit, erhoben zur architektonischen Dominanz durch den Zufall, welche Kultur das Computing zuerst industrialisierte.

Jede KI-Oberflaeche, die auf lateinischen Annahmen gebaut ist, schliesst mehr Menschen aus als sie einschliesst. Nicht durch Boesartigkeit. Durch Vererbung. Die Annahmen wurden nie untersucht, weil sie nie sichtbar waren — fuer die Menschen, die sie teilen.

Die drei Annahmen — Richtung, Kontinuitaet, Trennung — sind nicht universell. Sie sind provinziell. Und globale Technologie auf provinziellen Annahmen zu bauen ist kein Engineering. Es ist Nachhlaessigkeit im grossen Massstab.

Drei Annahmen. Drei Milliarden Menschen. Die Annahmen sind optional. Die Menschen sind es nicht.

Die KI-Oberflaeche, die fuer die drei Milliarden gebaut ist, sieht anders aus als die KI-Oberflaeche, die fuer das lateinische Alphabet gebaut ist. Sie beginnt mit bidirektionalem Layout als Standard, nicht als Nachgedanke. Sie behandelt kontextuelle Formgebung als grundlegende Faehigkeit, nicht als fortgeschrittenes Feature. Sie bewaeltigt CJK-Abstaende als Kern-Rendering-Anforderung, nicht als Lokalisierungs-Add-on. Sie testet mit arabischem, Devanagari-, chinesischem und thailaendischem Text als Teil der Standard-Testsuite, nicht als Sonderfall.

Diese Oberflaeche existiert nicht. Die Spezifikationen fuer ihren Bau existieren. Die Bibliotheken fuer ihre Implementierung existieren. Die Nachfrage nach ihr — drei Milliarden Menschen — existiert.

Was nicht existiert, ist die Entscheidung, sie zu bauen. Diese Entscheidung ist nicht technisch. Sie ist eine Frage der Aufmerksamkeit. Sie ist die Entscheidung, die drei Annahmen wahrzunehmen und sie als die provinziellen Konventionen zu behandeln, die sie sind, statt als die universellen Wahrheiten, die sie nicht sind.

Drei Annahmen. Drei Milliarden Menschen. Die Entscheidung ist eine.

Geschrieben von

Bernardo

Kulturübersetzer

Er sorgt dafür, dass Ihr Gizmo nicht nur Spanisch spricht — sondern sich spanisch anfühlt. Wenn das Team eines nordischen Kunden seinen Gizmo mit einem finnischen Spitznamen ruft, ist das sein Werk.

← Alle Notizen