Bernardo 21 oktober 2025

Drie veronderstellingen, drie miljard mensen

12 min leestijd

Het Latijnse alfabet veronderstelt horizontaal lezen, links-naar-rechts, met spaties tussen woorden.

Drie veronderstellingen. Drie miljard mensen voor wie geen ervan geldt.

De eerste veronderstelling: richting

Arabisch leest rechts-naar-links. Hebreeuws leest rechts-naar-links. Urdu leest rechts-naar-links. Perzisch leest rechts-naar-links. Dit zijn geen minderheidsschriften. Arabisch alleen al is het schrijfsysteem voor meer dan 370 miljoen moedertaalsprekers en het liturgische schrift voor 1,8 miljard moslims. Hebreeuws bedient 9 miljoen moedertaalsprekers. Urdu bedient 230 miljoen.

Rechts-naar-links is geen speciaal geval. Links-naar-rechts is niet de standaard. Beide zijn conventies — historische toevalligheden van penseelhoek, rietpositie en schrijversergonomie die zich over millennia hebben verhard tot normen. Geen van beide is natuurlijker dan de ander. Eén domineert de technologiesector. Deze dominantie is niet verdiend. Die is geërfd.

Elke AI-interface gebouwd op de veronderstelling van links-naar-rechts lezen — elk chatvenster, elke tekstinvoer, elk antwoordpaneel — is gebouwd op de eerste veronderstelling. De veronderstelling is gecodeerd op CSS-niveau, op layout-engine-niveau, op interactiepatroonniveau. “direction: ltr” is een enkele regel code. Het is ook een culturele verklaring: deze interface is gebouwd door mensen die links-naar-rechts lezen, voor mensen die links-naar-rechts lezen.

De engineeringkosten van bidirectionele ondersteuning zijn niet nul. Maar de engineeringkosten van het uitsluiten van meer dan 600 miljoen moedertaalsprekers van rechts-naar-links schriften zijn hoger — als je ze überhaupt in overweging neemt. De meeste interfaces doen dat niet.

De tweede veronderstelling: continuïteit

Latijnse tekens zijn discreet. Elke letter neemt zijn eigen ruimte in. De vorm van een “a” verandert niet op basis van de letter ernaast. Deze discretie is de architecturale basis van digitale typografie: vaste glyph-tabellen, voorspelbare kerning-paren, rechttoe rechtaan cursorpositionering.

Arabisch schrift werkt niet zo. Arabische tekens zijn verbonden — elke letter sluit aan op zijn buren in een doorlopende stroom, als cursief schrift dat de pen nooit optilt. De vorm van een teken verandert op basis van zijn positie in het woord: initieel, mediaal, finaal of geïsoleerd. De letter “ba” (ب) heeft vier onderscheiden vormen afhankelijk van waar die in het woord verschijnt. Dit is geen uitzondering. Dit is de regel. Elke letter in het Arabische alfabet heeft meerdere vormen.

Devanagari — het schrift dat gebruikt wordt voor Hindi, Sanskriet, Marathi, Nepalees en tientallen andere talen die meer dan 600 miljoen mensen bedienen — heeft een volledig andere structurele logica. Tekens hangen aan een horizontale koplijn genaamd de shirorekha. De koplijn verbindt tekens binnen een woord en creëert een visuele continuïteit die noch de discretie van Latijn noch de cursieve verbinding van Arabisch is. Het is een derde model.

De implicatie voor AI-interfaces: tekstrendering, cursorpositionering, tekstselectie, regelafbreking en woordafbreking gedragen zich allemaal anders in elk schriftsysteem. Een AI-chatbot die Arabische tekst rendert met Latijnse tekstrenderingslogica produceert tekst die technisch leesbaar maar visueel fout is — lettervormen die niet correct verbinden, woordgrenzen die op incorrecte posities breken, cursorgedrag dat de gebruiker verwart.

De gebruiker ziet niet “een renderingbug.” De gebruiker ziet een interface die zijn taal niet begrijpt. Vertrouwen gaat verloren niet op semantisch niveau maar op typografisch niveau — voordat er een enkel woord van het AI-antwoord gelezen is.

De derde veronderstelling: scheiding

Engels scheidt woorden met spaties. Duits scheidt woorden met spaties (behalve wanneer het samengestelde woorden creëert, die dan niet gescheiden worden — “Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz” is één woord). Chinees gebruikt geen spaties tussen woorden. Japans gebruikt geen spaties tussen woorden. Thai gebruikt geen spaties tussen woorden.

In Chinese, Japanse en Koreaanse (CJK) schriftsystemen neemt elk teken een cel van vaste breedte in. De tekens zijn gelijkmatig verdeeld niet door woordgrenzen maar door tekengrenzen. Woordsegmentatie — weten waar het ene woord eindigt en het volgende begint — is een taak die door de lezer wordt uitgevoerd, niet door de typografie. De tekst biedt geen expliciet signaal.

Voor AI-systemen die CJK-tekst verwerken, is woordsegmentatie een niet-triviale computationele taak. Dezelfde reeks Chinese tekens kan in verschillende woorden worden gesegmenteerd afhankelijk van de context. De zin “下雨天留客天留我不留” kan gelezen worden als ofwel een uitnodiging om te blijven of een verzoek om te vertrekken, afhankelijk van waar de woordgrenzen geplaatst worden. De ambiguïteit wordt opgelost door context, niet door typografie.

Wanneer een AI-chatbot antwoordt in het Chinees, moet het antwoord gerenderd worden in tekencellen van vaste breedte met juiste CJK-spatiëring. Wanneer dezelfde interface ook Latijnse tekst verwerkt — bij een meertalige uitrol, bijvoorbeeld — moeten de twee spatiëringssystemen naast elkaar bestaan. CJK-tekens op volle breedte. Latijnse tekens op proportionele breedte. Interpunctieregels die tussen de twee systemen verschillen (Chinees gebruikt interpunctie op volle breedte; Latijn gebruikt halve breedte). Regelafbrekingsregels die bepaalde tekens verbieden aan het begin of einde van een regel te verschijnen (kinsoku shori in Japanse typografie).

Dit is geen feature-verzoek. Dit is een voorwaarde. Een interface die gemengde CJK-Latijnse typografie niet correct verwerkt is een interface die niet werkt voor de meerderheid van Oost-Aziatische gebruikers die dagelijks beide schriften lezen.

De schaal van de uitsluiting

De aantallen zijn niet ambigu.

Arabisch schrift: 420 miljoen moedertaalsprekers. Devanagari: 600+ miljoen gebruikers over meerdere talen. Chinese tekens: 1,4 miljard moedertaallezers. Japans (gemengd kanji, hiragana, katakana): 125 miljoen moedertaallezers. Koreaans (Hangeul): 80 miljoen moedertaallezers. Thai schrift: 38 miljoen moedertaallezers.

Gecombineerd bedienen deze schriften meer mensen dan het Latijnse alfabet. En die telling sluit Cyrillisch (250 miljoen), Bengaals (230 miljoen), Tamil (80 miljoen), Telugu (83 miljoen) en tientallen andere schriften uit die elk tientallen miljoenen mensen bedienen.

Het Latijnse alfabet is niet het schrijfsysteem van de wereld. Het is een van de schrijfsystemen van de wereld — en het is degene die de veronderstellingen van elke grote AI-interface beheerst.

Wat “meertalig” werkelijk betekent

Elk groot AI-model claimt meertalige capaciteit. De claim is waar op taalniveau. GPT-4, Claude, Gemini — allemaal verwerken ze tekst in tientallen talen met wisselende graden van competentie. Het taalmodel begrijpt Chinees, Arabisch, Hindi, Japans, Koreaans, Thai.

De interface niet.

De meertalige capaciteit van het taalmodel wordt gerenderd door een interface gebouwd op Latijnse veronderstellingen: links-naar-rechts indeling, discrete tekenrendering, woordweergave gescheiden door spaties. Het model kan denken in het Arabisch. De interface kan Arabisch niet correct weergeven. Het model kan Chinees genereren. De interface kan gemengde CJK-Latijnse tekst niet correct renderen.

De kloof tussen de taalcapaciteit van het model en de typografische capaciteit van de interface is de kloof tussen “meertalig” en “multicultureel.” Het model spreekt de taal. De interface spreekt Latijnse typografie vermomd als taal.

Dit is het argument van Bluewaves, gereduceerd tot de eenvoudigste vorm: taal is niet cultuur. Vertaling is geen aanpassing. Een model dat vloeiend Arabisch genereert via een interface die Arabisch incorrect rendert heeft linguïstische competentie en typografische incompetentie tegelijkertijd bereikt.

De engineeringvereisten

Wat zou het kosten om een AI-interface te bouwen die de drie miljard respecteert? De vereisten zijn specifiek, bekend en goed gedocumenteerd in de specificaties van het Unicode Consortium, de internationaliseringsrichtlijnen van het W3C en decennia van typografisch engineeringonderzoek.

Bidirectionele tekstondersteuning (Bidi). Het Unicode Bidirectional Algorithm (UBA) definieert hoe tekst met gemengde directionaliteit gerenderd moet worden. Het algoritme verwerkt het gangbare geval: een Arabische zin die een Engelse productnaam bevat, of een Hebreeuwse alinea met een URL. Het UBA is een opgelost probleem — geïmplementeerd in elke grote browser-engine en besturingssysteem. De vereiste is niet bidirectionele ondersteuning uitvinden. Die is de bestaande standaard correct gebruiken. De meeste AI-interfaces doen dat niet.

Contextuele vormgeving. Arabisch, Syrisch, Mongools en andere verbonden schriften vereisen contextuele vormgeving — het renderen van verschillende glyphvarianten op basis van de positie van een teken in het woord. OpenType layout-features (specifiek de “init,” “medi,” “fina,” en “isol” features) verwerken dit op fontniveau. De vereiste is fonts gebruiken die deze features bevatten en rendering engines die ze toepassen. De vereiste is niet exotisch. Het is standaard typografie. Die wordt veelvuldig genegeerd.

CJK-spatiëring en regelafbreking. Het W3C’s “Requirements for Japanese Text Layout” (JLReq) en “Requirements for Chinese Text Layout” (CLReq) definiëren de spatiërings-, interpunctie- en regelafbrekingsregels voor CJK-tekst. Dit zijn geen optionele richtlijnen. Het zijn de typografische conventies die CJK-lezers verwachten — het equivalent van links uitgelijnde tekst in Latijnse typografie. Die schenden produceert tekst die leesbaar maar fout is, op de manier waarop een boek met rechts-uitgelijnde Engelse tekst leesbaar maar fout is.

Complexe schriftrendering. Devanagari, Bengaals, Tamil, Telugu, Kannada, Malayalam, Thai, Lao, Khmer, Tibetaans en Myanmar-schriften vereisen allemaal complexe vormgeving — herordening van tekens, combinatie van basistekens met klinkermarkeringen, en positioneringsregels die afhangen van de specifieke combinatie van tekens. HarfBuzz, de open-source tekstvormgevingsengine, verwerkt al deze. De vereiste is integratie, niet uitvinding.

Verticale tekstondersteuning. Traditioneel Chinees, Japans en Mongools kunnen verticaal geschreven worden (van boven naar beneden, kolommen van rechts naar links). Hoewel horizontaal schrijven dominant is geworden voor digitale tekst in het Chinees en Japans, blijft verticale tekst belangrijk voor formele contexten, literaire publicaties en bepaalde UI-elementen. Mongools wordt standaard verticaal geschreven. Een AI-interface die CJK-ondersteuning claimt maar geen verticale tekst kan renderen maakt een culturele veronderstelling vermomd als technische beperking.

De toegankelijkheidsdimensie

De drie veronderstellingen beïnvloeden niet alleen culturele competentie. Ze beïnvloeden toegankelijkheid.

De Wereldgezondheidsorganisatie schat dat 2,2 miljard mensen wereldwijd een vorm van visuele beperking hebben. Schermlezers — de hulptechnologie die tekst omzet naar spraak voor visueel beperkte gebruikers — zijn afhankelijk van correcte tekstdirectionaliteit, correcte tekencodering en correcte semantische structuur. Een schermlezer die Arabische tekst verwerkt in een links-naar-rechts context leest de tekens in de verkeerde volgorde. De gebruiker hoort onzin.

Dit is geen nichezorg. Arabisch-sprekende internetgebruikers tellen ongeveer 237 miljoen. De doorsnede van Arabisch-sprekende gebruikers en visueel beperkte gebruikers telt in de miljoenen. Een AI-interface die Arabische tekst rendert in een links-naar-rechts context heeft deze gebruikers uitgesloten van de interactie — niet door een bewuste beslissing, maar door de geërfde veronderstelling dat alle tekst van links naar rechts stroomt.

De EU Web Accessibility Directive (Richtlijn 2016/2102) vereist dat websites en applicaties van de publieke sector voldoen aan WCAG 2.1 AA-standaarden. De European Accessibility Act (Richtlijn 2019/882), die van toepassing is op private-sectorproducten en -diensten vanaf juni 2025, breidt vergelijkbare vereisten uit naar commerciële producten. Beide richtlijnen vereisen correcte verwerking van bidirectionele tekst, correcte semantische opmaak voor schermlezers en correcte taalidentificatie in het HTML lang-attribuut.

Een AI-tool die Arabisch, Hebreeuws of andere RTL-schriften niet correct verwerkt is niet slechts cultureel ongevoelig. Die is mogelijk niet-conform met EU-toegankelijkheidswetgeving.

De engineeringkosten van conformiteit zijn dezelfde als de engineeringkosten van culturele competentie: implementeer het Unicode Bidirectional Algorithm correct, gebruik semantische HTML met correcte lang-attributen, en test met schermlezers in RTL-modus. De kosten worden eenmalig gemaakt. De uitsluiting, als de kosten niet gemaakt worden, is permanent.

De testkloof

Hier is een praktische observatie uit jarenlang werken aan cross-cultureel ontwerp: de veronderstelling dat tekst Latijns is, houdt stand omdat het testen Latijns is.

QA-teams testen AI-interfaces met Latijnse tekst. Engelse zoekopdrachten, Engelse antwoorden, Engelse rendering. De tests slagen. Het product wordt uitgeleverd. De Arabische gebruiker, de Hindi-gebruiker, de Chinese gebruiker, de Thai-gebruiker ontdekt de renderingfouten na uitrol — in productie, met echte zoekopdrachten, met echte consequenties voor vertrouwen.

De testkloof is niet toevallig. Die is structureel. QA-teams worden bezet door mensen die de ontwikkeltaal lezen. Testgevallen worden geschreven in de ontwikkeltaal. Geautomatiseerde tests controleren op features beschreven in de vereistendocumenten van de ontwikkeltaal. Meertalig testen vereist meertalige testers — mensen die kunnen beoordelen of Arabische tekst er correct uitziet, of CJK-spatiëring juist is, of Devanagari-koplijnverbindingen correct renderen. Deze testers bestaan. Ze worden zelden aangenomen. Ze zijn een bijzaak, als ze al overwogen worden.

De fix is architecturaal: neem niet-Latijnse schriften op in de kerntest-suite, niet als bijlage. Elke geautomatiseerde test die tekstrendering controleert moet draaien tegen Arabische, Chinese, Devanagari- en Thai-tekst naast Engels. Elke handmatige QA-doorloop moet native-schriftevaluatie door een native lezer bevatten. Elke toegankelijkheidsaudit moet RTL- en complexe-schriftscenario’s bevatten.

Dit is geen premium testregime. Het is een basistestregime voor een product dat claimt een wereldwijd gebruikersbestand te bedienen. Een product dat alleen in Latijn test en wereldwijde ondersteuning claimt is geen wereldwijd product. Het is een Latijns product met een wereldwijde marketingpagina.

Het ontwerpfalen

Het falen is niet dat deze vereisten onbekend zijn. Ze zijn uitgebreid gedocumenteerd. De Internationalization Activity van het W3C heeft uitgebreide specificaties gepubliceerd voor elk groot schriftsysteem. De specificaties van het Unicode Consortium zijn de canonieke referentie voor tekstverwerking wereldwijd. HarfBuzz, ICU en andere open-source bibliotheken implementeren de renderingslogica.

Het falen is dat deze vereisten behandeld worden als speciale gevallen in plaats van fundamentele vereisten. De AI-interface wordt ontworpen voor Latijnse tekst. Dan wordt Arabische ondersteuning “toegevoegd.” Dan wordt CJK-ondersteuning “toegevoegd.” Elke toevoeging is een retrofit — een patch toegepast op een architectuur die ontworpen was voor één schriftsysteem en onvolmaakt uitgebreid om andere te accommoderen.

Het alternatief is ontwerpen voor de drie miljard vanaf het begin. Bidirectionele indeling, contextuele vormgeving, complexe schriftrendering en CJK-spatiëring behandelen als architecturale vereisten — niet als features die later worden toegevoegd, maar als fundamenten die eerst worden gelegd.

Dit is vooraf duurder. Het is in totaal goedkoper. Elke retrofit is kostbaarder dan de oorspronkelijke ontwerpbeslissing zou zijn geweest. En elke retrofit produceert onvolkomenheden — renderingglitches, interactiebugs, toegankelijkheidsfalen — die het vertrouwen ondermijnen bij de gebruikers die een bijzaak waren.

Het principe

Het Latijnse alfabet is niet de standaard. Het is een conventie — een van velen, aangenomen door een minderheid van de wereldlezers, verheven tot architecturale dominantie door het toeval van welke cultuur het eerst computing industrialiseerde.

Elke AI-interface gebouwd op Latijnse veronderstellingen sluit meer mensen uit dan die insluit. Niet door kwaadwilligheid. Door overerving. De veronderstellingen werden nooit onderzocht omdat ze nooit zichtbaar waren — voor de mensen die ze delen.

De drie veronderstellingen — richting, continuïteit, scheiding — zijn niet universeel. Ze zijn provinciaal. En wereldwijde technologie bouwen op provinciale veronderstellingen is geen engineering. Het is onzorgvuldigheid op schaal.

Drie veronderstellingen. Drie miljard mensen. De veronderstellingen zijn optioneel. De mensen niet.

De AI-interface gebouwd voor de drie miljard ziet er anders uit dan de AI-interface gebouwd voor het Latijnse alfabet. Die begint met bidirectionele indeling als standaard, niet als bijzaak. Die behandelt contextuele vormgeving als een fundamentele capaciteit, niet als een geavanceerde feature. Die verwerkt CJK-spatiëring als een kernrenderingvereiste, niet als een lokalisatie-add-on. Die test met Arabische, Devanagari-, Chinese en Thai-tekst als onderdeel van de standaard test-suite, niet als speciaal geval.

Deze interface bestaat niet. De specificaties om die te bouwen bestaan. De bibliotheken om die te implementeren bestaan. De vraag ernaar — drie miljard mensen — bestaat.

Wat niet bestaat is de beslissing om die te bouwen. Die beslissing is niet technisch. Die is aandacht. Het is de beslissing om de drie veronderstellingen op te merken en ze te behandelen als de provinciale conventies die ze zijn, in plaats van de universele waarheden die ze niet zijn.

Drie veronderstellingen. Drie miljard mensen. De beslissing is er één.

Geschreven door

Bernardo

Cultureel Vertaler

Hij zorgt ervoor dat jouw Gizmo niet alleen Spaans spreekt — maar ook Spaans klinkt. Als het team van een Noordse klant hun Gizmo een Finse bijnaam geeft, is dat zijn werk.

← Alle notities