Bernardo 21 oktober 2025

Tre antaganden, tre miljarder människor

11 min lästid

Det latinska alfabetet antar horisontell läsning, vänster till höger, med mellanslag mellan ord.

Tre antaganden. Tre miljarder människor för vilka inget av dem stämmer.

Det första antagandet: Riktning

Arabiska läses höger till vänster. Hebreiska läses höger till vänster. Urdu läses höger till vänster. Persiska läses höger till vänster. Det här är inte minoritetsskrifter. Enbart arabiska är skriftsystemet för över 370 miljoner modersmålstalare och det liturgiska skriftsystemet för 1,8 miljarder muslimer. Hebreiska betjänar 9 miljoner modersmålstalare. Urdu betjänar 230 miljoner.

Höger till vänster är inte ett specialfall. Vänster till höger är inte standarden. Båda är konventioner — historiska tillfälligheter av penselvinkel, sävstiftens position och skrivares ergonomi som stelnade till normer under årtusenden. Ingen är mer naturlig än den andra. En dominerar teknikbranschen. Denna dominans är inte förtjänad. Den är ärvd.

Varje AI-gränssnitt byggt på antagandet om vänster-till-höger-läsning — varje chattfönster, varje textinput, varje svarspanel — är byggt på det första antagandet. Antagandet är kodat på CSS-nivå, på layoutmotornivå, på interaktionsmönsternivå. “direction: ltr” är en enda kodrad. Det är också ett kulturellt ställningstagande: det här gränssnittet byggdes av människor som läser vänster till höger, för människor som läser vänster till höger.

Ingenjörskostnaden för dubbelriktat stöd är inte noll. Men ingenjörskostnaden för att utesluta över 600 miljoner modersmålstalare av höger-till-vänster-skrifter är högre — om du alls beaktar dem. De flesta gränssnitt gör det inte.

Det andra antagandet: Kontinuitet

Latinska tecken är diskreta. Varje bokstav upptar sitt eget utrymme. Formen på ett “a” förändras inte baserat på bokstaven bredvid. Denna diskrethet är den arkitektoniska grunden för digital typografi: fasta glyftabeller, förutsägbara kerningpar, okomplicerad markörpositionering.

Arabisk skrift fungerar inte så. Arabiska tecken är sammanbundna — varje bokstav ansluter till sina grannar i ett kontinuerligt flöde, som kursivskrift som aldrig lyfter pennan. Formen på ett tecken ändras baserat på dess position i ordet: initial, medial, final eller isolerad. Bokstaven “ba” (ب) har fyra distinkta former beroende på var den förekommer i ordet. Det här är inte ett undantag. Det här är regeln. Varje bokstav i det arabiska alfabetet har flera former.

Devanagari — skriften som används för hindi, sanskrit, marathi, nepali och dussintals andra språk som betjänar över 600 miljoner människor — har en helt annan strukturell logik. Tecken hänger från en horisontell rubrikrad kallad shirorekha. Rubrikraden förbinder tecken inom ett ord och skapar en visuell kontinuitet som varken är det latinskas diskrethet eller arabiskans kursiva anslutning. Det är en tredje modell helt och hållet.

Implikationen för AI-gränssnitt: textrendering, markörpositionering, textmarkering, radbrytning och avstavning beter sig alla annorlunda i varje skriftsystem. En AI-chatbot som renderar arabisk text med hjälp av latinsk textrenderingslogik producerar text som är tekniskt läsbar men visuellt fel — bokstavsformer som misslyckas med att ansluta korrekt, ordgränser som bryts på felaktiga positioner, markörbeteende som förvirrar användaren.

Användaren ser inte “en renderingsbugg.” Användaren ser ett gränssnitt som inte förstår deras språk. Förtroende förloras inte på semantisk nivå utan på typografisk nivå — innan ett enda ord av AI:ns svar har lästs.

Det tredje antagandet: Avgränsning

Engelska separerar ord med mellanslag. Tyska separerar ord med mellanslag (förutom när det skapar sammansatta ord, som då inte separeras — “Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz” är ett ord). Kinesiska använder inte mellanslag mellan ord. Japanska använder inte mellanslag mellan ord. Thailändska använder inte mellanslag mellan ord.

I kinesisk, japansk och koreansk (CJK) skrift upptar varje tecken en cell med fast bredd. Tecknen är jämnt fördelade inte efter ordgränser utan efter teckengränser. Ordsegmentering — att veta var ett ord slutar och ett annat börjar — är en uppgift som utförs av läsaren, inte av typografin. Texten ger ingen explicit signal.

För AI-system som bearbetar CJK-text är ordsegmentering en icke-trivial beräkningsuppgift. Samma sekvens av kinesiska tecken kan segmenteras i olika ord beroende på kontext. Meningen “下雨天留客天留我不留” kan läsas som antingen en inbjudan att stanna eller en begäran att gå, beroende på var ordgränserna placeras. Tvetydigheten löses av kontext, inte av typografi.

När en AI-chatbot svarar på kinesiska måste svaret renderas i teckenrutor med fast bredd med korrekt CJK-avstånd. När samma gränssnitt också hanterar latinsk text — i en flerspråkig distribution till exempel — måste de två avståndsystemen samexistera. CJK-tecken i full bredd. Latinska tecken i proportionell bredd. Skiljeteckensregler som skiljer sig mellan de två systemen (kinesiska använder skiljetecken i full bredd; latin använder halvbredd). Radbrytningsregler som förbjuder vissa tecken från att förekomma i början eller slutet av en rad (kinsoku shori i japansk typografi).

Det här är inte en funktionsbegäran. Det här är en förutsättning. Ett gränssnitt som misslyckas med att hantera blandad CJK-latin-typografi korrekt är ett gränssnitt som inte fungerar för majoriteten av östasiatiska användare som läser båda skriftsystemen dagligen.

Uteslutningens skala

Siffrorna är inte tvetydiga.

Arabisk skrift: 420 miljoner modersmålstalare. Devanagari: 600+ miljoner användare över flera språk. Kinesiska tecken: 1,4 miljarder modersmålsläsare. Japanska (blandade kanji, hiragana, katakana): 125 miljoner modersmålsläsare. Koreanska (Hangeul): 80 miljoner modersmålsläsare. Thailändsk skrift: 38 miljoner modersmålsläsare.

Kombinerat betjänar dessa skriftsystem fler människor än det latinska alfabetet. Och den räkningen exkluderar kyrilliska (250 miljoner), bengali (230 miljoner), tamil (80 miljoner), telugu (83 miljoner) och dussintals andra skriftsystem som vart och ett betjänar tiotals miljoner människor.

Det latinska alfabetet är inte världens skriftsystem. Det är ett av världens skriftsystem — och det är det som styr antagandena i varje stort AI-gränssnitt.

Vad “flerspråkig” faktiskt innebär

Varje stor AI-modell hävdar flerspråkig kapacitet. Påståendet är sant på språknivå. GPT-4, Claude, Gemini — alla bearbetar text på dussintals språk med varierande grad av kompetens. Språkmodellen förstår kinesiska, arabiska, hindi, japanska, koreanska, thailändska.

Gränssnittet gör det inte.

Språkmodellens flerspråkiga kapacitet renderas genom ett gränssnitt byggt på latinska antaganden: vänster-till-höger-layout, diskret teckenrendering, mellanslagsseparerad ordvisning. Modellen kan tänka på arabiska. Gränssnittet kan inte visa arabiska korrekt. Modellen kan generera kinesiska. Gränssnittet kan inte rendera blandad CJK-latin-text korrekt.

Gapet mellan modellens språkkapacitet och gränssnittets typografiska kapacitet är gapet mellan “flerspråkig” och “multikulturell.” Modellen talar språket. Gränssnittet talar latinsk typografi utklädda i en språkkostym.

Det här är Bluewaves argumentation, reducerad till sin enklaste form: språk är inte kultur. Översättning är inte anpassning. En modell som genererar flytande arabiska genom ett gränssnitt som renderar arabiska felaktigt har uppnått språklig kompetens och typografisk inkompetens samtidigt.

Ingenjörskraven

Vad skulle det kräva att bygga ett AI-gränssnitt som respekterar de tre miljarderna? Kraven är specifika, kända och väldokumenterade i Unicode Consortiums specifikationer, W3C:s internationaliseringsriktlinjer och decennier av typografisk ingenjörsforskning.

Dubbelriktat textstöd (Bidi). Unicode Bidirectional Algorithm (UBA) definierar hur text med blandad riktning ska renderas. Algoritmen hanterar det vanliga fallet: en arabisk mening som innehåller ett engelskt produktnamn, eller ett hebreiskt stycke med en URL. UBA är ett löst problem — implementerat i varje stor webbläsarmotor och operativsystem. Kravet är inte att uppfinna dubbelriktat stöd. Det är att använda den befintliga standarden korrekt. De flesta AI-gränssnitt gör det inte.

Kontextuell formgivning. Arabiska, syriska, mongoliska och andra sammanbundna skrifter kräver kontextuell formgivning — rendering av olika glyfvarianter baserat på ett teckens position i ordet. OpenType-layoutfunktioner (specifikt funktionerna “init,” “medi,” “fina” och “isol”) hanterar detta på typsnittsnivå. Kravet är att använda typsnitt som inkluderar dessa funktioner och renderingsmotorer som tillämpar dem. Kravet är inte exotiskt. Det är standardtypografi. Det ignoreras ofta.

CJK-avstånd och radbrytning. W3C:s “Requirements for Japanese Text Layout” (JLReq) och “Requirements for Chinese Text Layout” (CLReq) definierar avstånd, skiljetecken och radbrytningsregler för CJK-text. Det är inte valfria riktlinjer. De är de typografiska konventioner som CJK-läsare förväntar sig — motsvarigheten till vänsterjusterad text i latinsk typografi. Att bryta mot dem producerar text som är läsbar men fel, på samma sätt som en bok med ojusterad-vänster engelska text är läsbar men fel.

Komplex skriftrendering. Devanagari, bengali, tamil, telugu, kannada, malayalam, thailändska, lao, khmer, tibetanska och burmesiska skrifter kräver alla komplex formgivning — omordning av tecken, kombination av bastecken med vokaltecken och positioneringsregler som beror på den specifika kombinationen av tecken. HarfBuzz, den öppna textformgivningsmotorn, hanterar alla dessa. Kravet är integrering, inte uppfinning.

Vertikalt textstöd. Traditionell kinesiska, japanska och mongoliska kan skrivas vertikalt (uppifrån och ner, höger-till-vänster-kolumner). Medan horisontell skrift har blivit dominant för digital text på kinesiska och japanska, förblir vertikal text viktig för formella sammanhang, litterär publicering och vissa UI-element. Mongoliska skrivs vertikalt som standard. Ett AI-gränssnitt som hävdar CJK-stöd men inte kan rendera vertikal text gör ett kulturellt antagande förklätt till en teknisk begränsning.

Tillgänglighetsdimensionen

De tre antagandena påverkar inte bara kulturell kompetens. De påverkar tillgänglighet.

Världshälsoorganisationen uppskattar att 2,2 miljarder människor globalt har någon form av synnedsättning. Skärmläsare — den hjälpmedelteknik som konverterar text till tal för synnedsatta användare — är beroende av korrekt textriktning, korrekt teckenkodning och korrekt semantisk struktur. En skärmläsare som bearbetar arabisk text i en vänster-till-höger-kontext läser tecknen i fel ordning. Användaren hör nonsens.

Det här är inte en nischfråga. Arabisktalande internetanvändare uppgår till cirka 237 miljoner. Skärningspunkten mellan arabisktalande användare och synnedsatta användare mäts i miljoner. Ett AI-gränssnitt som renderar arabisk text i en vänster-till-höger-kontext har uteslutit dessa användare från interaktionen — inte genom något medvetet beslut, utan genom det ärvda antagandet att all text flödar vänster till höger.

EU:s webbtillgänglighetsdirektiv (direktiv 2016/2102) kräver att offentliga webbplatser och applikationer uppfyller WCAG 2.1 AA-standarden. Den europeiska tillgänglighetsakten (direktiv 2019/882), som gäller för privata sektorns produkter och tjänster från juni 2025, utvidgar liknande krav till kommersiella produkter. Båda direktiven kräver korrekt hantering av dubbelriktad text, korrekt semantisk markup för skärmläsare och korrekt språkidentifiering i HTML:s lang-attribut.

Ett AI-verktyg som misslyckas med att hantera arabiska, hebreiska eller andra RTL-skrifter korrekt är inte bara kulturellt okänsligt. Det är potentiellt icke-konformt med EU:s tillgänglighetslagstiftning.

Ingenjörskostnaden för konformitet är densamma som ingenjörskostnaden för kulturell kompetens: implementera Unicode Bidirectional Algorithm korrekt, använd semantisk HTML med korrekta lang-attribut och testa med skärmläsare i RTL-läge. Kostnaden uppstår en gång. Uteslutningen, om kostnaden inte betalas, är permanent.

Testgapet

Här är en praktisk observation från år av arbete med tvärkulturell design: antagandet att text är latinsk kvarstår för att testningen är latinsk.

QA-team testar AI-gränssnitt med latinsk text. Engelska frågor, engelska svar, engelsk rendering. Testerna godkänns. Produkten lanseras. Den arabiska användaren, hindi-användaren, den kinesiska användaren, den thailändska användaren upptäcker renderingsfelen efter lansering — i produktion, med riktiga frågor, med verkliga konsekvenser för förtroende.

Testgapet är inte tillfälligt. Det är strukturellt. QA-team bemannas av personer som läser utvecklingsspråket. Testfall skrivs på utvecklingsspråket. Automatiserade tester kontrollerar funktioner beskrivna i utvecklingsspråkets kravdokument. Flerspråkig testning kräver flerspråkiga testare — personer som kan utvärdera om arabisk text ser korrekt ut, om CJK-avstånd är korrekt, om devanagari-rubrikradsanslutningar renderas korrekt. Dessa testare finns. De anställs sällan. De är en eftertanke, om de alls beaktas.

Åtgärden är arkitektonisk: inkludera icke-latinska skrifter i den centrala testsviten, inte som ett bihang. Varje automatiserat test som kontrollerar textrendering bör köras mot arabisk, kinesisk, devanagari- och thailändsk text utöver engelska. Varje manuell QA-genomgång bör inkludera utvärdering av modersmålsskrift av en modersmålsläsare. Varje tillgänglighetsgranskning bör inkludera RTL- och komplexskriftscenarier.

Det här är inte en premiumtestregim. Det är en baslinjestestregim för en produkt som hävdar att den betjänar en global användarbas. En produkt som bara testar på latin och hävdar globalt stöd är inte en global produkt. Det är en latinsk produkt med en global marknadsföringssida.

Designmisslyckandet

Misslyckandet är inte att dessa krav är okända. De är utförligt dokumenterade. W3C:s Internationalization Activity har publicerat heltäckande specifikationer för varje större skriftsystem. Unicode Consortiums specifikationer är den kanoniska referensen för textbearbetning världen över. HarfBuzz, ICU och andra öppna bibliotek implementerar renderingslogiken.

Misslyckandet är att dessa krav behandlas som specialfall snarare än grundläggande krav. AI-gränssnittet designas för latinsk text. Sedan “läggs” arabiskt stöd till. Sedan “läggs” CJK-stöd till. Varje tillägg är en efteranpassning — en lapp applicerad på en arkitektur som designades för ett skriftsystem och utvidgades, bristfälligt, för att rymma andra.

Alternativet är att designa för de tre miljarderna från början. Att behandla dubbelriktad layout, kontextuell formgivning, komplex skriftrendering och CJK-avstånd som arkitektoniska krav — inte funktioner att lägga till senare, utan fundament att lägga först.

Det är dyrare i förväg. Det är billigare totalt. Varje efteranpassning är kostsammare än det ursprungliga designbeslutet hade varit. Och varje efteranpassning producerar brister — renderingsglitchar, interaktionsbuggar, tillgänglighetsmisslyckanden — som urholkar förtroendet hos de användare som var en eftertanke.

Principen

Det latinska alfabetet är inte standarden. Det är en konvention — en av många, adopterad av en minoritet av världens läsare, upphöjd till arkitektonisk dominans genom tillfälligheten av vilken kultur som industrialiserade databehandling först.

Varje AI-gränssnitt byggt på latinska antaganden utesluter fler människor än det inkluderar. Inte genom illvilja. Genom arv. Antagandena granskades aldrig för att de aldrig var synliga — för de människor som delar dem.

De tre antagandena — riktning, kontinuitet, avgränsning — är inte universella. De är provinsiella. Och att bygga global teknik på provinsiella antaganden är inte ingenjörskonst. Det är slarv i stor skala.

Tre antaganden. Tre miljarder människor. Antagandena är valfria. Människorna är det inte.

AI-gränssnittet byggt för de tre miljarderna ser annorlunda ut än AI-gränssnittet byggt för det latinska alfabetet. Det börjar med dubbelriktad layout som standard, inte som eftertanke. Det behandlar kontextuell formgivning som en grundläggande kapacitet, inte en avancerad funktion. Det hanterar CJK-avstånd som ett centralt renderingskrav, inte ett lokaliseringstillägg. Det testar med arabisk, devanagari-, kinesisk och thailändsk text som del av standardtestsviten, inte som ett specialfall.

Det gränssnittet existerar inte. Specifikationerna för att bygga det existerar. Biblioteken för att implementera det existerar. Efterfrågan på det — tre miljarder människor — existerar.

Det som inte existerar är beslutet att bygga det. Det beslutet är inte tekniskt. Det är uppmärksamhetsmässigt. Det är beslutet att uppmärksamma de tre antagandena och att behandla dem som de provinsiella konventioner de är, snarare än de universella sanningar de inte är.

Tre antaganden. Tre miljarder människor. Beslutet är ett.

Skriven av

Bernardo

Kulturöversättare

Han ser till att din Gizmo inte bara talar spanska — den låter spansk. När ett nordiskt klientteam kallar sin Gizmo vid ett finskt smeknamn är det hans arbete som syns.

← Alla anteckningar