Bernardo 21 de octubre de 2025

Tres suposiciones, tres mil millones de personas

15 min de lectura

El alfabeto latino presupone lectura horizontal, de izquierda a derecha, con espacios entre palabras.

Tres suposiciones. Tres mil millones de personas para quienes ninguna se cumple.

La primera suposición: Dirección

El árabe se lee de derecha a izquierda. El hebreo se lee de derecha a izquierda. El urdu se lee de derecha a izquierda. El persa se lee de derecha a izquierda. No son escrituras minoritarias. Solo el árabe es el sistema de escritura de más de 370 millones de hablantes nativos y la escritura litúrgica de 1800 millones de musulmanes. El hebreo sirve a 9 millones de hablantes nativos. El urdu sirve a 230 millones.

De derecha a izquierda no es un caso especial. De izquierda a derecha no es el estándar. Ambos son convenciones — accidentes históricos de ángulo de pincel, posición de la caña y ergonomía del escriba que se solidificaron en normas a lo largo de milenios. Ninguno es más natural que el otro. Uno domina la industria tecnológica. Esta dominancia no es ganada. Es heredada.

Toda interfaz de IA construida sobre la suposición de lectura de izquierda a derecha — toda ventana de chat, todo campo de texto, todo panel de respuesta — está construida sobre la primera suposición. La suposición está codificada a nivel de CSS, a nivel del motor de disposición, a nivel del patrón de interacción. “direction: ltr” es una sola línea de código. Es también una declaración cultural: esta interfaz fue construida por gente que lee de izquierda a derecha, para gente que lee de izquierda a derecha.

El coste de ingeniería del soporte bidireccional no es cero. Pero el coste de ingeniería de excluir a más de 600 millones de hablantes nativos de escrituras de derecha a izquierda es mayor — si es que los consideras. La mayoría de las interfaces no lo hacen.

La segunda suposición: Continuidad

Los caracteres latinos son discretos. Cada letra ocupa su propio espacio. La forma de una “a” no cambia según la letra que esté al lado. Esta discreción es el fundamento arquitectónico de la tipografía digital: tablas de glifos fijas, pares de kerning predecibles, posicionamiento directo del cursor.

La escritura árabe no funciona así. Los caracteres árabes están conectados — cada letra se une a sus vecinas en un flujo continuo, como una escritura cursiva que nunca levanta la pluma. La forma de un carácter cambia según su posición en la palabra: inicial, media, final o aislada. La letra “ba” (ب) tiene cuatro formas distintas dependiendo de dónde aparezca en la palabra. Esto no es una excepción. Es la norma. Cada letra del alfabeto árabe tiene múltiples formas.

El devanagari — la escritura usada para el hindi, el sánscrito, el maratí, el nepalí y decenas de otros idiomas que sirven a más de 600 millones de personas — tiene una lógica estructural completamente diferente. Los caracteres cuelgan de una línea horizontal llamada shirorekha. La línea conecta los caracteres dentro de una palabra, creando una continuidad visual que no es ni la discreción del latín ni la conexión cursiva del árabe. Es un tercer modelo por completo.

La implicación para las interfaces de IA: el renderizado de texto, el posicionamiento del cursor, la selección de texto, el salto de línea y la separación silábica se comportan de forma diferente en cada sistema de escritura. Un chatbot de IA que renderiza texto árabe usando la lógica de renderizado de texto latino produce texto que es técnicamente legible pero visualmente incorrecto — formas de letras que no se conectan correctamente, límites de palabras que se rompen en posiciones incorrectas, comportamiento del cursor que confunde al usuario.

El usuario no ve “un fallo de renderizado.” El usuario ve una interfaz que no entiende su idioma. La confianza se pierde no a nivel semántico sino a nivel tipográfico — antes de que se haya leído una sola palabra de la respuesta de la IA.

La tercera suposición: Separación

El inglés separa las palabras con espacios. El alemán separa las palabras con espacios (excepto cuando crea palabras compuestas, que entonces no se separan — “Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz” es una sola palabra). El chino no usa espacios entre palabras. El japonés no usa espacios entre palabras. El tailandés no usa espacios entre palabras.

En la escritura china, japonesa y coreana (CJK), cada carácter ocupa una celda de ancho fijo. Los caracteres están uniformemente espaciados no por límites de palabras sino por límites de caracteres. La segmentación de palabras — saber dónde termina una palabra y empieza otra — es una tarea que realiza el lector, no la tipografía. El texto no proporciona ninguna señal explícita.

Para los sistemas de IA que procesan texto CJK, la segmentación de palabras es una tarea computacional no trivial. La misma secuencia de caracteres chinos puede segmentarse en diferentes palabras según el contexto. La frase “下雨天留客天留我不留” puede leerse como una invitación a quedarse o una petición de marcharse, dependiendo de dónde se coloquen los límites de palabras. La ambigüedad se resuelve por contexto, no por tipografía.

Cuando un chatbot de IA responde en chino, la respuesta debe renderizarse en celdas de caracteres de ancho fijo con espaciado CJK correcto. Cuando la misma interfaz también maneja texto latino — en un despliegue multilingüe, por ejemplo — los dos sistemas de espaciado deben coexistir. Caracteres CJK a ancho completo. Caracteres latinos a ancho proporcional. Normas de puntuación que difieren entre los dos sistemas (el chino usa signos de puntuación de ancho completo; el latín usa de medio ancho). Normas de salto de línea que prohíben que ciertos caracteres aparezcan al principio o al final de una línea (kinsoku shori en la tipografía japonesa).

Esto no es una solicitud de funcionalidad. Es un prerrequisito. Una interfaz que no maneja correctamente la tipografía mixta CJK-latín es una interfaz que no funciona para la mayoría de los usuarios del este asiático que leen ambas escrituras a diario.

La escala de la exclusión

Los números no son ambiguos.

Escritura árabe: 420 millones de hablantes nativos. Devanagari: más de 600 millones de usuarios en múltiples idiomas. Caracteres chinos: 1400 millones de lectores nativos. Japonés (kanji, hiragana, katakana combinados): 125 millones de lectores nativos. Coreano (Hangul): 80 millones de lectores nativos. Escritura tailandesa: 38 millones de lectores nativos.

Combinadas, estas escrituras sirven a más personas que el alfabeto latino. Y ese recuento excluye el cirílico (250 millones), el bengalí (230 millones), el tamil (80 millones), el telugu (83 millones) y docenas de otras escrituras que sirven cada una a decenas de millones de personas.

El alfabeto latino no es el sistema de escritura del mundo. Es uno de los sistemas de escritura del mundo — y es el que controla las suposiciones de toda interfaz de IA relevante.

Qué significa realmente “multilingüe”

Todo modelo de IA relevante afirma tener capacidad multilingüe. La afirmación es cierta a nivel lingüístico. GPT-4, Claude, Gemini — todos procesan texto en docenas de idiomas con grados variables de competencia. El modelo de lenguaje entiende chino, árabe, hindi, japonés, coreano, tailandés.

La interfaz no.

La capacidad multilingüe del modelo de lenguaje se renderiza a través de una interfaz construida sobre suposiciones latinas: disposición de izquierda a derecha, renderizado de caracteres discretos, presentación de palabras separadas por espacios. El modelo puede pensar en árabe. La interfaz no puede mostrar el árabe correctamente. El modelo puede generar chino. La interfaz no puede renderizar texto mixto CJK-latín correctamente.

La distancia entre la capacidad lingüística del modelo y la capacidad tipográfica de la interfaz es la distancia entre “multilingüe” y “multicultural.” El modelo habla el idioma. La interfaz habla tipografía latina disfrazada de idioma.

Este es el argumento de Bluewaves, reducido a su forma más simple: el idioma no es cultura. La traducción no es adaptación. Un modelo que genera árabe fluido a través de una interfaz que renderiza el árabe incorrectamente ha logrado competencia lingüística e incompetencia tipográfica simultáneamente.

Los requisitos de ingeniería

¿Qué haría falta para construir una interfaz de IA que respete a los tres mil millones? Los requisitos son específicos, conocidos y bien documentados en las especificaciones del Consorcio Unicode, las directrices de Internacionalización del W3C, y décadas de investigación en ingeniería tipográfica.

Soporte de texto bidireccional (Bidi). El Algoritmo Bidireccional de Unicode (UBA) define cómo debe renderizarse el texto con direccionalidad mixta. El algoritmo maneja el caso común: una frase en árabe que contiene un nombre de producto en inglés, o un párrafo en hebreo con una URL. El UBA es un problema resuelto — implementado en cada motor de navegador y sistema operativo relevante. El requisito no es inventar el soporte bidireccional. Es usar el estándar existente correctamente. La mayoría de las interfaces de IA no lo hacen.

Modelado contextual. El árabe, el siríaco, el mongol y otras escrituras conectadas requieren modelado contextual — renderizar variantes de glifos diferentes según la posición de un carácter en la palabra. Las funcionalidades de disposición OpenType (específicamente, las funcionalidades “init,” “medi,” “fina” e “isol”) manejan esto a nivel de fuente. El requisito es usar fuentes que incluyan estas funcionalidades y motores de renderizado que las apliquen. El requisito no es exótico. Es tipografía estándar. Se ignora frecuentemente.

Espaciado y saltos de línea CJK. Los documentos del W3C “Requirements for Japanese Text Layout” (JLReq) y “Requirements for Chinese Text Layout” (CLReq) definen las normas de espaciado, puntuación y salto de línea para texto CJK. No son directrices opcionales. Son las convenciones tipográficas que los lectores CJK esperan — el equivalente del texto alineado a la izquierda en la tipografía latina. Violarlas produce texto que es legible pero incorrecto, de la misma forma que un libro con texto en inglés alineado a la derecha es legible pero incorrecto.

Renderizado de escrituras complejas. El devanagari, el bengalí, el tamil, el telugu, el canarés, el malabar, el tailandés, el lao, el jemer, el tibetano y el birmano requieren modelado complejo — reordenación de caracteres, combinación de caracteres base con signos vocálicos, y normas de posicionamiento que dependen de la combinación específica de caracteres. HarfBuzz, el motor de modelado de texto de código abierto, maneja todos estos. El requisito es integración, no invención.

Soporte de texto vertical. El chino, el japonés y el mongol tradicionales pueden escribirse verticalmente (de arriba abajo, columnas de derecha a izquierda). Aunque la escritura horizontal se ha convertido en dominante para el texto digital en chino y japonés, el texto vertical sigue siendo relevante para contextos formales, publicación literaria y ciertos elementos de interfaz. El mongol se escribe verticalmente por defecto. Una interfaz de IA que afirma soportar CJK pero no puede renderizar texto vertical está haciendo una suposición cultural disfrazada de limitación técnica.

La dimensión de accesibilidad

Las tres suposiciones no solo afectan a la competencia cultural. Afectan a la accesibilidad.

La Organización Mundial de la Salud estima que 2200 millones de personas en todo el mundo tienen alguna forma de discapacidad visual. Los lectores de pantalla — la tecnología asistiva que convierte texto en voz para usuarios con discapacidad visual — dependen de la direccionalidad correcta del texto, la codificación correcta de caracteres y la estructura semántica correcta. Un lector de pantalla que procesa texto árabe en un contexto de izquierda a derecha leerá los caracteres en el orden incorrecto. El usuario oye un sinsentido.

Esto no es una preocupación de nicho. Los usuarios de internet arabófonos suman aproximadamente 237 millones. La intersección de usuarios arabófonos y usuarios con discapacidad visual se mide en millones. Una interfaz de IA que renderiza texto árabe en un contexto de izquierda a derecha ha excluido a estos usuarios de la interacción — no por ninguna decisión deliberada, sino por la suposición heredada de que todo texto fluye de izquierda a derecha.

La Directiva de Accesibilidad Web de la UE (Directiva 2016/2102) requiere que los sitios web y aplicaciones del sector público cumplan los estándares WCAG 2.1 AA. La Ley Europea de Accesibilidad (Directiva 2019/882), que se aplica a productos y servicios del sector privado desde junio de 2025, extiende requisitos similares a los productos comerciales. Ambas directivas requieren el manejo correcto del texto bidireccional, marcado semántico correcto para lectores de pantalla, e identificación correcta del idioma en el atributo lang del HTML.

Una herramienta de IA que no maneja correctamente el árabe, el hebreo u otras escrituras RTL no es meramente culturalmente insensible. Es potencialmente no conforme con la legislación de accesibilidad de la UE.

El coste de ingeniería del cumplimiento es el mismo que el coste de ingeniería de la competencia cultural: implementar el Algoritmo Bidireccional de Unicode correctamente, usar HTML semántico con atributos lang correctos, y probar con lectores de pantalla en modo RTL. El coste se incurre una vez. La exclusión, si el coste no se incurre, es permanente.

La brecha de testing

Una observación práctica de años de trabajo en diseño intercultural: la suposición de que el texto es latino persiste porque el testing es latino.

Los equipos de QA prueban las interfaces de IA con texto latino. Consultas en inglés, respuestas en inglés, renderizado en inglés. Las pruebas pasan. El producto se lanza. El usuario árabe, el usuario de hindi, el usuario chino, el usuario tailandés descubre los fallos de renderizado después del despliegue — en producción, con consultas reales, con consecuencias reales para la confianza.

La brecha de testing no es accidental. Es estructural. Los equipos de QA están formados por personas que leen el idioma de desarrollo. Los casos de prueba se escriben en el idioma de desarrollo. Las pruebas automatizadas comprueban funcionalidades descritas en los documentos de requisitos del idioma de desarrollo. El testing multilingüe requiere testers multilingües — personas que puedan evaluar si el texto árabe se ve correcto, si el espaciado CJK es apropiado, si las conexiones de la línea de encabezado devanagari se renderizan correctamente. Estos testers existen. Rara vez se contratan. Son una ocurrencia tardía, cuando se consideran.

La corrección es arquitectónica: incluir escrituras no latinas en la suite de pruebas principal, no como un apéndice. Cada prueba automatizada que comprueba renderizado de texto debería ejecutarse contra texto árabe, chino, devanagari y tailandés además de inglés. Cada pase de QA manual debería incluir evaluación de escritura nativa por un lector nativo. Cada auditoría de accesibilidad debería incluir escenarios RTL y de escritura compleja.

Este no es un régimen de testing premium. Es un régimen de testing de línea base para un producto que afirma servir a una base de usuarios global. Un producto que prueba solo en latín y afirma soporte global no es un producto global. Es un producto latino con una página de marketing global.

El fallo de diseño

El fallo no es que estos requisitos sean desconocidos. Están extensamente documentados. La Actividad de Internacionalización del W3C ha publicado especificaciones completas para cada sistema de escritura relevante. Las especificaciones del Consorcio Unicode son la referencia canónica para el procesamiento de texto a nivel mundial. HarfBuzz, ICU y otras bibliotecas de código abierto implementan la lógica de renderizado.

El fallo es que estos requisitos se tratan como casos especiales en lugar de requisitos fundamentales. La interfaz de IA se diseña para texto latino. Después se “añade” soporte para el árabe. Después se “añade” soporte CJK. Cada adición es una adaptación retroactiva — un parche aplicado a una arquitectura que fue diseñada para un sistema de escritura y extendida, de forma imperfecta, para acomodar otros.

La alternativa es diseñar para los tres mil millones desde el principio. Tratar la disposición bidireccional, el modelado contextual, el renderizado de escrituras complejas y el espaciado CJK como requisitos arquitectónicos — no funcionalidades a añadir después, sino cimientos que colocar primero.

Esto es más caro al principio. Es menos caro en total. Cada adaptación retroactiva es más costosa que la decisión de diseño original habría sido. Y cada adaptación retroactiva produce imperfecciones — fallos de renderizado, errores de interacción, fallos de accesibilidad — que erosionan la confianza con los usuarios que fueron una ocurrencia tardía.

El principio

El alfabeto latino no es el estándar. Es una convención — una entre muchas, adoptada por una minoría de los lectores del mundo, elevada a dominancia arquitectónica por el accidente de qué cultura industrializó la informática primero.

Toda interfaz de IA construida sobre suposiciones latinas excluye a más gente de la que incluye. No por malicia. Por herencia. Las suposiciones nunca se examinaron porque nunca fueron visibles — para las personas que las comparten.

Las tres suposiciones — dirección, continuidad, separación — no son universales. Son provinciales. Y construir tecnología global sobre suposiciones provinciales no es ingeniería. Es descuido a escala.

Tres suposiciones. Tres mil millones de personas. Las suposiciones son opcionales. Las personas no.

La interfaz de IA construida para los tres mil millones tiene un aspecto diferente de la interfaz de IA construida para el alfabeto latino. Empieza con la disposición bidireccional como estándar, no como ocurrencia tardía. Trata el modelado contextual como capacidad fundamental, no como funcionalidad avanzada. Maneja el espaciado CJK como requisito de renderizado principal, no como complemento de localización. Prueba con texto árabe, devanagari, chino y tailandés como parte de la suite de pruebas estándar, no como caso especial.

Esta interfaz no existe. Las especificaciones para construirla existen. Las bibliotecas para implementarla existen. La demanda — tres mil millones de personas — existe.

Lo que no existe es la decisión de construirla. Esa decisión no es técnica. Es atencional. Es la decisión de notar las tres suposiciones y tratarlas como las convenciones provinciales que son, en lugar de las verdades universales que no son.

Tres suposiciones. Tres mil millones de personas. La decisión es una.

Escrito por

Bernardo

Traductor Cultural

Se asegura de que tu Gizmo no solo hable español — sino que suene español. Cuando el equipo de un cliente nórdico llama a su Gizmo por un apodo finlandés, es su trabajo el que se muestra.

← Todas las notas