Bernardo 31 de marzo de 2026

La Maldición del Multilingüismo

18 min de lectura

Cada lengua que se añade a un modelo hace que todas las demás empeoren.

No es una metáfora. Es un fenómeno medido. Google DeepMind lo llama la maldición del multilingüismo — y su estudio ATLAS, presentado en el ICLR 2026, es la mayor confirmación empírica hasta la fecha. Setecientos setenta y cuatro entrenamientos. Más de cuatrocientas lenguas. Cuarenta y ocho lenguas de evaluación. Una matriz de transferencia interlingüística que abarca 1.444 pares de lenguas.

Los resultados son precisos. Para soportar el doble de lenguas sin perder rendimiento, un modelo necesita 1,18 veces los parámetros y 1,66 veces los datos de entrenamiento. La aritmética no es negociable. La capacidad es finita. Las lenguas compiten por ella. Y la competición no es justa.

El Problema de Capacidad

La maldición del multilingüismo fue nombrada por primera vez por Alexis Conneau y colegas en 2020, en su trabajo sobre XLM-R — el modelo de lenguaje interlingüístico que demostró, por primera vez, que el preentrenamiento multilingüe podía acercarse al rendimiento monolingüe. El hallazgo era paradójico. El mismo artículo que demostró que los modelos multilingües funcionaban también demostró que venían con una penalización estructural.

El mecanismo es directo. Un modelo de lenguaje tiene un número fijo de parámetros. Cada parámetro es un espacio para información aprendida — vocabulario, gramática, semántica, pragmática, conocimiento del mundo. Un modelo monolingüe inglés dedica todos sus parámetros al inglés. Un modelo bilingüe inglés-francés divide su capacidad. Un modelo entrenado en cien lenguas divide el mismo recurso finito de cien maneras.

La división no es igual. El inglés, con su vasto corpus de entrenamiento, consume más capacidad. Las lenguas con pocos recursos reciben menos. Pero la restricción es absoluta: cada lengua añadida al modelo reduce la asignación por lengua. El modelo se vuelve más amplio y más superficial simultáneamente.

La intuición original de Conneau era que este compromiso produce una curva característica. Añadir las primeras lenguas mejora el rendimiento — especialmente para las lenguas con pocos recursos, que se benefician de la transferencia interlingüística. Un modelo de suajili entrenado junto con inglés rinde mejor que un modelo de suajili entrenado solo, porque las estructuras sintácticas y semánticas del inglés se transfieren. Pero más allá de un umbral, los rendimientos se invierten. Cada lengua adicional comienza a degradar el rendimiento en todas las lenguas existentes. La capacidad está saturada. La interferencia supera la transferencia.

Esta es la maldición. No un defecto. Una propiedad estructural de las arquitecturas de capacidad compartida.

Lo que ATLAS Midió

El estudio ATLAS — Adaptive Transfer Scaling Laws — hizo lo que ningún estudio anterior había intentado a escala. Cuantificó la maldición a lo largo de 774 experimentos de entrenamiento separados, desde 10 millones hasta 8.000 millones de parámetros, y derivó las primeras leyes de escala prácticas para el diseño de modelos multilingües.

Tres hallazgos importan para cualquiera que despliegue IA multilingüe.

El impuesto de escala es real pero moderado. Duplicar el número de lenguas requiere aumentar el tamaño del modelo en un factor de 1,18 y los datos de entrenamiento totales en un factor de 1,66. Los datos por lengua disminuyen — cada lengua recibe el 83 por ciento de lo que recibiría en un modelo que soportase la mitad de las lenguas. La transferencia positiva entre lenguas emparentadas compensa parcialmente, pero no puede eliminar totalmente el impuesto de capacidad.

La transferencia es asimétrica. La matriz de transferencia interlingüística — 38 lenguas evaluadas por pares, produciendo 1.444 interacciones medidas — revela que la relación entre las lenguas es direccional. El inglés, el francés y el español son lo que los investigadores llaman lenguas “ampliamente útiles”. Entrenar con datos en inglés mejora el rendimiento en docenas de otras lenguas. Entrenar con datos en yoruba no mejora el inglés. La transferencia fluye hacia abajo — de las lenguas con muchos recursos hacia las que tienen pocos, de las lenguas con corpus grandes y diversificados hacia las que tienen corpus pequeños y homogéneos. El flujo inverso es despreciable.

Las familias lingüísticas se agrupan. Las lenguas que comparten escrituras y estructuras gramaticales transfieren con mayor eficacia. Las lenguas romances se ayudan mutuamente. Las lenguas germánicas se ayudan mutuamente. Pero la ayuda sigue siendo asimétrica dentro de las familias. El francés ayuda al portugués más de lo que el portugués ayuda al francés. El mecanismo es la calidad de los datos: el francés tiene un corpus web más grande y diversificado. El modelo aprende patrones de la fuente más rica y los aplica a la más pobre.

La implicación es arquitectural. Un modelo multilingüe no es una asamblea democrática de lenguas. Es una jerarquía — con el inglés en la cima, las principales lenguas europeas en el medio y las lenguas con pocos recursos recibiendo la capacidad que queda después de que las lenguas dominantes han sido servidas.

La Confirmación de Chang

ATLAS no surgió aisladamente. Un año antes, Tyler Chang y colegas publicaron “When Is Multilinguality a Curse?” en EMNLP 2024 — un estudio que abarcó más de 10.000 entrenamientos en 250 lenguas. Sus conclusiones anticiparon a ATLAS en todas las dimensiones significativas.

Las lenguas con pocos recursos se benefician del preentrenamiento multilingüe — hasta cierto punto. El beneficio equivale a aumentar el conjunto de datos de la lengua con pocos recursos en hasta un 33 por ciento. La similitud sintáctica de las lenguas añadidas determina la magnitud de la transferencia. La superposición de vocabulario proporciona un beneficio adicional marginal.

Las lenguas con muchos recursos rinden peor en todas las configuraciones multilingües. Sin excepción. El inglés en un modelo multilingüe es siempre más débil que el inglés en un modelo monolingüe del mismo tamaño. La degradación es constante, mensurable y nada sorprendente — en el sentido de que nadie en la comunidad investigadora se sorprende. La sorpresa, si existe, pertenece a los profesionales que despliegan estos modelos sin comprender el compromiso que han aceptado.

La conclusión crítica del estudio de Chang: a medida que los conjuntos de datos aumentan, la maldición se intensifica. Corpus de entrenamiento más grandes no resuelven el problema de capacidad. Lo exponen. Más datos por lengua significa más competición por los mismos parámetros. La curva de rendimiento del modelo se inflexiona antes y de forma más pronunciada.

La implicación para los sistemas en producción es directa. Un modelo entrenado en veinte lenguas con datos abundantes mostrará una degradación por lengua mayor que un modelo entrenado en veinte lenguas con datos limitados. La escala amplifica la maldición.

La Evidencia de los Benchmarks

Las conclusiones teóricas se traducen en brechas de rendimiento observables. MMLU-ProX — un benchmark multilingüe publicado en EMNLP 2025, que cubre 29 lenguas con 11.829 preguntas idénticas por lengua — proporciona la medición más controlada de cómo se manifiesta la maldición en la práctica.

El modelo con mejor rendimiento alcanzó el 70,3 por ciento de precisión en inglés. El mismo modelo, en las mismas preguntas traducidas al bengalí, alcanzó el 52,7 por ciento. En suajili, el 40,1 por ciento. La brecha entre el inglés y la lengua con peor rendimiento: 30,2 puntos porcentuales. Casi la mitad de la capacidad en inglés del modelo, perdida.

Las lenguas europeas salen mejor paradas que el bengalí o el suajili — pero no bien. El francés, el alemán y el español se agrupan en una banda de aproximadamente 5 a 10 puntos porcentuales por debajo del inglés. El portugués, el neerlandés y el sueco se sitúan más abajo. La brecha no es catastrófica. Es constante. Y es estructural — la misma brecha aparece en todos los modelos probados, independientemente de la arquitectura, el procedimiento de entrenamiento o la capacidad multilingüe proclamada.

La brecha tiene un significado concreto. Un modelo que alcanza el 70 por ciento de precisión en preguntas comerciales en inglés alcanza aproximadamente el 60 a 65 por ciento en las mismas preguntas en alemán y aproximadamente el 55 a 60 por ciento en portugués. El usuario portugués no recibe un servicio ligeramente degradado. Recibe una herramienta mediblemente menos capaz — en la misma tarea, con la misma complejidad, en una lengua que el modelo afirma soportar.

Lo que la Pyme Europea Experimenta

La investigación es abstracta. La experiencia no lo es.

Consideremos una empresa mediana en los Países Bajos — 200 empleados, operaciones en seis mercados de la UE. La empresa despliega una herramienta de atención al cliente impulsada por IA en sus mercados: neerlandés, alemán, francés, español, portugués e inglés. La página de marketing del proveedor lista las seis lenguas como “soportadas.” El precio es el mismo para todos los mercados.

La herramienta funciona bien en inglés. Las respuestas son precisas, bien estructuradas y contextualmente apropiadas. Los clientes anglófonos reportan alta satisfacción.

En alemán, la herramienta es visiblemente más débil. Los registros de formalidad son inconsistentes — la herramienta usa ocasionalmente du donde se espera Sie. El vocabulario técnico es a veces aproximado. Las respuestas son utilizables pero requieren más revisión humana.

En portugués, la degradación es más pronunciada. La herramienta genera texto gramaticalmente correcto que suena a traducción. Las expresiones idiomáticas fallan. La estructura de la respuesta sigue patrones ingleses — directa, orientada a la tarea, con un preámbulo relacional mínimo — en un mercado donde las expectativas de atención al cliente incluyen calidez y reconocimiento personal. Los clientes lusófonos no presentan quejas sobre la calidad de la IA. Simplemente prefieren al agente humano. Las cifras de adopción cuentan la historia.

En neerlandés, la herramienta funciona adecuadamente, pero el pequeño tamaño del corpus de entrenamiento en neerlandés hace que ocasionalmente alucine terminología o produzca construcciones que suenan a neerlandés belga en vez de neerlandés de los Países Bajos. La distinción importa. Un registro de formalidad flamenco desplegado en Ámsterdam es una señal sutil pero persistente de extrañeza.

En sueco, el resultado es funcional pero escueto. El modelo tiene menos datos de entrenamiento en sueco que en francés o alemán. Las respuestas son más cortas, menos matizadas y recurren ocasionalmente a terminología inglesa cuando existen equivalentes suecos que son menos frecuentes en el corpus de entrenamiento.

La empresa paga el mismo precio por las seis lenguas. La empresa recibe seis niveles diferentes de capacidad. La página de marketing del proveedor no divulga esta varianza. El estudio ATLAS explica por qué existe la varianza. El proveedor puede no conocer la explicación. La varianza existe de todos modos.

Esto no es un fallo del proveedor. Es una propiedad estructural de la tecnología. La maldición del multilingüismo está inscrita en la arquitectura. Cada modelo que afirma soporte multilingüe proporciona soporte desigual — con la desigualdad siguiendo un patrón predecible que favorece al inglés y penaliza todo lo demás.

El Problema de la Asimetría

La asimetría de la transferencia en la matriz ATLAS merece un examen más detallado, porque tiene implicaciones que van más allá del rendimiento del modelo.

El inglés, el francés y el español son las lenguas de entrenamiento más beneficiosas para otras lenguas. No porque sean lingüísticamente superiores. Porque la web — la fuente primaria de datos de entrenamiento — contiene vastamente más texto de alta calidad en estas lenguas. Solo el inglés representa aproximadamente el 55 a 60 por ciento del contenido web. El francés y el español contribuyen sustancialmente. El alemán menos. El portugués, el neerlandés y el sueco son contribuyentes menores.

La asimetría crea una estructura de subsidio. Las lenguas con muchos recursos subsidian a las lenguas con pocos recursos a través de la transferencia positiva. Los datos de entrenamiento en inglés mejoran el rendimiento en suajili. Los datos de entrenamiento en suajili no mejoran el rendimiento en inglés. El subsidio fluye en una dirección.

Para las lenguas europeas, la dinámica de subsidio es más matizada. El francés subsidia al portugués — ambas son lenguas romances que comparten estructuras sintácticas y una porción significativa de su vocabulario. Pero el portugués no subsidia al francés en el mismo grado. La relación es asimétrica porque los corpus de entrenamiento son asimétricos. Más texto francés significa más patrones para que el modelo aprenda. El modelo transfiere esos patrones al portugués. La transferencia inversa es más débil porque hay menos patrones portugueses que transferir.

La consecuencia práctica: en un modelo multilingüe, la calidad del portugués depende parcialmente de la calidad de los datos en francés. La calidad del neerlandés depende parcialmente de la calidad de los datos en alemán e inglés. La calidad del sueco depende parcialmente de la calidad de los datos en danés, noruego e inglés. Cada lengua más pequeña está aguas abajo de sus parientes mayores.

La dependencia es invisible para el usuario final. El cliente portugués que interactúa con un chatbot no sabe que la capacidad del chatbot en portugués es parcialmente función de la cantidad de datos franceses en el conjunto de entrenamiento. La dependencia es invisible también para el proveedor, a menos que el proveedor haya leído el artículo ATLAS. La mayoría no lo ha hecho.

El Problema de la Divulgación

Eurostat informó en diciembre de 2025 que el 20 por ciento de las empresas de la UE con diez o más empleados utilizan tecnologías de inteligencia artificial. La tasa de adopción ha crecido 6,5 puntos porcentuales en un solo año. Entre las grandes empresas, la adopción supera el 40 por ciento. Entre las pequeñas empresas — el núcleo de la economía de la UE — la adopción se sitúa en aproximadamente el 11 por ciento.

El uso más común de la IA es analizar lenguaje escrito. El segundo uso de más rápido crecimiento es generar lenguaje escrito y hablado. Son precisamente las aplicaciones donde la maldición del multilingüismo opera de forma más directa.

Una pyme de la UE que despliega una herramienta de escritura con IA en múltiples mercados está desplegando una herramienta con desigualdad lingüística incorporada. La desigualdad es una propiedad estructural del modelo. No se divulga en los materiales de marketing. No se cuantifica en la documentación del proveedor. No se aborda en los acuerdos de nivel de servicio.

El Reglamento Europeo de IA — específicamente el Artículo 10 — exige que los sistemas de IA de alto riesgo se entrenen con datos que sean “pertinentes y suficientemente representativos” en función de la finalidad prevista. La legislación no define qué significa “representativo” para un despliegue multilingüe. No especifica un umbral mínimo de rendimiento por lengua. No exige a los proveedores que divulguen el diferencial de rendimiento entre las lenguas soportadas.

La distancia entre el requisito regulatorio y la realidad técnica es el problema de la divulgación. Un modelo que afirma soportar portugués pero entrega un resultado en portugués mediblemente inferior a su resultado en inglés está haciendo una afirmación que es técnicamente verdadera y prácticamente engañosa. El portugués está soportado. El portugués es también estructuralmente peor.

Nadie divulga esto. Ni los constructores de modelos, que publican benchmarks multilingües agregados. Ni los proveedores, que listan lenguas soportadas sin cualificaciones de rendimiento. Ni los departamentos de compras, que evalúan la herramienta en inglés y la despliegan en seis lenguas.

La maldición del multilingüismo es un secreto a voces en la comunidad investigadora. Es un hecho desconocido en la comunidad empresarial. El estudio ATLAS, con sus 774 entrenamientos y sus 1.444 pares de lenguas, ha cuantificado lo que los investigadores saben desde hace años. La cuantificación no ha llegado a las personas que la necesitan.

La Alternativa Monolingüe

El estudio ATLAS también cuantifica cuándo los modelos monolingües superan a los multilingües — y el umbral es informativo.

Para una lengua con datos de entrenamiento suficientes, un modelo monolingüe del mismo tamaño siempre supera a un modelo multilingüe. El punto de equilibrio depende de la disponibilidad de datos de la lengua. Para el inglés, un modelo monolingüe es siempre mejor. Para el francés y el alemán, un modelo monolingüe es mejor por encima de un umbral moderado de datos. Para las lenguas con pocos recursos y datos limitados, el modelo multilingüe sigue siendo superior — la transferencia interlingüística supera el impuesto de capacidad.

La implicación práctica para una pyme de la UE: si tu mercado principal es germanófono, un modelo monolingüe alemán superará la capacidad alemana de un modelo multilingüe. Si operas en seis mercados de la UE, te enfrentas a una elección. Desplegar un modelo multilingüe y aceptar la degradación por lengua. O desplegar seis modelos monolingües y aceptar el coste de infraestructura.

La primera opción es más barata. La segunda es mejor. La mayoría de las empresas eligen la primera opción sin saber que han hecho un compromiso. La página de marketing dice “soporta 95 lenguas.” La página de marketing no dice “soporta inglés al 100 por ciento de capacidad y portugués al 82 por ciento de capacidad.”

La elección no es binaria. El ajuste fino ofrece un camino intermedio — un modelo base multilingüe ajustado con datos específicos de la lengua puede recuperar parte del rendimiento perdido. El estudio ATLAS concluye que el ajuste fino es más eficiente computacionalmente que el preentrenamiento desde cero con presupuestos de tokens más bajos, siendo el preentrenamiento ventajoso solo cuando los datos y el cómputo superan un umbral dependiente de la lengua.

Para la mayoría de las pymes de la UE, el ajuste fino es el camino realista. Pero el ajuste fino requiere datos específicos de la lengua, evaluación específica de la lengua y estándares de calidad específicos de la lengua — nada de esto está incluido en un despliegue multilingüe estándar.

La Ilusión Democrática

El lenguaje de marketing de la IA multilingüe es democrático. “Soporta 95 lenguas.” La implicación: todas las lenguas están soportadas por igual. La realidad: todas las lenguas están soportadas de forma desigual, con la desigualdad siguiendo los contornos exactos del poder lingüístico global.

El inglés, la lengua de Internet, de la publicación académica, de la documentación técnica, recibe más datos de entrenamiento y ofrece el mejor rendimiento. El francés, el español y el alemán — las otras lenguas de la web — siguen. El portugués, el neerlandés, el sueco y el resto de las 24 lenguas oficiales de la UE reciben progresivamente menos.

El patrón no es arbitrario. Reproduce la jerarquía existente del poder lingüístico en la infraestructura digital. Las lenguas bien representadas en la web son bien servidas por la IA. Las lenguas mal representadas en la web son mal servidas por la IA. El modelo no crea la desigualdad. La hereda — y la propaga a cada aplicación construida sobre él.

Para la UE — una institución construida sobre el principio de la igualdad lingüística entre sus Estados miembros — la maldición del multilingüismo no es solo un problema técnico. Es una contradicción estructural. La UE establece que cada ciudadano puede interactuar con las instituciones de la UE en su lengua oficial. Las herramientas de IA que las instituciones y empresas de la UE despliegan no pueden cumplir ese mandato de forma igualitaria. Las herramientas producen calidad inglesa en inglés y calidad degradada en todo lo demás.

El estudio ATLAS lo hace medible. La matriz de transferencia muestra, con precisión cuantitativa, que un modelo entrenado en todas las lenguas oficiales de la UE producirá calidad desigual en esas lenguas. La desigualdad no es un fallo del modelo. Es una propiedad de la arquitectura — y del ecosistema de datos que la alimenta.

Lo que Esto Significa para Quien Construye

La maldición del multilingüismo no es un problema que las empresas individuales puedan resolver. La arquitectura de los modelos de capacidad compartida produce un rendimiento desigual por lengua. Esto es física, no política.

Lo que las empresas individuales pueden hacer es dejar de fingir que la desigualdad no existe.

Medir por lengua. No evalúes tu herramienta de IA en inglés y asumas un rendimiento equivalente en portugués. Prueba cada lengua independientemente. Mide precisión, fluidez, adecuación del registro y cumplimiento de tareas en cada lengua que afirmas soportar. La metodología del benchmark MMLU-ProX ofrece una plantilla: tareas idénticas entre lenguas, con puntuación por lengua.

Divulgar por lengua. Si tu herramienta produce el 70 por ciento de precisión en inglés y el 58 por ciento en portugués, dilo. La divulgación es incómoda. La alternativa es un acuerdo de nivel de servicio que promete algo que la tecnología no puede cumplir.

Invertir por lengua. El ajuste fino con datos específicos de la lengua es la mitigación más accesible. No elimina la maldición. Reduce su impacto. La inversión debe ser proporcional a la brecha de rendimiento — más ajuste fino para el portugués que para el francés, porque la brecha es mayor.

Diseñar para la lengua más débil. Si tu herramienta opera en seis mercados de la UE, diseña la experiencia de usuario para la lengua donde el modelo rinde peor. Si el resultado en portugués requiere revisión humana, integra la revisión humana en el flujo de trabajo de todos los mercados — no como un mecanismo de corrección para lenguas “menores”, sino como un estándar de aseguramiento de calidad que respeta a todos los usuarios por igual.

La maldición del multilingüismo persistirá mientras los modelos compartan capacidad entre lenguas. Modelos más grandes reducen la maldición pero no la eliminan. Mejores datos ayudan pero no resuelven. El problema es estructural. La respuesta también debe serlo — no un despliegue multilingüe único, sino una infraestructura consciente de la lengua que reconozca, mida y compense la desigualdad que la arquitectura produce.

Añadir una lengua a un modelo le cuesta algo a todas las demás. El coste es real. El coste es desigual. Y hasta que quienes despliegan estos modelos no lo comprendan, cada herramienta de IA “multilingüe” será una promesa cumplida en inglés y rota, por grados, en todo lo demás.

Escrito por

Bernardo

Traductor Cultural

Se asegura de que tu Gizmo no solo hable español — sino que suene español. Cuando el equipo de un cliente nórdico llama a su Gizmo por un apodo finlandés, es su trabajo el que se muestra.

← Todas las notas