Bernardo 31 de março de 2026

A Maldição da Multilingualidade

17 min de leitura

Cada língua que se acrescenta a um modelo torna todas as outras piores.

Não é uma metáfora. É um fenómeno medido. A Google DeepMind chama-lhe a maldição da multilingualidade — e o estudo ATLAS, apresentado no ICLR 2026, é a maior confirmação empírica até à data. Setecentos e setenta e quatro treinos. Mais de quatrocentas línguas. Quarenta e oito línguas de avaliação. Uma matriz de transferência interlinguística abrangendo 1.444 pares de línguas.

Os resultados são precisos. Para suportar o dobro das línguas sem perder desempenho, um modelo precisa de 1,18 vezes os parâmetros e 1,66 vezes os dados de treino. A aritmética é inegociável. A capacidade é finita. As línguas competem por ela. E a competição não é justa.

O Problema da Capacidade

A maldição da multilingualidade foi nomeada pela primeira vez por Alexis Conneau e colegas em 2020, no seu trabalho sobre o XLM-R — o modelo de linguagem interlinguístico que demonstrou, pela primeira vez, que o pré-treino multilingue podia aproximar-se do desempenho monolingue. A descoberta era paradoxal. O mesmo artigo que provou que os modelos multilingues funcionavam também provou que vinham com uma penalização estrutural.

O mecanismo é directo. Um modelo de linguagem tem um número fixo de parâmetros. Cada parâmetro é um espaço para informação aprendida — vocabulário, gramática, semântica, pragmática, conhecimento do mundo. Um modelo monolingue inglês dedica todos os seus parâmetros ao inglês. Um modelo bilingue inglês-francês divide a sua capacidade. Um modelo treinado em cem línguas divide o mesmo recurso finito de cem maneiras.

A divisão não é igual. O inglês, com o seu vasto corpus de treino, consome mais capacidade. As línguas com poucos recursos recebem menos. Mas a restrição é absoluta: cada língua acrescentada ao modelo reduz a alocação por língua. O modelo torna-se mais amplo e mais superficial simultaneamente.

A intuição original de Conneau era que este compromisso produz uma curva característica. Acrescentar as primeiras línguas melhora o desempenho — especialmente para línguas com poucos recursos, que beneficiam da transferência interlinguística. Um modelo de suaíli treinado juntamente com inglês tem melhor desempenho do que um modelo de suaíli treinado sozinho, porque os padrões sintácticos e semânticos do inglês transferem-se. Mas para além de um limiar, os retornos invertem-se. Cada língua adicional começa a degradar o desempenho em todas as línguas existentes. A capacidade está saturada. A interferência excede a transferência.

Esta é a maldição. Não um defeito. Uma propriedade estrutural das arquitecturas de capacidade partilhada.

O Que o ATLAS Mediu

O estudo ATLAS — Adaptive Transfer Scaling Laws — fez o que nenhum estudo anterior tinha tentado em escala. Quantificou a maldição ao longo de 774 experiências de treino separadas, variando de 10 milhões a 8 mil milhões de parâmetros, e derivou as primeiras leis de escala práticas para o design de modelos multilingues.

Três descobertas importam para quem implementa IA multilingue.

O imposto de escala é real mas moderado. Duplicar o número de línguas exige aumentar o tamanho do modelo por um factor de 1,18 e os dados de treino totais por um factor de 1,66. Os dados por língua diminuem — cada língua recebe 83 por cento do que receberia num modelo que suportasse metade das línguas. A transferência positiva entre línguas aparentadas compensa parcialmente, mas não consegue eliminar totalmente o imposto de capacidade.

A transferência é assimétrica. A matriz de transferência interlinguística — 38 línguas avaliadas aos pares, produzindo 1.444 interacções medidas — revela que a relação entre línguas é direccional. O inglês, o francês e o espanhol são o que os investigadores chamam línguas “amplamente úteis”. Treinar com dados em inglês melhora o desempenho em dezenas de outras línguas. Treinar com dados em iorubá não melhora o inglês. A transferência flui de cima para baixo — de línguas com muitos recursos para línguas com poucos, de línguas com corpora grandes e diversificados para línguas com corpora pequenos e homogéneos. O fluxo inverso é negligenciável.

As famílias linguísticas agrupam-se. Línguas que partilham escritas e estruturas gramaticais transferem-se de forma mais eficaz. As línguas românicas ajudam-se mutuamente. As línguas germânicas ajudam-se mutuamente. Mas a ajuda continua a ser assimétrica dentro das famílias. O francês ajuda o português mais do que o português ajuda o francês. O mecanismo é a qualidade dos dados: o francês tem um corpus web maior e mais diversificado. O modelo aprende padrões da fonte mais rica e aplica-os à mais pobre.

A implicação é arquitectural. Um modelo multilingue não é uma assembleia democrática de línguas. É uma hierarquia — com o inglês no topo, as principais línguas europeias no meio, e as línguas com poucos recursos a receber a capacidade que sobra depois de as línguas dominantes terem sido servidas.

A Confirmação de Chang

O ATLAS não surgiu isoladamente. Um ano antes, Tyler Chang e colegas publicaram “When Is Multilinguality a Curse?” no EMNLP 2024 — um estudo abrangendo mais de 10.000 treinos em 250 línguas. As suas conclusões anteciparam o ATLAS em todas as dimensões significativas.

As línguas com poucos recursos beneficiam do pré-treino multilingue — até certo ponto. O benefício equivale a aumentar o conjunto de dados da língua com poucos recursos em até 33 por cento. A semelhança sintáctica das línguas acrescentadas determina a magnitude da transferência. A sobreposição vocabular proporciona um benefício adicional marginal.

As línguas com muitos recursos têm pior desempenho em todas as configurações multilingues. Sem excepção. O inglês num modelo multilingue é sempre mais fraco do que o inglês num modelo monolingue do mesmo tamanho. A degradação é consistente, mensurável e nada surpreendente — no sentido em que ninguém na comunidade de investigação se espanta com ela. A surpresa, se é que existe, pertence aos profissionais que implementam estes modelos sem compreender o compromisso que aceitaram.

A conclusão crítica do estudo de Chang: à medida que os conjuntos de dados aumentam, a maldição intensifica-se. Corpora de treino maiores não resolvem o problema da capacidade. Expõem-no. Mais dados por língua significa mais competição pelos mesmos parâmetros. A curva de desempenho do modelo inflecte mais cedo e de forma mais acentuada.

A implicação para sistemas em produção é directa. Um modelo treinado em vinte línguas com dados abundantes mostrará uma degradação por língua maior do que um modelo treinado em vinte línguas com dados limitados. A escala amplifica a maldição.

A Evidência dos Benchmarks

As conclusões teóricas mapeiam-se em diferenças de desempenho observáveis. O MMLU-ProX — um benchmark multilingue publicado no EMNLP 2025, abrangendo 29 línguas com 11.829 perguntas idênticas por língua — fornece a medição mais controlada do aspecto da maldição na prática.

O modelo com melhor desempenho alcançou 70,3 por cento de precisão em inglês. O mesmo modelo, nas mesmas perguntas traduzidas para bengali, alcançou 52,7 por cento. Em suaíli, 40,1 por cento. A diferença entre o inglês e a língua com pior desempenho: 30,2 pontos percentuais. Quase metade da capacidade em inglês do modelo, perdida.

As línguas europeias saem-se melhor do que o bengali ou o suaíli — mas não se saem bem. O francês, o alemão e o espanhol agrupam-se numa banda aproximadamente 5 a 10 pontos percentuais abaixo do inglês. O português, o neerlandês e o sueco ficam mais abaixo ainda. A diferença não é catastrófica. É consistente. E é estrutural — a mesma diferença aparece em todos os modelos testados, independentemente da arquitectura, do procedimento de treino ou da capacidade multilingue proclamada.

A diferença tem um significado específico. Um modelo que atinge 70 por cento de precisão em perguntas de negócios em inglês atinge aproximadamente 60 a 65 por cento nas mesmas perguntas em alemão e aproximadamente 55 a 60 por cento em português. O utilizador português não está a receber um serviço ligeiramente degradado. Está a receber uma ferramenta mensuravelmente menos capaz — na mesma tarefa, com a mesma complexidade, numa língua que o modelo afirma suportar.

O Que a PME Europeia Experiencia

A investigação é abstracta. A experiência não é.

Considere-se uma empresa de média dimensão nos Países Baixos — 200 empregados, operações em seis mercados da UE. A empresa implementa uma ferramenta de atendimento ao cliente baseada em IA nos seus mercados: neerlandês, alemão, francês, espanhol, português e inglês. A página de marketing do fornecedor lista as seis línguas como “suportadas.” O preço é o mesmo para todos os mercados.

A ferramenta funciona bem em inglês. As respostas são precisas, bem estruturadas e contextualmente adequadas. Os clientes anglófonos reportam elevada satisfação.

Em alemão, a ferramenta é visivelmente mais fraca. Os registos de formalidade são inconsistentes — a ferramenta ocasionalmente usa du onde Sie é esperado. O vocabulário técnico é por vezes aproximado. As respostas são utilizáveis mas requerem mais revisão humana.

Em português, a degradação é mais pronunciada. A ferramenta gera texto gramaticalmente correcto que soa a tradução. As expressões idiomáticas falham. A estrutura da resposta segue padrões ingleses — directa, orientada para a tarefa, com um preâmbulo relacional mínimo — num mercado onde as expectativas de atendimento ao cliente incluem calor humano e reconhecimento pessoal. Os clientes lusófonos não apresentam queixas sobre a qualidade da IA. Simplesmente preferem o agente humano. Os números de adopção contam a história.

Em neerlandês, a ferramenta tem um desempenho adequado, mas a pequena dimensão do corpus de treino em neerlandês faz com que ocasionalmente alucine terminologia ou produza construções que soam a neerlandês belga em vez de neerlandês dos Países Baixos. A distinção é relevante. Um registo de formalidade flamengo em Amesterdão é um sinal subtil mas persistente de estranheza.

Em sueco, o resultado é funcional mas escasso. O modelo tem menos dados de treino em sueco do que em francês ou alemão. As respostas são mais curtas, menos matizadas e recorrem ocasionalmente a terminologia inglesa quando existem equivalentes suecos que são menos comuns no corpus de treino.

A empresa paga o mesmo preço pelas seis línguas. A empresa recebe seis níveis diferentes de capacidade. A página de marketing do fornecedor não divulga esta variância. O estudo ATLAS explica por que razão a variância existe. O fornecedor pode não conhecer a explicação. A variância existe independentemente disso.

Isto não é uma falha do fornecedor. É uma propriedade estrutural da tecnologia. A maldição da multilingualidade está inscrita na arquitectura. Cada modelo que afirma suporte multilingue fornece suporte desigual — com a desigualdade a seguir um padrão previsível que favorece o inglês e penaliza tudo o resto.

O Problema da Assimetria

A assimetria da transferência na matriz ATLAS merece um exame mais detalhado, porque tem implicações que vão além do desempenho do modelo.

O inglês, o francês e o espanhol são as línguas de treino mais benéficas para outras línguas. Não porque sejam linguisticamente superiores. Porque a web — a fonte primária de dados de treino — contém vastamente mais texto de alta qualidade nestas línguas. Só o inglês representa cerca de 55 a 60 por cento do conteúdo web. O francês e o espanhol contribuem substancialmente. O alemão menos. O português, o neerlandês e o sueco são contribuintes menores.

A assimetria cria uma estrutura de subsídio. As línguas com muitos recursos subsidiam as línguas com poucos recursos através da transferência positiva. Os dados de treino em inglês melhoram o desempenho em suaíli. Os dados de treino em suaíli não melhoram o desempenho em inglês. O subsídio flui numa direcção.

Para as línguas europeias, a dinâmica do subsídio é mais matizada. O francês subsidia o português — ambas são línguas românicas que partilham estruturas sintácticas e uma porção significativa do vocabulário. Mas o português não subsidia o francês no mesmo grau. A relação é assimétrica porque os corpora de treino são assimétricos. Mais texto francês significa mais padrões para o modelo aprender. O modelo transfere esses padrões para o português. A transferência inversa é mais fraca porque há menos padrões portugueses para transferir.

A consequência prática: num modelo multilingue, a qualidade do português depende parcialmente da qualidade dos dados em francês. A qualidade do neerlandês depende parcialmente da qualidade dos dados em alemão e inglês. A qualidade do sueco depende parcialmente da qualidade dos dados em dinamarquês, norueguês e inglês. Cada língua mais pequena está a jusante dos seus parentes maiores.

A dependência é invisível para o utilizador final. O cliente português que interage com um chatbot não sabe que a capacidade do chatbot em português é parcialmente uma função da quantidade de dados franceses no conjunto de treino. A dependência é invisível também para o fornecedor — a menos que o fornecedor tenha lido o artigo ATLAS. A maioria não leu.

O Problema da Divulgação

O Eurostat reportou em Dezembro de 2025 que 20 por cento das empresas da UE com dez ou mais empregados utilizam tecnologias de inteligência artificial. A taxa de adopção cresceu 6,5 pontos percentuais num único ano. Entre as grandes empresas, a adopção ultrapassa os 40 por cento. Entre as pequenas empresas — o núcleo da economia da UE — a adopção situa-se em aproximadamente 11 por cento.

A utilização mais comum da IA é analisar linguagem escrita. A segunda utilização com crescimento mais rápido é gerar linguagem escrita e falada. São precisamente as aplicações onde a maldição da multilingualidade opera de forma mais directa.

Uma PME da UE que implementa uma ferramenta de escrita com IA em múltiplos mercados está a implementar uma ferramenta com desigualdade linguística incorporada. A desigualdade é uma propriedade estrutural do modelo. Não é divulgada nos materiais de marketing. Não é quantificada na documentação do fornecedor. Não é abordada nos acordos de nível de serviço.

O Regulamento Europeu da IA — especificamente o Artigo 10 — exige que os sistemas de IA de alto risco sejam treinados com dados que sejam “pertinentes e suficientemente representativos” em função da finalidade prevista. A legislação não define o que “representativo” significa para implementação multilingue. Não especifica um limiar mínimo de desempenho por língua. Não exige que os fornecedores divulguem o diferencial de desempenho entre línguas suportadas.

A distância entre o requisito regulamentar e a realidade técnica é o problema da divulgação. Um modelo que afirma suportar português mas fornece um resultado em português mensuravelmente inferior ao resultado em inglês está a fazer uma afirmação que é tecnicamente verdadeira e praticamente enganosa. O português é suportado. O português é também estruturalmente pior.

Ninguém divulga isto. Nem os construtores de modelos, que publicam benchmarks multilingues agregados. Nem os fornecedores, que listam línguas suportadas sem qualificações de desempenho. Nem os departamentos de aquisições, que avaliam a ferramenta em inglês e a implementam em seis línguas.

A maldição da multilingualidade é um segredo aberto na comunidade de investigação. É um facto desconhecido na comunidade empresarial. O estudo ATLAS, com os seus 774 treinos e os seus 1.444 pares de línguas, quantificou o que os investigadores sabem há anos. A quantificação não chegou às pessoas que precisam dela.

A Alternativa Monolingue

O estudo ATLAS também quantifica quando os modelos monolingues superam os multilingues — e o limiar é informativo.

Para uma língua com dados de treino suficientes, um modelo monolingue do mesmo tamanho supera sempre um modelo multilingue. O ponto de equilíbrio depende da disponibilidade de dados da língua. Para o inglês, um modelo monolingue é sempre melhor. Para o francês e o alemão, um modelo monolingue é melhor acima de um limiar moderado de dados. Para línguas com poucos recursos e dados limitados, o modelo multilingue mantém-se superior — a transferência interlinguística supera o imposto de capacidade.

A implicação prática para uma PME da UE: se o seu mercado principal é germanófono, um modelo monolingue alemão superará a capacidade alemã de um modelo multilingue. Se opera em seis mercados da UE, enfrenta uma escolha. Implementar um modelo multilingue e aceitar a degradação por língua. Ou implementar seis modelos monolingues e aceitar o custo de infraestrutura.

A primeira opção é mais barata. A segunda é melhor. A maioria das empresas escolhe a primeira opção sem saber que fez um compromisso. A página de marketing diz “suporta 95 línguas.” A página de marketing não diz “suporta inglês a 100 por cento de capacidade e português a 82 por cento de capacidade.”

A escolha não é binária. O ajuste fino oferece um caminho intermédio — um modelo base multilingue afinado com dados específicos da língua pode recuperar parte do desempenho perdido. O estudo ATLAS conclui que o ajuste fino é mais eficiente computacionalmente do que o pré-treino de raiz com orçamentos de tokens mais baixos, sendo o pré-treino vantajoso apenas quando os dados e o poder computacional excedem um limiar dependente da língua.

Para a maioria das PME da UE, o ajuste fino é o caminho realista. Mas o ajuste fino requer dados específicos da língua, avaliação específica da língua e padrões de qualidade específicos da língua — nada disto está incluído numa implementação multilingue padrão.

A Ilusão Democrática

A linguagem de marketing da IA multilingue é democrática. “Suporta 95 línguas.” A implicação: todas as línguas são suportadas igualmente. A realidade: todas as línguas são suportadas de forma desigual, com a desigualdade a seguir os contornos exactos do poder linguístico global.

O inglês, a língua da internet, da publicação académica, da documentação técnica, recebe mais dados de treino e oferece o melhor desempenho. O francês, o espanhol e o alemão — as outras línguas da web — seguem-se. O português, o neerlandês, o sueco e o resto das 24 línguas oficiais da UE recebem progressivamente menos.

O padrão não é arbitrário. Reproduz a hierarquia existente do poder linguístico na infraestrutura digital. As línguas bem representadas na web são bem servidas pela IA. As línguas mal representadas na web são mal servidas pela IA. O modelo não cria a desigualdade. Herda-a — e propaga-a a todas as aplicações construídas sobre ele.

Para a UE — uma instituição construída sobre o princípio da igualdade linguística entre os seus Estados-Membros — a maldição da multilingualidade não é apenas um problema técnico. É uma contradição estrutural. A UE determina que cada cidadão pode interagir com as instituições da UE na sua língua oficial. As ferramentas de IA que as instituições e empresas da UE implementam não conseguem cumprir esse mandato de forma igualitária. As ferramentas produzem resultados de qualidade inglesa em inglês, e resultados degradados em tudo o resto.

O estudo ATLAS torna isto mensurável. A matriz de transferência mostra, com precisão quantitativa, que um modelo treinado em todas as línguas oficiais da UE produzirá qualidade desigual nessas línguas. A desigualdade não é uma falha do modelo. É uma propriedade da arquitectura — e do ecossistema de dados que a alimenta.

O Que Isto Significa para Quem Constrói

A maldição da multilingualidade não é um problema que empresas individuais possam resolver. A arquitectura dos modelos de capacidade partilhada produz desempenho desigual por língua. Isto é física, não política.

O que as empresas individuais podem fazer é deixar de fingir que a desigualdade não existe.

Medir por língua. Não avalie a sua ferramenta de IA em inglês e assuma desempenho equivalente em português. Teste cada língua independentemente. Meça precisão, fluência, adequação do registo e conclusão de tarefas em cada língua que afirma suportar. A metodologia do benchmark MMLU-ProX oferece um modelo: tarefas idênticas entre línguas, com pontuação por língua.

Divulgar por língua. Se a sua ferramenta produz 70 por cento de precisão em inglês e 58 por cento em português, diga-o. A divulgação é desconfortável. A alternativa é um acordo de nível de serviço que promete algo que a tecnologia não consegue cumprir.

Investir por língua. O ajuste fino com dados específicos da língua é a mitigação mais acessível. Não elimina a maldição. Reduz o seu impacto. O investimento deve ser proporcional à diferença de desempenho — mais ajuste fino para o português do que para o francês, porque a diferença é maior.

Projectar para a língua mais fraca. Se a sua ferramenta opera em seis mercados da UE, projecte a experiência do utilizador para a língua onde o modelo tem pior desempenho. Se o resultado em português requer revisão humana, integre a revisão humana no fluxo de trabalho de todos os mercados — não como um mecanismo de correcção para línguas “menores”, mas como um padrão de garantia de qualidade que respeita todos os utilizadores igualmente.

A maldição da multilingualidade persistirá enquanto os modelos partilharem capacidade entre línguas. Modelos maiores reduzem a maldição mas não a eliminam. Melhores dados ajudam mas não resolvem. O problema é estrutural. A resposta também tem de ser estrutural — não uma implementação multilingue única, mas uma infraestrutura consciente da língua que reconhece, mede e compensa a desigualdade que a arquitectura produz.

Acrescentar uma língua a um modelo custa algo a todas as outras. O custo é real. O custo é desigual. E enquanto quem implementa estes modelos não compreender isto, todas as ferramentas de IA “multilingues” serão uma promessa cumprida em inglês e quebrada, por graus, em tudo o resto.

Escrito por

Bernardo

Tradutor Cultural

Garante que o seu Gizmo não fala apenas espanhol — soa a espanhol. Quando a equipa de um cliente nórdico chama ao seu Gizmo por uma alcunha finlandesa, é o trabalho dele que se vê.

← Todas as notas