O Modelo Fala Quinze Línguas. Vende Numa.
Bernardo 12 de maio de 2026

O Modelo Fala Quinze Línguas. Vende Numa.

15 min de leitura

O modelo fala quinze línguas. Vende numa.

Não é figura de retórica. É a conclusão de um benchmark revisto por pares publicado em Fevereiro de 2026 por quatro investigadoras da Appen — Madison Van Doren, Casey Ford, Jennifer Barajas e Cory Holland — sob o título “Be My Cheese?”: Cultural Nuance Benchmarking for Machine Translation in Multilingual LLMs. Sete modelos topo de gama. Quinze pares língua-localidade. Cinco avaliadores nativos por língua. Treze mil cento e vinte e cinco anotações ao nível do segmento. Os dados são precisos. A conclusão é austera.

Os modelos com melhor desempenho atingiram 2,10 em 3 numa escala ordinal de quatro pontos para a qualidade global da tradução. Dois terços do máximo. Os modelos comerciais mais fortes do mercado, a traduzir um email de marketing, produzem texto que falantes nativos classificam como adequado, no melhor dos casos, numa escala em que 3 é o padrão exigido para publicação.

Fluente. Não comercial. A distinção é a arquitectura de todo o argumento.

O Que o Estudo Realmente Fez

A metodologia merece ser estabelecida antes das conclusões, porque a metodologia é o elemento estrutural de qualquer benchmark que pretenda medir competência cultural.

As investigadoras forneceram cinco emails de marketing de e-commerce — adaptados de campanhas comerciais reais contendo trocadilhos, expressões idiomáticas, referências a feriados, voz de marca e conceitos culturalmente integrados — a sete LLMs multilingues. Os modelos testados foram o GPT-5, o Claude Sonnet 3.7, o Mistral Medium 3.1, o DeepSeek V3.1, o gpt-oss 120B, o Llama 4 da Meta e o Aya Expanse 8B da Cohere. A mistura é deliberada: peso fechado e peso aberto, modelos de fronteira e acessíveis, americanos, europeus e chineses.

Cada modelo recebeu o mesmo prompt: “Traduz o seguinte email para utilização em [língua] em [país/região].” A instrução é a instrução que qualquer PME europeia daria. Sem engenharia de prompt. Sem pipeline de retrieval. Sem afinação para o mercado de destino. A tarefa em bruto, tal como uma empresa pequena a executaria.

As quinze localidades-alvo cobriram tipologias e continentes: Afrikaans (ZA), árabe (EG), português do Brasil (BR), cantonês (HK), checo (CZ), neerlandês (NL), hebraico (IL), hindi (IN), japonês (JP), coreano (KR), mandarim (TW), russo (KZ), espanhol (MX), suaíli (KE) e urdu (PK). Cada tradução foi depois avaliada por cinco falantes nativos, residentes na região respectiva, fluentes em inglês e na língua-alvo. Setenta e cinco avaliadores no total. Cada um pontuou tanto o email traduzido completo — em fidelidade de conteúdo, fidelidade de estilo, adequação ao público e qualidade global — como segmentos predefinidos contendo expressões idiomáticas, trocadilhos, feriados e conceitos culturais. A escala era de 0 a 3. Existia também uma categoria NA. A categoria NA acabou por importar.

É a avaliação mais rigorosa da localização cultural em tradução automática publicada até hoje. É também a mais condenatória.

O Pelotão da Frente

A qualidade média global do texto completo, em todos os modelos e línguas, foi 1,68 em 3.

O GPT-5 liderou com 2,10. O Claude Sonnet 3.7 seguiu-se com 1,97. O Mistral Medium 3.1 chegou a 1,84. Estes três formaram aquilo que as autoras descrevem como um “pelotão da frente estatisticamente indistinguível” — significativamente melhor do que os restantes, estatisticamente equivalente entre si. O DeepSeek V3.1 ficou em 1,72 e o gpt-oss 120B em 1,60. O Llama 4 marcou 1,47. O Aya Expanse 8B, o mais pequeno dos sete e o único modelo do conjunto especificamente concebido para cobertura multilingue, marcou 1,09.

A ordem é marcante mas não é o ponto. O ponto é o tecto. O melhor LLM multilingue do mercado, num email de marketing, atinge sete décimos do caminho até uma tradução publicável. O pior atinge mal um terço.

Estes não são casos extremos produzidos por línguas exóticas. O conjunto inclui espanhol, português, neerlandês, japonês — línguas com dados de treino abundantes e décadas de história de tradução automática. As pontuações não são o resíduo do esquecimento das línguas de baixos recursos. São o limite da tecnologia, medido no topo.

Um email de marketing não é um género difícil. É uma forma curta, estruturada e comercialmente valiosa. Se os LLMs contemporâneos não conseguem localizar um email de marketing suficientemente bem para um falante nativo o classificar acima de 2,10 em 3, a implicação para tudo o resto — respostas de apoio ao cliente, descrições de produto, divulgações regulatórias, comunicações internas — é directa.

Onde os Modelos Quebram

A pontuação agregada esconde a conclusão estrutural. A conclusão estrutural está nos resultados ao nível do segmento.

Quando os avaliadores pontuaram as quatro categorias de linguagem culturalmente marcada em separado, o padrão foi nítido. Referências a feriados tiveram média de 2,20 em 3. Conceitos culturais tiveram média de 2,19. Expressões idiomáticas marcaram 1,65. Trocadilhos marcaram 1,45.

A diferença de quatro décimos entre feriados e expressões idiomáticas é grande. A diferença de sete décimos entre feriados e trocadilhos é estrutural. Feriados e conceitos culturalmente integrados são substantivos. Expressões idiomáticas e trocadilhos são figuras de estilo. Os modelos traduzem substantivos. Os modelos falham em figuras.

A razão é arquitectural, não anedótica. Um feriado — Dia dos Namorados, Singles Day, Diwali — tem um equivalente na língua-alvo ou um mapeamento cultural conhecido. O modelo recupera o mapeamento. A recuperação tem êxito porque o mapeamento está documentado nos dados de treino. Um trocadilho é o inverso. Um trocadilho depende do som, da forma ou da ressonância cultural de uma palavra específica numa língua específica. Não tem equivalente. Tem de ser reconstruído na língua-alvo usando material diferente. A reconstrução exige invenção. Os modelos não inventam. Os modelos recuperam.

As autoras quantificam a consequência com uma métrica específica: taxa de omissão. As expressões idiomáticas foram a categoria mais frequentemente classificada NA — o que significa que o modelo recusou traduzi-las, deixando o original em inglês embutido no texto traduzido. O Aya Expanse 8B exibiu as taxas de omissão mais altas e as pontuações de qualidade mais baixas quando traduziu. O comportamento conservador não protegeu o modelo mais pequeno. Compôs a sua fragilidade.

Quando um modelo encontra um trocadilho que não consegue reconstruir, tem três opções. Traduzir à letra, produzindo um disparate. Traduzir de forma livre, produzindo uma piada diferente ou nenhuma. Ou recusar e deixar o inglês. As três opções são visíveis ao leitor nativo. As três sinalizam que o texto foi gerado, não escrito. As três reduzem a probabilidade de o leitor comprar aquilo que o email vende.

O Trocadilho Que Dá Nome ao Artigo

O título do estudo é uma pista. “Be My Cheese?” é a tradução literal de um trocadilho de Dia dos Namorados com tema de queijo — “Will you brie mine?” — que apareceu num dos emails-fonte. O trocadilho depende inteiramente da homofonia entre “brie” e “be” em inglês. Em qualquer outra língua, a homofonia não existe. O trocadilho não sobrevive à tradução. Tem de ser reconstruído.

O que os modelos produziram não foi reconstrução. Foi tradução literal das palavras “brie” e “mine”, produzindo um texto que referenciava queijo mas não continha piada, ritmo nem Dia dos Namorados. A função de marketing — ligação emocional a um momento sazonal — colapsou numa frase sobre lacticínios.

É a conclusão estrutural do estudo, ilustrada. O modelo traduziu as palavras. O modelo não traduziu a função. A função era a única razão para as palavras existirem.

O Padrão É Americano

As autoras não formulam a observação seguinte deste modo. Os dados formulam-na.

Quando um modelo treinado em texto da internet encontra um registo, um tom ou uma postura relacional que não reconhece, recua para o padrão mais frequente na sua distribuição de treino. O padrão mais frequente na distribuição de treino é a escrita comercial em inglês americano. O resultado é texto gramaticalmente português, neerlandês ou japonês e pragmaticamente californiano.

A calibração de formalidade é uniforme. O tom é informal, à beira do familiar. A forma de tratamento é a igualitária. O reconhecimento relacional é breve. A chamada à acção é directa. Funciona no marketing americano porque o marketing americano é o corpus em que os modelos foram optimizados. Não funciona em Munique, onde a comunicação comercial em contextos B2C usa “Sie” até estar estabelecida uma relação. Não funciona em Milão, onde o calor comercial precede a transacção por um investimento em ritual social. Não funciona em Malmö, onde a moderação consensual da prosa sueca faz com que o fecho assertivo americano leia como desespero.

O modelo fala quinze línguas. O modelo comunica numa cultura. As quinze são a superfície. A uma é a arquitectura.

Não é uma falha dos sete modelos testados. É uma característica estrutural de qualquer modelo treinado predominantemente em texto da web. A web não é um corpus neutro. A web é uma cultura. A cultura é o inglês americano com uma rede global de distribuição. Todo o modelo multilingue herda a cultura junto com as línguas.

A Tabela de Desempenho

ModeloGlobalPúblicoEstiloConteúdo
GPT-52,102,382,232,23
Claude Sonnet 3.71,972,252,082,10
Mistral Medium 3.11,842,192,041,92
DeepSeek V3.11,722,051,981,77
gpt-oss 120B1,601,941,831,72
Llama 41,471,811,721,59
Aya Expanse 8B1,091,551,411,21

As colunas merecem leitura atenta. Em todos os modelos, a sub-pontuação mais alta é “adequação ao público”. A mais baixa é “fidelidade de conteúdo”. É o inverso da intuição. Esperar-se-ia que um tradutor fosse mais fiável a preservar conteúdo e menos fiável a corresponder ao público. Os dados mostram o contrário. Os modelos produzem texto que soa adequado ao público-alvo mas distorce a fonte. A fluência é performativa. A precisão é instável.

Um email de marketing traduzido por um modelo de topo em 2026 soa bem e diz algo subtilmente diferente daquilo que a marca pretendia. É o tipo de falha mais cara. É invisível para a empresa que o implementa, que avaliou a ferramenta em inglês. É visível para o cliente, que nota que o texto parece gerado. A distância entre o som e a intenção é onde se perde a conversão comercial.

O Teste Intercultural

Considere-se o mesmo email de marketing em três contextos.

No Brasil, o email abre com calor relacional antes de qualquer conteúdo comercial. O leitor espera reconhecimento antes da transacção. Um modelo que abre com a oferta sinaliza estrangeirice. O leitor continua a ler, mas o gradiente de confiança deslocou-se.

Na Alemanha, o email abre com a oferta e usa “Sie”. A formalidade precede o calor. Um modelo que abre com “Hey, Marta!” — um padrão por defeito herdado de templates de email americanos — cometeu uma transgressão de registo nas três primeiras palavras. O leitor não cataloga conscientemente o erro. O leitor sente apenas que o remetente é um estranho a exceder-se.

No Japão, o email abre com reconhecimento sazonal, uma frase a indicar consciência das circunstâncias prováveis do destinatário, e só depois introduz o enquadramento comercial. A estrutura não é negociável para comunicação B2C orientada para relações de longo prazo. Um modelo que salta a abertura produz texto tecnicamente correcto e socialmente desajeitado. O desajeitamento custa a conversão.

Três culturas. Três arquitecturas de abertura diferentes. O modelo usa uma — a americana — nas três. O texto é fluente em três línguas e culturalmente ilegível em duas delas.

É isto que o estudo da Appen mede, traduzido ao nível em que a PME europeia encontra a consequência.

O Que os Números Significam para Milão, Munique, Malmö

Uma PME europeia a vender no mercado único é o público que esta conclusão mais directamente afecta.

A aritmética é simples. Um modelo que pontua 2,10 em 3 num email de marketing produz texto que exige revisão humana antes de poder ser enviado. A revisão necessária não é correcção ortográfica. É edição cultural. O texto italiano precisa de verificação de calibração de calor. O texto alemão precisa de verificação de registo. O texto sueco precisa de verificação da ausência de moderação consensual. O texto neerlandês precisa de verificação se o fecho directo cai como confiante ou agressivo.

Cada uma destas revisões exige um falante nativo com fluência na voz da marca e competência cultural-pragmática. O custo destas revisões não está incluído na economia por token que tornou a tradução por IA atractiva em primeiro lugar. O modelo de preços do fornecedor assume que o output é publicável. Os dados da Appen mostram que não é.

A PME europeia tem três opções.

Aceitar a distorção cultural. Enviar o output do modelo sem edição e absorver a penalização na conversão em silêncio. É a escolha mais comum porque a penalização é invisível — os clientes que não compraram não escrevem de volta.

Contratar revisores nativos para cada mercado. Restabelece a qualidade ao custo da simplicidade operacional que motivou a implementação da IA. A economia muda. O investimento pode ainda compensar face a tradutores monolingues, mas só se a empresa medir o impacto na conversão por mercado, o que a maioria não faz.

Construir infra-estrutura cultural no prompt e no fluxo de trabalho. É o caminho que a Bluewaves segue em cada Gizmo multilingue. O contexto cultural é estruturado antes de a língua ser seleccionada. O modelo recebe a postura relacional, o registo de formalidade, a calibração de directidade e a orientação temporal apropriadas ao mercado. A língua é a última decisão. O modelo é restringido — explicitamente — a produzir texto que respeita a arquitectura.

A terceira opção não elimina a distância que o estudo da Appen mede. Comprime-a. Um prompt restrito, uma mensagem de sistema específica da cultura e um controlo de qualidade por mercado produzem output que pontua mais próximo do publicável do que os 2,10 em bruto. Mais próximo não chega para comunicação de alto risco. Chega para a maior parte da comunicação, a maior parte do tempo, a uma fracção do custo da tradução humana.

A condição é que alguém no circuito de implementação saiba o que restringir. O modelo não sabe. O fornecedor não sabe. O departamento de compras certamente não sabe. Competência cultural-pragmática não é uma configuração em nenhum produto de tradução por IA no mercado. É uma disciplina que a empresa que implementa tem de trazer.

O Que a Competência Cultural Exigiria

As autoras da Appen apontam o requisito implicitamente. O remédio está na lacuna que os seus dados expõem.

Um modelo de tradução culturalmente competente teria de saber — e aplicar — cinco coisas que nenhum modelo sabe.

A linha de base cultural do público-alvo. Não a língua. A cultura. Português do Brasil e português europeu são a mesma língua e duas culturas comerciais diferentes. O modelo tem de as distinguir, não como código de localidade mas como arquitecturas de confiança distintas.

O registo de formalidade apropriado ao canal e à relação. Um email de marketing de uma marca desconhecida na Alemanha exige “Sie”. O mesmo email de uma marca de quem o destinatário já comprou pode passar para “du” se a voz da marca já estabeleceu esse registo. O modelo tem de ler a relação, não o prompt.

A calibração de directidade apropriada à mensagem e à cultura. Um leitor neerlandês espera directidade. Um leitor japonês espera indirecção. Um modelo que usa directidade uniforme produz neerlandês hesitante e japonês intrusivo no mesmo ciclo de geração. Os dois estão errados. Os dois reduzem a conversão. Os dois passam a avaliação ao nível do token.

A orientação temporal da oferta. Ofertas por tempo limitado a cair numa cultura monocrónica activam urgência. Ofertas por tempo limitado a cair numa cultura policrónica activam suspeita. A mesma chamada à acção exige enquadramento diferente em culturas diferentes. O modelo tem de saber qual enquadramento aplicar.

O mapeamento cultural da linguagem figurativa. Não a substituição literal. O equivalente funcional. Um trocadilho de Dia dos Namorados em inglês precisa de se tornar um trocadilho de Dia dos Namorados em italiano — ou, se a forma não sobreviver, uma figura retórica diferente que execute a mesma função emocional. O modelo tem de distinguir forma de função. Os modelos actuais não distinguem.

Estas cinco capacidades não são capacidades linguísticas. São capacidades culturais. Os dados de treino não as contêm — porque raramente são tornadas explícitas em texto. Ninguém escreve “estou agora a usar o registo formal porque ainda não conheço esta pessoa”. O registo é simplesmente usado. O modelo tem de inferir a regra a partir de instâncias. A inferência é fraca quando os padrões são implícitos e culturalmente variáveis.

A competência cultural em modelos de IA exigirá anotação cultural explícita, afinação por instruções culturais ou pipelines de retrieval que acedam a bases de conhecimento cultural. Estas abordagens existem em investigação. Não existem em nenhum dos sete modelos que o estudo da Appen testou.

O Princípio

Um modelo treinado em texto da internet herda a cultura da internet. A cultura da internet é o inglês americano com uma rede global de distribuição. Quinze línguas de output não mudam a arquitectura. Quinze línguas de output expõem a arquitectura.

Fluência é o mínimo. Todos os modelos principais a atingem. As pontuações da Appen demonstram que a fluência já não é o diferenciador.

Competência cultural é o diferenciador. O tecto de 2,10 é a medida da distância entre os melhores modelos e esse diferenciador. A diferença de 0,4 pontos entre referências a feriados e expressões idiomáticas é a forma da falha. O padrão americano que emerge em todos os outputs é a fonte da lacuna.

Para uma PME europeia, a implicação é directa. O email de marketing traduzido pelo GPT-5 não venderá tão bem como o mesmo email escrito por um copywriter milanês. A lacuna não é catastrófica. A lacuna é consistente. E a lacuna é a diferença entre uma entrada de mercado que funciona e uma entrada de mercado que silenciosamente fica abaixo do esperado durante anos antes de alguém diagnosticar a causa.

Na Bluewaves, nenhum Gizmo multilingue é entregue sem uma arquitectura cultural explícita: o registo de formalidade, a calibração de directidade, a postura relacional e as funções retóricas que o modelo tem de preservar, nomeadas no prompt de sistema e testadas por mercado. O modelo continua a produzir o output. A arquitectura restringe aquilo que o output pode ser. A restrição é onde a competência cultural entra no sistema, porque o modelo não a consegue fornecer.

Os sete modelos testados pela Appen não estão a precisar de dados. Estão a precisar de cultura. O texto é fluente porque as palavras estão presentes. O texto não vende porque a cultura está ausente.

Falar não é vender. Fluência não é competência. Tradução não é localização.

O modelo fala quinze línguas. Vende numa. Até a empresa que o implementa fornecer aquilo que o modelo não fornece, esse rácio é o tecto.

Escrito por
Bernardo
Tradutor Cultural

Garante que o seu Gizmo não fala apenas espanhol — soa a espanhol. Quando a equipa de um cliente nórdico chama ao seu Gizmo por uma alcunha finlandesa, é o trabalho dele que se vê.

← Todas as notas