Il Modello Parla Quindici Lingue. Vende in Una.
Il modello parla quindici lingue. Vende in una.
Non è una figura retorica. È la conclusione di un benchmark peer-reviewed pubblicato a febbraio 2026 da quattro ricercatrici di Appen — Madison Van Doren, Casey Ford, Jennifer Barajas e Cory Holland — sotto il titolo “Be My Cheese?”: Cultural Nuance Benchmarking for Machine Translation in Multilingual LLMs. Sette modelli allo stato dell’arte. Quindici coppie lingua-località. Cinque valutatori madrelingua per lingua. Tredicimila centoventicinque annotazioni a livello di segmento. I dati sono precisi. La conclusione è austera.
I modelli più performanti hanno raggiunto 2,10 su 3 su una scala ordinale a quattro punti per la qualità complessiva della traduzione. Due terzi del massimo. I modelli commerciali più solidi sul mercato, traducendo un’email di marketing, producono testo che i lettori madrelingua giudicano adeguato nel migliore dei casi, su una scala in cui 3 è lo standard richiesto per la pubblicazione.
Fluente. Non commerciale. La distinzione è l’architettura dell’intero argomento.
Cosa Ha Fatto Davvero lo Studio
La metodologia merita di essere esposta prima delle conclusioni, perché la metodologia è l’elemento portante di qualsiasi benchmark che pretenda di misurare la competenza culturale.
Le ricercatrici hanno sottoposto a sette LLM multilingue cinque email di marketing per l’e-commerce — adattate da campagne commerciali reali con giochi di parole, espressioni idiomatiche, riferimenti alle festività, voce di marca e concetti culturalmente integrati. I modelli testati sono stati GPT-5, Claude Sonnet 3.7, Mistral Medium 3.1, DeepSeek V3.1, gpt-oss 120B, Llama 4 di Meta e Aya Expanse 8B di Cohere. Il mix è deliberato: pesi chiusi e pesi aperti, modelli di frontiera e accessibili, americani, europei e cinesi.
Ogni modello ha ricevuto lo stesso prompt: “Traduci la seguente email per l’uso in [lingua] in [paese/regione].” L’istruzione è l’istruzione che qualsiasi PMI europea darebbe. Nessuna ingegneria del prompt. Nessuna pipeline di retrieval. Nessun fine-tuning sul mercato di destinazione. Il compito grezzo, così come una piccola impresa lo eseguirebbe.
Le quindici località-obiettivo hanno coperto tipologie e continenti: afrikaans (ZA), arabo (EG), portoghese brasiliano (BR), cantonese (HK), ceco (CZ), olandese (NL), ebraico (IL), hindi (IN), giapponese (JP), coreano (KR), mandarino (TW), russo (KZ), spagnolo (MX), swahili (KE) e urdu (PK). Ogni traduzione è stata poi valutata da cinque madrelingua, residenti nella regione di pertinenza, fluenti in inglese e nella lingua di destinazione. Settantacinque valutatori in totale. Ognuno ha attribuito un punteggio sia all’email tradotta completa — fedeltà ai contenuti, fedeltà allo stile, appropriatezza per il pubblico e qualità complessiva — sia a segmenti predefiniti contenenti espressioni idiomatiche, giochi di parole, festività e concetti culturali. La scala andava da 0 a 3. C’era anche una categoria NA. La categoria NA è risultata determinante.
È la valutazione più rigorosa della localizzazione culturale nella traduzione automatica pubblicata finora. È anche la più severa.
La Fascia di Testa
La qualità media del testo completo, su tutti i modelli e le lingue, è risultata 1,68 su 3.
GPT-5 ha guidato con 2,10. Claude Sonnet 3.7 ha seguito con 1,97. Mistral Medium 3.1 ha raggiunto 1,84. Questi tre formavano ciò che le autrici descrivono come una “fascia di testa statisticamente indistinguibile” — significativamente migliori del resto, statisticamente equivalenti tra loro. DeepSeek V3.1 è arrivato a 1,72 e gpt-oss 120B a 1,60. Llama 4 ha segnato 1,47. Aya Expanse 8B, il più piccolo dei sette e l’unico modello del gruppo specificamente progettato per la copertura multilingue, ha segnato 1,09.
L’ordine colpisce ma non è il punto. Il punto è il soffitto. Il miglior LLM multilingue sul mercato, su un’email di marketing, percorre sette decimi del cammino verso una traduzione pubblicabile. Il peggiore copre a malapena un terzo.
Non si tratta di casi limite prodotti da lingue esotiche. L’insieme include spagnolo, portoghese, olandese, giapponese — lingue con abbondanti dati di addestramento e decenni di storia di traduzione automatica. I punteggi non sono il residuo dell’abbandono delle lingue a basse risorse. Sono il limite della tecnologia, misurato al vertice.
Un’email di marketing non è un genere difficile. È una forma breve, strutturata, commercialmente preziosa. Se gli LLM contemporanei non riescono a localizzare un’email di marketing abbastanza bene da far sì che un madrelingua le assegni più di 2,10 su 3, l’implicazione per tutto il resto — risposte di assistenza clienti, descrizioni di prodotto, comunicazioni regolatorie, comunicazioni interne — è diretta.
Dove i Modelli si Rompono
Il punteggio aggregato nasconde la conclusione strutturale. La conclusione strutturale è nei risultati a livello di segmento.
Quando i valutatori hanno punteggiato separatamente le quattro categorie di linguaggio culturalmente marcato, il quadro è stato netto. I riferimenti alle festività hanno avuto media 2,20 su 3. I concetti culturali media 2,19. Le espressioni idiomatiche hanno segnato 1,65. I giochi di parole 1,45.
Lo scarto di quattro decimi tra festività ed espressioni idiomatiche è ampio. Lo scarto di sette decimi tra festività e giochi di parole è strutturale. Festività e concetti culturalmente integrati sono sostantivi. Espressioni idiomatiche e giochi di parole sono figure retoriche. I modelli traducono i sostantivi. I modelli falliscono sulle figure.
La ragione è architettonica, non aneddotica. Una festività — San Valentino, Singles Day, Diwali — ha un equivalente nella lingua di destinazione o una mappatura culturale nota. Il modello recupera la mappatura. Il recupero riesce perché la mappatura è documentata nei dati di addestramento. Un gioco di parole è l’opposto. Un gioco di parole dipende dal suono, dalla forma o dalla risonanza culturale di una parola specifica in una lingua specifica. Non ha equivalente. Deve essere ricostruito nella lingua di destinazione con materiale diverso. La ricostruzione richiede invenzione. I modelli non inventano. I modelli recuperano.
Le autrici quantificano la conseguenza con una metrica concreta: tasso di omissione. Le espressioni idiomatiche sono state la categoria più frequentemente classificata NA — il che significa che il modello ha rinunciato a tradurle, lasciando l’originale inglese incastonato nel testo tradotto. Aya Expanse 8B ha esibito i tassi di omissione più alti e i punteggi di qualità più bassi quando ha tradotto. Il comportamento prudente non ha protetto il modello più piccolo. Ne ha aggravato la fragilità.
Quando un modello incontra un gioco di parole che non riesce a ricostruire, ha tre opzioni. Tradurlo letteralmente, producendo nonsenso. Tradurlo liberamente, producendo un’altra battuta o nessuna battuta. O rifiutare e lasciare l’inglese. Le tre opzioni sono visibili al lettore madrelingua. Le tre segnalano che il testo è stato generato, non scritto. Le tre riducono la probabilità che il lettore compri ciò che l’email vende.
Il Gioco di Parole Che Dà il Nome allo Studio
Il titolo del paper è un indizio. “Be My Cheese?” è la traduzione letterale di un gioco di parole di San Valentino a tema formaggio — “Will you brie mine?” — apparso in una delle email sorgenti. Il gioco si regge interamente sull’omofonia tra “brie” e “be” in inglese. In qualsiasi altra lingua l’omofonia non esiste. Il gioco non sopravvive alla traduzione. Va ricostruito.
Ciò che i modelli hanno prodotto non è stata ricostruzione. È stata resa letterale delle parole “brie” e “mine” — un testo che menzionava il formaggio ma non conteneva battuta, ritmo né San Valentino. La funzione di marketing — connessione emotiva a un momento stagionale — è collassata in una frase sui latticini.
Questa è la conclusione strutturale dello studio, illustrata. Il modello ha tradotto le parole. Il modello non ha tradotto la funzione. La funzione era l’unica ragione per cui le parole esistevano.
Il Default è Americano
Le autrici non formulano l’osservazione seguente in questi termini. Lo fanno i dati.
Quando un modello addestrato su testo da internet incontra un registro, un tono o una postura relazionale che non riconosce, ripiega sul pattern più frequente nella sua distribuzione di addestramento. Il pattern più frequente nella distribuzione di addestramento è la scrittura commerciale in inglese americano. Il risultato è testo grammaticalmente portoghese, olandese o giapponese e pragmaticamente californiano.
La calibrazione della formalità è uniforme. Il tono è informale, al confine col familiare. La forma di indirizzo è quella egualitaria. Il riconoscimento relazionale è breve. La call-to-action è diretta. Funziona nel marketing americano perché il marketing americano è il corpus su cui i modelli sono stati ottimizzati. Non funziona a Monaco di Baviera, dove la comunicazione commerciale in contesto B2C usa “Sie” finché non è stata stabilita una relazione. Non funziona a Milano, dove il calore commerciale precede la transazione tramite un investimento in rituale sociale. Non funziona a Malmö, dove la moderazione consensuale della prosa svedese fa leggere la chiusura assertiva americana come disperazione.
Il modello parla quindici lingue. Il modello comunica in una cultura. Le quindici sono la superficie. L’una è l’architettura.
Non è un fallimento dei sette modelli testati. È una proprietà strutturale di qualsiasi modello addestrato prevalentemente su testo web. Il web non è un corpus neutro. Il web è una cultura. La cultura è inglese americano con una rete di distribuzione globale. Ogni modello multilingue eredita la cultura insieme alle lingue.
La Tabella delle Prestazioni
| Modello | Complessivo | Pubblico | Stile | Contenuto |
|---|---|---|---|---|
| GPT-5 | 2,10 | 2,38 | 2,23 | 2,23 |
| Claude Sonnet 3.7 | 1,97 | 2,25 | 2,08 | 2,10 |
| Mistral Medium 3.1 | 1,84 | 2,19 | 2,04 | 1,92 |
| DeepSeek V3.1 | 1,72 | 2,05 | 1,98 | 1,77 |
| gpt-oss 120B | 1,60 | 1,94 | 1,83 | 1,72 |
| Llama 4 | 1,47 | 1,81 | 1,72 | 1,59 |
| Aya Expanse 8B | 1,09 | 1,55 | 1,41 | 1,21 |
Le colonne meritano lettura attenta. Su ogni modello il sotto-punteggio più alto è “appropriatezza per il pubblico”. Il più basso è “fedeltà ai contenuti”. È l’opposto dell’intuizione. Ci si aspetterebbe che un traduttore sia più affidabile nel preservare il contenuto e meno affidabile nell’allinearsi al pubblico. I dati mostrano il contrario. I modelli producono testo che suona appropriato al pubblico di destinazione ma distorce la fonte. La fluenza è performativa. La precisione è instabile.
Un’email di marketing tradotta da un modello di vertice nel 2026 suona giusta e dice qualcosa di sottilmente diverso da ciò che il brand intendeva. È il tipo di errore più costoso. È invisibile all’azienda che la distribuisce, che ha valutato lo strumento in inglese. È visibile al cliente, che nota che il testo sembra generato. La distanza tra sensazione e intenzione è il punto in cui la conversione commerciale si perde.
Il Test Interculturale
La stessa email di marketing in tre contesti.
In Brasile, l’email apre con calore relazionale prima di qualsiasi contenuto commerciale. Il lettore si aspetta riconoscimento prima della transazione. Un modello che apre con l’offerta segnala estraneità. Il lettore continua a leggere, ma il gradiente di fiducia si è spostato.
In Germania, l’email apre con l’offerta e usa “Sie”. La formalità precede il calore. Un modello che apre con “Hey, Marta!” — un’impostazione predefinita ereditata dai template di email americani — ha commesso una trasgressione di registro nelle prime tre parole. Il lettore non cataloga consciamente l’errore. Il lettore sente semplicemente il mittente come un estraneo che si permette troppo.
In Giappone, l’email apre con un riconoscimento stagionale, una frase che indica consapevolezza delle probabili circostanze del destinatario, e solo allora introduce la cornice commerciale. La struttura non è negoziabile per la comunicazione B2C orientata a relazioni clienti di lungo termine. Un modello che salta l’apertura produce testo tecnicamente corretto e socialmente goffo. La goffaggine costa la conversione.
Tre culture. Tre architetture di apertura diverse. Il modello ne usa una — quella americana — in tutte e tre. Il testo è fluente in tre lingue e culturalmente illeggibile in due.
Questo è ciò che lo studio Appen misura, portato al livello in cui la PMI europea incontra la conseguenza.
Cosa Significano i Numeri per Milano, Monaco di Baviera, Malmö
Una PMI europea che vende sul mercato unico è il pubblico che questa conclusione tocca più direttamente.
L’aritmetica è semplice. Un modello che segna 2,10 su 3 su un’email di marketing produce testo che richiede revisione umana prima di poter essere inviato. La revisione richiesta non è correzione di bozze. È editing culturale. Il testo italiano va controllato sulla calibrazione del calore. Il testo tedesco va controllato sul registro. Il testo svedese va controllato sull’assenza di moderazione consensuale. Il testo olandese va controllato sulla domanda se la chiusura diretta cada come sicura o aggressiva.
Ognuna di queste revisioni richiede un madrelingua con padronanza della voce di marca e competenza culturale-pragmatica. Il costo di queste revisioni non rientra nell’economia per token che ha reso attrattiva la traduzione tramite IA in partenza. Il modello di pricing del fornitore presuppone che l’output sia pubblicabile. I dati Appen mostrano che non lo è.
La PMI europea ha tre opzioni.
Accettare la distorsione culturale. Inviare l’output del modello non rivisto e assorbire la penalizzazione in conversione in silenzio. È la scelta più frequente perché la penalizzazione è invisibile — i clienti che non hanno comprato non scrivono indietro.
Assumere revisori madrelingua in ogni mercato. Ripristina la qualità al costo della semplicità operativa che aveva motivato l’adozione dell’IA. L’economia cambia. L’investimento può ancora rendere rispetto ai traduttori monolingui, ma solo se l’azienda misura l’impatto sulla conversione per mercato, cosa che la maggior parte non fa.
Costruire infrastruttura culturale nel prompt e nel flusso di lavoro. È la strada che Bluewaves percorre con ogni Gizmo multilingue. Il contesto culturale è strutturato prima che la lingua sia selezionata. Al modello viene fornita la postura relazionale, il registro di formalità, la calibrazione di franchezza e l’orientamento temporale appropriati al mercato. La lingua è l’ultima decisione. Il modello è vincolato — esplicitamente — a produrre testo che rispetta l’architettura.
La terza opzione non elimina la distanza che lo studio Appen misura. La comprime. Un prompt vincolato, un messaggio di sistema specifico per la cultura e un controllo qualità per mercato producono output che si avvicina al pubblicabile più dei 2,10 grezzi. Più vicino non basta per comunicazione ad alto rischio. Basta per la maggior parte della comunicazione, la maggior parte del tempo, a una frazione del costo della traduzione umana.
La condizione è che qualcuno nell’anello di distribuzione sappia cosa vincolare. Il modello non lo sa. Il fornitore non lo sa. L’ufficio acquisti certamente non lo sa. La competenza culturale-pragmatica non è un’impostazione in nessun prodotto di traduzione IA sul mercato. È una disciplina che l’azienda che distribuisce deve portare con sé.
Cosa Richiederebbe la Competenza Culturale
Le autrici Appen indicano implicitamente il requisito. Il rimedio è nello scarto che i loro dati espongono.
Un modello di traduzione culturalmente competente dovrebbe sapere — e applicare — cinque cose che nessun modello attualmente sa.
La linea di base culturale del pubblico di destinazione. Non la lingua. La cultura. Portoghese brasiliano e portoghese europeo sono la stessa lingua e due culture commerciali distinte. Il modello deve distinguerle, non come codice di località, ma come architetture di fiducia differenti.
Il registro di formalità appropriato al canale e alla relazione. Un’email di marketing di un marchio sconosciuto in Germania richiede “Sie”. La stessa email di un marchio da cui il destinatario ha già acquistato può passare a “du” se la voce di marca ha stabilito quel registro. Il modello deve leggere la relazione, non il prompt.
La calibrazione di franchezza appropriata al messaggio e alla cultura. Un lettore olandese si aspetta franchezza. Un lettore giapponese si aspetta indirezione. Un modello che usa una franchezza uniforme produce olandese esitante e giapponese invadente nello stesso ciclo di generazione. Entrambi sono sbagliati. Entrambi riducono la conversione. Entrambi superano la valutazione a livello di token.
L’orientamento temporale dell’offerta. Offerte a tempo limitato che atterrano in una cultura monocronica attivano urgenza. Offerte a tempo limitato che atterrano in una cultura policronica attivano sospetto. La stessa call-to-action richiede un inquadramento differente in culture differenti. Il modello deve sapere quale inquadramento applicare.
La mappatura culturale del linguaggio figurato. Non la sostituzione letterale. L’equivalente funzionale. Un gioco di parole di San Valentino in inglese deve diventare un gioco di parole di San Valentino in italiano — o, se la forma non sopravvive, una figura retorica diversa che svolga la stessa funzione emotiva. Il modello deve distinguere forma e funzione. I modelli attuali non lo fanno.
Queste cinque capacità non sono capacità linguistiche. Sono capacità culturali. I dati di addestramento non le contengono — perché raramente vengono rese esplicite nel testo. Nessuno scrive “sto usando ora il registro formale perché ancora non conosco questa persona”. Il registro viene semplicemente usato. Il modello deve inferire la regola dalle istanze. L’inferenza è debole quando i pattern sono impliciti e culturalmente variabili.
La competenza culturale nei modelli IA richiederà annotazione culturale esplicita, instruction tuning culturale o pipeline di retrieval che accedano a basi di conoscenza culturale. Questi approcci esistono nella ricerca. Non esistono in nessuno dei sette modelli testati dallo studio Appen.
Il Principio
Un modello addestrato su testo da internet eredita la cultura di internet. La cultura di internet è inglese americano con una rete di distribuzione globale. Quindici lingue di output non cambiano l’architettura. Quindici lingue di output espongono l’architettura.
La fluenza è il minimo. Ogni modello principale la raggiunge. I punteggi Appen dimostrano che la fluenza non è più il fattore differenziante.
La competenza culturale è il fattore differenziante. Il soffitto di 2,10 è la misura della distanza tra i migliori modelli e quel fattore. La differenza di 0,4 punti tra riferimenti alle festività ed espressioni idiomatiche è la forma del fallimento. Il default americano che emerge in ogni output ne è la fonte.
Per una PMI europea l’implicazione è diretta. L’email di marketing tradotta da GPT-5 non venderà tanto bene quanto la stessa email scritta da un copywriter milanese. La distanza non è catastrofica. La distanza è costante. E la distanza è la differenza tra un ingresso nel mercato che funziona e un ingresso nel mercato che silenziosamente sotto-rende per anni prima che qualcuno ne diagnostichi la causa.
In Bluewaves nessun Gizmo multilingue lascia la casa senza un’architettura culturale esplicita: il registro di formalità, la calibrazione di franchezza, la postura relazionale e le funzioni retoriche che il modello deve preservare, nominate nel prompt di sistema e testate per mercato. Il modello continua a produrre l’output. L’architettura vincola ciò che l’output può essere. Il vincolo è il punto in cui la competenza culturale entra nel sistema, perché il modello non la può fornire.
I sette modelli testati da Appen non sono a corto di dati. Sono a corto di cultura. Il testo è fluente perché le parole ci sono. Il testo non vende perché la cultura è assente.
Parlare non è vendere. Fluenza non è competenza. Traduzione non è localizzazione.
Il modello parla quindici lingue. Vende in una. Finché l’azienda che lo distribuisce non fornisce ciò che il modello non fornisce, quel rapporto è il soffitto.