La Maledizione del Multilinguismo
Ogni lingua aggiunta a un modello rende tutte le altre peggiori.
Non è una metafora. È un fenomeno misurato. Google DeepMind lo chiama la maledizione del multilinguismo — e il loro studio ATLAS, presentato all’ICLR 2026, è la più grande conferma empirica fino a oggi. Settecentosettantaquattro sessioni di addestramento. Oltre quattrocento lingue. Quarantotto lingue di valutazione. Una matrice di trasferimento interlinguistico che copre 1.444 coppie di lingue.
I risultati sono precisi. Per supportare il doppio delle lingue senza perdere prestazioni, un modello necessita di 1,18 volte i parametri e 1,66 volte i dati di addestramento. L’aritmetica non è negoziabile. La capacità è finita. Le lingue competono per essa. E la competizione non è equa.
Il Problema della Capacità
La maledizione del multilinguismo è stata nominata per la prima volta da Alexis Conneau e colleghi nel 2020, nel loro lavoro su XLM-R — il modello linguistico interlinguistico che ha dimostrato, per la prima volta, che il pre-addestramento multilingue poteva avvicinarsi alle prestazioni monolingui. La scoperta era paradossale. Lo stesso articolo che ha provato che i modelli multilingui funzionavano ha anche provato che comportavano una penalità strutturale.
Il meccanismo è diretto. Un modello linguistico ha un numero fisso di parametri. Ogni parametro è uno spazio per informazione appresa — vocabolario, grammatica, semantica, pragmatica, conoscenza del mondo. Un modello monolingue inglese dedica tutti i suoi parametri all’inglese. Un modello bilingue inglese-francese divide la sua capacità. Un modello addestrato su cento lingue divide la stessa risorsa finita in cento modi.
La divisione non è uguale. L’inglese, con il suo vasto corpus di addestramento, consuma più capacità. Le lingue con poche risorse ricevono meno. Ma il vincolo è assoluto: ogni lingua aggiunta al modello riduce l’allocazione per lingua. Il modello diventa più ampio e più superficiale simultaneamente.
L’intuizione originale di Conneau era che questo compromesso produce una curva caratteristica. L’aggiunta delle prime lingue migliora le prestazioni — soprattutto per le lingue con poche risorse, che beneficiano del trasferimento interlinguistico. Un modello swahili addestrato insieme all’inglese ha prestazioni migliori di un modello swahili addestrato da solo, perché i modelli sintattici e semantici dell’inglese si trasferiscono. Ma oltre una soglia, i rendimenti si invertono. Ogni lingua aggiuntiva inizia a degradare le prestazioni su tutte le lingue esistenti. La capacità è satura. L’interferenza supera il trasferimento.
Questa è la maledizione. Non un difetto. Una proprietà strutturale delle architetture a capacità condivisa.
Cosa ha Misurato ATLAS
Lo studio ATLAS — Adaptive Transfer Scaling Laws — ha fatto ciò che nessuno studio precedente aveva tentato su questa scala. Ha quantificato la maledizione attraverso 774 esperimenti di addestramento separati, da 10 milioni a 8 miliardi di parametri, e ha derivato le prime leggi di scala pratiche per la progettazione di modelli multilingui.
Tre risultati contano per chiunque impieghi IA multilingue.
La tassa di scala è reale ma moderata. Raddoppiare il numero di lingue richiede di aumentare le dimensioni del modello di un fattore 1,18 e i dati di addestramento totali di un fattore 1,66. I dati per lingua diminuiscono — ogni lingua riceve l’83 per cento di quanto riceverebbe in un modello che supporta la metà delle lingue. Il trasferimento positivo tra lingue imparentate compensa parzialmente, ma non può eliminare completamente la tassa di capacità.
Il trasferimento è asimmetrico. La matrice di trasferimento interlinguistico — 38 lingue valutate a coppie, producendo 1.444 interazioni misurate — rivela che la relazione tra le lingue è direzionale. L’inglese, il francese e lo spagnolo sono quelle che i ricercatori chiamano lingue “ampiamente utili”. L’addestramento su dati inglesi migliora le prestazioni in decine di altre lingue. L’addestramento su dati in yoruba non migliora l’inglese. Il trasferimento scorre verso il basso — dalle lingue con molte risorse a quelle con poche, dalle lingue con corpora grandi e diversificati a quelle con corpora piccoli e omogenei. Il flusso inverso è trascurabile.
Le famiglie linguistiche si raggruppano. Le lingue che condividono sistemi di scrittura e strutture grammaticali trasferiscono più efficacemente. Le lingue romanze si aiutano a vicenda. Le lingue germaniche si aiutano a vicenda. Ma l’aiuto resta asimmetrico all’interno delle famiglie. Il francese aiuta il portoghese più di quanto il portoghese aiuti il francese. Il meccanismo è la qualità dei dati: il francese ha un corpus web più grande e diversificato. Il modello apprende modelli dalla fonte più ricca e li applica a quella più povera.
L’implicazione è architetturale. Un modello multilingue non è un’assemblea democratica di lingue. È una gerarchia — con l’inglese in cima, le principali lingue europee nel mezzo e le lingue con poche risorse che ricevono la capacità rimasta dopo che le lingue dominanti sono state servite.
La Conferma di Chang
ATLAS non è apparso in isolamento. Un anno prima, Tyler Chang e colleghi avevano pubblicato “When Is Multilinguality a Curse?” all’EMNLP 2024 — uno studio che copre più di 10.000 sessioni di addestramento su 250 lingue. Le loro conclusioni hanno anticipato ATLAS in tutte le dimensioni significative.
Le lingue con poche risorse beneficiano del pre-addestramento multilingue — fino a un certo punto. Il beneficio equivale ad aumentare il dataset della lingua con poche risorse fino al 33 per cento. La somiglianza sintattica delle lingue aggiunte determina l’entità del trasferimento. La sovrapposizione lessicale fornisce un beneficio aggiuntivo marginale.
Le lingue con molte risorse ottengono risultati peggiori in ogni configurazione multilingue. Senza eccezione. L’inglese in un modello multilingue è sempre più debole dell’inglese in un modello monolingue della stessa dimensione. La degradazione è costante, misurabile e per nulla sorprendente — nel senso che nessuno nella comunità di ricerca ne è sorpreso. La sorpresa, se esiste, appartiene ai professionisti che impiegano questi modelli senza comprendere il compromesso che hanno accettato.
La conclusione critica dello studio di Chang: man mano che i dataset crescono, la maledizione si intensifica. Corpora di addestramento più grandi non risolvono il problema della capacità. Lo espongono. Più dati per lingua significa più competizione per gli stessi parametri. La curva di prestazione del modello si inflette prima e più bruscamente.
L’implicazione per i sistemi in produzione è diretta. Un modello addestrato su venti lingue con dati abbondanti mostrerà una degradazione per lingua maggiore di un modello addestrato su venti lingue con dati limitati. La scala amplifica la maledizione.
L’Evidenza dei Benchmark
Le conclusioni teoriche si traducono in divari di prestazione osservabili. MMLU-ProX — un benchmark multilingue pubblicato all’EMNLP 2025, che copre 29 lingue con 11.829 domande identiche per lingua — fornisce la misurazione più controllata di come la maledizione si manifesta nella pratica.
Il modello più performante ha raggiunto il 70,3 per cento di accuratezza in inglese. Lo stesso modello, sulle stesse domande tradotte in bengalese, ha raggiunto il 52,7 per cento. In swahili, il 40,1 per cento. Il divario tra l’inglese e la lingua meno performante: 30,2 punti percentuali. Quasi la metà della capacità inglese del modello, persa.
Le lingue europee se la cavano meglio del bengalese o dello swahili — ma non bene. Il francese, il tedesco e lo spagnolo si raggruppano in una banda di circa 5-10 punti percentuali sotto l’inglese. Il portoghese, l’olandese e lo svedese si collocano ancora più in basso. Il divario non è catastrofico. È costante. Ed è strutturale — lo stesso divario appare in ogni modello testato, indipendentemente dall’architettura, dalla procedura di addestramento o dalla capacità multilingue proclamata.
Il divario ha un significato concreto. Un modello che raggiunge il 70 per cento di accuratezza su domande commerciali in inglese raggiunge circa il 60-65 per cento sulle stesse domande in tedesco e circa il 55-60 per cento in portoghese. L’utente portoghese non riceve un servizio leggermente degradato. Riceve uno strumento misurabilmente meno capace — sullo stesso compito, con la stessa complessità, in una lingua che il modello dichiara di supportare.
Cosa Sperimenta la PMI Europea
La ricerca è astratta. L’esperienza no.
Si consideri un’azienda di medie dimensioni nei Paesi Bassi — 200 dipendenti, attività in sei mercati dell’UE. L’azienda implementa uno strumento di assistenza clienti basato su IA nei suoi mercati: olandese, tedesco, francese, spagnolo, portoghese e inglese. La pagina di marketing del fornitore elenca tutte e sei le lingue come “supportate.” Il prezzo è lo stesso per tutti i mercati.
Lo strumento funziona bene in inglese. Le risposte sono precise, ben strutturate e contestualmente appropriate. I clienti anglofoni riportano alta soddisfazione.
In tedesco, lo strumento è visibilmente più debole. I registri di formalità sono incoerenti — lo strumento usa occasionalmente du dove ci si aspetta Sie. Il vocabolario tecnico è talvolta approssimativo. Le risposte sono utilizzabili ma richiedono più revisione umana.
In portoghese, la degradazione è più pronunciata. Lo strumento genera testo grammaticalmente corretto che suona come una traduzione. Le espressioni idiomatiche sono fuori bersaglio. La struttura della risposta segue modelli inglesi — diretta, orientata al compito, con un preambolo relazionale minimo — in un mercato dove le aspettative del servizio clienti includono calore e riconoscimento personale. I clienti lusofoni non presentano reclami sulla qualità dell’IA. Preferiscono l’agente umano. I numeri di adozione raccontano la storia.
In olandese, lo strumento funziona adeguatamente, ma la piccola dimensione del corpus di addestramento in olandese fa sì che occasionalmente allucini terminologia o produca costruzioni che suonano come olandese belga piuttosto che olandese dei Paesi Bassi. La distinzione conta. Un registro di formalità fiammingo impiegato ad Amsterdam è un segnale sottile ma persistente di estraneità.
In svedese, il risultato è funzionale ma scarno. Il modello dispone di meno dati di addestramento in svedese che in francese o tedesco. Le risposte sono più brevi, meno sfumate e ricorrono occasionalmente a terminologia inglese dove esistono equivalenti svedesi meno frequenti nel corpus di addestramento.
L’azienda paga lo stesso prezzo per tutte e sei le lingue. L’azienda riceve sei livelli diversi di capacità. La pagina di marketing del fornitore non rivela questa varianza. Lo studio ATLAS spiega perché la varianza esiste. Il fornitore può non conoscere la spiegazione. La varianza esiste comunque.
Questo non è un fallimento del fornitore. È una proprietà strutturale della tecnologia. La maledizione del multilinguismo è inscritta nell’architettura. Ogni modello che dichiara supporto multilingue fornisce supporto disuguale — con la disuguaglianza che segue uno schema prevedibile che favorisce l’inglese e penalizza tutto il resto.
Il Problema dell’Asimmetria
L’asimmetria del trasferimento nella matrice ATLAS merita un esame più attento, perché ha implicazioni che vanno oltre le prestazioni del modello.
L’inglese, il francese e lo spagnolo sono le lingue di addestramento più benefiche per altre lingue. Non perché siano linguisticamente superiori. Perché il web — la fonte primaria di dati di addestramento — contiene enormemente più testo di alta qualità in queste lingue. Il solo inglese rappresenta circa il 55-60 per cento del contenuto web. Il francese e lo spagnolo contribuiscono in modo sostanziale. Il tedesco meno. Il portoghese, l’olandese e lo svedese sono contributori marginali.
L’asimmetria crea una struttura di sussidio. Le lingue con molte risorse sussidiano le lingue con poche risorse attraverso il trasferimento positivo. I dati di addestramento in inglese migliorano le prestazioni in swahili. I dati di addestramento in swahili non migliorano le prestazioni in inglese. Il sussidio scorre in una direzione.
Per le lingue europee, la dinamica del sussidio è più sfumata. Il francese sussidia il portoghese — entrambe sono lingue romanze che condividono strutture sintattiche e una porzione significativa del loro vocabolario. Ma il portoghese non sussidia il francese nella stessa misura. La relazione è asimmetrica perché i corpora di addestramento sono asimmetrici. Più testo francese significa più modelli da apprendere per il modello. Il modello trasferisce quei modelli al portoghese. Il trasferimento inverso è più debole perché ci sono meno modelli portoghesi da trasferire.
La conseguenza pratica: in un modello multilingue, la qualità del portoghese dipende parzialmente dalla qualità dei dati in francese. La qualità dell’olandese dipende parzialmente dalla qualità dei dati in tedesco e inglese. La qualità dello svedese dipende parzialmente dalla qualità dei dati in danese, norvegese e inglese. Ogni lingua più piccola si trova a valle dei suoi parenti più grandi.
La dipendenza è invisibile all’utente finale. Il cliente portoghese che interagisce con un chatbot non sa che la capacità del chatbot in portoghese è parzialmente funzione della quantità di dati francesi nel set di addestramento. La dipendenza è invisibile anche al fornitore — a meno che il fornitore non abbia letto l’articolo ATLAS. La maggior parte non lo ha fatto.
Il Problema della Divulgazione
Eurostat ha riportato nel dicembre 2025 che il 20 per cento delle imprese dell’UE con dieci o più dipendenti utilizza tecnologie di intelligenza artificiale. Il tasso di adozione è cresciuto di 6,5 punti percentuali in un solo anno. Tra le grandi imprese, l’adozione supera il 40 per cento. Tra le piccole imprese — il nucleo dell’economia dell’UE — l’adozione si attesta a circa l’11 per cento.
L’uso più comune dell’IA è l’analisi del linguaggio scritto. Il secondo uso a crescita più rapida è la generazione di linguaggio scritto e parlato. Sono esattamente le applicazioni dove la maledizione del multilinguismo opera in modo più diretto.
Una PMI dell’UE che implementa uno strumento di scrittura IA in più mercati sta implementando uno strumento con disuguaglianza linguistica incorporata. La disuguaglianza è una proprietà strutturale del modello. Non è divulgata nei materiali di marketing. Non è quantificata nella documentazione del fornitore. Non è trattata negli accordi sul livello di servizio.
Il Regolamento europeo sull’IA — in particolare l’Articolo 10 — richiede che i sistemi di IA ad alto rischio siano addestrati su dati che siano “pertinenti e sufficientemente rappresentativi” rispetto alla finalità prevista. La legislazione non definisce cosa significhi “rappresentativo” per un impiego multilingue. Non specifica una soglia minima di prestazione per lingua. Non richiede ai fornitori di divulgare il differenziale di prestazione tra le lingue supportate.
Il divario tra il requisito normativo e la realtà tecnica è il problema della divulgazione. Un modello che dichiara di supportare il portoghese ma fornisce un risultato in portoghese misurabilmente inferiore al risultato in inglese sta facendo un’affermazione che è tecnicamente vera e praticamente fuorviante. Il portoghese è supportato. Il portoghese è anche strutturalmente peggiore.
Nessuno divulga questo. Né i costruttori di modelli, che pubblicano benchmark multilingui aggregati. Né i fornitori, che elencano lingue supportate senza qualificazioni di prestazione. Né i dipartimenti acquisti, che valutano lo strumento in inglese e lo impiegano in sei lingue.
La maledizione del multilinguismo è un segreto di Pulcinella nella comunità di ricerca. È un fatto sconosciuto nella comunità imprenditoriale. Lo studio ATLAS, con le sue 774 sessioni di addestramento e le sue 1.444 coppie di lingue, ha quantificato ciò che i ricercatori sanno da anni. La quantificazione non ha raggiunto le persone che ne hanno bisogno.
L’Alternativa Monolingue
Lo studio ATLAS quantifica anche quando i modelli monolingui superano i multilingui — e la soglia è istruttiva.
Per una lingua con dati di addestramento sufficienti, un modello monolingue della stessa dimensione supera sempre un modello multilingue. Il punto di pareggio dipende dalla disponibilità di dati della lingua. Per l’inglese, un modello monolingue è sempre migliore. Per il francese e il tedesco, un modello monolingue è migliore sopra una soglia moderata di dati. Per le lingue con poche risorse e dati limitati, il modello multilingue resta superiore — il trasferimento interlinguistico supera la tassa di capacità.
L’implicazione pratica per una PMI dell’UE: se il mercato principale è germanofono, un modello monolingue tedesco supererà la capacità tedesca di un modello multilingue. Se si opera in sei mercati dell’UE, si affronta una scelta. Impiegare un modello multilingue e accettare la degradazione per lingua. O impiegare sei modelli monolingui e accettare il costo infrastrutturale.
La prima opzione è meno costosa. La seconda è migliore. La maggior parte delle aziende sceglie la prima opzione senza sapere di aver fatto un compromesso. La pagina di marketing dice “supporta 95 lingue.” La pagina di marketing non dice “supporta l’inglese al 100 per cento di capacità e il portoghese all’82 per cento.”
La scelta non è binaria. Il fine-tuning offre una via intermedia — un modello base multilingue perfezionato con dati specifici della lingua può recuperare parte delle prestazioni perse. Lo studio ATLAS conclude che il fine-tuning è più efficiente computazionalmente del pre-addestramento da zero con budget di token inferiori, con il pre-addestramento che diventa vantaggioso solo quando i dati e la potenza di calcolo superano una soglia dipendente dalla lingua.
Per la maggior parte delle PMI dell’UE, il fine-tuning è la strada realistica. Ma il fine-tuning richiede dati specifici della lingua, valutazione specifica della lingua e standard di qualità specifici della lingua — niente di tutto ciò è incluso in un impiego multilingue standard.
L’Illusione Democratica
Il linguaggio di marketing dell’IA multilingue è democratico. “Supporta 95 lingue.” L’implicazione: tutte le lingue sono supportate in modo uguale. La realtà: tutte le lingue sono supportate in modo disuguale, con la disuguaglianza che segue i contorni esatti del potere linguistico globale.
L’inglese, la lingua di Internet, della pubblicazione accademica, della documentazione tecnica, riceve più dati di addestramento e offre le migliori prestazioni. Il francese, lo spagnolo e il tedesco — le altre lingue del web — seguono. Il portoghese, l’olandese, lo svedese e il resto delle 24 lingue ufficiali dell’UE ricevono progressivamente meno.
Lo schema non è arbitrario. Riproduce la gerarchia esistente del potere linguistico nell’infrastruttura digitale. Le lingue ben rappresentate sul web sono ben servite dall’IA. Le lingue mal rappresentate sul web sono mal servite dall’IA. Il modello non crea la disuguaglianza. La eredita — e la propaga a ogni applicazione costruita su di esso.
Per l’UE — un’istituzione costruita sul principio dell’uguaglianza linguistica tra i suoi Stati membri — la maledizione del multilinguismo non è solo un problema tecnico. È una contraddizione strutturale. L’UE stabilisce che ogni cittadino può interagire con le istituzioni dell’UE nella propria lingua ufficiale. Gli strumenti di IA che le istituzioni e le imprese dell’UE impiegano non possono adempiere a quel mandato in modo uguale. Gli strumenti producono qualità inglese in inglese e qualità degradata in tutto il resto.
Lo studio ATLAS rende questo misurabile. La matrice di trasferimento mostra, con precisione quantitativa, che un modello addestrato su tutte le lingue ufficiali dell’UE produrrà qualità disuguale in quelle lingue. La disuguaglianza non è un fallimento del modello. È una proprietà dell’architettura — e dell’ecosistema di dati che la alimenta.
Cosa Significa Questo per Chi Costruisce
La maledizione del multilinguismo non è un problema che le singole aziende possano risolvere. L’architettura dei modelli a capacità condivisa produce prestazioni disuguali per lingua. Questa è fisica, non politica.
Ciò che le singole aziende possono fare è smettere di fingere che la disuguaglianza non esista.
Misurare per lingua. Non valutare il proprio strumento di IA in inglese e assumere prestazioni equivalenti in portoghese. Testare ogni lingua indipendentemente. Misurare accuratezza, fluidità, adeguatezza del registro e completamento dei compiti in ogni lingua che si dichiara di supportare. La metodologia del benchmark MMLU-ProX offre un modello: compiti identici tra le lingue, con punteggio per lingua.
Divulgare per lingua. Se lo strumento produce il 70 per cento di accuratezza in inglese e il 58 per cento in portoghese, dirlo. La divulgazione è scomoda. L’alternativa è un accordo sul livello di servizio che promette ciò che la tecnologia non può fornire.
Investire per lingua. Il fine-tuning su dati specifici della lingua è la mitigazione più accessibile. Non elimina la maledizione. Ne riduce l’impatto. L’investimento deve essere proporzionale al divario di prestazione — più fine-tuning per il portoghese che per il francese, perché il divario è maggiore.
Progettare per la lingua più debole. Se lo strumento opera in sei mercati dell’UE, progettare l’esperienza utente per la lingua dove il modello ha le prestazioni peggiori. Se il risultato in portoghese richiede revisione umana, integrare la revisione umana nel flusso di lavoro di tutti i mercati — non come meccanismo di correzione per lingue “minori”, ma come standard di garanzia qualità che rispetta tutti gli utenti in modo uguale.
La maledizione del multilinguismo persisterà finché i modelli condivideranno capacità tra le lingue. Modelli più grandi riducono la maledizione ma non la eliminano. Dati migliori aiutano ma non risolvono. Il problema è strutturale. La risposta deve esserlo altrettanto — non un singolo impiego multilingue, ma un’infrastruttura consapevole della lingua che riconosce, misura e compensa la disuguaglianza che l’architettura produce.
Ogni lingua aggiunta a un modello costa qualcosa a tutte le altre. Il costo è reale. Il costo è disuguale. E finché chi impiega questi modelli non lo comprenderà, ogni strumento di IA “multilingue” sarà una promessa mantenuta in inglese e infranta, per gradi, in tutto il resto.