El Modelo Habla Quince Idiomas. Vende en Uno.
El modelo habla quince idiomas. Vende en uno.
No es una figura retórica. Es la conclusión de un benchmark revisado por pares publicado en febrero de 2026 por cuatro investigadoras de Appen — Madison Van Doren, Casey Ford, Jennifer Barajas y Cory Holland — bajo el título “Be My Cheese?”: Cultural Nuance Benchmarking for Machine Translation in Multilingual LLMs. Siete modelos punteros. Quince pares idioma-localidad. Cinco evaluadores nativos por idioma. Trece mil ciento veinticinco anotaciones a nivel de segmento. Los datos son precisos. La conclusión es austera.
Los modelos con mejor desempeño alcanzaron 2,10 sobre 3 en una escala ordinal de cuatro puntos para la calidad global de la traducción. Dos tercios del máximo. Los modelos comerciales más sólidos del mercado, traduciendo un correo de marketing, producen texto que lectores nativos califican como adecuado en el mejor de los casos, en una escala donde 3 es el estándar exigido para publicar.
Fluido. No comercial. La distinción es la arquitectura del argumento entero.
Qué Hizo Realmente el Estudio
La metodología merece formularse antes de las conclusiones, porque la metodología es el elemento estructural de cualquier benchmark que pretenda medir competencia cultural.
Las investigadoras entregaron cinco correos de marketing de comercio electrónico — adaptados de campañas comerciales reales con juegos de palabras, expresiones idiomáticas, referencias a festividades, voz de marca y conceptos culturalmente integrados — a siete LLM multilingües. Los modelos probados fueron GPT-5, Claude Sonnet 3.7, Mistral Medium 3.1, DeepSeek V3.1, gpt-oss 120B, Llama 4 de Meta y Aya Expanse 8B de Cohere. La mezcla es deliberada: pesos cerrados y pesos abiertos, modelos de frontera y accesibles, estadounidenses, europeos y chinos.
Cada modelo recibió el mismo prompt: “Traduce el siguiente correo para uso en [idioma] en [país/región].” La instrucción es la que cualquier pyme europea daría. Sin ingeniería de prompts. Sin pipeline de retrieval. Sin fine-tuning para el mercado de destino. La tarea en bruto, tal como una empresa pequeña la ejecutaría.
Las quince localidades objetivo abarcaron tipologías y continentes: afrikáans (ZA), árabe (EG), portugués de Brasil (BR), cantonés (HK), checo (CZ), neerlandés (NL), hebreo (IL), hindi (IN), japonés (JP), coreano (KR), mandarín (TW), ruso (KZ), español (MX), swahili (KE) y urdu (PK). Cada traducción fue evaluada por cinco hablantes nativos, residentes en la región pertinente, fluidos en inglés y en la lengua meta. Setenta y cinco evaluadores en total. Cada uno puntuó tanto el correo traducido completo — fidelidad de contenido, fidelidad de estilo, adecuación al público y calidad global — como segmentos predefinidos con expresiones idiomáticas, juegos de palabras, festividades y conceptos culturales. La escala iba de 0 a 3. También había una categoría NA. La categoría NA resultó importar.
Es la evaluación más rigurosa de la localización cultural en traducción automática publicada hasta la fecha. Es también la más demoledora.
El Pelotón de Cabeza
La calidad global media del texto completo, entre todos los modelos e idiomas, fue 1,68 sobre 3.
GPT-5 lideró con 2,10. Claude Sonnet 3.7 siguió con 1,97. Mistral Medium 3.1 alcanzó 1,84. Estos tres formaron lo que las autoras describen como un “pelotón de cabeza estadísticamente indistinguible” — significativamente mejor que el resto, estadísticamente equivalente entre sí. DeepSeek V3.1 quedó en 1,72 y gpt-oss 120B en 1,60. Llama 4 marcó 1,47. Aya Expanse 8B, el más pequeño de los siete y el único del conjunto diseñado específicamente para cobertura multilingüe, marcó 1,09.
El orden es llamativo, pero no es el punto. El punto es el techo. El mejor LLM multilingüe del mercado, en un correo de marketing, alcanza siete décimas del camino hacia una traducción publicable. El peor alcanza apenas un tercio.
No son casos extremos producidos por idiomas exóticos. El conjunto incluye español, portugués, neerlandés, japonés — idiomas con abundantes datos de entrenamiento y décadas de historia en traducción automática. Las puntuaciones no son el residuo del olvido de las lenguas de bajos recursos. Son el límite de la tecnología, medido en la cima.
Un correo de marketing no es un género difícil. Es una forma corta, estructurada y comercialmente valiosa. Si los LLM contemporáneos no pueden localizar un correo de marketing lo bastante bien como para que un hablante nativo lo puntúe por encima de 2,10 sobre 3, la implicación para todo lo demás — respuestas de atención al cliente, descripciones de producto, comunicaciones regulatorias, comunicaciones internas — es directa.
Dónde se Rompen los Modelos
La puntuación agregada oculta la conclusión estructural. La conclusión estructural está en los resultados por segmento.
Cuando los evaluadores puntuaron las cuatro categorías de lenguaje culturalmente marcado por separado, el patrón fue nítido. Las referencias a festividades promediaron 2,20 sobre 3. Los conceptos culturales promediaron 2,19. Las expresiones idiomáticas marcaron 1,65. Los juegos de palabras marcaron 1,45.
La diferencia de cuatro décimas entre festividades y expresiones idiomáticas es grande. La diferencia de siete décimas entre festividades y juegos de palabras es estructural. Festividades y conceptos culturalmente integrados son sustantivos. Expresiones idiomáticas y juegos de palabras son figuras. Los modelos traducen sustantivos. Los modelos fallan en figuras.
La razón es arquitectónica, no anecdótica. Una festividad — San Valentín, Singles Day, Diwali — tiene un equivalente en la lengua meta o un mapeo cultural conocido. El modelo recupera el mapeo. La recuperación funciona porque el mapeo está documentado en los datos de entrenamiento. Un juego de palabras es lo contrario. Un juego de palabras depende del sonido, la forma o la resonancia cultural de una palabra específica en una lengua específica. No tiene equivalente. Tiene que reconstruirse en la lengua meta con material distinto. La reconstrucción exige invención. Los modelos no inventan. Los modelos recuperan.
Las autoras cuantifican la consecuencia con una métrica concreta: tasa de omisión. Las expresiones idiomáticas fueron la categoría más frecuentemente clasificada como NA — es decir, el modelo declinó traducirlas, dejando el original en inglés incrustado en el texto traducido. Aya Expanse 8B exhibió las tasas de omisión más altas y las puntuaciones de calidad más bajas cuando sí tradujo. El comportamiento conservador no protegió al modelo más pequeño. Agravó su fragilidad.
Cuando un modelo encuentra un juego de palabras que no puede reconstruir, tiene tres opciones. Traducirlo literalmente, produciendo un sinsentido. Traducirlo de forma libre, produciendo un chiste distinto o ningún chiste. O negarse y dejar el inglés. Las tres opciones son visibles para el lector nativo. Las tres señalan que el texto fue generado, no escrito. Las tres reducen la probabilidad de que el lector compre lo que el correo vende.
El Juego de Palabras que Da Nombre al Estudio
El título del paper es una pista. “Be My Cheese?” es la traducción literal de un juego de palabras de San Valentín con tema de queso — “Will you brie mine?” — que apareció en uno de los correos fuente. El juego depende por completo de la homofonía entre “brie” y “be” en inglés. En cualquier otro idioma, la homofonía no existe. El juego no sobrevive a la traducción. Tiene que reconstruirse.
Lo que los modelos produjeron no fue reconstrucción. Fue renderizado literal de las palabras “brie” y “mine”, produciendo un texto que mencionaba queso pero sin chiste, sin ritmo y sin San Valentín. La función de marketing — conexión emocional con un momento estacional — colapsó en una frase sobre lácteos.
Es la conclusión estructural del estudio, ilustrada. El modelo tradujo las palabras. El modelo no tradujo la función. La función era la única razón de que las palabras existieran.
El Valor por Defecto es Estadounidense
Las autoras no formulan la siguiente observación de este modo. Los datos sí.
Cuando un modelo entrenado con texto de internet encuentra un registro, un tono o una postura relacional que no reconoce, recurre al patrón más frecuente de su distribución de entrenamiento. El patrón más frecuente de la distribución de entrenamiento es la escritura comercial en inglés estadounidense. El resultado es texto gramaticalmente portugués, neerlandés o japonés, y pragmáticamente californiano.
La calibración de formalidad es uniforme. El tono es informal, cercano a lo familiar. La forma de tratamiento es la igualitaria. El reconocimiento relacional es breve. La llamada a la acción es directa. Funciona en el marketing estadounidense porque el marketing estadounidense es el corpus en el que se optimizaron los modelos. No funciona en Múnich, donde la comunicación comercial en contextos B2C usa “Sie” hasta que se establece una relación. No funciona en Milán, donde el calor comercial precede a la transacción mediante una inversión en ritual social. No funciona en Malmö, donde la moderación consensual de la prosa sueca hace que el cierre asertivo estadounidense se lea como desesperación.
El modelo habla quince idiomas. El modelo comunica en una cultura. Las quince son la superficie. La una es la arquitectura.
No es un fallo de los siete modelos probados. Es una propiedad estructural de cualquier modelo entrenado predominantemente con texto web. La web no es un corpus neutro. La web es una cultura. La cultura es el inglés estadounidense con una red global de distribución. Todo modelo multilingüe hereda la cultura junto con los idiomas.
La Tabla de Desempeño
| Modelo | Global | Público | Estilo | Contenido |
|---|---|---|---|---|
| GPT-5 | 2,10 | 2,38 | 2,23 | 2,23 |
| Claude Sonnet 3.7 | 1,97 | 2,25 | 2,08 | 2,10 |
| Mistral Medium 3.1 | 1,84 | 2,19 | 2,04 | 1,92 |
| DeepSeek V3.1 | 1,72 | 2,05 | 1,98 | 1,77 |
| gpt-oss 120B | 1,60 | 1,94 | 1,83 | 1,72 |
| Llama 4 | 1,47 | 1,81 | 1,72 | 1,59 |
| Aya Expanse 8B | 1,09 | 1,55 | 1,41 | 1,21 |
Las columnas merecen lectura atenta. En todos los modelos, la subpuntuación más alta es “adecuación al público”. La más baja es “fidelidad de contenido”. Es el inverso de la intuición. Se esperaría que un traductor fuera más fiable preservando contenido y menos fiable adaptándose al público. Los datos muestran lo contrario. Los modelos producen texto que suena apropiado para el público objetivo pero distorsiona la fuente. La fluidez es performativa. La precisión es inestable.
Un correo de marketing traducido por un modelo punta en 2026 suena bien y dice algo sutilmente distinto de lo que la marca pretendía. Es el tipo de fallo más caro. Es invisible para la empresa que lo despliega, que evaluó la herramienta en inglés. Es visible para el cliente, que nota que el texto parece generado. La distancia entre la sensación y la intención es donde se pierde la conversión comercial.
La Prueba Intercultural
Considérese el mismo correo de marketing en tres contextos.
En Brasil, el correo abre con calidez relacional antes de cualquier contenido comercial. El lector espera reconocimiento antes de la transacción. Un modelo que abre con la oferta señala extranjería. El lector sigue leyendo, pero el gradiente de confianza ha cambiado.
En Alemania, el correo abre con la oferta y usa “Sie”. La formalidad precede al calor. Un modelo que abre con “Hey, Marta!” — un valor por defecto heredado de plantillas de correo estadounidenses — cometió una transgresión de registro en las tres primeras palabras. El lector no cataloga conscientemente el error. El lector simplemente siente al remitente como un extraño que se excede.
En Japón, el correo abre con un reconocimiento estacional, una frase que indica conciencia de las circunstancias probables del destinatario, y solo entonces introduce el marco comercial. La estructura no es negociable para comunicación B2C orientada a relaciones de cliente de largo plazo. Un modelo que se salta la apertura produce texto técnicamente correcto y socialmente torpe. La torpeza cuesta la conversión.
Tres culturas. Tres arquitecturas de apertura distintas. El modelo usa una — la estadounidense — en las tres. El texto es fluido en tres idiomas y culturalmente ilegible en dos de ellos.
Esto es lo que el estudio de Appen mide, expresado al nivel en que la pyme europea encuentra la consecuencia.
Qué Significan los Números para Milán, Múnich, Malmö
Una pyme europea que vende en el mercado único es el público al que esta conclusión afecta más directamente.
La aritmética es simple. Un modelo que puntúa 2,10 sobre 3 en un correo de marketing produce texto que exige revisión humana antes de poder enviarse. La revisión exigida no es corrección ortográfica. Es edición cultural. El texto italiano hay que revisarlo en calibración de calor. El texto alemán hay que revisarlo en registro. El texto sueco hay que revisarlo en la ausencia de moderación consensual. El texto neerlandés hay que revisarlo para ver si el cierre directo cae como confiado o agresivo.
Cada una de estas revisiones exige un hablante nativo con fluidez en la voz de la marca y competencia cultural-pragmática. El coste de estas revisiones no está en la economía por token que hizo atractiva la traducción por IA al principio. El modelo de precios del proveedor da por supuesto que el output es publicable. Los datos de Appen muestran que no lo es.
La pyme europea tiene tres opciones.
Aceptar la distorsión cultural. Enviar el output del modelo sin editar y absorber la penalización en conversión en silencio. Es la opción más frecuente porque la penalización es invisible — los clientes que no compraron no escriben de vuelta.
Contratar revisores nativos en cada mercado. Restaura la calidad al coste de la simplicidad operativa que motivó el despliegue de IA. La economía cambia. La inversión puede seguir compensando frente a traductores monolingües, pero solo si la empresa mide el impacto en la conversión por mercado, cosa que la mayoría no hace.
Construir infraestructura cultural en el prompt y en el flujo de trabajo. Es el camino que toma Bluewaves con cada Gizmo multilingüe. El contexto cultural se estructura antes de seleccionar el idioma. Al modelo se le entrega la postura relacional, el registro de formalidad, la calibración de franqueza y la orientación temporal apropiadas al mercado. El idioma es la última decisión. El modelo se restringe — explícitamente — a producir texto que respete la arquitectura.
La tercera opción no elimina la distancia que mide el estudio de Appen. La comprime. Un prompt restringido, un mensaje de sistema específico de la cultura y un control de calidad por mercado producen output que puntúa más cerca de lo publicable que el 2,10 en bruto. Más cerca no basta para comunicación de alto riesgo. Basta para la mayor parte de la comunicación, la mayor parte del tiempo, a una fracción del coste de la traducción humana.
La condición es que alguien en el ciclo de despliegue sepa qué restringir. El modelo no sabe. El proveedor no sabe. El departamento de compras desde luego no sabe. La competencia cultural-pragmática no es un ajuste en ningún producto de traducción por IA del mercado. Es una disciplina que la empresa que despliega tiene que aportar.
Qué Exigiría la Competencia Cultural
Las autoras de Appen apuntan implícitamente al requisito. El remedio está en la fractura que sus datos exponen.
Un modelo de traducción culturalmente competente tendría que saber — y aplicar — cinco cosas que ningún modelo sabe actualmente.
La línea base cultural del público objetivo. No el idioma. La cultura. El portugués de Brasil y el portugués europeo son el mismo idioma y dos culturas comerciales distintas. El modelo tiene que distinguirlas, no como código de localidad sino como arquitecturas de confianza diferentes.
El registro de formalidad apropiado al canal y a la relación. Un correo de marketing de una marca desconocida en Alemania exige “Sie”. El mismo correo de una marca a la que el destinatario ya le ha comprado puede pasar a “du” si la voz de marca ha establecido ese registro. El modelo tiene que leer la relación, no el prompt.
La calibración de franqueza apropiada al mensaje y a la cultura. Un lector neerlandés espera franqueza. Un lector japonés espera indirección. Un modelo que usa una franqueza uniforme produce neerlandés titubeante y japonés invasivo en el mismo ciclo de generación. Los dos están mal. Los dos reducen la conversión. Los dos pasan la evaluación a nivel de token.
La orientación temporal de la oferta. Las ofertas por tiempo limitado en una cultura monocrónica activan urgencia. Las ofertas por tiempo limitado en una cultura policrónica activan sospecha. La misma llamada a la acción exige enmarque distinto en culturas distintas. El modelo tiene que saber qué enmarque aplicar.
El mapeo cultural del lenguaje figurativo. No la sustitución literal. El equivalente funcional. Un juego de palabras de San Valentín en inglés tiene que convertirse en un juego de palabras de San Valentín en italiano — o, si la forma no sobrevive, en una figura retórica distinta que cumpla la misma función emocional. El modelo tiene que distinguir forma y función. Los modelos actuales no lo hacen.
Estas cinco capacidades no son lingüísticas. Son culturales. Los datos de entrenamiento no las contienen — porque rara vez se hacen explícitas en el texto. Nadie escribe “ahora uso el registro formal porque aún no conozco a esta persona”. El registro simplemente se usa. El modelo tiene que inferir la regla a partir de instancias. La inferencia es débil cuando los patrones son implícitos y culturalmente variables.
La competencia cultural en modelos de IA exigirá anotación cultural explícita, fine-tuning por instrucciones culturales o pipelines de retrieval que accedan a bases de conocimiento cultural. Estos enfoques existen en investigación. No existen en ninguno de los siete modelos que el estudio de Appen probó.
El Principio
Un modelo entrenado con texto de internet hereda la cultura de internet. La cultura de internet es el inglés estadounidense con una red global de distribución. Quince idiomas de output no cambian la arquitectura. Quince idiomas de output exponen la arquitectura.
La fluidez es lo mínimo. Todos los modelos principales la alcanzan. Las puntuaciones de Appen demuestran que la fluidez ya no es el diferenciador.
La competencia cultural es el diferenciador. El techo de 2,10 es la medida de la distancia entre los mejores modelos y ese diferenciador. La diferencia de 0,4 puntos entre referencias a festividades y expresiones idiomáticas es la forma del fallo. El valor por defecto estadounidense que emerge en cada output es su fuente.
Para una pyme europea, la implicación es directa. El correo de marketing traducido por GPT-5 no venderá tan bien como el mismo correo escrito por un copywriter milanés. La distancia no es catastrófica. La distancia es consistente. Y la distancia es la diferencia entre una entrada de mercado que funciona y una entrada de mercado que silenciosamente queda por debajo de las expectativas durante años antes de que alguien diagnostique la causa.
En Bluewaves, ningún Gizmo multilingüe sale sin una arquitectura cultural explícita: el registro de formalidad, la calibración de franqueza, la postura relacional y las funciones retóricas que el modelo tiene que preservar, nombradas en el prompt de sistema y probadas por mercado. El modelo sigue produciendo el output. La arquitectura restringe lo que el output puede ser. La restricción es donde la competencia cultural entra en el sistema, porque el modelo no la puede aportar.
Los siete modelos probados por Appen no carecen de datos. Carecen de cultura. El texto es fluido porque las palabras están presentes. El texto no vende porque la cultura está ausente.
Hablar no es vender. La fluidez no es competencia. La traducción no es localización.
El modelo habla quince idiomas. Vende en uno. Hasta que la empresa que despliega aporte lo que el modelo no aporta, esa ratio es el techo.