Bertrand 4 de noviembre de 2025

Tus datos no son su plataforma

15 min de lectura

Cada vez que tu equipo de atención al cliente envía una consulta a una plataforma de IA de terceros, estás enviando tus datos de clientes, tu lenguaje operativo, tu experiencia de dominio y tu inteligencia competitiva a un servidor que no controlas. La respuesta vuelve. Los datos se quedan.

No es un argumento de privacidad. Es un argumento de arquitectura.

El problema de la plataforma alquilada

La ruta estándar de adopción de IA para una pyme europea en 2025 es esta: regístrate en un servicio gestionado de IA, aliméntalo con los datos de tu empresa, deja que aprenda tus patrones, depende de sus resultados. La configuración lleva una semana. La dependencia lleva un trimestre.

El RGPD — específicamente el Artículo 28, que regula las obligaciones del encargado del tratamiento — requiere un marco contractual entre el responsable del tratamiento (tú) y el encargado del tratamiento (la plataforma). La mayoría de las empresas cumplen este trámite. Pocas entienden qué ocurre con el valor derivado de sus datos una vez que la plataforma los procesa.

La distinción importa. Tus datos de clientes, aislados, son tuyos. Los patrones extraídos de tus datos de clientes, combinados con patrones de diez mil empresas más, se convierten en una señal de entrenamiento. Esa señal mejora el modelo general de la plataforma. El modelo general se vende de vuelta a ti — y a tus competidores — como una funcionalidad.

Estás subvencionando un producto que se usará contra ti. Con tus propios datos.

Lo que significa realmente la soberanía de datos

La soberanía de datos no va de guardar datos en una cámara acorazada. Va de controlar la cadena de extracción de valor. Tres niveles.

Nivel uno: soberanía de almacenamiento. Sabes dónde residen físicamente tus datos. Es la línea base del RGPD. Los Artículos 44 a 49 regulan las transferencias internacionales de datos. La mayoría de las empresas de la UE han abordado esto — o creen haberlo hecho. Las directrices del CEPD sobre proveedores de servicios en la nube han añadido especificidad: saber el país no basta. Necesitas conocer los centros de datos específicos, los subencargados y las condiciones bajo las cuales los datos pueden ser accedidos por entidades terceras.

Nivel dos: soberanía de procesamiento. Controlas cómo se procesan tus datos. Esto va más allá de la limitación de finalidad del Artículo 5 del RGPD. La soberanía de procesamiento significa que cuando tus datos se usan para entrenar, ajustar o modificar un modelo, las mejoras resultantes del modelo son atribuibles y controlables. La mayoría de las plataformas gestionadas de IA no ofrecen este nivel de transparencia. El procesamiento ocurre en una caja negra. La extracción de valor es opaca.

Nivel tres: soberanía de insights. Los patrones, predicciones y decisiones derivados de tus datos siguen siendo tuyos. No como reclamación legal — como arquitectura técnica. Los insights generados de tus datos operativos alimentan tus sistemas, no un modelo de propósito general que sirve a tus competidores.

La mayoría de las empresas operan en el nivel uno y asumen que han resuelto el problema. No lo han hecho.

La arquitectura de la independencia

Integrar la soberanía de datos en un despliegue de IA no es filosófico. Es arquitectónico. Cuatro decisiones técnicas.

Decisión uno: dónde se ejecuta el modelo. Un modelo que se ejecuta en tu infraestructura (o en infraestructura cloud dedicada con garantías contractuales) procesa tus datos sin transmitirlos a una plataforma compartida. No va de construir tu propio GPT. Va de desplegar modelos ajustados — modelos de pesos abiertos como Mistral, Llama o Qwen — en infraestructura que controlas. El coste de computación es mayor que una API gestionada. La soberanía es absoluta.

Para la mayoría de pymes, el punto intermedio práctico es una instancia dedicada de un modelo gestionado con garantías contractuales de que tus datos no se usan para entrenamiento, no se combinan con datos de otros clientes, y se eliminan después del procesamiento. Anthropic, OpenAI y Mistral ofrecen estas garantías — pero tienes que leer el contrato específico, no la página de marketing. La ficha técnica del modelo (un documento sobre el que escribiré por separado) te dice más sobre lo que el modelo realmente hace que la presentación comercial.

Decisión dos: dónde ocurre el fine-tuning. Si ajustas un modelo con tus datos de dominio — tus transcripciones de soporte al cliente, tus especificaciones de producto, tus procedimientos operativos — el modelo adaptado resultante contiene tu inteligencia competitiva en sus pesos. Ese modelo debe vivir en infraestructura que controles. Hacer fine-tuning en una plataforma alquilada significa que tu experiencia de dominio está incrustada en un sistema que no posees. Si la plataforma cambia sus condiciones, sube sus precios o discontinúa el servicio, tu modelo ajustado se va con ella.

Decisión tres: dónde viven los vectores. Las arquitecturas RAG (generación aumentada por recuperación) usan bases de datos vectoriales para almacenar embeddings de tus documentos. Esos embeddings son una representación comprimida de tu base de conocimiento. Deben vivir en infraestructura que controles — no en un servicio vectorial gestionado que mezcla tus embeddings con datos de otros clientes. Alojar tu propia base de datos vectorial (Qdrant, Milvus, pgvector en una instancia gestionada de PostgreSQL) cuesta entre 50 y 300 € al mes para una carga de trabajo típica de pyme. Es el coste de poseer tu arquitectura de conocimiento.

Decisión cuatro: dónde se cierra el bucle de feedback. Cuando los usuarios interactúan con tu herramienta de IA, su feedback — correcciones, preferencias, sugerencias rechazadas — son los datos más valiosos del sistema. Te dicen dónde falla el modelo en tus tareas específicas. Este bucle de feedback debe cerrarse dentro de tus sistemas. Si el feedback fluye a una plataforma gestionada, la plataforma aprende de las correcciones de tus usuarios. Tú pagaste el despliegue. Ellos se llevan el aprendizaje.

La dimensión del Artículo 22 del RGPD

El Artículo 22 del RGPD da a los individuos el derecho a no ser objeto de decisiones basadas exclusivamente en el tratamiento automatizado. Esto se discute habitualmente como un requisito de cumplimiento. También es un requisito arquitectónico.

Si tu herramienta de IA toma decisiones que afectan a individuos — calificación crediticia, cribado de contratación, elegibilidad para servicios — el Artículo 22 requiere supervisión humana significativa. “Significativa” es la palabra operativa. La acción de ejecución del HmbBfDI de Hamburgo de 2025 (una multa de 492 000 € por toma de decisiones crediticias automatizada sin supervisión humana significativa) demostró que “significativa” significa que el revisor humano debe tener la capacidad técnica y la autoridad operativa para anular la decisión automatizada. Un proceso de revisión de sello de goma no cumple.

Cuando esta toma de decisiones automatizada se ejecuta en una plataforma de terceros, la arquitectura técnica para la supervisión humana significativa se vuelve más compleja. El revisor humano necesita acceso al razonamiento del modelo (o al menos a sus señales de confianza), los datos de entrada y las decisiones alternativas que el modelo consideró. Si estos se generan en una plataforma alquilada, el proceso de revisión depende de las funcionalidades de explicabilidad de la plataforma — que pueden ser limitadas, pueden cambiar sin previo aviso, y pueden no satisfacer la definición de “significativa” de la autoridad de protección de datos.

En tu propia infraestructura, controlas la capa de explicabilidad. Tú decides qué ve el revisor humano, qué mecanismos de anulación existen y cómo se registran las decisiones.

Canales propios: el paralelo del contenido

El argumento de la soberanía de datos tiene un paralelo en el contenido que es igualmente importante e igualmente subestimado.

La mayoría de las empresas producen contenido en plataformas alquiladas: posts de LinkedIn, stories de Instagram, artículos de Medium. La plataforma controla la distribución. El algoritmo determina el alcance. Las condiciones de servicio definen lo que puedes decir. Tu audiencia está a un cambio de algoritmo de desaparecer.

Los canales propios — tu web, tu lista de correo, tus relaciones directas con clientes — son el equivalente en contenido de la soberanía de datos. Tú controlas la distribución. Tú posees la relación. La audiencia te pertenece, no a la plataforma.

En Bluewaves, cada contenido que producimos vive primero en nuestro propio dominio. Puede sindicarse en otros lugares, pero la versión canónica vive en infraestructura que controlamos. Cada relación con suscriptores es directa — sin algoritmo entre nosotros y el lector. Cada dato de rendimiento fluye a nuestros análisis, no al dashboard de una plataforma que puede eliminarse sin previo aviso.

El mismo principio se aplica al despliegue de IA. Tu herramienta de IA debe ejecutarse en canales que poseas, servir a usuarios con los que tengas relación directa, y generar datos que se retroalimenten en tus sistemas. Alquilar alcance es tentador porque es rápido. Poseer alcance es más difícil porque requiere infraestructura. Pero el alcance alquilado es alquilado, y el propietario puede cambiar las condiciones en cualquier momento.

La comparación de costes que nadie hace honestamente

Las plataformas gestionadas de IA cobran por uso: por token, por consulta, por llamada API. El coste marginal parece bajo. A escala, se acumula.

Una empresa de 200 personas que ejecuta una herramienta de IA de atención al cliente que gestiona 500 consultas al día con una media de 2 000 tokens por consulta está procesando 1 millón de tokens al día. A precios actuales de API gestionada (aproximadamente 3–15 $ por millón de tokens de entrada según modelo y proveedor), son 90–450 $ al mes solo por inferencia. Asequible.

Pero añade los costes de fine-tuning, alojamiento de base de datos vectorial, monitorización, y el coste implícito de los datos fluyendo a un tercero, y la comparación cambia. Un despliegue dedicado en un clúster Kubernetes gestionado con un modelo de pesos abiertos cuesta 400–1 200 € al mes para la misma carga de trabajo — con plena soberanía de datos, sin precio por token, y sin dependencia de las decisiones de precios de un proveedor.

El coste inicial es mayor. El coste continuo es menor. El coste estratégico — el coste de la dependencia de una plataforma que controla tu pipeline de datos — es cero.

La mayoría de las empresas nunca hacen esta comparación porque la API gestionada es más rápida de configurar. La velocidad de configuración no es una ventaja estratégica. La velocidad de configuración es una conveniencia táctica que se convierte en un pasivo estratégico.

La dimensión del BCE

La Revisión de Estabilidad Financiera del BCE de noviembre de 2025 señaló que “el riesgo de concentración en proveedores de servicios cloud y de IA representa una preocupación sistémica para la estabilidad financiera de la UE”. El informe señaló específicamente la dependencia de las instituciones financieras de la UE de un pequeño número de proveedores de infraestructura de IA con sede en EE. UU.

Es la versión macro del mismo argumento. Cuando miles de empresas dependen de las mismas tres plataformas de IA, un cambio de precios, una interrupción del servicio o un cambio de política afecta a todas simultáneamente. El riesgo de concentración a nivel de empresa individual es dependencia. El riesgo de concentración a nivel de la UE es una vulnerabilidad sistémica.

Para una pyme individual, la respuesta no es construir tu propia nube. Es asegurar que tu arquitectura de IA sea portable — que puedas mover tus modelos, tus datos y tus flujos de trabajo a un proveedor diferente (o a tu propia infraestructura) sin reconstruir desde cero. La portabilidad es la expresión arquitectónica de la soberanía.

Los modelos de pesos abiertos son portables por definición. Un modelo que ajustaste con Mistral puede ejecutarse en cualquier infraestructura que soporte el formato del modelo. Un modelo que ajustaste en una plataforma gestionada puede o no ser exportable — revisa el contrato.

Tu base de datos vectorial es portable si usa formatos y protocolos abiertos. Tu pipeline RAG es portable si está construido sobre componentes de código abierto. Tus datos de feedback son portables si están almacenados en un formato que controlas.

La portabilidad no es una funcionalidad. Es una decisión arquitectónica tomada antes de la primera línea de código.

Lo que esto significa operativamente

Para una pyme de la UE con 50 a 500 empleados, la soberanía de datos en despliegue de IA significa:

Usa APIs gestionadas para experimentar, no para producción. Prueba modelos, evalúa capacidades, prototipa casos de uso en plataformas gestionadas. Cuando el caso de uso esté validado, construye el despliegue de producción en infraestructura que controles. El piloto se ejecuta en su plataforma. El producto se ejecuta en la tuya.

Haz fine-tuning en tu infraestructura. Si tu herramienta de IA necesita conocimiento específico del dominio, ajusta un modelo de pesos abiertos con tus datos, en tu infraestructura. El modelo resultante es tuyo — los pesos, las adaptaciones, la inteligencia competitiva incrustada en esas adaptaciones.

Sé dueño del bucle de feedback. Cada interacción de usuario con tu herramienta de IA genera datos. Correcciones, preferencias, patrones de uso, modos de fallo — estos datos son más valiosos que los datos de entrenamiento originales porque representan lo que tus usuarios específicos realmente necesitan. Almacénalos en tus sistemas. Úsalos para mejorar tu modelo. No los envíes a una plataforma gestionada donde se convierten en parte de su señal general de entrenamiento.

Construye para la portabilidad. Usa formatos abiertos, protocolos abiertos, modelos abiertos. Cuando puedas cambiar de proveedor en una semana en lugar de un trimestre, tienes soberanía. Cuando cambiar lleva seis meses de reingeniería, eres un inquilino, no un propietario.

Lee el contrato, no el marketing. Las condiciones de servicio de las plataformas de IA no son documentos de marketing — son instrumentos legales que definen lo que ocurre con tus datos. Léelos. Específicamente: ¿usa el proveedor tus datos para entrenamiento del modelo? ¿Bajo qué condiciones? ¿Puedes exportar tu modelo ajustado? ¿Tus embeddings vectoriales? ¿Tus logs de uso? Si la respuesta es no, sabes lo que estás comprando.

La decisión construir-vs-comprar, replanteada

La decisión convencional construir-vs-comprar en IA se centra en la capacidad: ¿puedes construir un modelo tan bueno como el servicio gestionado? La respuesta, para la mayoría de pymes, es no. Los modelos gestionados están entrenados con más datos, más computación y más investigadores de lo que cualquier pyme puede replicar.

Pero la decisión no va de capacidad. Va de control.

Compra la capacidad. Sé dueño de los datos. Es el punto intermedio práctico que la mayoría de las discusiones sobre soberanía no captan.

Usa la API del modelo gestionado para inferencia — para generar outputs, responder preguntas, clasificar inputs. La capacidad del modelo se alquila. Los datos que fluyen a través del modelo no.

Sé dueño del pipeline de datos: los inputs, los outputs, el feedback, las correcciones, los patrones de uso. Almacénalos en tus sistemas. Analízalos con tus herramientas. Úsalos para evaluar, mejorar y eventualmente reemplazar el modelo gestionado con una alternativa de pesos abiertos ajustada.

Sé dueño de la base de datos vectorial: los embeddings de tu base de conocimiento, tus documentos, tus procedimientos operativos. Son tu conocimiento organizacional en forma comprimida. No deben vivir en una plataforma compartida.

Sé dueño del marco de evaluación: los benchmarks, los casos de prueba, los criterios de calidad que determinan si los outputs del modelo son suficientemente buenos para tu caso de uso específico. Los benchmarks genéricos de la plataforma gestionada no capturan los requisitos de tu dominio.

La secuencia es: alquila la capacidad, sé dueño de los datos, construye la independencia. La independencia no ocurre el primer día. Ocurre a lo largo de meses, a medida que tus datos propios se acumulan, tu marco de evaluación madura y tu comprensión de lo que necesitas de un modelo de IA se vuelve lo bastante específica para justificar un despliegue dedicado.

La API gestionada es un punto de partida. No debe ser la arquitectura.

El principio

Tus datos no son materia prima neutral que gana valor solo cuando los procesa una plataforma. Tus datos son tu ventaja competitiva, tu inteligencia operativa, tus relaciones con clientes expresadas como información. Son el producto de años de trabajo, miles de interacciones, millones de decisiones.

Cuando los envías a una plataforma que no controlas, estás intercambiando soberanía por conveniencia. La conveniencia es real. El coste está oculto — hasta que la plataforma cambia sus precios, sus condiciones o su API, y descubres que la base de tu capacidad de IA pertenece a otro.

Sé dueño de tus datos. Sé dueño de tus modelos. Sé dueño de tus canales. Sé dueño de la infraestructura que convierte tu conocimiento en ventaja competitiva.

La alternativa es construir tu casa en terreno alquilado y esperar que el propietario nunca suba el alquiler.

El propietario siempre sube el alquiler.

Sé dueño de tus datos. Sé dueño de tus modelos. Sé dueño de tus canales. La arquitectura de la independencia es más trabajo al principio. Es menos trabajo en total. Y el trabajo produce algo que la conveniencia alquilada nunca produce: un activo que se acumula.

Tus datos, tus modelos, tus bucles de feedback — se acumulan. Cada mes de operación hace al siguiente más valioso. Cada interacción de usuario mejora la siguiente interacción. Cada corrección hace el sistema más preciso.

En una plataforma alquilada, la acumulación beneficia a la plataforma. En tu propia infraestructura, la acumulación te beneficia a ti.

Sé dueño de la acumulación. El alquiler nunca merece la pena.

Escrito por

Bertrand

Tecnólogo Creativo

Emprendedor en serie con doctorado en IA y veinticinco años construyendo sistemas por toda Europa. Crea código como surfea: leyendo patrones, encontrando el flujo, haciendo que lo difícil parezca sencillo.

← Todas las notas