Bertrand 4 de novembro de 2025

Os Vossos Dados Não São a Plataforma Deles

14 min de leitura

Cada vez que a vossa equipa de serviço ao cliente envia uma pergunta para uma plataforma de IA de terceiros, estão a enviar os dados dos vossos clientes, a vossa linguagem operacional, a vossa competência de domínio e a vossa inteligência competitiva para um servidor que não controlam. A resposta volta. Os dados ficam.

Isto não é um argumento de privacidade. É um argumento de arquitectura.

O Problema da Plataforma Alugada

O percurso padrão de adopção de IA para uma PME europeia em 2025 é este: inscrever-se num serviço de IA gerido, alimentá-lo com os dados da empresa, deixá-lo aprender os vossos padrões, depender dos seus outputs. A configuração demora uma semana. A dependência demora um trimestre.

O RGPD — especificamente o Artigo 28, que rege as obrigações dos subcontratantes — exige um enquadramento contratual entre o responsável pelo tratamento (vocês) e o subcontratante (a plataforma). A maioria das empresas cumpre este ponto. Poucas compreendem o que acontece ao valor derivado dos seus dados uma vez processados pela plataforma.

A distinção importa. Os dados dos vossos clientes, isoladamente, são vossos. Os padrões extraídos dos dados dos vossos clientes, combinados com padrões de dez mil outras empresas, tornam-se um sinal de treino. Esse sinal melhora o modelo geral da plataforma. O modelo geral é depois vendido de volta a vocês — e aos vossos concorrentes — como uma funcionalidade.

Estão a subsidiar um produto que será usado contra vocês. Com os vossos próprios dados.

O Que Soberania de Dados Realmente Significa

Soberania de dados não é manter dados num cofre. É controlar a cadeia de extracção de valor. Três níveis.

Nível um: soberania de armazenamento. Sabem onde os vossos dados residem fisicamente. É a base do RGPD. Os Artigos 44 a 49 regem as transferências internacionais de dados. A maioria das empresas da UE tratou disto — ou pensa que tratou. A orientação do CEPD sobre fornecedores de serviços cloud acrescentou especificidade: saber o país não é suficiente. É preciso saber os centros de dados específicos, os subcontratantes e as condições sob as quais os dados podem ser acedidos por entidades terceiras.

Nível dois: soberania de processamento. Controlam como os vossos dados são processados. Isto vai além da limitação de finalidade do Artigo 5 do RGPD. Soberania de processamento significa que quando os vossos dados são usados para treinar, afinar ou ajustar um modelo, as melhorias resultantes do modelo são atribuíveis e controláveis. A maioria das plataformas de IA geridas não oferece este nível de transparência. O processamento acontece numa caixa negra. A extracção de valor é opaca.

Nível três: soberania de insights. Os padrões, previsões e decisões derivados dos vossos dados permanecem vossos. Não como uma reivindicação jurídica — como uma arquitectura técnica. Os insights gerados a partir dos vossos dados operacionais alimentam os vossos sistemas, não um modelo de uso geral que serve os vossos concorrentes.

A maioria das empresas opera no nível um e assume que resolveu o problema. Não resolveu.

A Arquitectura da Independência

Incorporar soberania de dados numa implantação de IA não é filosófico. É arquitectónico. Quatro decisões técnicas.

Decisão um: onde o modelo corre. Um modelo a correr na vossa infra-estrutura (ou em infra-estrutura cloud dedicada com garantias contratuais) processa os vossos dados sem os transmitir a uma plataforma partilhada. Não se trata de construir o vosso próprio GPT. Trata-se de implantar modelos afinados — modelos de pesos abertos como Mistral, Llama ou Qwen — em infra-estrutura que controlam. O custo de computação é superior ao de uma API gerida. A soberania é absoluta.

Para a maioria das PME, o meio-termo prático é uma instância dedicada de um modelo gerido com garantias contratuais de que os vossos dados não são usados para treino, não são combinados com dados de outros clientes e são eliminados após o processamento. A Anthropic, a OpenAI e a Mistral oferecem todas essas garantias — mas é preciso ler o contrato específico, não a página de marketing. O model card (um documento sobre o qual escrevi separadamente) diz mais sobre o que o modelo realmente faz do que o pitch comercial.

Decisão dois: onde a afinação acontece. Se afinam um modelo com os vossos dados de domínio — as vossas transcrições de apoio ao cliente, as vossas especificações de produto, os vossos procedimentos operacionais — o modelo adaptado resultante contém a vossa inteligência competitiva nos seus pesos. Esse modelo deve viver em infra-estrutura que controlam. Afinar numa plataforma alugada significa que a vossa competência de domínio está incorporada num sistema que não é vosso. Se a plataforma mudar os termos, aumentar os preços ou descontinuar o serviço, o vosso modelo afinado vai com ela.

Decisão três: onde os vectores vivem. As arquitecturas RAG (retrieval-augmented generation) usam bases de dados de vectores para armazenar embeddings dos vossos documentos. Esses embeddings são uma representação comprimida da vossa base de conhecimento. Devem viver em infra-estrutura que controlam — não num serviço de vectores gerido que mistura os vossos embeddings com dados de outros clientes. Alojar a vossa própria base de dados de vectores (Qdrant, Milvus, pgvector numa instância PostgreSQL gerida) custa entre 50 € e 300 € por mês para uma carga de trabalho típica de PME. É o custo de ser dono da vossa arquitectura de conhecimento.

Decisão quatro: onde o ciclo de feedback se fecha. Quando os utilizadores interagem com a vossa ferramenta de IA, o feedback deles — correcções, preferências, sugestões rejeitadas — são os dados mais valiosos do sistema. Dizem onde o modelo falha nas vossas tarefas específicas. Este ciclo de feedback deve fechar-se dentro dos vossos sistemas. Se o feedback flui para uma plataforma gerida, a plataforma aprende com as correcções dos vossos utilizadores. Vocês pagaram pela implantação. Eles ficam com a aprendizagem.

A Dimensão do Artigo 22 do RGPD

O Artigo 22 do RGPD dá aos indivíduos o direito de não ficarem sujeitos a decisões baseadas unicamente em processamento automatizado. Isto é normalmente discutido como um requisito de conformidade. Também é um requisito arquitectónico.

Se a vossa ferramenta de IA toma decisões que afectam indivíduos — avaliação de crédito, triagem de contratação, elegibilidade para serviços — o Artigo 22 exige supervisão humana significativa. “Significativa” é a palavra operativa. A acção de aplicação da autoridade de protecção de dados de Hamburgo em 2025 (uma multa de 492.000 € por tomada de decisão automatizada de crédito sem supervisão humana significativa) demonstrou que “significativa” significa que o revisor humano deve ter a capacidade técnica e a autoridade operacional para contrariar a decisão automatizada. Um processo de revisão de carimbo de borracha não se qualifica.

Quando esta tomada de decisão automatizada corre numa plataforma de terceiros, a arquitectura técnica para supervisão humana significativa torna-se mais complexa. O revisor humano precisa de acesso ao raciocínio do modelo (ou pelo menos aos seus sinais de confiança), aos dados de entrada e às decisões alternativas que o modelo considerou. Se estes são gerados numa plataforma alugada, o processo de revisão depende das funcionalidades de explicabilidade da plataforma — que podem ser limitadas, podem mudar sem aviso e podem não satisfazer a definição de “significativa” da autoridade de protecção de dados.

Na vossa própria infra-estrutura, controlam a camada de explicabilidade. Decidem o que o revisor humano vê, que mecanismos de contestação existem e como as decisões são registadas.

Canais Próprios: O Paralelo do Conteúdo

O argumento da soberania de dados tem um paralelo de conteúdo igualmente importante e igualmente subestimado.

A maioria das empresas produz conteúdo em plataformas alugadas: posts no LinkedIn, stories no Instagram, artigos no Medium. A plataforma controla a distribuição. O algoritmo determina o alcance. Os termos de serviço definem o que se pode dizer. A vossa audiência está a uma mudança de algoritmo de desaparecer.

Canais próprios — o vosso website, a vossa lista de email, as vossas relações directas com clientes — são o equivalente em conteúdo da soberania de dados. Controlam a distribuição. São donos da relação. A audiência pertence-vos, não à plataforma.

Na Bluewaves, cada peça de conteúdo que produzimos vive primeiro no nosso próprio domínio. Pode ser sindicado noutros sítios, mas a versão canónica vive em infra-estrutura que controlamos. Cada relação de subscritor é directa — nenhum algoritmo entre nós e o leitor. Cada dado de desempenho flui para a nossa análise, não para o dashboard de uma plataforma que pode ser descontinuado sem aviso.

O mesmo princípio aplica-se à implantação de IA. A vossa ferramenta de IA deve correr em canais que possuem, servir utilizadores com quem têm uma relação directa e gerar dados que alimentam os vossos sistemas. Alugar alcance é tentador porque é rápido. Possuir alcance é mais difícil porque requer infra-estrutura. Mas alcance alugado é alugado, e o senhorio pode mudar os termos a qualquer momento.

A Comparação de Custos Que Ninguém Faz Honestamente

As plataformas de IA geridas cobram por utilização: por token, por consulta, por chamada de API. O custo marginal parece baixo. Em escala, acumula-se.

Uma empresa de 200 pessoas a correr uma ferramenta de IA de serviço ao cliente que trata 500 consultas por dia a uma média de 2.000 tokens por consulta está a processar 1 milhão de tokens por dia. Aos preços actuais de API gerida (aproximadamente 3-15 dólares por milhão de tokens de input dependendo do modelo e fornecedor), são 90-450 dólares por mês só de inferência. Acessível.

Mas acrescentem custos de afinação, alojamento de base de dados de vectores, monitorização e o custo implícito dos dados a fluir para terceiros, e a comparação muda. Uma implantação dedicada num cluster Kubernetes gerido com um modelo de pesos abertos custa 400-1.200 € por mês para a mesma carga de trabalho — com soberania total de dados, sem preços por token e sem dependência das decisões de preçário de um fornecedor.

O custo inicial é mais alto. O custo contínuo é mais baixo. O custo estratégico — o custo da dependência de uma plataforma que controla o vosso pipeline de dados — é zero.

A maioria das empresas nunca faz esta comparação porque a API gerida é mais rápida de configurar. Rapidez de configuração não é uma vantagem estratégica. Rapidez de configuração é uma conveniência táctica que se torna uma responsabilidade estratégica.

A Dimensão do BCE

A Revisão de Estabilidade Financeira do BCE de Novembro de 2025 notou que “o risco de concentração em fornecedores de serviços cloud e IA representa uma preocupação sistémica para a estabilidade financeira da UE”. O relatório sinalizou especificamente a dependência das instituições financeiras da UE de um pequeno número de fornecedores de infra-estrutura de IA baseados nos EUA.

É a versão macro do mesmo argumento. Quando milhares de empresas dependem das mesmas três plataformas de IA, uma mudança de preçário, uma interrupção de serviço ou uma alteração de política afecta todas simultaneamente. Risco de concentração ao nível da empresa individual é dependência. Risco de concentração ao nível da UE é uma vulnerabilidade sistémica.

Para uma PME individual, a resposta não é construir a vossa própria cloud. É assegurar que a vossa arquitectura de IA é portável — que podem mover os vossos modelos, dados e fluxos de trabalho para um fornecedor diferente (ou para a vossa própria infra-estrutura) sem reconstruir do zero. A portabilidade é a expressão arquitectónica da soberania.

Os modelos de pesos abertos são portáveis por definição. Um modelo que afinaram sobre Mistral pode correr em qualquer infra-estrutura que suporte o formato do modelo. Um modelo que afinaram numa plataforma gerida pode ou não ser exportável — verifiquem o contrato.

A vossa base de dados de vectores é portável se usa formatos e protocolos abertos. O vosso pipeline de RAG é portável se é construído em componentes de código aberto. Os vossos dados de feedback são portáveis se são armazenados num formato que controlam.

Portabilidade não é uma funcionalidade. É uma decisão arquitectónica tomada antes da primeira linha de código.

O Que Isto Significa Operacionalmente

Para uma PME da UE com 50 a 500 trabalhadores, soberania de dados na implantação de IA significa:

Usar APIs geridas para experimentação, não para produção. Testar modelos, avaliar capacidades, prototipar casos de uso em plataformas geridas. Quando o caso de uso está validado, construir a implantação de produção em infra-estrutura que controlam. O piloto corre na plataforma deles. O produto corre na vossa.

Afinar na vossa infra-estrutura. Se a vossa ferramenta de IA precisa de conhecimento específico de domínio, afinem um modelo de pesos abertos com os vossos dados, na vossa infra-estrutura. O modelo resultante é vosso — os pesos, as adaptações, a inteligência competitiva incorporada nessas adaptações.

Ser donos do ciclo de feedback. Cada interacção do utilizador com a vossa ferramenta de IA gera dados. Correcções, preferências, padrões de uso, modos de falha — estes dados são mais valiosos do que os dados de treino originais porque representam o que os vossos utilizadores específicos realmente precisam. Armazenem-nos nos vossos sistemas. Usem-nos para melhorar o vosso modelo. Não os enviem para uma plataforma gerida onde se tornam parte do sinal de treino geral deles.

Construir para portabilidade. Usem formatos abertos, protocolos abertos, modelos abertos. Quando conseguem mudar de fornecedor numa semana em vez de num trimestre, têm soberania. Quando a mudança demora seis meses de re-engenharia, são inquilinos, não proprietários.

Ler o contrato, não o marketing. Os termos de serviço das plataformas de IA não são documentos de marketing — são instrumentos jurídicos que definem o que acontece aos vossos dados. Leiam-nos. Especificamente: o fornecedor usa os vossos dados para treino de modelos? Em que condições? Podem exportar o vosso modelo afinado? Os vossos embeddings vectoriais? Os vossos registos de utilização? Se a resposta é não, sabem o que estão a comprar.

A Decisão Construir-vs-Comprar, Reformulada

A decisão convencional de construir-vs-comprar em IA foca-se na capacidade: conseguem construir um modelo tão bom como o serviço gerido? A resposta, para a maioria das PME, é não. Os modelos geridos são treinados com mais dados, com mais computação, por mais investigadores do que qualquer PME pode replicar.

Mas a decisão não é sobre capacidade. É sobre controlo.

Comprem a capacidade. Sejam donos dos dados. É o meio-termo prático que a maioria das discussões sobre soberania falha.

Usem a API do modelo gerido para inferência — para gerar outputs, responder a perguntas, classificar inputs. A capacidade do modelo é alugada. Os dados que fluem pelo modelo não são.

Sejam donos do pipeline de dados: os inputs, os outputs, o feedback, as correcções, os padrões de uso. Armazenem-nos nos vossos sistemas. Analisem-nos com as vossas ferramentas. Usem-nos para avaliar, melhorar e eventualmente substituir o modelo gerido por uma alternativa afinada de pesos abertos.

Sejam donos da base de dados de vectores: os embeddings da vossa base de conhecimento, dos vossos documentos, dos vossos procedimentos operacionais. São o vosso conhecimento organizacional em forma comprimida. Não devem viver numa plataforma partilhada.

Sejam donos do enquadramento de avaliação: os benchmarks, os casos de teste, os critérios de qualidade que determinam se os outputs do modelo são suficientemente bons para o vosso caso de uso específico. Os benchmarks genéricos da plataforma gerida não captam os vossos requisitos de domínio.

A sequência é: aluguem a capacidade, sejam donos dos dados, construam a independência. A independência não acontece no primeiro dia. Acontece ao longo de meses, à medida que os vossos dados acumulam, o vosso enquadramento de avaliação amadurece e a vossa compreensão do que precisam de um modelo de IA se torna específica o suficiente para justificar uma implantação dedicada.

A API gerida é um ponto de partida. Não deve ser a arquitectura.

O Princípio

Os vossos dados não são matéria-prima neutra que só ganha valor quando processada por uma plataforma. Os vossos dados são a vossa vantagem competitiva, a vossa inteligência operacional, as vossas relações com clientes expressas como informação. São o produto de anos de trabalho, milhares de interacções, milhões de decisões.

Quando os enviam para uma plataforma que não controlam, estão a trocar soberania por conveniência. A conveniência é real. O custo está escondido — até a plataforma mudar o preçário, os termos ou a API, e descobrirem que a base da vossa capacidade de IA pertence a outra pessoa.

Sejam donos dos vossos dados. Sejam donos dos vossos modelos. Sejam donos dos vossos canais. Sejam donos da infra-estrutura que transforma o vosso conhecimento em vantagem competitiva.

A alternativa é construir a vossa casa em terreno alugado e esperar que o senhorio nunca aumente a renda.

O senhorio aumenta sempre a renda.

Sejam donos dos vossos dados. Sejam donos dos vossos modelos. Sejam donos dos vossos canais. A arquitectura da independência dá mais trabalho inicialmente. Dá menos trabalho no total. E o trabalho produz algo que a conveniência alugada nunca produz: um activo que se acumula.

Os vossos dados, os vossos modelos, os vossos ciclos de feedback — acumulam-se. Cada mês de operação torna o mês seguinte mais valioso. Cada interacção do utilizador melhora a interacção seguinte. Cada correcção torna o sistema mais exacto.

Numa plataforma alugada, a acumulação beneficia a plataforma. Na vossa própria infra-estrutura, a acumulação beneficia-vos.

Sejam donos da acumulação. A renda nunca vale a pena.

Escrito por

Bertrand

Tecnólogo Criativo

Um empreendedor em série com doutoramento em IA e vinte e cinco anos a construir sistemas em toda a Europa. Cria código da mesma forma que surfa: lê padrões, encontra o fluxo, faz o difícil parecer fácil.

← Todas as notas