Jouw data is niet hun platform
Bertrand 4 november 2025

Jouw data is niet hun platform

13 min leestijd

Elke keer dat jouw klantenserviceteam een vraag naar een extern AI-platform stuurt, stuur je jouw klantdata, jouw operationele taal, jouw domeinexpertise en jouw concurrentie-informatie naar een server die je niet beheert. Het antwoord komt terug. De data blijft.

Dit is geen privacyargument. Dit is een architectuurargument.

Het gehuurde-platformprobleem

Het standaard AI-adoptiepad voor een Europees mkb-bedrijf in 2025 ziet er zo uit: meld je aan bij een beheerde AI-dienst, voer je bedrijfsdata in, laat het je patronen leren, word afhankelijk van de output. De setup duurt een week. De afhankelijkheid een kwartaal.

De AVG — specifiek artikel 28, dat de verplichtingen van verwerkers regelt — vereist een contractueel kader tussen de verwerkingsverantwoordelijke (jij) en de verwerker (het platform). De meeste bedrijven vinken dit vakje af. Weinig bedrijven begrijpen wat er gebeurt met de afgeleide waarde van hun data zodra het platform het verwerkt.

Het onderscheid doet ertoe. Jouw klantdata, op zichzelf, is van jou. De patronen die uit jouw klantdata worden geextraheerd, gecombineerd met patronen van tienduizend andere bedrijven, worden een trainingssignaal. Dat trainingssignaal verbetert het algemene model van het platform. Het algemene model wordt vervolgens terug aan jou verkocht — en aan jouw concurrenten — als een functie.

Je subsidieert een product dat tegen je gebruikt zal worden. Met je eigen data.

Wat datasoevereiniteit werkelijk betekent

Datasoevereiniteit gaat niet over het bewaren van data in een kluis. Het gaat over het beheersen van de keten van waarde-extractie. Drie niveaus.

Niveau een: opslagsoevereiniteit. Je weet waar je data fysiek staat. Dit is de AVG-basislijn. Artikelen 44 tot en met 49 regelen internationale gegevensoverdracht. De meeste EU-bedrijven hebben dit geadresseerd — of denken dat. EDPB-richtlijnen over cloudserviceproviders hebben specificiteit toegevoegd: het land weten is niet genoeg. Je moet de specifieke datacenters kennen, de subverwerkers, en de voorwaarden waaronder data door derden kan worden benaderd.

Niveau twee: verwerkingssoevereiniteit. Je beheert hoe je data wordt verwerkt. Dit gaat verder dan de doelbinding van AVG artikel 5. Verwerkingssoevereiniteit betekent dat wanneer je data wordt gebruikt om een model te trainen, te finetunen of bij te stellen, de resulterende modelverbeteringen toe te schrijven en te beheersen zijn. De meeste beheerde AI-platforms bieden dit niveau van transparantie niet. De verwerking vindt plaats in een black box. De waarde-extractie is ondoorzichtig.

Niveau drie: inzichtsoevereiniteit. De patronen, voorspellingen en beslissingen die uit jouw data zijn afgeleid, blijven van jou. Niet als juridische claim — als technische architectuur. De inzichten gegenereerd uit jouw operationele data stromen terug naar jouw systemen, niet naar een algemeen model dat jouw concurrenten bedient.

De meeste bedrijven opereren op niveau een en gaan ervan uit dat ze het probleem hebben opgelost. Dat hebben ze niet.

De architectuur van onafhankelijkheid

Datasoevereiniteit inbouwen in een AI-implementatie is niet filosofisch. Het is architecturaal. Vier technische beslissingen.

Beslissing een: waar het model draait. Een model dat draait op jouw infrastructuur (of toegewijde cloudinfrastructuur met contractuele garanties) verwerkt je data zonder het naar een gedeeld platform te verzenden. Dit gaat niet over het bouwen van je eigen GPT. Het gaat over het inzetten van gefinetuned modellen — open-weight modellen zoals Mistral, Llama of Qwen — op infrastructuur die je beheert. De rekenkosten zijn hoger dan een beheerde API. De soevereiniteit is absoluut.

Voor de meeste mkb-bedrijven is het praktische midden een toegewijde instantie van een beheerd model met contractuele garanties dat je data niet wordt gebruikt voor training, niet wordt gecombineerd met data van andere klanten, en wordt verwijderd na verwerking. Anthropic, OpenAI en Mistral bieden zulke garanties — maar je moet het specifieke contract lezen, niet de marketingpagina. De modelkaart (een document waarover ik apart heb geschreven) vertelt je meer over wat het model werkelijk doet dan het verkooppraatje.

Beslissing twee: waar de finetuning plaatsvindt. Als je een model finetunet op je domeindata — je klantenservicetranscripten, je productspecificaties, je operationele procedures — bevat het resulterende aangepaste model je concurrentie-informatie in zijn gewichten. Dat model moet op infrastructuur staan die je beheert. Finetunen op een gehuurd platform betekent dat je domeinexpertise is ingebed in een systeem dat je niet bezit. Als het platform zijn voorwaarden wijzigt, zijn prijzen verhoogt, of de dienst stopt, verdwijnt je gefinetuned model ermee.

Beslissing drie: waar de vectoren staan. RAG-architecturen (retrieval-augmented generation) gebruiken vectordatabases om embeddings van je documenten op te slaan. Die embeddings zijn een gecomprimeerde representatie van je kennisbasis. Ze moeten op infrastructuur staan die je beheert — niet op een beheerde vectorservice die je embeddings mengt met die van andere klanten. Het hosten van je eigen vectordatabase (Qdrant, Milvus, pgvector in een beheerde PostgreSQL-instantie) kost tussen EUR 50 en EUR 300 per maand voor een typische mkb-workload. Dat zijn de kosten van het bezitten van je kennisarchitectuur.

Beslissing vier: waar de feedbackloop sluit. Wanneer gebruikers interacteren met je AI-tool, genereert hun feedback — correcties, voorkeuren, afgewezen suggesties — de meest waardevolle data in het systeem. Het vertelt je waar het model faalt op jouw specifieke taken. Deze feedbackloop moet sluiten binnen jouw systemen. Als de feedback naar een beheerd platform stroomt, leert het platform van de correcties van jouw gebruikers. Jij betaalde voor de implementatie. Zij krijgen het leren.

De AVG artikel 22-dimensie

Artikel 22 van de AVG geeft individuen het recht om niet onderworpen te worden aan besluiten die uitsluitend gebaseerd zijn op geautomatiseerde verwerking. Dit wordt doorgaans besproken als compliancevereiste. Het is ook een architectuurvereiste.

Als je AI-tool beslissingen neemt die individuen beinvloeden — kredietscore, werving, dienstgeschiktheid — vereist artikel 22 betekenisvol menselijk toezicht. “Betekenisvol” is het operationele woord. De handhavingsactie van de Hamburgse toezichthouder in 2025 (een boete van EUR 492.000 voor geautomatiseerde kredietbesluitvorming zonder betekenisvol menselijk toezicht) toonde aan dat “betekenisvol” inhoudt dat de menselijke beoordelaar de technische capaciteit en de operationele bevoegdheid moet hebben om de geautomatiseerde beslissing te overschrijven. Een rubberstempel-beoordelingsproces voldoet niet.

Wanneer deze geautomatiseerde besluitvorming op een extern platform draait, wordt de technische architectuur voor betekenisvol menselijk toezicht complexer. De menselijke beoordelaar heeft toegang nodig tot de redenering van het model (of ten minste de vertrouwenssignalen), de inputdata en de alternatieve beslissingen die het model overwoog. Als die worden gegenereerd op een gehuurd platform, hangt het beoordelingsproces af van de uitlegbaarheidsfuncties van het platform — die beperkt kunnen zijn, zonder bericht kunnen veranderen, en mogelijk niet voldoen aan de definitie van “betekenisvol” van de toezichthouder.

Op je eigen infrastructuur beheer je de uitlegbaarheidslaag. Je bepaalt wat de menselijke beoordelaar ziet, welke overschrijvingsmechanismen er zijn, en hoe beslissingen worden gelogd.

Eigen kanalen: de contentparallel

Het datasoevereiniteitsargument heeft een contentparallel die even belangrijk en even ondergewaardeerd is.

De meeste bedrijven produceren content op gehuurde platforms: LinkedIn-posts, Instagram-stories, Medium-artikelen. Het platform beheert de distributie. Het algoritme bepaalt het bereik. De gebruiksvoorwaarden definieren wat je mag zeggen. Je publiek is een algoritmewijziging verwijderd van verdwijnen.

Eigen kanalen — je website, je e-maillijst, je directe klantrelaties — zijn het content-equivalent van datasoevereiniteit. Je beheert de distributie. Je bezit de relatie. Het publiek is van jou, niet van het platform.

Bij Bluewaves staat elk stuk content dat we produceren eerst op ons eigen domein. Het kan elders worden gesyndikeerd, maar de canonieke versie staat op infrastructuur die wij beheersen. Elke abonneerelatie is direct — geen algoritme tussen ons en de lezer. Elk stuk prestatiedata stroomt naar onze analytics, niet naar een platformdashboard dat zonder bericht kan worden afgeschaft.

Hetzelfde principe geldt voor AI-implementatie. Je AI-tool moet draaien op kanalen die je bezit, gebruikers bedienen waarmee je een directe relatie hebt, en data genereren die terugstroomt naar je eigen systemen. Bereik huren is verleidelijk omdat het snel is. Bereik bezitten is moeilijker omdat het infrastructuur vereist. Maar gehuurd bereik is gehuurd, en de verhuurder kan de voorwaarden op elk moment wijzigen.

De kostenvergelijking die niemand eerlijk maakt

Beheerde AI-platforms prijzen op gebruik: per token, per query, per API-aanroep. De marginale kosten voelen laag. Op schaal stapelen ze zich op.

Een bedrijf van 200 personen dat een klantenservice AI-tool draait die 500 vragen per dag afhandelt met gemiddeld 2.000 tokens per vraag, verwerkt 1 miljoen tokens per dag. Tegen huidige beheerde API-prijzen (circa $3-$15 per miljoen input tokens afhankelijk van model en aanbieder) is dat $90-$450 per maand voor alleen inferentie. Betaalbaar.

Maar tel finetuningkosten, vectordatabase-hosting, monitoring en de impliciete kosten van data die naar een derde partij stroomt erbij op, en de vergelijking verschuift. Een toegewijde implementatie op een beheerd Kubernetes-cluster met een open-weight model kost EUR 400-EUR 1.200 per maand voor dezelfde workload — met volledige datasoevereiniteit, geen per-token prijsstelling, en geen afhankelijkheid van de prijsbeslissingen van een aanbieder.

De initiiele kosten zijn hoger. De doorlopende kosten zijn lager. De strategische kosten — de kosten van afhankelijkheid van een platform dat je datapipeline beheert — zijn nul.

De meeste bedrijven maken deze vergelijking nooit omdat de beheerde API sneller op te zetten is. Snelheid van opzet is geen strategisch voordeel. Snelheid van opzet is een tactisch gemak dat een strategische aansprakelijkheid wordt.

De ECB-dimensie

Het Financial Stability Review van de ECB van november 2025 merkte op dat “concentratierisico bij cloud- en AI-dienstverleners een systeemzorg vormt voor de financiele stabiliteit van de EU.” Het rapport signaleerde specifiek de afhankelijkheid van EU-financiele instellingen van een klein aantal in de VS gevestigde AI-infrastructuuraanbieders.

Dit is de macroversie van hetzelfde argument. Wanneer duizenden bedrijven afhankelijk zijn van dezelfde drie AI-platforms, treft een prijswijziging, een dienstverstoring of een beleidsverandering ze allemaal tegelijkertijd. Concentratierisico op individueel bedrijfsniveau is afhankelijkheid. Concentratierisico op EU-niveau is een systeemkwetsbaarheid.

Voor een individueel mkb-bedrijf is het antwoord niet om je eigen cloud te bouwen. Het is om te verzekeren dat je AI-architectuur overdraagbaar is — dat je je modellen, je data en je workflows kunt verplaatsen naar een andere aanbieder (of naar je eigen infrastructuur) zonder helemaal opnieuw te hoeven bouwen. Overdraagbaarheid is de architecturale uitdrukking van soevereiniteit.

Open-weight modellen zijn per definitie overdraagbaar. Een model dat je op Mistral hebt gefinetuned, kan draaien op elke infrastructuur die het modelformaat ondersteunt. Een model dat je op een beheerd platform hebt gefinetuned, kan al dan niet exporteerbaar zijn — lees het contract.

Je vectordatabase is overdraagbaar als het open formaten en open protocollen gebruikt. Je RAG-pipeline is overdraagbaar als het is gebouwd op open-source componenten. Je feedbackdata is overdraagbaar als het is opgeslagen in een formaat dat je beheert.

Overdraagbaarheid is geen functie. Het is een architectuurbeslissing die genomen wordt voor de eerste regel code.

Wat dit operationeel betekent

Voor een EU mkb-bedrijf met 50 tot 500 werknemers betekent datasoevereiniteit in AI-implementatie:

Gebruik beheerde API’s voor experimenteren, niet voor productie. Test modellen, evalueer capaciteiten, prototype use cases op beheerde platforms. Wanneer de use case gevalideerd is, bouw de productie-implementatie op infrastructuur die je beheert. De pilot draait op hun platform. Het product draait op het jouwe.

Finetune op je eigen infrastructuur. Als je AI-tool domeinspecifieke kennis nodig heeft, finetune een open-weight model op je data, op je infrastructuur. Het resulterende model is van jou — de gewichten, de aanpassingen, de concurrentie-informatie die in die aanpassingen zit.

Bezit de feedbackloop. Elke gebruikersinteractie met je AI-tool genereert data. Correcties, voorkeuren, gebruikspatronen, faalwijzen — deze data is waardevoller dan de oorspronkelijke trainingsdata omdat het representeert wat je specifieke gebruikers daadwerkelijk nodig hebben. Sla het op in je systemen. Gebruik het om je model te verbeteren. Stuur het niet naar een beheerd platform waar het onderdeel wordt van hun algemene trainingssignaal.

Bouw voor overdraagbaarheid. Gebruik open formaten, open protocollen, open modellen. Wanneer je in een week van aanbieder kunt wisselen in plaats van een kwartaal, heb je soevereiniteit. Wanneer wisselen zes maanden herontwerp kost, ben je een huurder, geen eigenaar.

Lees het contract, niet de marketing. De gebruiksvoorwaarden van AI-platforms zijn geen marketingdocumenten — het zijn juridische instrumenten die definieren wat er met je data gebeurt. Lees ze. Specifiek: gebruikt de aanbieder je data voor modeltraining? Onder welke voorwaarden? Kun je je gefinetuned model exporteren? Je vectorembeddings? Je gebruikslogboeken? Als het antwoord nee is, weet je wat je koopt.

De bouw-versus-koop-beslissing, opnieuw ingekaderd

De conventionele bouw-versus-koop-beslissing bij AI richt zich op capaciteit: kun je een model bouwen dat net zo goed is als de beheerde dienst? Het antwoord is voor de meeste mkb-bedrijven nee. De beheerde modellen zijn getraind op meer data, met meer rekenkracht, door meer onderzoekers dan enig mkb-bedrijf kan repliceren.

Maar de beslissing gaat niet over capaciteit. Het gaat over controle.

Koop de capaciteit. Bezit de data. Dit is de praktische middenweg die de meeste soevereiniteitsdiscussies missen.

Gebruik de API van het beheerde model voor inferentie — voor het genereren van output, beantwoorden van vragen, classificeren van input. De capaciteit van het model is gehuurd. De data die door het model stroomt niet.

Bezit de datapipeline: de inputs, de outputs, de feedback, de correcties, de gebruikspatronen. Sla ze op in je systemen. Analyseer ze met je tools. Gebruik ze om het beheerde model te evalueren, te verbeteren en uiteindelijk te vervangen door een gefinetuned open-weight alternatief.

Bezit de vectordatabase: de embeddings van je kennisbasis, je documenten, je operationele procedures. Dit is je organisatiekennis in gecomprimeerde vorm. Die hoort niet thuis op een gedeeld platform.

Bezit het evaluatiekader: de benchmarks, de testcases, de kwaliteitscriteria die bepalen of de output van het model goed genoeg is voor jouw specifieke use case. De generieke benchmarks van het beheerde platform dekken jouw domeinvereisten niet.

De volgorde is: huur de capaciteit, bezit de data, bouw de onafhankelijkheid. De onafhankelijkheid gebeurt niet op dag een. Het gebeurt over maanden, terwijl je eigen data accumuleert, je evaluatiekader volwassen wordt, en je begrip van wat je nodig hebt van een AI-model specifiek genoeg wordt om een toegewijde implementatie te rechtvaardigen.

De beheerde API is een vertrekpunt. Het zou niet de architectuur moeten zijn.

Het principe

Jouw data is geen neutraal grondstof dat pas waarde krijgt wanneer het door een platform wordt verwerkt. Jouw data is je concurrentievoordeel, je operationele intelligentie, je klantrelaties uitgedrukt als informatie. Het is het product van jaren werk, duizenden interacties, miljoenen beslissingen.

Wanneer je het naar een platform stuurt dat je niet beheert, ruil je soevereiniteit in voor gemak. Het gemak is echt. De kosten zijn verborgen — tot het platform zijn prijzen, voorwaarden of API wijzigt, en je ontdekt dat het fundament van je AI-capaciteit aan iemand anders toebehoort.

Bezit je data. Bezit je modellen. Bezit je kanalen. Bezit de infrastructuur die je kennis omzet in concurrentievoordeel.

Het alternatief is je huis bouwen op gehuurde grond en hopen dat de verhuurder nooit de huur verhoogt.

De verhuurder verhoogt altijd de huur.

Bezit je data. Bezit je modellen. Bezit je kanalen. De architectuur van onafhankelijkheid is meer werk vooraf. Het is minder werk in totaal. En het werk levert iets op dat gehuurd gemak nooit oplevert: een bezitting die zich opstapelt.

Jouw data, jouw modellen, jouw feedbackloops — deze stapelen zich op. Elke maand operatie maakt de volgende maand waardevoller. Elke gebruikersinteractie verbetert de volgende interactie. Elke correctie maakt het systeem nauwkeuriger.

Op een gehuurd platform komt de opstapeling het platform ten goede. Op je eigen infrastructuur komt de opstapeling jou ten goede.

Bezit de opstapeling. De huur is het nooit waard.

Geschreven door
Bertrand
Creatief Technoloog

Een serieel ondernemer met een PhD in AI en vijfentwintig jaar ervaring met het bouwen van systemen door heel Europa. Hij schrijft code zoals hij surft: patronen lezen, de flow vinden, het moeilijke moeiteloos laten lijken.

← Alle notities