Ihre Daten sind nicht deren Plattform
Bertrand 4. November 2025

Ihre Daten sind nicht deren Plattform

12 Min. Lesezeit

Jedes Mal, wenn Ihr Kundenservice-Team eine Anfrage an eine Drittanbieter-KI-Plattform sendet, senden Sie Ihre Kundendaten, Ihre operative Sprache, Ihre Domaenenexpertise und Ihre Wettbewerbsintelligenz an einen Server, den Sie nicht kontrollieren. Die Antwort kommt zurueck. Die Daten bleiben.

Das ist kein Datenschutz-Argument. Das ist ein Architektur-Argument.

Das Problem gemieteter Plattformen

Der Standard-KI-Einfuehrungspfad fuer ein europaeisches KMU in 2025 sieht so aus: Anmeldung bei einem Managed-KI-Service, Unternehmensdaten einspeisen, Muster lernen lassen, auf Ausgaben angewiesen sein. Die Einrichtung dauert eine Woche. Die Abhaengigkeit dauert ein Quartal.

Die DSGVO — speziell Artikel 28, der die Pflichten von Auftragsverarbeitern regelt — verlangt einen Vertragsrahmen zwischen dem Verantwortlichen (Ihnen) und dem Auftragsverarbeiter (der Plattform). Die meisten Unternehmen erfuellen diese Anforderung. Wenige Unternehmen verstehen, was mit dem abgeleiteten Wert ihrer Daten passiert, nachdem die Plattform sie verarbeitet hat.

Die Unterscheidung ist wichtig. Ihre Kundendaten, isoliert betrachtet, gehoeren Ihnen. Die Muster, die aus Ihren Kundendaten extrahiert werden, kombiniert mit Mustern von zehntausend anderen Unternehmensdaten, werden zu einem Trainingssignal. Dieses Trainingssignal verbessert das allgemeine Modell der Plattform. Das allgemeine Modell wird dann an Sie zurueckverkauft — und an Ihre Wettbewerber — als Feature.

Sie subventionieren ein Produkt, das gegen Sie eingesetzt wird. Mit Ihren eigenen Daten.

Was Datensouveraenitaet tatsaechlich bedeutet

Datensouveraenitaet bedeutet nicht, Daten in einen Tresor zu sperren. Es bedeutet, die Kette der Wertschoepfung zu kontrollieren. Drei Ebenen.

Ebene eins: Speichersouveraenitaet. Sie wissen, wo Ihre Daten physisch liegen. Das ist die DSGVO-Basislinie. Artikel 44 bis 49 regeln internationale Datenuebermittlungen. Die meisten EU-Unternehmen haben das adressiert — oder denken, sie haetten es. Die Leitlinien des EDSA zu Cloud-Dienstleistern haben Spezifitaet hinzugefuegt: Das Land zu kennen reicht nicht. Sie muessen die spezifischen Rechenzentren, die Unterauftragsverarbeiter und die Bedingungen kennen, unter denen Dritte auf die Daten zugreifen koennen.

Ebene zwei: Verarbeitungssouveraenitaet. Sie kontrollieren, wie Ihre Daten verarbeitet werden. Das geht ueber die Zweckbindung nach Artikel 5 DSGVO hinaus. Verarbeitungssouveraenitaet bedeutet, dass wenn Ihre Daten zum Trainieren, Feinabstimmen oder Anpassen eines Modells verwendet werden, die daraus resultierenden Modellverbesserungen zurechenbar und kontrollierbar sind. Die meisten Managed-KI-Plattformen bieten dieses Mass an Transparenz nicht. Die Verarbeitung geschieht in einer Black Box. Die Wertschoepfung ist undurchsichtig.

Ebene drei: Erkenntnissouveraenitaet. Die Muster, Vorhersagen und Entscheidungen, die aus Ihren Daten abgeleitet werden, bleiben Ihre. Nicht als Rechtsanspruch — als technische Architektur. Die aus Ihren operativen Daten gewonnenen Erkenntnisse fliessen in Ihre Systeme zurueck, nicht in ein Allzweckmodell, das Ihren Wettbewerbern dient.

Die meisten Unternehmen operieren auf Ebene eins und nehmen an, sie haetten das Problem geloest. Das haben sie nicht.

Die Architektur der Unabhaengigkeit

Datensouveraenitaet in eine KI-Einfuehrung einzubauen ist nicht philosophisch. Es ist architektonisch. Vier technische Entscheidungen.

Entscheidung eins: Wo das Modell laeuft. Ein Modell, das auf Ihrer Infrastruktur laeuft (oder dedizierter Cloud-Infrastruktur mit vertraglichen Garantien), verarbeitet Ihre Daten, ohne sie an eine gemeinsame Plattform zu uebertragen. Das bedeutet nicht, Ihr eigenes GPT zu bauen. Es bedeutet, feinabgestimmte Modelle — Open-Weight-Modelle wie Mistral, Llama oder Qwen — auf Infrastruktur einzusetzen, die Sie kontrollieren. Die Rechenkosten sind hoeher als bei einer Managed API. Die Souveraenitaet ist absolut.

Fuer die meisten KMU ist der praktische Mittelweg eine dedizierte Instanz eines verwalteten Modells mit vertraglichen Garantien, dass Ihre Daten nicht fuer das Training verwendet werden, nicht mit Daten anderer Kunden kombiniert werden und nach der Verarbeitung geloescht werden. Anthropic, OpenAI und Mistral bieten solche Garantien — aber Sie muessen den spezifischen Vertrag lesen, nicht die Marketingseite. Die Model Card (ein Dokument, ueber das ich separat schreiben werde) sagt Ihnen mehr darueber, was das Modell tatsaechlich tut, als das Sales Deck.

Entscheidung zwei: Wo die Feinabstimmung stattfindet. Wenn Sie ein Modell auf Ihren Domaenendaten feinabstimmen — Ihre Kundensupport-Transkripte, Ihre Produktspezifikationen, Ihre Betriebsverfahren — enthaelt das resultierende angepasste Modell Ihre Wettbewerbsintelligenz in seinen Gewichten. Dieses Modell sollte auf Infrastruktur leben, die Sie kontrollieren. Feinabstimmung auf einer gemieteten Plattform bedeutet, dass Ihre Domaenenexpertise in einem System eingebettet ist, das Ihnen nicht gehoert. Wenn die Plattform ihre Bedingungen aendert, ihre Preise erhoeht oder den Dienst einstellt, geht Ihr feinabgestimmtes Modell mit.

Entscheidung drei: Wo die Vektoren leben. RAG-Architekturen (Retrieval-Augmented Generation) nutzen Vektordatenbanken zum Speichern von Embeddings Ihrer Dokumente. Diese Embeddings sind eine komprimierte Darstellung Ihrer Wissensbasis. Sie sollten auf Infrastruktur leben, die Sie kontrollieren — nicht auf einem verwalteten Vektordienst, der Ihre Embeddings mit denen anderer Kunden vermischt. Das Hosting Ihrer eigenen Vektordatenbank (Qdrant, Milvus, pgvector in einer verwalteten PostgreSQL-Instanz) kostet zwischen 50 und 300 Euro pro Monat fuer eine typische KMU-Arbeitslast. Das sind die Kosten, Ihre Wissensarchitektur zu besitzen.

Entscheidung vier: Wo der Feedback-Loop schliesst. Wenn Nutzer mit Ihrem KI-Tool interagieren, ist ihr Feedback — Korrekturen, Praeferenzen, abgelehnte Vorschlaege — die wertvollsten Daten im System. Es sagt Ihnen, wo das Modell bei Ihren spezifischen Aufgaben versagt. Dieser Feedback-Loop sollte sich innerhalb Ihrer Systeme schliessen. Wenn das Feedback zu einer verwalteten Plattform fliesst, lernt die Plattform aus den Korrekturen Ihrer Nutzer. Sie haben fuer die Einfuehrung bezahlt. Die bekommen das Lernen.

Die Dimension des Artikels 22 DSGVO

Artikel 22 DSGVO gibt Einzelpersonen das Recht, keiner Entscheidung unterworfen zu werden, die ausschliesslich auf automatisierter Verarbeitung beruht. Das wird ueblicherweise als Compliance-Anforderung diskutiert. Es ist auch eine architektonische Anforderung.

Wenn Ihr KI-Tool Entscheidungen trifft, die Einzelpersonen betreffen — Kreditbewertung, Bewerbervorauswahl, Dienstleistungsanspruch — verlangt Artikel 22 sinnvolle menschliche Aufsicht. “Sinnvoll” ist das entscheidende Wort. Die Durchsetzungsmassnahme der Hamburger Datenschutzbehoerde von 2025 (ein Bussgeld von 492.000 Euro fuer automatisierte Kreditentscheidungen ohne sinnvolle menschliche Aufsicht) hat demonstriert, dass “sinnvoll” bedeutet: Der menschliche Pruefer muss die technische Faehigkeit und die operative Befugnis haben, die automatisierte Entscheidung ausser Kraft zu setzen. Ein Stempel-Pruefprozess qualifiziert sich nicht.

Wenn diese automatisierte Entscheidungsfindung auf einer Drittanbieter-Plattform laeuft, wird die technische Architektur fuer sinnvolle menschliche Aufsicht komplexer. Der menschliche Pruefer braucht Zugang zur Argumentation des Modells (oder zumindest seinen Konfidenzsignalen), den Eingabedaten und den alternativen Entscheidungen, die das Modell erwoegen hat. Wenn diese auf einer gemieteten Plattform generiert werden, haengt der Pruefprozess von den Erklaerbarkeitsfeatures der Plattform ab — die begrenzt sein koennen, sich ohne Vorankuendigung aendern koennen und die Definition von “sinnvoll” der Datenschutzbehoerde moeglicherweise nicht erfuellen.

Auf Ihrer eigenen Infrastruktur kontrollieren Sie die Erklaerbarkeitsschicht. Sie entscheiden, was der menschliche Pruefer sieht, welche Ausser-Kraft-Setzungs-Mechanismen existieren und wie Entscheidungen protokolliert werden.

Eigene Kanaele: Die Content-Parallele

Das Datensouveraenitaets-Argument hat eine Content-Parallele, die ebenso wichtig und ebenso untergeschaetzt ist.

Die meisten Unternehmen produzieren Inhalte auf gemieteten Plattformen: LinkedIn-Posts, Instagram-Stories, Medium-Artikel. Die Plattform kontrolliert die Distribution. Der Algorithmus bestimmt die Reichweite. Die Nutzungsbedingungen definieren, was Sie sagen koennen. Ihr Publikum ist eine Algorithmus-Aenderung vom Verschwinden entfernt.

Eigene Kanaele — Ihre Website, Ihre E-Mail-Liste, Ihre direkten Kundenbeziehungen — sind das Content-Aequivalent von Datensouveraenitaet. Sie kontrollieren die Distribution. Sie besitzen die Beziehung. Das Publikum gehoert Ihnen, nicht der Plattform.

Bei Bluewaves lebt jeder Inhalt, den wir produzieren, zuerst auf unserer eigenen Domain. Er kann anderswo syndiziert werden, aber die kanonische Version lebt auf Infrastruktur, die wir kontrollieren. Jede Abonnentenbeziehung ist direkt — kein Algorithmus zwischen uns und dem Leser. Jedes Leistungsdatum fliesst in unsere Analytik, nicht in das Dashboard einer Plattform, das ohne Vorankuendigung eingestellt werden kann.

Dasselbe Prinzip gilt fuer KI-Einfuehrung. Ihr KI-Tool sollte auf Kanaelen laufen, die Sie besitzen, Nutzer bedienen, mit denen Sie eine direkte Beziehung haben, und Daten generieren, die in Ihre Systeme zurueckfliessen. Reichweite zu mieten ist verlockend, weil es schnell geht. Reichweite zu besitzen ist schwieriger, weil es Infrastruktur erfordert. Aber gemietete Reichweite ist gemietet, und der Vermieter kann die Bedingungen jederzeit aendern.

Der Kostenvergleich, den niemand ehrlich macht

Managed-KI-Plattformen bepreisen nach Nutzung: pro Token, pro Anfrage, pro API-Aufruf. Die Grenzkosten fuehlen sich niedrig an. Im Massstab summieren sie sich.

Ein 200-Personen-Unternehmen, das ein Kundenservice-KI-Tool betreibt, das 500 Anfragen pro Tag mit durchschnittlich 2.000 Tokens pro Anfrage bearbeitet, verarbeitet 1 Million Tokens pro Tag. Bei aktuellen Managed-API-Preisen (etwa 3-15 Dollar pro Million Input-Tokens je nach Modell und Anbieter) sind das 90-450 Dollar pro Monat allein fuer Inferenz. Erschwinglich.

Aber fuegen Sie Feinabstimmungskosten, Vektordatenbank-Hosting, Monitoring und die impliziten Kosten des Datenflusses zu einem Dritten hinzu, und der Vergleich verschiebt sich. Eine dedizierte Einfuehrung auf einem verwalteten Kubernetes-Cluster mit einem Open-Weight-Modell kostet 400-1.200 Euro pro Monat fuer dieselbe Arbeitslast — mit voller Datensouveraenitaet, ohne Pro-Token-Bepreisung und ohne Abhaengigkeit von den Preisentscheidungen eines Anbieters.

Die Vorabkosten sind hoeher. Die laufenden Kosten sind niedriger. Die strategischen Kosten — die Kosten der Abhaengigkeit von einer Plattform, die Ihre Datenpipeline kontrolliert — sind null.

Die meisten Unternehmen machen diesen Vergleich nie, weil die Managed API schneller einzurichten ist. Geschwindigkeit der Einrichtung ist kein strategischer Vorteil. Geschwindigkeit der Einrichtung ist eine taktische Bequemlichkeit, die zur strategischen Haftung wird.

Die EZB-Dimension

Die Finanzstabilitaetsbewertung der EZB vom November 2025 vermerkte, dass “Konzentrationsrisiken bei Cloud- und KI-Dienstleistern ein systemisches Anliegen fuer die Finanzstabilitaet der EU darstellen”. Der Bericht markierte spezifisch die Abhaengigkeit von EU-Finanzinstituten von einer kleinen Anzahl US-basierter KI-Infrastrukturanbieter.

Das ist die Makroversion desselben Arguments. Wenn Tausende von Unternehmen von denselben drei KI-Plattformen abhaengen, betrifft eine Preisaenderung, eine Dienstunterbrechung oder eine Policy-Aenderung alle gleichzeitig. Konzentrationsrisiko auf Unternehmensebene ist Abhaengigkeit. Konzentrationsrisiko auf EU-Ebene ist eine systemische Verwundbarkeit.

Fuer ein einzelnes KMU ist die Antwort nicht, seine eigene Cloud zu bauen. Es ist sicherzustellen, dass Ihre KI-Architektur portabel ist — dass Sie Ihre Modelle, Ihre Daten und Ihre Workflows zu einem anderen Anbieter (oder auf Ihre eigene Infrastruktur) verlagern koennen, ohne von Grund auf neu aufzubauen. Portabilitaet ist der architektonische Ausdruck von Souveraenitaet.

Open-Weight-Modelle sind per Definition portabel. Ein Modell, das Sie auf Mistral feinabgestimmt haben, kann auf jeder Infrastruktur laufen, die das Modellformat unterstuetzt. Ein Modell, das Sie auf einer verwalteten Plattform feinabgestimmt haben, ist moeglicherweise exportierbar oder auch nicht — pruefen Sie den Vertrag.

Ihre Vektordatenbank ist portabel, wenn sie offene Formate und offene Protokolle verwendet. Ihre RAG-Pipeline ist portabel, wenn sie auf Open-Source-Komponenten aufbaut. Ihre Feedback-Daten sind portabel, wenn sie in einem Format gespeichert sind, das Sie kontrollieren.

Portabilitaet ist kein Feature. Sie ist eine architektonische Entscheidung, die vor der ersten Codezeile getroffen wird.

Was das operativ bedeutet

Fuer ein EU-KMU mit 50 bis 500 Beschaeftigten bedeutet Datensouveraenitaet in der KI-Einfuehrung:

Managed APIs fuer Experimente nutzen, nicht fuer Produktion. Modelle testen, Faehigkeiten evaluieren, Anwendungsfaelle auf verwalteten Plattformen prototypisieren. Wenn der Anwendungsfall validiert ist, die Produktiveinfuehrung auf Infrastruktur bauen, die Sie kontrollieren. Der Pilot laeuft auf deren Plattform. Das Produkt laeuft auf Ihrer.

Auf Ihrer Infrastruktur feinabstimmen. Wenn Ihr KI-Tool domaenenspezifisches Wissen braucht, stimmen Sie ein Open-Weight-Modell auf Ihren Daten, auf Ihrer Infrastruktur fein ab. Das resultierende Modell gehoert Ihnen — die Gewichte, die Anpassungen, die in diesen Anpassungen eingebettete Wettbewerbsintelligenz.

Den Feedback-Loop besitzen. Jede Nutzerinteraktion mit Ihrem KI-Tool generiert Daten. Korrekturen, Praeferenzen, Nutzungsmuster, Fehlermodi — diese Daten sind wertvoller als die urspruenglichen Trainingsdaten, weil sie repraesentieren, was Ihre spezifischen Nutzer tatsaechlich brauchen. Speichern Sie sie in Ihren Systemen. Nutzen Sie sie zur Verbesserung Ihres Modells. Senden Sie sie nicht an eine verwaltete Plattform, wo sie Teil deren allgemeinen Trainingssignals werden.

Fuer Portabilitaet bauen. Offene Formate, offene Protokolle, offene Modelle nutzen. Wenn Sie Anbieter in einer Woche wechseln koennen statt in einem Quartal, haben Sie Souveraenitaet. Wenn der Wechsel sechs Monate Re-Engineering erfordert, sind Sie ein Mieter, kein Eigentuemer.

Den Vertrag lesen, nicht das Marketing. Die Nutzungsbedingungen fuer KI-Plattformen sind keine Marketingdokumente — es sind rechtliche Instrumente, die definieren, was mit Ihren Daten geschieht. Lesen Sie sie. Konkret: Nutzt der Anbieter Ihre Daten fuer Modelltraining? Unter welchen Bedingungen? Koennen Sie Ihr feinabgestimmtes Modell exportieren? Ihre Vektor-Embeddings? Ihre Nutzungsprotokolle? Wenn die Antwort Nein ist, wissen Sie, was Sie kaufen.

Die Build-vs-Buy-Entscheidung, neu gerahmt

Die konventionelle Build-vs-Buy-Entscheidung bei KI fokussiert auf Faehigkeit: Koennen Sie ein Modell bauen, das so gut ist wie der verwaltete Dienst? Die Antwort ist fuer die meisten KMU Nein. Die verwalteten Modelle sind auf mehr Daten, mit mehr Rechenleistung, von mehr Forschern trainiert, als jedes KMU replizieren kann.

Aber die Entscheidung dreht sich nicht um Faehigkeit. Sie dreht sich um Kontrolle.

Die Faehigkeit kaufen. Die Daten besitzen. Das ist der praktische Mittelweg, den die meisten Souveraenitaetsdiskussionen verfehlen.

Die API des verwalteten Modells fuer Inferenz nutzen — fuer das Generieren von Ausgaben, Beantworten von Fragen, Klassifizieren von Eingaben. Die Faehigkeit des Modells ist gemietet. Die Daten, die durch das Modell fliessen, sind es nicht.

Die Datenpipeline besitzen: die Eingaben, die Ausgaben, das Feedback, die Korrekturen, die Nutzungsmuster. In Ihren Systemen speichern. Mit Ihren Tools analysieren. Nutzen, um das verwaltete Modell zu evaluieren, zu verbessern und schliesslich durch eine feinabgestimmte Open-Weight-Alternative zu ersetzen.

Die Vektordatenbank besitzen: die Embeddings Ihrer Wissensbasis, Ihrer Dokumente, Ihrer Betriebsverfahren. Das ist Ihr organisatorisches Wissen in komprimierter Form. Es sollte nicht auf einer gemeinsamen Plattform leben.

Das Evaluierungsframework besitzen: die Benchmarks, die Testfaelle, die Qualitaetskriterien, die bestimmen, ob die Ausgaben des Modells gut genug fuer Ihren spezifischen Anwendungsfall sind. Die generischen Benchmarks der verwalteten Plattform erfassen Ihre Domaenenanforderungen nicht.

Die Reihenfolge ist: Faehigkeit mieten, Daten besitzen, Unabhaengigkeit aufbauen. Die Unabhaengigkeit passiert nicht an Tag eins. Sie passiert ueber Monate, waehrend Ihre eigenen Daten sich ansammeln, Ihr Evaluierungsframework reift und Ihr Verstaendnis dessen, was Sie von einem KI-Modell brauchen, spezifisch genug wird, um eine dedizierte Einfuehrung zu rechtfertigen.

Die Managed API ist ein Ausgangspunkt. Sie sollte nicht die Architektur sein.

Das Prinzip

Ihre Daten sind kein neutraler Rohstoff, der nur durch Verarbeitung auf einer Plattform an Wert gewinnt. Ihre Daten sind Ihr Wettbewerbsvorteil, Ihre operative Intelligenz, Ihre Kundenbeziehungen in Informationsform. Sie sind das Produkt jahrelanger Arbeit, Tausender Interaktionen, Millionen von Entscheidungen.

Wenn Sie sie an eine Plattform senden, die Sie nicht kontrollieren, tauschen Sie Souveraenitaet gegen Bequemlichkeit. Die Bequemlichkeit ist real. Die Kosten sind versteckt — bis die Plattform ihre Preise, ihre Bedingungen oder ihre API aendert und Sie entdecken, dass das Fundament Ihrer KI-Faehigkeit jemand anderem gehoert.

Besitzen Sie Ihre Daten. Besitzen Sie Ihre Modelle. Besitzen Sie Ihre Kanaele. Besitzen Sie die Infrastruktur, die Ihr Wissen in Wettbewerbsvorteil verwandelt.

Die Alternative ist, Ihr Haus auf gemietetem Land zu bauen und zu hoffen, dass der Vermieter nie die Miete erhoeht.

Der Vermieter erhoeht immer die Miete.

Besitzen Sie Ihre Daten. Besitzen Sie Ihre Modelle. Besitzen Sie Ihre Kanaele. Die Architektur der Unabhaengigkeit ist mehr Arbeit im Voraus. Sie ist weniger Arbeit insgesamt. Und die Arbeit produziert etwas, das gemietete Bequemlichkeit nie produziert: ein Asset, das sich summiert.

Ihre Daten, Ihre Modelle, Ihre Feedback-Loops — diese summieren sich. Jeder Monat Betrieb macht den naechsten Monat wertvoller. Jede Nutzerinteraktion verbessert die naechste Interaktion. Jede Korrektur macht das System genauer.

Auf einer gemieteten Plattform kommt der Zinseszins der Plattform zugute. Auf Ihrer eigenen Infrastruktur kommt der Zinseszins Ihnen zugute.

Besitzen Sie den Zinseszins. Die Miete lohnt sich nie.

Geschrieben von
Bertrand
Kreativtechnologe

Ein Serienunternehmer mit einem Doktortitel in KI und fünfundzwanzig Jahren Erfahrung im Aufbau von Systemen in ganz Europa. Er schreibt Code so, wie er surft: Muster lesen, Flow finden, Schwieriges einfach aussehen lassen.

← Alle Notizen