Bertrand 7. Oktober 2025

Echte Kuenstler liefern

13 Min. Lesezeit

Steve Jobs sagte es dem Macintosh-Team im Januar 1983. Sie hatten verfeinert, debattiert, poliert — alles getan, ausser fertig zu werden. “Real artists ship.” Drei Woerter, die die Menschen, die Dinge bauen, von den Menschen trennen, die darueber reden, Dinge zu bauen.

Zweiundvierzig Jahre spaeter haben die meisten KI-Projekte sie immer noch nicht gehoert.

Das Pilotproblem

Branchenschaetzungen zeigen durchgaengig, dass die grosse Mehrheit der KI-Pilotprojekte nie den Produktivbetrieb erreicht. Gartner und IDC haben beide berichtet, dass nur ein Bruchteil der KI-Initiativen in Unternehmen — ueber globale Stichproben hinweg — innerhalb von achtzehn Monaten nach Projektstart ueber die Pilotphase hinauskommen. Der Rest verbleibt in einer Variante von “Proof of Concept”, “Evaluierungsphase” oder “Stakeholder-Abstimmung” — was Unternehmenssprache fuer Stillstand ist.

Die Quote ist bei KMU schlimmer. Kleinere Unternehmen haben nicht die dedizierten Engineering-Teams und die Integrationsinfrastruktur, die Piloten in den Produktivbetrieb bringen. Bei Kleinstunternehmen ist die Umwandlung von Pilot zu Produktion kaum messbar.

Pilot-to-production funnel

Das sind keine gescheiterten Projekte. Das sind Projekte, die nie versucht haben zu gelingen. Ein Pilot ist kein Produkt. Ein Pilot ist eine kontrollierte Umgebung, in der Scheitern keine Konsequenzen hat und Erfolg keine Nutzer. Es ist Theater mit einem Budgetposten.

Warum Piloten keine Produkte werden

Drei strukturelle Gruende. Keiner davon ist technisch.

Der erste ist die Verteilung von Verantwortung. Ein Pilot gehoert allen und niemandem. Das Innovationsteam hat ihn vorgeschlagen. Die IT hat die Infrastruktur genehmigt. Der Fachbereich hat den Anwendungsfall geliefert. Das Steuerungsgremium prueft das Quartals-Update. Fuenf Gruppen sind beteiligt. Null Gruppen sind dafuer verantwortlich, das Tool den Menschen in die Hand zu geben, die es taeglich nutzen werden.

Bei einem Produktivstart steht jemandes Name darauf. Jemand hat entschieden: Dieses Tool wird an diesem Datum fuer diese Nutzer ausgeliefert. Diese Entscheidung ist unbequem. Piloten existieren, um sie zu vermeiden.

Der zweite ist die Inflation der Erfolgskriterien. Piloten beginnen mit bescheidenen Zielen: “Kann das Modell Kundenanfragen mit 85 % Genauigkeit klassifizieren?” Das Modell erreicht 87 %. Erfolg. Aber dann verschieben sich die Erfolgskriterien. Kann es Grenzfaelle behandeln? Kann es sich in das ERP integrieren? Kann es Anfragen in vier Sprachen verarbeiten? Kann es On-Premises laufen? Jede Frage ist berechtigt. Zusammen bilden sie eine endlose Qualifikationsschleife, die sicherstellt, dass der Pilot nie endet, weil die Ziellinie sich staendig bewegt.

Umfragedaten ueber mehrere Quellen hinweg zeigen dieses Muster deutlich. Unter Unternehmen, die “KI in der Evaluierung” melden, erstrecken sich Evaluierungszeitraeme routinemaessig ueber mehr als ein Jahr. Ein Jahr oder laenger evaluieren, ob ein Tool funktioniert, waehrend das Team, das es nutzen wuerde, wartet — oder, wahrscheinlicher, eine Tabellenkalkulation als Workaround baut und weitermacht.

Der dritte ist die Angst vor Adoptionsversagen. Das ist der eigentliche Grund. Ein Pilot, der ein Pilot bleibt, kann nicht oeffentlich scheitern. Ein Produkt, das an 200 Nutzer ausgeliefert wird und ignoriert wird, ist ein sichtbares Scheitern — im Budget, in den Kennzahlen, in den Flurgespraechen. Der Pilot ist eine Absicherung gegen Peinlichkeit. Klein halten, eingrenzen, fernhalten von den Menschen, die es ablehnen koennten.

Aber Ablehnung ist Daten. Ablehnung sagt Ihnen, was das Tool tatsaechlich braucht. Ein Pilot, der ein Jahr laeuft und eine positive Bewertung produziert, sagt Ihnen nichts darueber, ob irgendjemand das Ding nutzen wird. Adoption ist die einzige Kennzahl, die zaehlt, und Sie koennen Adoption nicht messen, ohne auszuliefern.

Was “Ausliefern” tatsaechlich bedeutet

Jobs war praezise. Ausliefern war nicht veroeffentlichen. Ausliefern war nicht verfuegbar machen. Ausliefern war, ein fertiges Produkt den Menschen in die Hand zu geben, die es nutzen werden, in ihrer tatsaechlichen Umgebung, mit ihren tatsaechlichen Einschraenkungen.

Fuer KI-Tools in einem europaeischen KMU bedeutet Ausliefern:

Das Tool ist zugaenglich fuer die Menschen, fuer die es entworfen wurde — nicht das Innovationsteam, nicht die IT-Abteilung, sondern die Einkaufsbeauftragte, den Kundenservicemitarbeiter, die Logistikkoordinatorin. Die tatsaechlichen Nutzer.

Das Tool ist in den tatsaechlichen Arbeitsablauf integriert. Nicht ein separater Tab. Nicht ein neuer Login. Nicht ein Dashboard, das niemand besucht. Integriert an dem Ort, an dem die Arbeit passiert.

Das Tool hat einen Feedbackmechanismus. Nutzer koennen melden, was funktioniert und was nicht, und jemand handelt innerhalb von Tagen nach diesen Meldungen, nicht Quartalen.

Das Tool hat einen Eigentuemer. Eine Person, zu deren Aufgaben es gehoert, dafuer zu sorgen, dass dieses Tool nuetzlich bleibt. Kein Gremium. Kein Kanal. Ein Name.

Bei Bluewaves nennen wir das den “Drei-Wochen-Test”. Wenn das Tool nicht innerhalb von drei Wochen nach der Bereitstellung taeglich genutzt wird, stimmt etwas nicht — nicht mit dem Tool, sondern mit der Deployment-Architektur. Drei Wochen. Nicht drei Monate. Nicht “nach der naechsten Schulung”. Drei Wochen.

Der Prototyp ist das Argument

Leonardo da Vinci fuellte Notizbuecher mit Ideen. Er baute auch Dinge. Der Unterschied war entscheidend. Eine Idee in einem Notizbuch ist Spekulation. Eine Idee in der Welt ist ein Argument — sie argumentiert fuer ihre eigene Existenz, indem sie funktioniert oder scheitert. Beide Ergebnisse sind nuetzlich. Nur eines ist verfuegbar fuer die Idee, die nie ausgeliefert wird.

Das gleiche Prinzip gilt fuer jede KI-Einfuehrung. Ein Modell in einem Jupyter Notebook ist eine Hypothese. Ein Modell im Produktivbetrieb ist ein Argument. Es argumentiert, dass diese bestimmte Aufgabe, auf diese bestimmte Weise erledigt, bessere Ergebnisse produziert als die bisherige Methode. Das Argument ist testbar. Die Hypothese ist es nicht.

Ich habe acht Unternehmen in sechs Laendern aufgebaut. Jedes einzelne begann mit einem Prototyp, der ausgeliefert wurde, bevor er fertig war. Nicht weil Ungeduld eine Tugend ist — weil Feedback von echten Nutzern der einzige Input ist, der zaehlt, und Sie ihn nicht aus einer Pilotumgebung bekommen koennen.

Die erste Version jedes guten Produkts ist im Rueckblick peinlich. Die erste Version jedes guten Produkts hat ihren Machern in zwei Wochen echter Nutzung auch mehr beigebracht als sechs Monate internes Testen.

Die Kosten des Nicht-Auslieferns

Ein gescheiterter KI-Pilot kostet ein KMU zwischen 10.000 und 50.000 Euro an direkten Ausgaben, abhaengig von Unternehmensgroesse und Projektumfang — Lizenzen, Rechenkapazitaet, Beraterstunden, interne Zeitallokation. Diese Zahlen beinhalten keine Opportunitaetskosten — den Wettbewerbsvorteil, der dem Unternehmen zufaellt, das ausliefert, waehrend Sie evaluieren.

Aber die eigentlichen Kosten sind kulturell. Jeder Pilot, der stirbt, lehrt die Organisation eine Lektion: KI ist experimentell. KI ist nichts fuer uns. KI ist etwas, mit dem das Innovationsteam spielt, waehrend wir richtige Arbeit machen. Diese Lektion summiert sich. Nach dem zweiten gescheiterten Piloten steht der dritte vor einem Glaubwuerdigkeitsdefizit, das keine Steuerungsgremium-Praesentation ueberwinden kann.

Das Gegenteil stimmt auch. Ein Tool, das ausgeliefert wird, das funktioniert, das Menschen tatsaechlich nutzen — diese einzige Einfuehrung veraendert das Verhaeltnis der Organisation zu KI dauerhaft. Das Team, das dem Tool einen Namen gibt (ein zuverlaessiges Zeichen fuer Adoption, wie Erica dokumentiert hat), wird zum Fuersprecher. Das Team, das Ergebnisse sieht, wird neugierig. Das kulturelle Momentum einer einzigen erfolgreichen Einfuehrung ist mehr wert als zehn erfolgreiche Pilotevaluierungen.

Der europaeische Nachteil, der keiner ist

Es gibt ein Narrativ, dass europaeische Unternehmen KI langsamer einfuehren wegen Regulierung, wegen Risikoaversion, wegen kulturellem Konservatismus. Das Narrativ ist falsch — oder genauer, es ist so ungenau, dass es nutzlos ist.

Europaeische Unternehmen sind langsamer bei der KI-Einfuehrung, weil sie zu viel pilotieren. Sie evaluieren laenger, qualifizieren gruendlicher und erstellen umfassendere Business Cases vor der Zusage. Das sind keine Charakterfehler. In vielen Kontexten sind es Staerken. Europaeische Fertigungsqualitaet, europaeische Finanzstabilitaet, europaeische Produktsicherheitsbilanzen — all das kommt von einer Kultur der Gruendlichkeit.

Aber Gruendlichkeit auf Pilotprojekte angewandt produziert Gruendlichkeit ohne Auslieferung. Dieselbe Rigorositaet, die sicherstellt, dass ein deutsches Auto nicht kaputtgeht, sollte sicherstellen, dass eine KI-Einfuehrung funktioniert. Stattdessen stellt sie sicher, dass die KI-Einfuehrung nie die Teststrecke verlaesst.

Die KI-Verordnung der EU, die stufenweise bis August 2026 voll in Kraft tritt, bietet tatsaechlich einen Rahmen fuer verantwortungsvolles Ausliefern. Das Risikoklassifizierungssystem (Artikel 6) sagt Ihnen genau, welches Mass an Aufsicht jede Einfuehrung erfordert. Die Konformitaetsbewertungsverfahren (Artikel 16-22) definieren, wie “bereit zur Auslieferung” fuer Hochrisikosysteme aussieht. Das sind keine Hindernisse — das sind Spezifikationen. Ein Ingenieur liest eine Spezifikation und baut danach. Ein Gremium liest eine Spezifikation und plant ein Meeting darueber.

Regulierung ist eine kreative Einschraenkung. Die besten Produkte der Geschichte — vom originalen Macintosh ueber den Volkswagen Golf bis zum SEPA-Zahlungssystem der EU — wurden innerhalb enger Einschraenkungen gebaut. Einschraenkungen verhindern kein Ausliefern. Sie definieren, wie Ausliefern aussieht.

Das Riff und der Auftritt

Es gibt diesen Moment in der Live-Musik, wenn ein Gitarrist ein Riff tausendmal geuebt hat und trotzdem zoegert, es auf der Buehne zu spielen. Der Proberaum ist sicher. Die Buehne ist es nicht. Das Publikum wird jede Unvollkommenheit hoeren. Die Versuchung ist, noch einmal zu proben, noch einmal zu verfeinern, zu warten, bis es perfekt ist.

David Gilmour wartet nicht. Er spielt. Und die kleinen Unvollkommenheiten — das menschliche Timing, der Atemzug vor dem Bending — sind das, was es echt macht. Die Studioversion ist perfekt. Die Live-Version ist wahr.

KI-Einfuehrung funktioniert genauso. Die Pilotumgebung ist der Proberaum. Produktion ist die Buehne. Das Tool wird auf Eingaben treffen, die Sie nicht vorhergesagt haben, auf Nutzer, die Sie nicht geschult haben, auf Arbeitsablaeufe, die Sie nicht abgebildet haben. Einige dieser Begegnungen werden unvollkommene Ergebnisse produzieren. Gut. Jetzt wissen Sie, was zu reparieren ist. Das koennen Sie vom Proberaum aus nicht lernen.

Was wir tatsaechlich tun

Bei Bluewaves ist die Baumethodik drei Wellen von je drei Wochen. Nicht weil drei Wochen eine magische Zahl sind — weil drei Wochen lang genug sind, um etwas Echtes zu bauen, und kurz genug, um ein Verstecken im Piloten unmoeglich zu machen.

Welle eins: Bauen und Ausliefern. Das Tool geht in den ersten drei Wochen an echte Nutzer fuer echte Aufgaben. Keine Demo. Keine Sandbox. Echt.

Welle zwei: Beobachten und Anpassen. Beobachten, was die Menschen tatsaechlich mit dem Tool machen. Nicht was sie sagen, dass sie tun werden. Was sie tun. Das Tool auf Basis beobachteten Verhaltens anpassen, nicht berichteter Praeferenzen.

Welle drei: Optimieren und Dokumentieren. Das Tool funktioniert. Jetzt schneller, genauer, besser integriert machen. Dokumentieren, was fuer die naechste Einfuehrung gelernt wurde.

Neun Wochen. Drei Iterationen. Ein ausgeliefertes Produkt. Nicht perfekt. Ausgeliefert.

Die Alternative — der Zwoelf-Monats-Evaluierungszyklus, das vierteljjaehrliche Steuerungsgremium, die Stakeholder-Abstimmungssitzungen — ist bequemer. Niemandes Name steht auf einem Misserfolg. Niemandes Ruf ist in Gefahr. Niemand liefert aus.

Der Zinseszinseffekt

Der Unterschied zwischen einem Unternehmen, das sein erstes KI-Tool im Oktober 2025 ausliefert, und einem Unternehmen, das im Oktober 2026 ausliefert, sind nicht zwoelf Monate. Es sind zwoelf Monate zusammengesetzten Lernens.

Das Unternehmen, das im Oktober 2025 ausliefert, wird bis Oktober 2026 zwoelf Monate Produktivdaten haben. Zwoelf Monate Nutzerfeedback. Zwoelf Monate Anpassungen, Verbesserungen und angesammeltes Wissen darueber, wie seine spezifischen Nutzer mit KI-Tools in seinem spezifischen operativen Kontext interagieren. Das Modell wird verfeinert worden sein. Die Arbeitsablaeufe werden optimiert worden sein. Das Team wird Kompetenz entwickelt haben. Die Organisation wird den kulturellen Wandel von “Wir haben eine KI-Strategie” zu “Wir nutzen KI” absorbiert haben.

Das Unternehmen, das im Oktober 2026 ausliefert, wird bei null starten. Gleiche Technologie. Gleiche Funktionen. Gleiche Modellleistung. Null angesammeltes Lernen. Null Produktivdaten. Null organisatorisches Muskelgedaechtnis.

Der Zinseszinseffekt bei der KI-Einfuehrung liegt nicht in der Technologie. Die Technologie verbessert sich unabhaengig davon, ob Sie sie nutzen. Der Zinseszinseffekt liegt im operativen Wissen — dem Verstaendnis der Organisation dafuer, wie KI-Tools mit ihren spezifischen Arbeitsablaeufen, ihren spezifischen Kunden, ihren spezifischen Einschraenkungen interagieren. Dieses Wissen summiert sich. Es laesst sich nicht beschleunigen. Es kann nur begonnen werden.

Jeder Monat Verzoegerung ist ein Monat entgangenen zusammengesetzten Lernens. Die Kosten sind nicht linear. Sie sind exponentiell — weil jeder Monat des Lernens den naechsten Monat produktiver macht und die Luecke sich mit der Zeit vergroessert.

Das ist der Grund, warum “Warten wir auf bessere Modelle” der teuerste Satz in der KI-Strategie ist. Die Modelle werden in sechs Monaten besser sein. Sie werden auch in zwoelf Monaten besser sein. Und in vierundzwanzig Monaten. Die Modellverbesserung ist kontinuierlich und extern. Das operative Lernen ist intern und muss beginnen. Das beste Modell der Welt, eingesetzt bei einem Team ohne operative Erfahrung, wird von einem mittelmjaessigen Modell uebertroffen, das bei einem Team mit zwoelf Monaten Produktiverfahrung im Einsatz ist.

Der Surfer, der auf die perfekte Welle wartet, lernt nie surfen. Die Wellen kommen weiter. Das Lernen passiert nur im Wasser.

Frueh ausliefern. Der Zinseszinseffekt beginnt bei der Auslieferung. Er beginnt nirgendwo sonst.

Die unbequeme Wahrheit

Die meisten KI-Projekte sterben nicht, weil die Technologie versagt, sondern weil niemand sich zu dem Moment bekennt, in dem das Tool auf seine Nutzer trifft. Die Technologie ist bereit. Die Infrastruktur existiert. Der regulatorische Rahmen ist definiert. Der Anwendungsfall ist klar. Was fehlt, ist die Entscheidung: Das wird an diesem Datum an diese Menschen ausgeliefert.

Diese Entscheidung erfordert, dass jemand akzeptiert, dass die erste Version unvollkommen sein wird. Dass einige Nutzer frustriert sein werden. Dass einige Anwendungsfaelle nicht wie erwartet funktionieren werden. Dass das Dashboard Adoptionskennzahlen zeigen wird, die niedrig anfangen und langsam steigen — wenn die Einfuehrung richtig gemacht wird — oder niedrig anfangen und niedrig bleiben, was ebenfalls nuetzliche Information ist.

Die Entscheidung erfordert jemanden, dem es wichtiger ist, ein funktionierendes Tool auszuliefern, als einen erfolgreichen Piloten zu praesentieren.

Die EU hat ungefaehr 33 Millionen Unternehmen. Laut Eurostat-Daten vom Dezember 2025 haben rund 20 % der Unternehmen mit 10 oder mehr Beschaeftigten KI in irgendeiner Form eingefuehrt. Die 80 %, die es nicht haben, warten nicht auf bessere Technologie. Sie warten darauf, dass jemand sagt: Das wird ausgeliefert.

Das Anti-Pilot-Manifest

Ich sage ausdruecklich, wofuer ich argumentiere, weil die gaengige Meinung hart zurueckdraengt.

Ich argumentiere nicht gegen Testen. Testen Sie rigoros. Testen Sie mit echten Daten. Testen Sie mit Grenzfaellen. Testen Sie mit feindseligen Eingaben. Testen ist Engineering. Engineering ist nicht verhandelbar.

Ich argumentiere nicht gegen Planen. Planen Sie die Einfuehrung. Bilden Sie den Arbeitsablauf ab. Identifizieren Sie die Nutzer. Entwerfen Sie die Integration. Planen ist Architektur. Architektur ist nicht verhandelbar.

Ich argumentiere gegen den Piloten als Dauerzustand. Den Piloten, der seit sechs Monaten laeuft, ohne ein Lieferdatum. Den Piloten, der quartalsweise verlaengert wird, weil “wir mehr Daten brauchen”. Den Piloten, der zu einer bequemen, risikoarmen, verantwortungslosen Aktivitaet geworden ist, die der Organisation erlaubt zu sagen “Wir arbeiten an KI”, ohne jemals ein Tool vor einen Nutzer zu stellen.

Der Pilot ist nicht grundsaetzlich falsch. Ein Zwei-Wochen-Pilot, der einen Anwendungsfall validiert und dann ausliefert, ist ein maaechtiges Werkzeug. Ein Zwei-Wochen-Pilot, der einen Anwendungsfall validiert und dann zu einer viermonatigen Evaluierung wird, die zu einer zwoelfmonatigen Bewertung wird, ist kein Pilot. Er ist Vermeidung mit einem Zeitplan.

Die Unterscheidung ist das Lieferdatum. Ein Pilot mit Lieferdatum ist eine Engineering-Aktivitaet. Ein Pilot ohne Lieferdatum ist ein organisatorischer Komfortmechanismus. Das Lieferdatum erzwingt eine Entscheidung: Das ist gut genug fuer die Auslieferung, oder das ist die Einfuehrung nicht wert. Beide Ergebnisse sind nuetzlich. Keines ist verfuegbar fuer den Piloten, der nie endet.

Setzen Sie das Lieferdatum, bevor der Pilot beginnt. Schreiben Sie es auf. Sagen Sie es dem Team. Sagen Sie es den Stakeholdern. Sagen Sie es dem Vorstand. Das Tool wird an diesem Datum ausgeliefert, oder das Projekt wird an diesem Datum eingestellt. Es gibt keine dritte Option.

Echte Kuenstler liefern. Echte Ingenieure liefern. Echte Unternehmen — die, die 2030 noch wettbewerbsfaehig sein werden — liefern.

Der Pilot ist vorbei. Ausliefern oder einstellen.

Geschrieben von

Bertrand

Kreativtechnologe

Ein Serienunternehmer mit einem Doktortitel in KI und fünfundzwanzig Jahren Erfahrung im Aufbau von Systemen in ganz Europa. Er schreibt Code so, wie er surft: Muster lesen, Flow finden, Schwieriges einfach aussehen lassen.

← Alle Notizen