Der Anreiz, den niemand prueft
Jedes Unternehmen hat ein Wertestatement. Die meisten enthalten Woerter wie Innovation, Zusammenarbeit oder Agilitaet. Viele enthalten alle drei. Die Werte stehen auf der Website. Sie haengen an der Wand im Besprechungsraum. Sie waren Gegenstand eines Workshops im Jahr 2023.
Jedes Unternehmen hat auch ein Anreizsystem. Das Anreizsystem umfasst Quartalsziele, Leistungsbeurteilungen, Bonusstrukturen, Befoerderungskriterien und die ungeschriebenen Regeln darueber, was tatsaechlich belohnt und was bestraft wird. Das Anreizsystem haengt nicht an der Wand. Es steckt in den Tabellenkalkulationen, den Kalibrierungsmeetings und den Flurgespraechen, die niemand protokolliert.
Die Luecke zwischen dem Wertestatement und dem Anreizsystem ist der zuverlaessigste einzelne Praediktor fuer das Scheitern der KI-Einfuehrung.
Das ist die Sache, die niemand prueft. Nicht weil sie unsichtbar ist — weil das Pruefen erfordert, einen Widerspruch zu benennen, den jeder kennt und den niemand formalisieren will.
Die Luecke
Ein Unternehmen sagt, es schaetzt Innovation. Seine Bonusstruktur belohnt Output-Volumen. Ein Teammitglied, das zwei Stunden mit dem neuen KI-Tool experimentiert, statt die naechste Ladung Rechnungen zu bearbeiten, hat innoviert — und hat auch zwei Stunden weniger messbaren Output produziert. Das Anreizsystem bemerkt die Output-Luecke. Das Wertestatement bemerkt nichts, weil Wertestatements keine Messmechanismen haben.
Die rationale Reaktion — und ich verwende “rational” im oekonomischen Sinne, also konsistent mit der tatsaechlichen Anreizstruktur — ist, nicht zu innovieren. Die Rechnungen bearbeiten. Das Ziel erreichen. Den Bonus behalten. Das KI-Tool in der Mittagspause nutzen, wenn ueberhaupt.
Das ist kein Widerstand gegen Veraenderung. Das ist eine praezise Interpretation der Anreizumgebung. Das Teammitglied versagt nicht bei der Einfuehrung. Es gelingt ihm bei der Optimierung — Optimierung auf die Signale, die tatsaechlich Konsequenzen tragen.
Die drei Anreiz-Fehlausrichtungen
In den Unternehmen, mit denen ich bei Bluewaves gearbeitet habe, toeten drei spezifische Anreiz-Fehlausrichtungen die KI-Einfuehrung, bevor die Technologie ueberhaupt eine Chance hat, sich zu beweisen.
Fehlausrichtung 1: Individuelle Metriken vs. kollaborative Tools
KI-Tools schaffen haeufig Wert, indem sie Zusammenarbeit ermoeglichen — Wissen ueber Teams hinweg teilen, Muster sichtbar machen, die Abteilungen ueberspannen, die Erkenntnis einer Person die Arbeit einer anderen verstaerken lassen. Der Wert ist kollektiv. Der Wert ist emergent. Der Wert widersteht der Zuordnung zu einer einzelnen Person.
Individuelle Leistungsmetriken koennen das nicht erfassen. Wenn meine Quartalsbewertung mich nach der Anzahl der geschlossenen Kundentickets bewertet, und das KI-Tool mir hilft, Tickets schneller zu schliessen — hilft mir das. Aber wenn das KI-Tool mir auch hilft, einen Wissensdatenbank-Eintrag zu erstellen, der fuenf Kollegen hilft, aehnliche Tickets zu schliessen — ist der Wert dem Team zugeflossen, nicht mir. Meine Metriken verbessern sich nicht. Die Metriken meiner fuenf Kollegen verbessern sich. Ich habe den Aufwand investiert. Sie haben den Nutzen erhalten.
In einem Anreizsystem, das auf individueller Zuordnung aufgebaut ist, ist kollaborativer Wert eine Externalitaet — ein Nutzen, der dem System zugutekommt, aber nicht im Leistungsmass der einzelnen Person erfasst wird. Externalitaeten werden per Definition unterproduziert. Menschen investieren keinen Aufwand in Ergebnisse, fuer die sie nicht belohnt werden.
Die Korrektur ist nicht, individuelle Metriken abzuschaffen. Sie besteht darin, kollaborative Metriken hinzuzufuegen, die den kollektiven Wert erfassen, den KI-Tools produzieren. Wie viele Wissensdatenbank-Eintraege haben Sie beigetragen? Wie oft wurde Ihr Input von anderen genutzt? Wie viele teamuebergreifende Interaktionen hat das Tool ermoeglicht? Das ist messbar. Es wird selten gemessen.
Fehlausrichtung 2: Fehlervermeidung vs. Experimentieren
KI-Tools erfordern Experimentieren. Die ersten zehn Anfragen sind Lernanfragen — das Kalibrieren dessen, was das Tool kann und was nicht, das Entdecken seiner Staerken und Grenzen, das Entwickeln einer Intuition dafuer, wann es einzusetzen ist und wann nicht. Experimentieren produziert einige Fehler. Das ist keine Fehlstfunktion. Es ist der Lernprozess.
Wenn das Anreizsystem Fehler bestraft — und die meisten tun das, explizit oder implizit — birgt Experimentieren ein Risiko. Das Risiko ist nicht katastrophal. Niemand wird fuer eine schlechte Chatbot-Anfrage entlassen. Aber das Risiko ist reputativ: der Kollege, der eine mittelmaessige KI-Ausgabe auf Ihrem Bildschirm sieht, der Vorgesetzte, der den Qualitaetseinbruch in Ihrer ersten Woche der Tool-Einfuehrung bemerkt, die Quartalsbewertung, bei der “das neue KI-Tool erkundet” keine anerkannte Leistung ist, aber “Qualitaetsstandards beibehalten” schon.
Edmondsons Forschung zur psychologischen Sicherheit ist hier relevant, aber die Anreizebene ist von der Sicherheitsebene verschieden. Sie koennen ein psychologisch sicheres Team haben — eines, in dem das Ansprechen genuein willkommen ist — und trotzdem ein Anreizsystem haben, das genau die Experimente bestraft, die die Einfuehrung erfordert. Das Team fuehlt sich sicher zu probieren. Das Anreizsystem bestraft das Probieren. Das Ergebnis ist ein Team, das weiss, dass Experimentieren sicher ist, aber rationale Gruende hat, es nicht zu tun.
Die Korrektur: Ein explizites Experimentierbudget schaffen. Nicht ein vages “wir foerdern Erkundung”. Ein spezifischer, messbarer Schutz: 10 % der Zeit jedes Teammitglieds waehrend der Adoptionsphase ist fuer Tool-Experimente vorgesehen, und diese Zeit wird von outputbasierten Leistungsmetriken ausgenommen. Das Budget muss in den Leistungsbeurteilungskriterien dokumentiert sein, nicht nur muendlich kommuniziert. Muendliche Ermutigung ohne strukturellen Schutz ist nur Rauschen.
Fehlausrichtung 3: Geschwindigkeitsmetriken vs. Lernkurven
KI-Tools machen Arbeit schneller — irgendwann. Waehrend der Adoptionsphase machen sie Arbeit langsamer. Die Lernkurve ist real. Nachschlagen, wie man eine Anfrage formuliert, eine unvertraute Ausgabe interpretieren, die Antwort des Tools gegen das eigene Wissen verifizieren — all das braucht Zeit. Zeit, die in einem auf Geschwindigkeit optimierten Anreizsystem als Leistungseinbruch registriert wird.
Die meisten Anreizsysteme messen Geschwindigkeit direkt oder indirekt: bearbeitete Anrufe pro Stunde, geschlossene Tickets pro Tag, erstellte Berichte pro Woche. Waehrend der Adoptionsphase sinken diese Zahlen. Der Einbruch ist temporaer. Der Einbruch sind die Kosten der Investition. Aber das Anreizsystem unterscheidet nicht zwischen “Leistungseinbruch wegen Inkompetenz” und “Leistungseinbruch wegen Lerninvestition”. Beides sieht in der Tabellenkalkulation gleich aus.
Ein Teammitglied, das diese Dynamik beobachtet, stellt eine Berechnung an: die Kosten des Leistungseinbruchs (sichtbar, unmittelbar, gemessen) versus der Nutzen der Tool-Kompetenz (unsichtbar, aufgeschoben, nicht gemessen). Die Berechnung faellt fast immer zugunsten des Aufgebens des Tools und der Rueckkehr zum bestehenden Prozess aus.
Die Korrektur: Geschwindigkeitsbasierte Metriken waehrend einer definierten Adoptionsphase aussetzen, oder eine separate Leistungs-Basislinie fuer die Adoptionsphase etablieren, die den erwarteten Lerneinbruch beruecksichtigt. “Wir erwarten, dass Ihr Durchsatz in den ersten zwei Wochen um 15 % sinkt. Das ist einbudgetiert.” Die Spezifitaet ist entscheidend. Eine vage Beruhigung — “machen Sie sich keine Sorgen um Ihre Zahlen” — ist nicht glaubwuerdig, wenn die Leistungsbeurteilung in acht Wochen ist.
Warum das niemand prueft
Die Luecke zwischen formulierten Werten und tatsaechlichen Anreizen ist bekannt. In jeder Organisation, mit der ich gearbeitet habe, koennen Menschen auf jeder Ebene die Luecke praezise beschreiben. Der Einkaufsbeauftragte weiss, dass “Innovation” ein Wert und “bearbeitete Rechnungen pro Tag” eine Metrik ist. Die Teamleitung weiss, dass “Zusammenarbeit” ein Wert und “individuelle Ticket-Abschlussrate” ein Bonuskriterium ist. Die Personaldirektion weiss, dass die Leistungsbeurteilungsvorlage Output belohnt, nicht Lernen.
Niemand prueft die Luecke, weil das Pruefen erfordert, sie zu benennen. Und Benennen schafft Verantwortlichkeit. Wenn die Luecke dokumentiert ist — wenn jemand aufschreibt “unser formulierter Wert ist Innovation und unsere Bonusstruktur belohnt Output-Volumen” — dann muss jemand entscheiden: die Werte aendern oder die Anreize aendern.
Beide Optionen sind unbequem. Die Werte zu aendern fuehlt sich an wie das Aufgeben von Prinzipien. Die Anreize zu aendern fuehlt sich an wie das Stoeren eines Systems, das funktioniert (oder zumindest funktioniert). Also besteht die Luecke fort, unbenannt und ungeloest, und jede Initiative, die auf den Werten beruht (KI-Einfuehrung, Kollaborationsplattformen, Lernprogramme), bleibt hinter den Erwartungen zurueck, weil das Anreizsystem dagegen arbeitet.
Das ist der Kernschritt, zu dem ich in meiner Arbeit immer zurueckkehre: die Luecke zwischen dem, was formuliert, und dem, was belohnt wird, benennen. Die Luecke ist kein Kommunikationsversagen. Sie ist ein strukturelles Merkmal von Organisationen, die ihre Messsysteme nicht mit ihren Aspirationssystemen abgeglichen haben.
Die Karasek-Verbindung
Robert Karaseks Demand-Control-Modell fuegt eine Ebene hinzu, die Anreiz-Fehlausrichtung mit Stress verbindet. Karasek zeigte, dass die schaedlichste Arbeitskonfiguration hohe Anforderungen plus niedrige Kontrolle ist. Wenn das Anreizsystem hohe Anforderungen schafft (Zahlen erreichen) und der KI-Adoptionsprozess die Kontrolle reduziert (dieses unvertraute Tool auf unvertraute Weise nutzen), produziert die Kombination Arbeitsbelastung — die Konfiguration, die am staerksten mit chronischem Stress, Disengagement und Fluktuation assoziiert ist.
Die Anreiz-Fehlausrichtung verstaerkt die Belastung. Das Teammitglied steht vor konkurrierenden Anforderungen, die nicht beide erfuellt werden koennen: Output aufrechterhalten (Anreizanforderung) und das neue Tool lernen (Adoptionsanforderung). Die Kontrolle ist auf beiden Achsen niedrig: Die Output-Ziele sind nicht verhandelbar, und die Tool-Einfuehrung ist obligatorisch. Das Ergebnis ist kein Widerstand gegen Veraenderung. Es ist eine Stressreaktion auf eine unmoegliche Konfiguration.
Die Intervention ist nicht motivational. Sie koennen sich nicht durch einen strukturellen Widerspruch motivieren. Die Intervention ist strukturell: die konkurrierenden Anforderungen aufloesen, indem das Anreizsystem angepasst wird, um die Adoptionsinvestition zu beruecksichtigen. Das ist eine Designentscheidung, keine Fuehrungsentscheidung. Es erfordert, die Tabellenkalkulation zu aendern, nicht die Rede.
Das Audit
So sieht ein Anreiz-Audit fuer die KI-Einfuehrung aus. Es dauert ein bis zwei Tage. Es kostet nichts ausser Ehrlichkeit.
Schritt 1: Die tatsaechlichen Leistungsmetriken auflisten. Nicht die aspirativen. Die, die in Leistungsbeurteilungen auftauchen, die Boni bestimmen, die Befoerderungsentscheidungen beeinflussen. Spezifisch sein: “geschlossene Tickets pro Tag”, “generierter Umsatz pro Quartal”, “puenktlich abgeschlossene Projekte”. Informelle Metriken einbeziehen — die Dinge, die durch Aufmerksamkeit statt durch Tabellenkalkulationen gemessen werden. “Als produktiv wahrgenommen werden” ist eine informelle Metrik. “Als Teamplayer wahrgenommen werden” ist eine informelle Metrik. Beide tragen reale Konsequenzen.
Schritt 2: Die Verhaltensweisen auflisten, die die KI-Einfuehrung erfordert. Experimentieren mit dem Tool. Toleranz der Lernkurve. Wissensteilung im Team. Fehlermeldung, wenn das Tool falsche Ausgaben produziert. Investition von Zeit in Lernen, das keinen unmittelbaren Output produziert.
Schritt 3: Die Konflikte kartieren. Fuer jede Adoptionsverhaltensweise identifizieren, ob die tatsaechlichen Leistungsmetriken sie belohnen, ignorieren oder bestrafen. Drei Kategorien verwenden: ausgerichtet (die Metrik belohnt die Verhaltensweise), neutral (die Metrik wird durch die Verhaltensweise nicht beeinflusst) oder fehlausgerichtet (die Metrik bestraft die Verhaltensweise).
Die Karte zeigt, wo das Anreizsystem die Einfuehrung unterstuetzt und wo es sie untergraebt. Nach meiner Erfahrung stellen die meisten Organisationen fest, dass 30-50 % ihrer tatsaechlichen Metriken mit den Verhaltensweisen, die die KI-Einfuehrung erfordert, fehlausgerichtet sind.
Schritt 4: Entscheiden. Fuer jede Fehlausrichtung eine von drei Reaktionen: die Metrik aendern (den Anreiz anpassen, um ihn mit der Adoption in Einklang zu bringen), die Verhaltensweise schuetzen (eine explizite Ausnahme schaffen, die die Adoptionsverhaltensweise vor der fehlausgerichteten Metrik abschirmt), oder die Fehlausrichtung akzeptieren (anerkennen, dass diese spezifische Adoptionsverhaltensweise unterproduziert sein wird und die Adoptionserwartungen entsprechend anpassen).
Die vierte Reaktion — nichts tun und hoffen — ist der Standard in den meisten Organisationen. Es ist auch der Grund, warum die meisten KI-Einfuehrungen in der Adoptionsphase ins Stocken geraten.
Das saisonale Muster
Ich moechte etwas benennen, das ich ueber die Unternehmen hinweg beobachtet habe, mit denen Bluewaves arbeitet, weil es mit dem Timing zusammenhaengt und weil es ein Muster erklaert, das viele IT-Leiter frustriert.
KI-Einfuehrungen im vierten Quartal scheitern mit hoeherer Rate als solche im ersten oder zweiten Quartal. Die Technologie ist dieselbe. Die Schulung ist dieselbe. Der Anwendungsfall ist derselbe. Der Unterschied ist die Anreizumgebung.
Im vierten Quartal naehern sich die Jahresziele. Die Luecke zwischen Ist und Soll schliesst sich entweder (Druck, das Niveau zu halten) oder vergroessert sich (Druck aufzuholen). In beiden Faellen ist das Anreizsystem auf Spitzenintensitaet. Jede Minute, die damit verbracht wird, ein neues Tool zu lernen, ist eine Minute, die nicht damit verbracht wird, die Luecke zu schliessen. Jedes Experiment, das den Output reduziert, ist ein Luxus, den der Q4-Kalender sich nicht leisten kann.
Im ersten Quartal haben die Ziele sich zurueckgesetzt. Der Druck ist auf seinem Jahresminimum. Das Budget fuer das neue Jahr ist bestaetigt. Es gibt kognitiven Spielraum — nicht viel, aber etwas. Dasselbe Tool, im Januar eingefuehrt, beim selben Team, mit derselben Schulung, performt besser in den Adoptionskennzahlen als dasselbe Tool, das im Oktober eingefuehrt wurde. Der Unterschied ist der Anreizkalender.
Das ist keine Offenbarung. Es ist eine Beobachtung, die die meisten Einfuehrungszeitplaene ignorieren, weil das Datum der Technologiebereitschaft als Einfuehrungsdatum behandelt wird, unabhaengig von der Anreizumgebung. Das Tool ist bereit, also fuehren wir es ein. Das Team ist nicht bereit — strukturell, in seiner Anreizarchitektur, physiologisch — aber das Tool ist bereit.
Bereitschaft ist kein Technologieattribut. Es ist ein Umgebungsattribut. Die Umgebung umfasst das Anreizsystem, und das Anreizsystem hat Jahreszeiten.
Die Rolle der Fuehrungskraft
Ich moechte die Position der Fuehrungskraft spezifisch benennen, weil sie die schwierigste Position in dieser Dynamik ist.
Die Fuehrungskraft ist gefangen zwischen dem Anreizsystem (das sie durchsetzt) und der Adoptionsanforderung (die sie vertritt). Sie muss dem Team sagen “erreicht eure Zahlen” und dem Team auch sagen “nehmt euch Zeit, das neue Tool zu lernen”. Beide Anweisungen kommen aus ihrem Mund. Das Team hoert beide. Das Team folgt der, die Konsequenzen hat.
Die Fuehrungskraft, die sagt “Ich moechte, dass Sie das KI-Tool erkunden” und dann am Freitag fragt “warum waren Ihre Zahlen diese Woche niedrig?”, hat zwei Botschaften gesendet. Die zweite hat die erste annulliert. Die Annullierung war nicht beabsichtigt. Es war das Anreizsystem, das durch die Fuehrungskraft sprach — und das Anreizsystem spricht lauter als Ermutigung.
Die Korrektur ist strukturell, nicht motivational. Die Fuehrungskraft braucht das Anreizsystem angepasst, bevor sie die Einfuehrung glaubwuerdig vertreten kann. “Ich moechte, dass Sie das KI-Tool erkunden, und Ihr Ziel wurde fuer die naechsten zwei Wochen um 15 % reduziert, um Raum fuer diese Erkundung zu schaffen” ist eine glaubwuerdige Botschaft. “Ich moechte, dass Sie das KI-Tool erkunden, und auch dieselben Ziele wie letzten Monat erreichen” ist es nicht. Das Team kennt den Unterschied. Das Team kennt immer den Unterschied.
Die Integration
Ich halte zwei Dinge, ohne sie aufzuloesen.
Erstens: Anreizsysteme existieren aus Gruenden. Sie treiben Verhalten an. Sie schaffen Verantwortlichkeit. Sie machen Leistung sichtbar und messbar. Sie im Namen der KI-Einfuehrung abzubauen waere unverantwortlich und unnoetig.
Zweitens: Anreizsysteme sind nicht neutral. Sie druecken aus, was die Organisation tatsaechlich schaetzt, unabhaengig davon, was das Wertestatement sagt. Wenn das Anreizsystem die Verhaltensweisen bestraft, die die Einfuehrung erfordert, scheitert die Einfuehrung. Das ist weder ein Personal- noch ein Technologieversagen. Es ist ein Designversagen in der Anreizarchitektur.
Beides ist wahr. Die Arbeit findet im Raum dazwischen statt — das Anreizsystem gerade genug anpassen, um die Einfuehrung zu ermoeglichen, ohne die Verantwortlichkeit abzubauen, die das System bietet.
Das ist Designarbeit, keine Politikarbeit. Sie erfordert Spezifitaet: welche Metriken, waehrend welcher Periode, mit welchen Schutzmechanismen. Sie erfordert Messung: Hat die Anpassung die Adoptionsverhaltensweise produziert? Hat sie unbeabsichtigte Konsequenzen produziert? Sie erfordert Iteration: Die erste Anpassung wird unvollkommen sein. Erneut anpassen.
Der Anreiz, den niemand prueft, ist der Anreiz, der bestimmt, ob Ihre KI-Einfuehrung gelingt oder scheitert. Nicht die Technologie. Nicht die Schulung. Nicht die Fuehrungskommunikation. Die Tabellenkalkulation, die bestimmt, was belohnt und was bestraft wird.
Den Anreiz pruefen. Die Adoption folgt dem Anreiz. Das war schon immer so.
Die Technologie ist bereit. Die Schulung ist gestaltet. Der Business Case ist solide. Die Fuehrung ist engagiert. Nichts davon spielt eine Rolle, wenn das Anreizsystem — der tatsaechliche Mechanismus, der bestimmt, was Menschen an einem Dienstagnachmittag tun — gegen die Einfuehrung arbeitet.
Der Anreiz ist die Infrastruktur. Die Infrastruktur pruefen. Die Infrastruktur reparieren. Die Adoption folgt.
Das war schon immer so.