Die Model Card, die niemand liest
Anthropic veroeffentlicht eine Model Card fuer jedes Claude-Release. OpenAI veroeffentlicht eine System Card fuer jedes GPT-Release. Google DeepMind veroeffentlicht technische Berichte fuer Gemini. Meta veroeffentlicht Model Cards fuer Llama. Mistral veroeffentlicht sie fuer ihre Modelle. Das sind die Primaerquellen — geschrieben von den Menschen, die die Modelle gebaut haben — die genau beschreiben, was das Modell kann, was es nicht kann, wo es versagt und unter welchen Bedingungen seinen Ausgaben nicht vertraut werden sollte.
Fast niemand liest sie.
Die Marketingseite bekommt Millionen Besuche. Die Model Card bekommt Tausende. Der Blogpost, der das Modell ankuendigt, wird in jedem KI-Newsletter und LinkedIn-Feed geteilt. Die Model Card — das Dokument, das Ihnen tatsaechlich sagt, ob dieses Modell fuer Ihren Anwendungsfall geeignet ist — sitzt ruhig auf einer Dokumentationsseite, ungelesen, unzitiert, ungenutzt.
Das ist ein Problem. Genauer gesagt die Art von Problem, die Unternehmen Geld kostet, schlechte Einfuehrungen produziert und Vertrauen in KI-Tools erodiert — alles weil das wichtigste Dokument, das mit jedem Modell ausgeliefert wird, als technischer Anhang behandelt wird statt als Betriebshandbuch.
Was eine Model Card tatsaechlich enthaelt
Der Begriff “Model Card” stammt aus einem Paper von 2019 von Margaret Mitchell, Simone Wu, Andrew Zaldivar, Parker Barnes, Lucy Vasserman, Ben Hutchinson, Elena Spitzer, Inioluwa Deborah Raji und Timnit Gebru. Das Paper schlug ein standardisiertes Dokumentationsframework fuer Machine-Learning-Modelle vor — analog zu einem Naehrwertlabel fuer Lebensmittel oder einem Sicherheitsdatenblatt fuer Chemikalien.
Das urspruengliche Framework spezifizierte: Modelldetails, beabsichtigte Verwendung, Faktoren (relevante demografische oder kontextuelle Faktoren), Metriken, Evaluierungsdaten, Trainingsdaten, quantitative Analysen, ethische Ueberlegungen und Hinweise und Empfehlungen.
In der Praxis haben sich Model Cards der grossen KI-Labore ueber diese Vorlage hinaus entwickelt, aber der Kernzweck bleibt: Ehrliche Dokumentation der Faehigkeiten, Einschraenkungen und geeigneten Anwendungsfaelle eines Modells, geschrieben von den Menschen, die das Modell am besten kennen.
Anthropics Claude-Model-Cards zum Beispiel enthalten:
Faehigkeitsbewertungen mit spezifischen Benchmarks. Nicht “Claude ist gut im Schlussfolgern”, sondern “Claude erreicht X % im MMLU-Benchmark, Y % bei HumanEval, Z % bei MATH.” Diese Zahlen sind modelluebergreifend vergleichbar. Sie sagen Ihnen spezifisch, wie das Modell in standardisierten Tests von Wissen, Programmierfaehigkeit und mathematischem Denken abschneidet.
Bekannte Einschraenkungen explizit dokumentiert. Die Model Card nennt, wo das Modell versagt. Wo es halluziniert. Wo seinen Ausgaben nicht ohne menschliche Verifizierung vertraut werden sollte. Diese Information ist nicht in Haftungsausschluessen versteckt — sie wird als operative Orientierung in den Vordergrund gestellt.
Sicherheitsbewertungen. Wie das Modell auf schaedliche Ausgaben, Verzerrungen und Missbrauchspotenzial getestet wurde. Welche Minderungsmassnahmen angewandt wurden. Welche Restrisiken bestehen. Das ist die ehrlichste Bewertung des Sicherheitsprofils eines Modells, die irgendwo verfuegbar ist — ehrlicher als ein Marketing-Blogpost, spezifischer als die Zusammenfassung eines Journalisten.
Beabsichtigte Anwendungsfaelle und Missbrauchspotenzial. Wofuer das Modell entworfen wurde, wofuer es nicht entworfen wurde und von welcher Verwendung die Entwickler ausdruecklich abraten. Fuer ein KMU, das bewertet, ob es dieses Modell fuer eine bestimmte Aufgabe einsetzen soll, ist dieser Abschnitt die wertvollste Orientierungshilfe, die existiert.
OpenAIs System Cards liefern gleichwertige Informationen in einem anderen Format, mit besonderer Tiefe bei ihrer Sicherheitsbewertungsmethodik — Red-Teaming-Ergebnisse, automatisierte Evaluierungspipelines und die spezifischen Risikokategorien, die sie testen.
Diese Dokumente sind keine Marketingmaterialien. Es sind technische Offenlegungen. Sie sind das Naechste, was die KI-Branche an ehrlicher Selbstbewertung produziert. Und sie werden ignoriert.
Warum niemand sie liest
Drei Gruende, alle strukturell.
Die Dokumente sind fuer Forscher geschrieben, nicht fuer Anwender. Model Cards verwenden die Sprache der Machine-Learning-Forschung: Benchmark-Namen, Evaluierungsmethoden, statistische Masse. Ein Einkaufsdirektor, der bewertet, ob er Claude fuer die Klassifizierung von Kundenanfragen einsetzen soll, weiss nicht, wofuer MMLU steht, hat keine Basis fuer die Interpretation eines HumanEval-Scores und weiss nicht, wie man eine Sicherheitsbewertung in eine operative Risikobewertung uebersetzt. Die Information ist wertvoll. Die Uebersetzungsschicht fehlt.
Das Marketing ist leichter konsumierbar. Ein Blogpost, der ein neues Modell ankuendigt, umfasst 1.500 Woerter zugaenglicher Prosa mit klaren Behauptungen: “schneller”, “genauer”, “besser im Programmieren”. Die Model Card umfasst 15.000 Woerter technischer Dokumentation mit Einschraenkungen, Vorbehalten und bedingten Aussagen. Der Blogpost bestaetigt, was Sie hoeren wollen. Die Model Card sagt Ihnen, was Sie wissen muessen. Das sind verschiedene Zielgruppen, und das Marketing gewinnt immer den Aufmerksamkeitswettbewerb.
Es ist niemandes Aufgabe, Model Cards zu lesen. In einem 200-Personen-Unternehmen, das eine KI-Einfuehrung evaluiert, ist niemand dafuer verantwortlich, die Model Card zu lesen. Der CTO hat vielleicht den technischen Hintergrund, aber nicht die Zeit. Der Projektmanager hat die Zeit, aber nicht den technischen Hintergrund. Der externe Berater hat eine Modellempfehlung parat, bevor die Model Card heruntergeladen wurde. Die Model Card faellt in eine Verantwortungsluecke — zu technisch fuer den Geschaeftsentscheider, zu operativ fuer das Forschungsteam, zu detailliert fuer den Zeitplan des Beraters.
Was eine Model Card Ihnen sagt, das nichts anderes sagt
Ich demonstriere das anhand eines konkreten Beispiels. Ich gehe drei Kategorien von Informationen aus Model Cards durch, die direkt beeinflussen, ob ein EU-KMU ein bestimmtes Modell fuer einen bestimmten Anwendungsfall einsetzen sollte.
Kategorie 1: Sprachleistungsvarianz
Model Cards berichten mehrsprachige Leistungsbenchmarks. Diese Benchmarks zeigen Leistungsunterschiede zwischen Sprachen auf, die Marketingmaterialien nie erwaehnen.
Ein Modell, das 89 % bei englischsprachiger Frage-Antwort-Aufgabe erzielt, kann 72 % bei Deutsch und 58 % bei Portugiesisch erzielen. Die Marketingseite sagt “unterstuetzt 95+ Sprachen”. Die Model Card zeigt Ihnen den tatsaechlichen Leistungsgradienten — und fuer ein EU-KMU, das in mehreren Maerkten operiert, ist der Unterschied zwischen 89 % und 58 % der Unterschied zwischen einem nuetzlichen Tool und einer Haftung.
Wenn ein portugiesischer Kunde eine Anfrage stellt und die Verstaendnisgenauigkeit des Modells 31 Prozentpunkte niedriger ist als bei einer englischen Anfrage, verschlechtert sich die Ausgabequalitaet. Der Kunde erhaelt eine weniger genaue Antwort. Wenn die Antwort eine Empfehlung, eine Klassifizierung oder eine Entscheidung beinhaltet, wird die Genauigkeitsluecke zu einer Qualitaetsluecke, einer Fairnessluecke und potenziell einer rechtlichen Luecke nach Artikel 22 DSGVO.
Die Model Card sagt Ihnen das. Der Blogpost nicht.
Kategorie 2: Halluzinationsraten nach Domaene
Model Cards berichten zunehmend Halluzinationsraten — die Haeufigkeit, mit der das Modell plausibel klingende, aber sachlich falsche Informationen generiert. Diese Raten variieren dramatisch nach Domaene.
Ein Modell halluziniert vielleicht mit 2 % bei allgemeinen Wissensfragen und mit 12 % bei domaenenspezifischen technischen Fragen. Fuer ein KMU, das das Modell zur Beantwortung von Kundenanfragen ueber eine spezialisierte Produktlinie einsetzt, ist die relevante Halluzinationsrate die domaenenspezifische, nicht die Schlagzeilen-Zahl.
Entscheidender noch: Model Cards beschreiben die Arten von Halluzinationen, zu denen das Modell neigt. Manche Modelle halluzinieren spezifische Details (Daten, Zahlen, Namen), treffen aber die allgemeine Richtung. Andere halluzinieren ganze Kausalzusammenhaenge — produzieren Erklaerungen, die autoritativ klingen und komplett erfunden sind. Die Art der Halluzination bestimmt die Art der erforderlichen menschlichen Aufsicht.
Ein Modell, das manchmal Daten falsch angibt, braucht eine Faktencheck-Schicht. Ein Modell, das Erklaerungen erfindet, braucht einen Domaenenexperten als Pruefer. Die operative Reaktion ist unterschiedlich. Die Model Card sagt Ihnen, welche Reaktion noetig ist.
Kategorie 3: Sicherheitsbewertungsergebnisse
Model Cards verantwortungsvoller KI-Labore enthalten Red-Teaming-Ergebnisse — die Resultate systematischer Versuche, das Modell dazu zu bringen, schaedliche, verzerrte oder unangemessene Ausgaben zu produzieren.
Fuer ein EU-KMU sind die relevanten Sicherheitsueberlegungen spezifisch: ob das Modell verzerrte Ausgaben generiert, die Beschaeftigungsentscheidungen beeinflussen koennten (relevant nach Artikel 22 DSGVO und Artikel 6 KI-Verordnung der EU), ob es diskriminierende Inhalte in kundenseitigen Anwendungen produziert und ob es Trainingsdaten preisgibt, die personenbezogene Informationen enthalten.
Die Model Card behandelt diese Fragen mit spezifischen Testergebnissen. Nicht “wir haben auf Verzerrungen getestet”, sondern “wir haben auf demografische Verzerrungen ueber X Kategorien mit Y Methodik getestet und Z Muster von verbleibenden Verzerrungen unter folgenden Bedingungen beobachtet.”
Diese Information ist essenziell fuer die Konformitaetsbewertung, die die KI-Verordnung der EU fuer Hochrisiko-KI-Systeme verlangt. Artikel 9 verlangt ein Risikomanagementsystem, das die Identifizierung und Analyse bekannter und vorhersehbarer Risiken umfasst. Die Model Card ist die Primaerquelle fuer bekannte Risiken. Sie zu ignorieren ist nicht nur operativ toerich — es koennte rechtlich ungenuegend sein.
Wie man eine Model Card liest
Fuer ein KMU, das eine KI-Einfuehrung evaluiert, hier der operative Ansatz zum Lesen einer Model Card. Das dauert etwa zwei Stunden, was weniger ist als das durchschnittliche Steuerungsgremium-Meeting und nuetzlichere Informationen produziert.
Schritt 1: Lesen Sie zuerst den Abschnitt zum beabsichtigten Einsatz. Stimmt der beabsichtigte Einsatz mit Ihrem Anwendungsfall ueberein? Wenn die Model Card sagt, das Modell sei “fuer konversationelle Unterstuetzung und Inhaltsgenerierung konzipiert” und Sie es fuer automatisierte Kreditbewertung nutzen wollen, gibt es eine Diskrepanz. Die Diskrepanz bedeutet nicht, dass das Modell es nicht kann. Sie bedeutet, dass die Entwickler es dafuer nicht getestet haben, was bedeutet, dass die Verantwortung fuer das Testen bei Ihnen liegt.
Schritt 2: Pruefen Sie die mehrsprachigen Benchmarks. Finden Sie die Leistungszahlen fuer jede Sprache, die Ihre Einfuehrung verwenden wird. Wenn die Leistungsluecke zwischen Ihrer Hauptsprache und Nebensprachen 10 Prozentpunkte uebersteigt, planen Sie eine Qualitaetssicherungsschicht fuer die schlechter abschneidenden Sprachen.
Schritt 3: Lesen Sie den Einschraenkungsabschnitt vollstaendig. Das ist der wertvollste Abschnitt. Die Entwickler sagen Ihnen, wo ihr Modell versagt. Sie wissen es, weil sie es getestet haben. Diesen Abschnitt zu ignorieren ist das KI-Aequivalent dazu, den Bericht des Statikers zu ignorieren, bevor man auf einem Grundstueck baut. Die Information ist da. Die Konsequenzen des Ignorierens sind vorhersehbar.
Schritt 4: Pruefen Sie die Sicherheitsbewertung. Identifizieren Sie die Kategorien schaedlicher Ausgaben, die getestet wurden, und die verbleibenden Risiken. Ordnen Sie diese Ihrem Anwendungsfall zu. Wenn Ihre Einfuehrung vulnerable Gruppen betrifft (Kunden, die Finanzprodukte beantragen, Bewerber, Patienten), ist die Sicherheitsbewertung keine Zusatzlektuere. Sie ist eine Compliance-Anforderung.
Schritt 5: Vergleichen Sie modelluebergreifend. Model Cards sind vergleichbar. Die gleichen Benchmarks, die gleichen Kategorien, die gleichen Evaluierungsmethoden erscheinen in den Model Cards verschiedener Labore. Lesen Sie drei Model Cards konkurrierender Modelle, und die Leistungsunterschiede — einschliesslich der nicht offensichtlichen, die in den Anhaengen stecken — werden deutlich.
Kategorie 4: Dokumentation geeigneter Verwendung und Missbrauch
Model Cards enthalten zunehmend explizite Listen beabsichtigter Anwendungsfaelle und dokumentierter Missbrauchsszenarien. Diese Listen sind nicht hypothetisch. Sie basieren auf beobachtetem Nutzerverhalten waehrend Tests und Einsatz.
Fuer ein KMU, das ein Sprachmodell fuer kundenseitige Anwendungen einsetzt, ist die Missbrauchsdokumentation operativ entscheidend. Die Model Card kann spezifizieren: “Dieses Modell ist nicht fuer medizinische Diagnosen, Rechtsberatung oder Finanzempfehlungen konzipiert.” Wenn Ihre Einfuehrung das Modell zur Generierung von Finanzproduktempfehlungen nutzt, hat die Model Card Ihnen gerade gesagt — schriftlich, von den Menschen, die das Modell gebaut haben — dass Ihr Anwendungsfall ausserhalb des beabsichtigten Rahmens liegt.
Das bedeutet nicht, dass das Modell die Aufgabe nicht erfuellen kann. Moeglicherweise erfuellt es sie adaequat. Aber die Missbrauchsdokumentation der Model Card bedeutet, dass die Modellentwickler das Modell fuer diese spezifische Anwendung nicht getestet oder validiert haben. Die Sicherheitsbewertungen decken Ihren Anwendungsfall nicht ab. Die Leistungsbenchmarks sind nicht fuer Ihre Domaene kalibriert. Die Haftung im Fall einer schaedlichen Ausgabe liegt vollstaendig bei Ihnen — weil die Model Card ausdruecklich erklaert hat, dass Ihre Nutzung nicht beabsichtigt war.
Fuer die Compliance mit der KI-Verordnung der EU ist diese Dokumentation direkt relevant. Artikel 13 verlangt Transparenz ueber den beabsichtigten Zweck eines KI-Systems. Wenn die Model Card sagt, das Modell sei nicht fuer Ihren Anwendungsfall beabsichtigt, und Sie es fuer diesen Anwendungsfall einsetzen, haben Sie eine Compliance-Luecke geschaffen, die keine nachtraegliche Dokumentation fuellen kann.
Die Model Card hat es Ihnen gesagt. Sie haben sich entschieden, sie nicht zu lesen. Die Konsequenz ist vorhersehbar.
Das Primaerquellenprinzip
Ich lese EZB-Berichte, nicht was Journalisten ueber EZB-Berichte sagen. Ich lese Eurostat-Datensaetze, nicht was Kommentatoren ueber Eurostat-Datensaetze sagen. Ich lese Artikel der KI-Verordnung der EU, nicht was Beratungsfirmen ueber die KI-Verordnung der EU sagen.
Die Model Card ist die Primaerquelle fuer das, was ein KI-Modell kann und nicht kann. Alles andere — der Blogpost, der Analystenbericht, die Empfehlung des Beraters, der LinkedIn-Heissnehmer — ist Kommentar. Kommentar hat seinen Nutzen. Aber Kommentar fuehrt Verzerrungen, Komprimierung und Agenda ein. Die Primaerquelle tut das nicht.
Die Model Card ist nicht perfekt. Sie wird vom Labor geschrieben, das das Modell gebaut hat, und Labore haben Anreize, ihre Modelle vorteilhaft darzustellen. Aber die Model Card ist durch Reproduzierbarkeit eingeschraenkt — die Benchmarks koennen unabhaengig verifiziert werden, die Einschraenkungen koennen unabhaengig getestet werden und die Sicherheitsbewertungen koennen unabhaengig repliziert werden. Marketing ist durch nichts davon eingeschraenkt.
Wenn ich ein KI-Modell fuer eine Bluewaves-Einfuehrung evaluiere, ist die Model Card das erste Dokument, das ich lese, und das letzte, auf das ich mich beziehe. Nicht das erste, weil es einfach ist — weil es ehrlich ist. Nicht das letzte, weil es umfassend ist — weil die Entscheidungen, die wir ueber die Einfuehrung treffen, in dem verankert sind, was die Entwickler tatsaechlich ueber ihr Modell wissen, nicht in dem, was ihr Marketingteam uns glauben machen will.
Die operative Implikation
Fuer jede KI-Einfuehrung in Ihrem Unternehmen sollte eine Person die Model Card lesen. Vollstaendig. Nicht ueberfliegen. Nicht die Zusammenfassung. Das vollstaendige Dokument.
Diese Person sollte die technischen Bewertungen der Model Card in drei operative Dokumente uebersetzen:
Eine Faehigkeitsbewertung, die in klarer Sprache feststellt, was das Modell fuer Ihren spezifischen Anwendungsfall kann und nicht kann, basierend auf den Benchmarks und Einschraenkungen der Model Card.
Ein Risikoregister, das die Sicherheitsbewertungen und bekannten Einschraenkungen der Model Card auf Ihren spezifischen Einfuehrungskontext abbildet und identifiziert, welche Risiken relevant sind, welche Minderungsmassnahmen noetig sind und welche Restrisiken akzeptiert werden muessen.
Einen Ueberwachungsplan, der spezifiziert, wie Sie im Produktivbetrieb verifizieren werden, dass die tatsaechliche Leistung des Modells mit der dokumentierten Leistung der Model Card uebereinstimmt — weil Modelle degradieren koennen, Anwendungsfaelle abdriften koennen und die einzige Ueberpruefung der Behauptungen der Model Card Ihre eigene Beobachtung ist.
Diese drei Dokumente dauern fuer eine Person etwa vier Stunden. Sie kosten nichts. Sie verhindern die haeufigsten und teuersten KI-Einfuehrungsfehler: ein Modell fuer einen Anwendungsfall einzusetzen, fuer den es nie konzipiert war, in einer Sprache einzusetzen, in der die Leistung wesentlich niedriger ist, und ohne ein Ueberwachungssystem einzusetzen, das Degradierung erkennt, bevor die Nutzer es tun.
Die Model Card ist kostenlos. Sie zu lesen ist kostenlos. Danach zu handeln ist kostenlos.
Die Kosten des Nichtlesens sind die Einfuehrung, die scheitert, und das Team, das das Vertrauen in KI-Tools verliert, weil niemand das Dokument gelesen hat, das das Scheitern vorhergesagt haette.
Lesen Sie die Model Card.
Die Primaerquelle ist verfuegbar. Die Primaerquelle ist kostenlos. Die Primaerquelle enthaelt Informationen, die keine Sekundaerquelle — kein Blogpost, kein Analystenbericht, keine Beraterempfehlung — replizieren kann.
Die Model Card wird von den Menschen geschrieben, die das Modell gebaut haben. Sie wissen Dinge ueber sein Verhalten, die niemand sonst weiss. Sie haben diese Dinge dokumentiert — ehrlich, spezifisch, mit Benchmarks und Vorbehalten — in einem Dokument, das oeffentlich verfuegbar und systematisch ignoriert wird.
Die Luecke zwischen der Marketingseite und der Model Card ist die Luecke zwischen dem, was Sie hoeren wollen, und dem, was Sie wissen muessen. Die Model Card ist, was Sie wissen muessen.
Lesen Sie sie.