Bertrand 23 december 2025

Modellkortet ingen läser

11 min lästid

Anthropic publicerar ett modellkort för varje Claude-release. OpenAI publicerar ett systemkort för varje GPT-release. Google DeepMind publicerar tekniska rapporter för Gemini. Meta publicerar modellkort för Llama. Mistral publicerar dem för sina modeller. Det här är primärkälledokumenten — skrivna av de som byggde modellerna — som beskriver exakt vad modellen kan göra, vad den inte kan göra, var den fallerar och under vilka omständigheter dess resultat inte bör litas på.

Nästan ingen läser dem.

Marknadsföringssidan får miljontals besök. Modellkortet får tusentals. Blogginlägget som tillkännager modellen delas i varje AI-nyhetsbrev och LinkedIn-flöde. Modellkortet — dokumentet som faktiskt talar om huruvida den här modellen passar ditt användningsfall — ligger tyst på en dokumentationssajt, oläst, ociterat, oanvänt.

Det här är ett problem. Specifikt är det den typ av problem som kostar företag pengar, producerar dåliga driftsättningar och urholkar förtroendet för AI-verktyg — allt för att det viktigaste dokumentet som levereras med varje modell behandlas som en teknisk bilaga i stället för en driftmanual.

Vad ett modellkort faktiskt innehåller

Termen “model card” kommer från en artikel från 2019 av Margaret Mitchell, Simone Wu, Andrew Zaldivar, Parker Barnes, Lucy Vasserman, Ben Hutchinson, Elena Spitzer, Inioluwa Deborah Raji och Timnit Gebru. Artikeln föreslog ett standardiserat dokumentationsramverk för maskininlärningsmodeller — analogt med en innehållsförteckning för livsmedel eller ett säkerhetsdatablad för kemikalier.

Det ursprungliga ramverket specificerade: modelldetaljer, avsedd användning, faktorer (relevanta demografiska eller kontextuella faktorer), mätvärden, utvärderingsdata, träningsdata, kvantitativa analyser, etiska överväganden samt förbehåll och rekommendationer.

I praktiken har modellkort från de stora AI-labbarna utvecklats bortom den här mallen, men kärnändamålet består: ärlig dokumentation av en modells kapacitet, begränsningar och lämpliga användningsfall, skriven av de som känner modellen bäst.

Anthropics modellkort för Claude innehåller till exempel:

Kapacitetsbedömningar med specifika riktmärken. Inte “Claude är bra på resonemang” utan “Claude uppnår X % på MMLU-riktmärket, Y % på HumanEval, Z % på MATH.” De här siffrorna är jämförbara mellan modeller. De talar om, specifikt, hur modellen presterar på standardiserade tester av kunskap, kodningsförmåga och matematiskt resonemang.

Kända begränsningar dokumenterade explicit. Modellkortet anger var modellen fallerar. Var den hallucinerar. Var dess resultat inte bör litas på utan mänsklig verifiering. Den här informationen är inte begravd i friskrivningar — den framhävs som operativ vägledning.

Säkerhetsutvärderingar. Hur modellen testades för skadliga resultat, snedvridning och missbrukspotential. Vilka begränsningsåtgärder som tillämpades. Vilka kvarvarande risker som kvarstår. Det här är den mest ärliga bedömningen av en modells säkerhetsprofil som finns tillgänglig — mer ärlig än ett marknadsföringsblogginlägg, mer specifik än en journalists sammanfattning.

Avsedda användningsfall och missbrukspotential. Vad modellen designades för, vad den inte designades för och vilka användningar utvecklarna specifikt avråder från. För ett litet eller medelstort företag som utvärderar om den här modellen ska driftsättas för en specifik uppgift är den här sektionen den enskilt mest värdefulla vägledningen som existerar.

OpenAI:s systemkort ger motsvarande information i ett annat format, med särskilt djup i deras säkerhetsutvärderingsmetodik — resultat från red-teaming, automatiserade utvärderingspipelines och de specifika riskkategorier de testar för.

De här dokumenten är inte marknadsföringsmaterial. De är tekniska redovisningar. De är det närmaste AI-industrin producerar i form av ärlig självbedömning. Och de ignoreras.

Varför ingen läser dem

Tre skäl, samtliga strukturella.

Dokumenten är skrivna för forskare, inte operatörer. Modellkort använder maskininlärningsforskningens språk: riktmärkesnamn, utvärderingsmetodiker, statistiska mått. En inköpschef som utvärderar om Claude ska driftsättas för klassificering av kundförfrågningar vet inte vad MMLU står för, har ingen baslinje för att tolka en HumanEval-poäng och vet inte hur man översätter en säkerhetsutvärdering till en operativ riskbedömning. Informationen är värdefull. Översättningslagret saknas.

Marknadsföringen är enklare att ta till sig. Ett blogginlägg som tillkännager en ny modell är 1 500 ord tillgänglig prosa med tydliga påståenden: “snabbare”, “mer träffsäker”, “bättre på kodning”. Modellkortet är 15 000 ord teknisk dokumentation med förbehåll, begränsningar och villkorade uttalanden. Blogginlägget bekräftar det du vill höra. Modellkortet berättar det du behöver höra. Det är olika målgrupper, och marknadsföringen vinner alltid kampen om uppmärksamheten.

Ingen har som jobb att läsa modellkort. I ett 200-personers företag som utvärderar en AI-driftsättning ansvarar ingen för att läsa modellkortet. CTO:n kan ha den tekniska bakgrunden men saknar tiden. Projektledaren har tiden men saknar den tekniska bakgrunden. Den externa konsulten har en modellrekommendation redo innan modellkortet har laddats ner. Modellkortet faller i ett ansvarsgap — för tekniskt för affärsbeslutfattaren, för operativt för forskningsteamet, för detaljerat för konsultens tidslinje.

Vad ett modellkort berättar som inget annat gör

Låt mig demonstrera med ett specifikt exempel. Jag går igenom tre kategorier av information från modellkort som direkt påverkar om ett EU-baserat litet eller medelstort företag bör driftsätta en specifik modell för ett specifikt användningsfall.

Kategori 1: Språkprestandavariation

Modellkort rapporterar flerspråkiga prestandariktmärken. Dessa riktmärken avslöjar prestandagap mellan språk som marknadsföringsmaterial aldrig nämner.

En modell som når 89 % på engelskspråkig frågebesvarande kan nå 72 % på tyska och 58 % på portugisiska. Marknadsföringssidan säger “stöder 95+ språk”. Modellkortet visar dig den faktiska prestandagradienten — och för ett EU-baserat litet eller medelstort företag som verkar på flera marknader är skillnaden mellan 89 % och 58 % skillnaden mellan ett användbart verktyg och en belastning.

När en portugisisk kund skickar in en förfrågan och modellens förståelseträffsäkerhet är 31 procentenheter lägre än för en engelsk förfrågan försämras resultatkvaliteten. Kunden får ett mindre träffsäkert svar. Om svaret innehåller en rekommendation, en klassificering eller ett beslut blir träffsäkerhetsgapet ett kvalitetsgap, ett rättvisegap och potentiellt ett juridiskt gap under GDPR artikel 22.

Modellkortet berättar det här. Blogginlägget gör det inte.

Kategori 2: Hallucineringsfrekvens per domän

Modellkort rapporterar i allt högre grad hallucineringsfrekvenser — hur ofta modellen genererar trovligt klingande men faktamässigt felaktig information. Dessa frekvenser varierar dramatiskt mellan domäner.

En modell kan hallucinera med 2 % på allmänna kunskapsfrågor och 12 % på domänspecifika tekniska frågor. För ett litet eller medelstort företag som driftsätter modellen för att besvara kundförfrågningar om en specialiserad produktlinje är den relevanta hallucineringsfrekvensen den domänspecifika, inte rubriksiffran.

Ännu viktigare, modellkort beskriver vilka typer av hallucinationer modellen är benägen till. Vissa modeller hallucinerar specifika detaljer (datum, siffror, namn) medan de har rätt i stort. Andra hallucinerar hela kausala kedjor — producerar förklaringar som låter auktoritativa och är helt fabricerade. Typen av hallucination avgör vilken typ av mänsklig tillsyn som krävs.

En modell som ibland har fel datum behöver ett faktakontrollerande lager. En modell som fabricerar förklaringar behöver en domänexpert som granskare. Den operativa responsen är olika. Modellkortet talar om vilken respons som behövs.

Kategori 3: Resultat av säkerhetsutvärdering

Modellkort från ansvarsfulla AI-labb inkluderar resultat från red-teaming — utfallen av systematiska försök att få modellen att producera skadliga, snedvridna eller olämpliga resultat.

För ett EU-baserat litet eller medelstort företag är de relevanta säkerhetsövervägandena specifika: huruvida modellen genererar snedvridna resultat som kan påverka anställningsbeslut (relevant under GDPR artikel 22 och EU:s AI-förordning artikel 6), huruvida den producerar diskriminerande innehåll i kundnära tillämpningar, och huruvida den läcker träningsdata som innehåller personuppgifter.

Modellkortet adresserar dessa frågor med specifika testresultat. Inte “vi testade för snedvridning” utan “vi testade för demografisk snedvridning över X kategorier med hjälp av Y-metodik och observerade Z-mönster av kvarvarande snedvridning under följande förutsättningar.”

Den här informationen är väsentlig för bedömningen av överensstämmelse som EU:s AI-förordning kräver för AI-system med hög risk. Artikel 9 kräver ett riskhanteringssystem som inkluderar identifiering och analys av kända och förutsebara risker. Modellkortet är den primära källan för kända risker. Att ignorera det är inte bara operativt oförståndigt — det kan vara juridiskt otillräckligt.

Hur man läser ett modellkort

För ett litet eller medelstort företag som utvärderar en AI-driftsättning, här är det operativa tillvägagångssättet för att läsa ett modellkort. Det tar ungefär två timmar, vilket är mindre än det genomsnittliga styrgruppsmötet och producerar mer användbar information.

Steg 1: Läs sektionen om avsedd användning först. Matchar den avsedda användningen ditt användningsfall? Om modellkortet säger att modellen är “designad för konversationsassistans och innehållsgenerering” och du vill använda den för automatiserad kreditbedömning föreligger en missmatchning. Missmatchningen innebär inte att modellen inte kan göra det. Det innebär att utvecklarna inte har testat den för det ändamålet, vilket betyder att ansvaret för testning faller på dig.

Steg 2: Kontrollera de flerspråkiga riktmärkena. Hitta prestandasiffrorna för varje språk din driftsättning kommer att använda. Om prestandagapet mellan ditt primära språk och sekundära språk överstiger 10 procentenheter, planera för ett kvalitetssäkringslager i de språk som presterar sämre.

Steg 3: Läs begränsningssektionen fullständigt. Det här är den mest värdefulla sektionen. Utvecklarna berättar var deras modell fallerar. De vet, för de har testat den. Att ignorera den här sektionen är AI-motsvarigheten till att ignorera konstruktörens rapport innan man bygger på en tomt. Informationen finns. Konsekvenserna av att ignorera den är förutsägbara.

Steg 4: Granska säkerhetsutvärderingen. Identifiera vilka kategorier av skadliga resultat som testats och vilka kvarvarande risker som kvarstår. Koppla dessa till ditt användningsfall. Om din driftsättning involverar utsatta grupper (kunder som ansöker om finansiella produkter, jobbsökande, patienter) är säkerhetsutvärderingen inte kompletterande läsning. Den är ett efterlevnadskrav.

Steg 5: Jämför mellan modeller. Modellkort är jämförbara. Samma riktmärken, samma kategorier, samma utvärderingsmetodiker förekommer i olika labbs modellkort. Läs tre modellkort för konkurrerande modeller och prestandaskillnaderna — inklusive de icke uppenbara som finns begravda i bilagorna — blir tydliga.

Kategori 4: Dokumentation om lämplig och olämplig användning

Modellkort inkluderar i allt högre grad explicita listor över avsedda användningsfall och dokumenterade missbruksscenarier. De här listorna är inte hypotetiska. De baseras på observerat användarbeteende under testning och driftsättning.

För ett litet eller medelstort företag som driftsätter en språkmodell för kundnära tillämpningar är missbruksdokumentationen operativt kritisk. Modellkortet kan specificera: “Den här modellen är inte designad för medicinsk diagnostik, juridisk rådgivning eller finansiella rekommendationer.” Om din driftsättning använder modellen för att generera rekommendationer om finansiella produkter har modellkortet just talat om för dig — skriftligt, från de som byggde modellen — att ditt användningsfall ligger utanför den avsedda omfattningen.

Det innebär inte att modellen inte kan utföra uppgiften. Den kan utföra den adekvat. Men modellkortets missbruksdokumentation innebär att modellutvecklarna inte har testat eller validerat modellen för den specifika tillämpningen. Säkerhetsutvärderingarna täcker inte ditt användningsfall. Prestandariktmärkena är inte kalibrerade för din domän. Ansvaret, om ett skadligt resultat uppstår, faller helt på dig — för modellkortet angav explicit att din användning inte var avsedd.

För efterlevnad av EU:s AI-förordning är den här dokumentationen direkt relevant. Artikel 13 kräver transparens om ett AI-systems avsedda ändamål. Om modellkortet säger att modellen inte är avsedd för ditt användningsfall, och du driftsätter den för det användningsfallet, har du skapat ett efterlevnadsgap som ingen mängd retrospektiv dokumentation kan fylla.

Modellkortet berättade. Du valde att inte läsa det. Konsekvensen är förutsebar.

Primärkälleprincipen

Jag läser ECB-rapporter, inte vad journalister säger om ECB-rapporter. Jag läser Eurostats datamängder, inte vad kommentatorer säger om Eurostats datamängder. Jag läser EU:s AI-förordnings artiklar, inte vad konsultfirmor säger om EU:s AI-förordnings artiklar.

Modellkortet är primärkällan för vad en AI-modell kan och inte kan göra. Allt annat — blogginlägget, analytikerrapporten, konsultens rekommendation, LinkedIn-heta-åsikten — är kommentarer. Kommentarer har sina användningsområden. Men kommentarer introducerar snedvridning, komprimering och agenda. Primärkällan gör det inte.

Modellkortet är inte perfekt. Det är skrivet av labbet som byggde modellen, och labb har incitament att presentera sina modeller fördelaktigt. Men modellkortet begränsas av reproducerbarhet — riktmärkena kan verifieras oberoende, begränsningarna kan testas oberoende och säkerhetsutvärderingarna kan replikeras oberoende. Marknadsföring begränsas inte av något av detta.

När jag utvärderar en AI-modell för en Bluewaves-driftsättning är modellkortet det första dokumentet jag läser och det sista jag refererar till. Inte det första för att det är enkelt — för att det är ärligt. Inte det sista för att det är heltäckande — för att de beslut vi fattar om driftsättning förankras i vad utvecklarna faktiskt vet om sin modell, inte i vad deras marknadsföringsteam vill att vi ska tro.

Den operativa implikationen

För varje AI-driftsättning på ditt företag bör en person läsa modellkortet. Fullständigt. Inte skumma. Inte den sammanfattande delen. Hela dokumentet.

Den personen bör översätta modellkortets tekniska bedömningar till tre operativa dokument:

En kapacitetsbedömning som anger, på klarspråk, vad modellen kan och inte kan göra för ditt specifika användningsfall, baserat på modellkortets riktmärken och begränsningar.

Ett riskregister som kopplar modellkortets säkerhetsutvärderingar och kända begränsningar till din specifika driftsättningskontext, identifierar vilka risker som är relevanta, vilka begränsningsåtgärder som behövs och vilka kvarvarande risker som måste accepteras.

En övervakningsplan som specificerar hur du kommer att verifiera, i produktion, att modellens faktiska prestanda matchar modellkortets dokumenterade prestanda — för modeller kan försämras, användningsfall kan glida, och den enda kontrollen av modellkortets påståenden är din egen observation.

Dessa tre dokument tar en person ungefär fyra timmar att producera. De kostar ingenting. De förebygger de vanligaste och dyraste misslyckandena vid AI-driftsättning: att driftsätta en modell för ett användningsfall den aldrig designades för, att driftsätta på ett språk där prestandan är väsentligt lägre, och att driftsätta utan ett övervakningssystem som fångar försämring innan användarna gör det.

Modellkortet är gratis. Att läsa det är gratis. Att agera på det är gratis.

Kostnaden av att inte läsa det är driftsättningen som misslyckas och teamet som tappar förtroendet för AI-verktyg för att ingen läste dokumentet som hade förutsagt misslyckandet.

Läs modellkortet.

Primärkällan finns tillgänglig. Primärkällan är gratis. Primärkällan innehåller information som ingen sekundärkälla — inget blogginlägg, ingen analytikerrapport, ingen konsultrekommendation — kan replikera.

Modellkortet är skrivet av de som byggde modellen. De vet saker om dess beteende som ingen annan vet. De dokumenterade de sakerna — ärligt, specifikt, med riktmärken och förbehåll — i ett dokument som är offentligt tillgängligt och systematiskt ignorerat.

Gapet mellan marknadsföringssidan och modellkortet är gapet mellan det du vill höra och det du behöver veta. Modellkortet är det du behöver veta.

Läs det.

Skriven av

Bertrand

Kreativ Teknolog

En seriell entreprenör med en doktorsexamen i AI och tjugofem år av systembyggande tvärs Europa. Han skapar kod som han surfar: läser mönster, hittar flödet, gör det svåra se enkelt ut.

← Alla anteckningar