De fout van EUR 500.000
Bertrand 3 februari 2026

De fout van EUR 500.000

13 min leestijd

In Q3 2025 legde de Hamburgse Commissaris voor Gegevensbescherming en Vrijheid van Informatie (HmbBfDI) een boete van EUR 492.000 op aan een financiele dienstverlener wegens schending van AVG-bepalingen over geautomatiseerde besluitvorming. Het bedrijf had een algoritmisch systeem ingezet voor de verwerking van creditcardaanvragen — waarbij aanvragers automatisch werden afgewezen zonder adequate uitleg van de beslissingslogica of betekenisvolle menselijke betrokkenheid bij het proces.

Het patroon is niet uniek voor financiele dienstverlening. Neem het scenario dat elke Europese toezichthouder in de gaten houdt: een AI-systeem ingezet voor geautomatiseerde prestatiebeoordeling van werknemers. Het systeem scoort werknemers op een samengestelde metric, markeert onderpresteerders voor beoordeling en genereert ontslagaanbevelingen. Een menselijke beoordelaar keurt elke aanbeveling goed die het systeem genereert, maandenlang. Elke. Enkele. Een.

Onder AVG artikel 22 is dit geen “betekenisvol menselijk toezicht.” Een mens die elke machinale aanbeveling goedkeurt zonder onafhankelijke beoordeling is geen besluitvormer. Het is een doorgeefluik — een mensvormige rubberstempel die vertraging toevoegt aan een geautomatiseerd proces zonder er oordeelsvermogen aan toe te voegen.

De Hamburgse boete was EUR 492.000. De les is meer waard.

Wat artikel 22 werkelijk zegt

AVG artikel 22(1) stelt: “De betrokkene heeft het recht niet te worden onderworpen aan een uitsluitend op geautomatiseerde verwerking, waaronder profilering, gebaseerd besluit waaraan voor hem rechtsgevolgen zijn verbonden of dat hem anderszins in aanmerkelijke mate treft.”

De kernfrase is “uitsluitend gebaseerd op geautomatiseerde verwerking.” Als een mens oprecht betrokken is bij de beslissing, is artikel 22 niet van toepassing. De vraag — de hele vraag — is wat “oprecht betrokken” betekent.

De Artikel 29-werkgroep (nu het Europees Comite voor Gegevensbescherming) gaf richtlijnen in 2018: de menselijke betrokkenheid moet “betekenisvol” zijn in plaats van een “symbolisch gebaar.” De mens moet de “bevoegdheid en competentie hebben om de beslissing te wijzigen.” Ze moeten “alle beschikbare inputgegevens in overweging nemen” en “een beoordeling uitvoeren.”

Dit zijn kwalitatieve vereisten. De Hamburgse zaak vertaalde ze voor het eerst naar operationele criteria in een significante handhavingsactie.

Vier criteria voor betekenisvol toezicht

De Hamburgse handhavingsactie, gecombineerd met de richtlijnen van de Artikel 29-werkgroep uit 2018 over geautomatiseerde besluitvorming, wijst op vier operationele criteria voor betekenisvol menselijk toezicht:

Criterium 1: Capaciteit voor onafhankelijke beoordeling. De menselijke beoordelaar moet toegang hebben tot alle informatie die het geautomatiseerde systeem gebruikte om tot zijn aanbeveling te komen — de inputgegevens, de verwerkingslogica (voor zover uitlegbaar), en de output. Ze moeten ook toegang hebben tot informatie die het systeem niet gebruikte: contextuele factoren, historische patronen, interpersoonlijke dynamiek, en domeinkennis die het systeem niet kan vastleggen.

Bij een typische falende implementatie ontvangt de beoordelaar de score en aanbeveling van het systeem, maar heeft geen toegang tot de onderliggende data die het systeem analyseerde. De beoordelaar beoordeelt de output van het systeem, niet de situatie van het individu. Dit is de beoordelaar beoordelen, niet het bewijs beoordelen.

Criterium 2: Operationele bevoegdheid om te overschrijven. De menselijke beoordelaar moet de praktische bevoegdheid — niet alleen de theoretische bevoegdheid — hebben om de aanbeveling van het systeem af te wijzen. Dit betekent dat de organisatorische prikkelstructuur overschrijvingen moet ondersteunen. Als het overschrijven van het systeem extra documentatievereisten, managementvragen of prestatie-consequenties voor de beoordelaar triggert, is het overschrijvingsmechanisme functioneel uitgeschakeld zelfs als het formeel bestaat.

Een veelvoorkomend falingpatroon: het proces vereist dat de beoordelaar schriftelijke rechtvaardiging geeft voor elke overschrijving, terwijl goedkeuringen geen documentatie vereisen. De asymmetrie creert een impliciete prikkel om goed te keuren. Europese toezichthouders hebben consequent vastgesteld dat dit soort structurele asymmetrie de betekenisvolheid van toezicht ondermijnt.

Criterium 3: Voldoende tijd en middelen. De beoordelaar moet voldoende tijd hebben om een oprechte beoordeling uit te voeren. Als het werkproces 200 beoordelingsbeslissingen per dag aan een persoon toewijst, wordt de tijd per beslissing gemeten in minuten. Betekenisvolle beoordeling van de prestaties van een werknemer — rekening houdend met de input van het AI-systeem, de onderliggende data en de contextuele factoren — kan niet in drie minuten worden voltooid.

Wanneer een beoordelaar 40 of 50 beoordelingen per dag verwerkt, wordt de tijd per beslissing gemeten in minuten. Betekenisvolle beoordeling van de omstandigheden van een individu kan niet in drie minuten worden voltooid. Door volume veroorzaakte rubberstempelpraktijken zijn functioneel equivalent aan geautomatiseerde verwerking.

Criterium 4: Aangetoonde variatie in uitkomsten. Een menselijke beoordelaar die het gedurende langere tijd eens is met elke geautomatiseerde aanbeveling, beoordeelt niet. Die keurt goed. Een goedkeuringspercentage van 100% over maanden is direct bewijs dat toezicht niet betekenisvol is. Een oprechte onafhankelijke beoordeling zou enige onenigheid opleveren — tenzij het geautomatiseerde systeem perfect is, en geen enkel systeem is dat.

Dit criterium is statistisch. Het vereist geen specifiek overschrijvingspercentage. Maar een overschrijvingspercentage van 0% is bewijs dat het beoordelingsproces ceremonieel is.

De technische architectuur van menselijk toezicht

De Hamburgse handhaving is een compliancezaak. De implicaties zijn architecturaal. Als betekenisvol menselijk toezicht onafhankelijke beoordeling, overschrijvingsbevoegdheid, voldoende tijd en aangetoonde variatie vereist, dan moet het AI-systeem gebouwd zijn om alle vier te ondersteunen.

Dit is geen beleidsprobleem. Het is een engineeringprobleem.

Ondersteuning van onafhankelijke beoordeling: Het systeem moet de beoordelaar de inputgegevens presenteren, de redenering van het model (of vertrouwenssignalen, of feature-belangrijkheidsscores), en een duidelijke presentatie van welke informatie het model niet had. Dit is een interfaceontwerpvereiste: de beoordelingsinterface kan geen binaire goedkeur/afwijs-knop naast een score zijn. Het moet een werkruimte zijn waar de beoordelaar het bewijs kan onderzoeken.

Voor een mkb-bedrijf dat een AI-systeem inzet voor klantcreditbeoordeling betekent dit dat de beoordelingsinterface toont: de aanvraaggegevens van de klant, de risicoscore van het model, de factoren die de score het meest beinvloedden (positief en negatief), het vertrouwensniveau van het model, en een gestructureerde ruimte voor de beoordelaar om contextuele informatie toe te voegen die het model niet in overweging nam (bijv. een bestaande klantrelatie, een bekende tijdelijke financiele situatie).

Het bouwen van deze interface kost engineeringtijd. Het niet bouwen kost honderdduizenden euro’s aan boetes — als minimum.

Ondersteuning van overschrijvingsbevoegdheid: Het systeem moet overschrijvingen net zo gemakkelijk maken als goedkeuringen. Geen extra documentatie. Geen extra goedkeuringsketens. Als het goedkeuren van een aanbeveling een klik kost, moet het overschrijven van een aanbeveling een klik plus een reden kosten (geselecteerd uit een dropdown, geen vrij-tekst essay). Het organisatieproces moet overschrijvingen expliciet waarderen — niet als fouten in het geautomatiseerde systeem, maar als bewijs dat menselijk oordeelsvermogen operationeel is.

Ondersteuning van voldoende tijd: Het systeem moet het werkvolume beheren om ervoor te zorgen dat beoordelaars voldoende tijd per beslissing hebben. Dit is een wachtrijtheorie-probleem. Als de gemiddelde beoordeling 12 minuten betekenisvolle beoordeling vereist en de beoordelaar 7 productieve uren per dag werkt, is het maximale duurzame volume 35 beoordelingen per dag. Het systeem moet deze limiet afdwingen — niet via managementtoezicht, maar via werkprocesontwerp. De 36e beoordeling gaat naar een andere beoordelaar of wacht tot morgen.

Ondersteuning van aangetoonde variatie: Het systeem moet overschrijvingspercentages bijhouden en afwijkingen signaleren. Een beoordelaar met een aanhoudend goedkeuringspercentage van 100% zou een procesbeoordeling moeten triggeren — niet omdat de beoordelaar nalatig is, maar omdat het systeem mogelijk faalt in het presenteren van gevallen waarin overschrijving gerechtvaardigd is, of de drempel voor menselijke beoordeling verkeerd gekalibreerd kan zijn.

De versterking door de AI-verordening van de EU

De AVG artikel 22-vereiste voor betekenisvol menselijk toezicht wordt versterkt door de AI-verordening van de EU, die het concept verder doorvoert voor hoog-risico AI-systemen.

Artikel 14 van de AI-verordening van de EU vereist dat hoog-risico AI-systemen “zodanig worden ontworpen en ontwikkeld, met inbegrip van passende instrumenten voor de mens-machine-interface, dat zij doeltreffend door natuurlijke personen kunnen worden overzien gedurende de periode waarin het AI-systeem in gebruik is.”

De belangrijkste toevoegingen ten opzichte van de AVG:

Ontwerpvereiste. Het menselijk toezicht moet in het ontwerp van het systeem zijn ingebouwd, niet als proceslaag erop geplakt. Dit is een productvereiste, geen beleidsvereiste. De conformiteitsbeoordeling (artikelen 16-22) evalueert of het systeem ontworpen is voor doeltreffend menselijk toezicht — niet of er een menselijk beoordelingsproces bovenop een geautomatiseerd systeem is gelegd.

Interfacevereiste. De verordening noemt expliciet “instrumenten voor de mens-machine-interface.” De beoordelingsinterface is niet optioneel. Het is een wettelijke vereiste. De interface moet de menselijke toezichthouder in staat stellen om “de output van het systeem correct te interpreteren” en om “in elke specifieke situatie te beslissen het hoog-risico AI-systeem niet te gebruiken of de output ervan te negeren, te overschrijven of terug te draaien.”

Competentievereiste. Artikel 14(4) vereist dat menselijke toezichthouders “de nodige competentie, opleiding en bevoegdheid” hebben om doeltreffend toezicht uit te oefenen. Dit betekent dat de beoordelaar getraind moet zijn — niet alleen op het beoordelingsproces, maar op de werking van het AI-systeem, de bekende beperkingen ervan, en het domein waarin het opereert.

Voor een mkb-bedrijf dat zich voorbereidt op de handhavingsdatum van 2 augustus 2026 vertalen deze vereisten zich in specifieke engineering- en operationele beslissingen die voor implementatie genomen moeten worden, niet erna.

De drie meest voorkomende fouten

Op basis van handhavingstrends en de vereisten van de AI-verordening van de EU falen drie implementatiepatronen voor de test van betekenisvol toezicht:

Fout 1: De bevestigingsinterface. De beoordelingsinterface toont de aanbeveling van het AI-systeem en vraagt de beoordelaar om te bevestigen of af te wijzen. De aanbeveling wordt als standaard gepresenteerd. De bevestigingsknop is prominent. De afwijzingsknop vereist extra stappen. De interface is ontworpen om goedkeuring te stroomlijnen, wat betekent dat het ontworpen is om toezicht te ontmoedigen.

De fix: de beoordelingsinterface zou het bewijs moeten presenteren zonder een voorgevormde aanbeveling. De beoordelaar onderzoekt de data en vormt een onafhankelijk oordeel voordat de aanbeveling van het systeem zichtbaar wordt. Dit heet “blinde beoordeling” in klinisch onderzoek. Het voorkomt verankeringsbias — de cognitieve neiging om mee te gaan met het eerste getal dat je ziet.

Fout 2: De beoordeling achteraf. Het AI-systeem neemt een beslissing. De beslissing wordt uitgevoerd. De mens beoordeelt achteraf. Dit komt veel voor bij geautomatiseerde klantenservice: de chatbot antwoordt, het kwaliteitsteam beoordeelt later een steekproef van antwoorden. De richtlijnen van de Artikel 29-werkgroep verduidelijken dat beoordeling achteraf niet voldoet aan artikel 22 voor beslissingen die “rechtsgevolgen hebben” of het betrokkene “anderszins in aanmerkelijke mate treffen.” De mens moet in de loop zitten, niet na de loop.

De fix: voor beslissingen met significante individuele impact genereert het AI-systeem een aanbeveling. De mens beoordeelt de aanbeveling voordat deze wordt uitgevoerd. De beslissing van de mens is de beslissing. De aanbeveling van het systeem is input.

Fout 3: De volume-overschrijving. De organisatie ontwerpt een betekenisvol beoordelingsproces en overspoelt het vervolgens met volume. Honderd beoordelingen per dag toegewezen aan een persoon. Het proces is op papier betekenisvol. De uitvoering is in de praktijk onmogelijk. Europese toezichthouders hebben door volume veroorzaakte rubberstempelpraktijken behandeld als functioneel equivalent aan geautomatiseerde verwerking.

De fix: capaciteitsplanning. Stem het aantal beoordelaars af op het volume van beslissingen dat beoordeling vereist, met als doel betekenisvolle beoordelingstijd per beslissing. Als het AI-systeem meer beoordelingen genereert dan het menselijke team betekenisvol kan verwerken, moet de reikwijdte van het systeem worden verkleind — niet de beoordelingskwaliteit.

Het probleem van automatiseringsbias

Er is een vierde fout die handhavingspatronen blootleggen: automatiseringsbias.

Automatiseringsbias, gedocumenteerd door Parasuraman en Manzey (2010), is de neiging van menselijke operators om op geautomatiseerde output te vertrouwen zelfs wanneer tegenstrijdige informatie beschikbaar is. De bias is het sterkst wanneer het geautomatiseerde systeem een trackrecord van nauwkeurigheid heeft — wat pervers genoeg betekent dat hoe beter het AI-systeem presteert, hoe minder waarschijnlijk het is dat de menselijke beoordelaar het overschrijft.

Een aanhoudend goedkeuringspercentage van 100% is consistent met automatiseringsbias. Het AI-systeem was waarschijnlijk meestal nauwkeurig. De beoordelaar leerde het te vertrouwen. Naarmate het vertrouwen groeide, werd de beoordeling oppervlakkig — een blik op de aanbeveling, een klik op “goedkeuren.” De beoordelaar was niet nalatig. Ze waren menselijk. Automatiseringsbias is een gedocumenteerd cognitief patroon, geen karakterfout.

De ontwerpimplicatie: betekenisvol menselijk toezicht moet tegenmaatregelen tegen automatiseringsbias bevatten. Drie specifieke tegenmaatregelen:

Tegenmaatregel 1: Verplichte deliberatieprompts. Op willekeurige intervallen — elke 5e of 10e beoordeling — vereist het systeem dat de beoordelaar een korte rechtvaardiging van hun beslissing invoert voordat ze verder gaan. De rechtvaardiging hoeft niet lang te zijn. “Eens met aanbeveling — prestatiedata consistent met historisch patroon” volstaat. Het punt is om de automatische goedkeuringsreflex te onderbreken en weloverwogen (Systeem 2) verwerking in te schakelen.

Tegenmaatregel 2: Kalibratiecases. Het systeem voegt periodiek bekend-onjuiste aanbevelingen in de beoordelingswachtrij in. De beoordelaar die ze onderschept, toont actieve betrokkenheid. De beoordelaar die ze goedkeurt, toont automatiseringsbias. De kalibratiecases dienen een dubbel doel: ze meten de kwaliteit van menselijk toezicht, en ze trainen de beoordelaar om waakzaam te blijven.

Tegenmaatregel 3: Prikkels voor overschrijving. Het organisatiesysteem moet overschrijvingen bijhouden en belonen, niet alleen overeenstemming. Een beoordelaar die de aanbeveling van het systeem overschrijft met gedocumenteerde rechtvaardiging, voert precies de functie uit die de verordening vereist. Die functie moet zichtbaar zijn in prestatiemetrics en gewaardeerd in prestatiebeoordelingen.

Deze tegenmaatregelen hebben engineeringkosten. Ze hebben ook een compliancewaarde die de Hamburgse handhaving heeft gekwantificeerd op bijna een half miljoen euro — als minimum.

De kosten van het goed doen

De engineeringkosten van het inbouwen van betekenisvol menselijk toezicht in een AI-implementatie zijn reeel. Voor een typische mkb-implementatie:

Ontwikkeling beoordelingsinterface: 2-4 weken engineeringtijd om een interface te bouwen die bewijs presenteert, beoordelaarsevaluaties vastlegt en overschrijvingsworkflows ondersteunt. Geschatte kosten: EUR 8.000-EUR 20.000.

Workflowontwerp: 1-2 weken procesontwerp om beoordelingsvolumes, beoordelaarskwalificaties, escalatiepaden en overschrijvingsdocumentatie vast te stellen. Geschatte kosten: EUR 4.000-EUR 8.000.

Training beoordelaars: 2-4 dagen training per beoordelaar over de werking van het AI-systeem, bekende beperkingen en de beoordelingsmethodologie. Geschatte kosten: EUR 2.000-EUR 5.000 per beoordelaar.

Doorlopende monitoring: geautomatiseerde tracking van overschrijvingspercentages, beoordelingstijden en uitkomstvariantie. 1-2 dagen engineering om te implementeren. Geschatte kosten: EUR 2.000-EUR 4.000.

Totaal: circa EUR 16.000-EUR 37.000 voor een eerste implementatie.

Cost of compliance vs non-compliance

De Hamburgse boete was EUR 492.000. De kosten van het goed doen zijn een fractie van de kosten van het fout doen. En de Hamburgse boete is bescheiden naar AVG-maatstaven — artikel 83 staat boetes toe tot EUR 20 miljoen of 4% van de jaarlijkse wereldwijde omzet.

Wat “human in the loop” betekent

“Human in the loop” is de meest achteloos gebruikte frase in AI-implementatie. Het verschijnt in pitch decks, compliancedocumenten en strategiepresentaties. Het betekent vrijwel nooit wat het zou moeten betekenen.

Na de Hamburgse handhaving en de AI-verordening van de EU betekent “human in the loop”:

De mens heeft toegang tot al het bewijs dat het systeem in overweging nam, plus bewijs dat het systeem niet in overweging nam. De mens heeft praktische bevoegdheid om te overschrijven, zonder procesboete voor overschrijving. De mens heeft voldoende tijd om elke zaak op zijn merites te beoordelen. De mens oefent aantoonbaar onafhankelijk oordeel uit, blijkend uit een niet-nul overschrijvingspercentage. Het systeem is ontworpen om dit toezicht te ondersteunen — op interfaceniveau, op workflowniveau en op organisatieniveau.

Alles minder is niet human in the loop. Het is human in de buurt.

Het Hamburgse bedrijf had een human in de buurt. Het kostte ze een half miljoen euro en een complianceregistratie die ze meenemen naar elke toekomstige interactie met de toezichthouder.

De loop is specifiek. De loop is architecturaal. De loop is een ontwerpbeslissing, geen personeelsbeslissing.

Bouw de loop.

De engineeringkosten zijn reeel maar begrensd. De compliancekosten van het niet bouwen zijn onbegrensd — EUR 500.000 in Hamburg, potentieel miljoenen onder het boetekader van de AI-verordening van de EU. De reputatiekosten zijn onberekenbaar — het bedrijf dat bekendstaat om geautomatiseerde beslissingen zonder betekenisvol toezicht draagt die reputatie mee naar elke volgende interactie met de toezichthouder, elk klantgesprek, elke evaluatie van een sollicitant of ze daar willen werken.

De loop is niet optioneel. Na de Hamburgse beslissing is het niet theoretisch. Het is een specifieke, gedocumenteerde, gehandhaafde vereiste met een specifieke, gedocumenteerde, gehandhaafde boete.

Bouw de loop voordat de toezichthouder de zaak bouwt. De kosten van het bouwen worden gemeten in weken en duizenden euro’s. De kosten van het niet bouwen worden gemeten in handhavingsacties en permanente complianceregistraties.

Bouw de loop.

Geschreven door
Bertrand
Creatief Technoloog

Een serieel ondernemer met een PhD in AI en vijfentwintig jaar ervaring met het bouwen van systemen door heel Europa. Hij schrijft code zoals hij surft: patronen lezen, de flow vinden, het moeilijke moeiteloos laten lijken.

← Alle notities