Waarom operationele AI-kosten 3–10× hoger zijn dan de demo laat zien

De meest gemaakte fout in de economie van AI-implementaties is de inferentieprijs aanzien voor de kosten. Wanneer een modelkaart tien cent per antwoord vermeldt, lijkt de beslissing eenvoudig: een klantenservicetaak waarvoor een mens vijf dollar aan volledig belaste arbeidskosten maakt, oogt vijftig keer goedkoper om te automatiseren. Reken je eerlijk, dan zit het verschil dichter bij drie-op-één, soms één-op-één, en op een niet te verwaarlozen deel van de taken verliest de AI al op de kosten alleen, nog vóór je de kwaliteit meet.

Dit artikel legt het kader uit dat Wagecore gebruikt om de werkelijke operationele kosten te berekenen van het vervangen van een taak door AI. Geen enkel onderdeel ervan is op zich nieuw — elke post duikt op in de post-mortems van mislukte AI-uitrollen. De bijdrage zit in het samenbrengen op één plek en het vastleggen van numerieke schattingen, zodat het antwoord niet slechts luidt: „het is meer dan je denkt."

De tokenregel is de zichtbare 10%

Neem een concreet geval. Een ervaren supportmedewerker bij een SaaS-bedrijf verwerkt zo'n 30 tickets per dag, met gemiddeld 600 input- en 300 output-tokens per ticket, verspreid over één of twee vervolguitwisselingen. Tegen de huidige prijzen van frontier-modellen is dat in de orde van $0,04 per ticket aan pure modelkosten. Over 30 tickets per dag en 22 werkdagen per maand — ongeveer $26 per medewerker-maand aan tokens. Afgezet tegen een volledig belast maandsalaris van $7.500 lijkt de besparing absurd.

Dat getal klopt echter ook niet, want het model is één van negen dingen die geld kosten zodra je het echt in gebruik neemt. Dit is wat wordt weggelaten.

Toezicht

Elk door AI afgehandeld ticket wordt ofwel (a) met hoge zekerheid automatisch opgelost, (b) doorgestuurd naar een mens ter beoordeling, of (c) rechtstreeks geëscaleerd naar een mens. Op dag één van een implementatie hebben de meeste teams 100% menselijke beoordeling nodig totdat de kalibratie solide is; volwassen implementaties houden de beoordeling op de onderste zekerheidsband van 20–40% plus een steekproefaudit van 5%. Als een menselijke beoordelaar 45 seconden per beoordeeld antwoord nodig heeft en je beoordelaarspool $30/uur belast kost, is dat $0,38 per beoordeeld ticket. Beoordeel 30% van de tickets en je hebt meer kosten toegevoegd dan het model zelf.

Herpogingen

Productie-implementaties doen niet één modelaanroep per taak — ze doen er één tot vijf. Er is de eerste voltooiing, vaak een zelfcontrole-passage, soms een kritiek-en-herschrijflus, en bij tool-gebruikende agents een planningsstap plus tool-aanroepen plus een samenvatting. Een goed geïnstrumenteerde supportagent waartegen wij benchmarken haalt gemiddeld 3,4 modelaanroepen per opgelost ticket en 8,7 per geëscaleerd ticket. Vermenigvuldig de tokenkosten navenant.

Foutkosten

Dit is de post die meer implementaties de das omdoet dan welke andere ook. Een zelfverzekerd-fout AI-antwoord staat niet gelijk aan een fout menselijk antwoord; het is erger, omdat de klant het gelooft en ernaar handelt. Terugbetalingsdisputen die netjes met een excuus worden opgelost, worden chargebacks wanneer de AI de klant vertelde dat zijn terugbetaling al was verwerkt. Accountherstelgevallen waarin de AI een verificatiestap hallucineert, genereren tickets dubbel — het oorspronkelijke geval en het opruimwerk. Klarna's terugdraaiing in mei 2025 van zijn AI-klantenservice-uitrol uit 2024 is het meest publieke geval tot nu toe: de CEO erkende dat de kwaliteitsuitkomsten waren gedaald en begon weer mensen aan te nemen. Klarna heeft het onderliggende verschil in herhaalpercentage niet bekendgemaakt, maar het kwalitatieve patroon — opruimwerk aan complexe tickets als drijfveer voor de terugdraaiing, niet besparingen op eenvoudige tickets — komt overeen met wat wij in aanverwante post-mortems zien.

We modelleren foutkosten als een vermenigvuldiger op de tijd die een ervaren mens nodig heeft om het spoor van het foute antwoord te beoordelen en ofwel te escaleren ofwel de relatie te herstellen. Voor een klantgerichte taak is de vermenigvuldiger doorgaans 2 tot 5× de basisafhandeltijd van hetzelfde geval; voor een backoffice-taak zonder klant in de lus ligt hij dichter bij 1 tot 2×.

Integratie-overhead

De AI leest tickets niet uit een Word-document. Hij leest ze uit een CRM via een API, met authenticatie, rate limits, schemaversionering en een retrieval-laag over de kennisbank van het bedrijf. Die laag heeft engineers nodig om te bouwen en te onderhouden. Uitgesmeerd over het ticketvolume van één team kost een serieuze integratie-inspanning $20.000–60.000 aan initiële bouw plus 10–30% van de doorlopende tijd van een engineer. In een team van 50 medewerkers is dat in stabiele toestand volgens onze kalibratie ruwweg $1,50 per ticket.

Orkestratie & leveranciersafhankelijkheid

Multi-model-opstellingen, fallback-ketens, registers voor prompt-templates, eval-infrastructuur. Niets daarvan is gratis. We schatten het conservatief op $0,20–0,80 per opgelost ticket, afhankelijk van de fase van het bedrijf. Sterke eval-infrastructuur betaalt zichzelf terug, maar de AI-kostenpost duikt toch op.

De posten stapelen op

Met die vijf concrete toevoegingen en redelijke middenaannames — 30% auditpercentage, 3,4 modelaanroepen per opgelost ticket, 8,7 per geëscaleerd, 20% escalatiepercentage, foutkostenvermenigvuldiger van 3× op de 12% van de gevallen die misgaan — verschuift het supportvoorbeeld van $26/medewerker-maand aan tokens naar ruwweg $1.800/medewerker-maand all-in. Dat is nog steeds goedkoper dan de mens van $7.500, maar de verhouding is 4-op-1, niet 290-op-1. En de rekensom wordt slechter naarmate je hoger in de waardeketen komt. Voor rollen waar foute antwoorden echte schade veroorzaken — financieel advies, medische triage, juridische beoordeling — domineert de foutkostenpost en verliest de implementatie op de kosten nog vóór je het salaris meetelt.

Het patroon is algemeen: naarmate de taakcomplexiteit stijgt, blijft de inferentiekostenregel ongeveer vlak (langere prompts, meer context, maar niet 10× meer), terwijl elke andere post superlineair schaalt. De audit duurt langer omdat de beoordelaars het geval echt moeten lezen. De herpogingen vermenigvuldigen omdat het model meer stappen nodig heeft om het geval af te handelen. De foutkosten exploderen omdat de gevallen die misgaan de gevallen zijn met het meest op het spel. Tegen de tijd dat je naar senior kenniswerk kijkt, bestaan de operationele kosten bijna volledig uit menselijke tijd rondom de AI, en is het model de goedkoopste component van zijn eigen implementatie geworden.

Waar AI werkelijk wint op kosten

Drie taakprofielen komen onder dit soort boekhouding consistent als beste uit de bus:

Begrensd, repetitief, laag risico. Categorisatietaken waar fout zijn goedkoop is (bijv. het routeren van een interne e-mail). Auditpercentages kunnen laag zijn, foutkosten zijn minimaal, de integratie is ondiep.
Concepten onder menselijke beoordeling. De AI maakt de eerste versie, de mens neemt de laatste 30% voor zijn rekening. Beide kostenregels (model + menselijke beoordeling) blijven begrensd omdat de mens er toch al naar zou kijken.
Aggregatie en zoeken. De relevante documenten naar boven halen, de tickets van gisteren samenvatten, het juiste beleid ophalen. De AI vervangt een zoekinterface, geen medewerker, en vervangt die goed omdat retrieval-fouten meestal snel opvallen.

Elk hiervan valt netjes samen met een substitutieklasse in de Wagecore-taxonomie: ai-augmented (concepten), human-led + ai-assisted (aggregatie) en een smalle band van echt vervangbaar werk (het begrensde, laag-risicogeval). Daarbuiten zegt de rekensom: wachten.

Wat het antwoord in de loop van de tijd verandert

Drie dingen bewegen de operationele kostenregel:

Inferentieprijs. De tokenkosten zijn bij vergelijkbare capaciteit ongeveer elke 18–24 maanden met zo'n 10× gedaald. Dit verschuift de modelregel maar raakt audit, herpogingen of foutkosten niet — dus voor taken met hoge inzet verandert het het oordeel nauwelijks.

Eval- en orkestratie-tooling. Betere evals verkleinen de auditpercentage-component merkbaar; dit is momenteel de regel met de meeste hefboomwerking om te optimaliseren. Van 30% naar 10% auditpercentage gaan bij een volwassen implementatie is een reële kostenverandering.

Aansprakelijkheid en regelgevend regime. Wanneer een AI de juridische administratiehouder is, gaat de foutkostenvermenigvuldiger omhoog. Wanneer de AI wordt ingezet als beslissingsondersteuning met een duidelijke mens in de lus, gaat hij omlaag. Dit is de regel die beweegt op beleid, niet op technologie.

De kern

AI-implementaties beprijzen op basis van de modelkaart is het equivalent van een auto beprijzen op de catalogusprijs en brandstof, verzekering, afschrijving en de persoon die je moet betalen om te rijden negeren. Operationele kosten doen ertoe omdat ze bepalen of een implementatie de eerste zes maanden overleeft. De rollen waarin AI in de praktijk „3–10× goedkoper dan de mens" is, zijn de rollen waar de demo eerlijk was over haar reikwijdte. De meeste rollen, vooral die waar het discours steeds op mikt, lijken veel meer op 4-op-1 — echte besparing, echte waarde, maar geen vervanging, en geen gratis vervanging.

Wagecore berekent deze versie van de rekensom voor individuele rollen, met dezelfde operationele categorieën die hier zijn uiteengezet. Wil je zien hoe de rekensom er voor jouw werk specifiek uitziet, dan draait de wizard in twee minuten en is de methodologie gepubliceerd. Je kunt ook de methodologie lezen en het oneens zijn met onze postschattingen — we werken ze elk kwartaal bij op basis van wat de data zeggen.

De tokenregel is de zichtbare 10%

Dat getal klopt echter ook niet, want het model is één van negen dingen die geld kosten zodra je het echt in gebruik neemt. Dit is wat wordt weggelaten.

Toezicht

Herpogingen

Foutkosten

Integratie-overhead

Orkestratie & leveranciersafhankelijkheid

De posten stapelen op

Waar AI werkelijk wint op kosten

Drie taakprofielen komen onder dit soort boekhouding consistent als beste uit de bus:

Begrensd, repetitief, laag risico. Categorisatietaken waar fout zijn goedkoop is (bijv. het routeren van een interne e-mail). Auditpercentages kunnen laag zijn, foutkosten zijn minimaal, de integratie is ondiep.
Concepten onder menselijke beoordeling. De AI maakt de eerste versie, de mens neemt de laatste 30% voor zijn rekening. Beide kostenregels (model + menselijke beoordeling) blijven begrensd omdat de mens er toch al naar zou kijken.
Aggregatie en zoeken. De relevante documenten naar boven halen, de tickets van gisteren samenvatten, het juiste beleid ophalen. De AI vervangt een zoekinterface, geen medewerker, en vervangt die goed omdat retrieval-fouten meestal snel opvallen.

Wat het antwoord in de loop van de tijd verandert

Drie dingen bewegen de operationele kostenregel:

Waarom operationele AI-kosten 3–10× hoger zijn dan de demo laat zien

De tokenregel is de zichtbare 10%

Toezicht

Herpogingen

Foutkosten

Integratie-overhead

Orkestratie & leveranciersafhankelijkheid

De posten stapelen op

Waar AI werkelijk wint op kosten

Wat het antwoord in de loop van de tijd verandert

De kern

Nog niet klaar om in te loggen? Zet je op de lijst.

Waarom operationele AI-kosten 3–10× hoger zijn dan de demo laat zien

De tokenregel is de zichtbare 10%

Toezicht

Herpogingen

Foutkosten

Integratie-overhead

Orkestratie & leveranciersafhankelijkheid

De posten stapelen op

Waar AI werkelijk wint op kosten

Wat het antwoord in de loop van de tijd verandert

De kern

Nog niet klaar om in te loggen? Zet je op de lijst.