In februari 2024 kondigde Klarna aan dat een door OpenAI aangedreven assistent het werk van 700 fulltime klantenservicemedewerkers overnam. Tegen 2025 zei het bedrijf dat dat aantal was gegroeid naar 853. In mei 2025 vertelde Klarna's CEO aan de Financial Times dat het bedrijf weer mensen was gaan aannemen, met verwijzing naar klachten over kwaliteit en de grenzen van pure automatisering. Die boog — aankondiging, escalatie, gedeeltelijke terugtrekking — is het meest geciteerde verhaal in elke discussie over AI die klantenservice vervangt, en tegelijk het meest verkeerd begrepen. Gelezen als triomf overdrijft het de zaak. Gelezen als mislukking onderschat het die. Gelezen als instrument vertelt het iets specifieks: de kosten van het vervangen van een medewerker zijn niet één getal, maar een verdeling over substitutieklassen, en de klassen gedragen zich heel verschillend.
Deze post loopt de vier substitutieklassen door die Wagecore gebruikt voor klantenservicewerk, de kostenmarges met betrouwbaarheidsbanden binnen elke klasse, en de methodologische keuzes achter de cijfers.
De casus Klarna, zorgvuldig gelezen
Het oorspronkelijke persbericht van Klarna/OpenAI in februari 2024 meldde dat de AI-assistent in de eerste maand 2,3 miljoen gesprekken afhandelde — ongeveer twee derde van de binnenkomende chattickets — met klanttevredenheidsscores die statistisch niet te onderscheiden waren van menselijke medewerkers, en een gemiddelde afhandeltijd die daalde van 11 minuten naar minder dan 2. Dat was de kop. De details die volgden, grotendeels aan het licht gekomen in de berichtgeving van 2025 door Yahoo Finance en de Financial Times, wegen zwaarder: het cijfer van 700 medewerkers was een vergelijking met de gecontracteerde agentcapaciteit die de assistent verdrong, niet met Klarna's eigen personeel. Het later in 2025 aangekondigde cijfer van 853 gebruikte dezelfde vergelijkingsmethode. En de gedeeltelijke ommekeer in 2025 was niet „AI werkt niet" — het was „de resterende tickets die AI niet kan oplossen, zijn moeilijker, emotioneel zwaarder beladen, en vereisen mensen die beter betaald worden dan de gecontracteerde agent-basislijn."
Wat deze casus werkelijk laat zien, zijn de substitutieklassen die in de echte wereld uit elkaar drijven. De klasse van massatickets, wachtwoordresets en „waar-is-mijn-bestelling" ging vrijwel volledig naar de AI en bleef daar. De klasse van geschillen en probleemoplossing ging grotendeels naar de AI met een menselijke controlelus, en bleef daar ook. De klasse van complexe escalaties ging aanvankelijk naar de AI, daarna deels terug naar mensen. En de klasse van relatiebeheer of nieuwe randgevallen bewoog nooit echt.
Dat is geen falen van de technologie. Het is de substitutiekaart die zich laat gelden.
Vier substitutieklassen
Wagecore deelt klantenservicetaken in vier klassen in, gebaseerd op waarneembare kosten- en betrouwbaarheidseigenschappen — niet op de vraag of een taak „automatiseerbaar aanvoelt". De klassen zijn:
Volledige substitutie. L1-tickettriage, wachtwoordresets, bestelstatus-opzoekingen, FAQ-antwoorden, eenvoudige terugbetalingen binnen de beleidsgrenzen. Deze taken hebben smalle invoerverdelingen, hoge betrouwbaarheidseisen op slechts een kleine set faalmodi, en lage foutkosten. De AI handelt ze van begin tot eind af zonder mens in het oplossingstraject. Betrouwbaarheidsband: $2–$8 per opgelost ticket met een frontier-model-API plus een vendor-wrapper (Intercom Fin, Ada, Forethought zitten volgens de publieke prijzen tot 2025 allemaal in dit bereik). Het onderste eind veronderstelt een goed afgestemde vendor; het bovenste eind een kant-en-klaar product met retrieval maar zonder hertraining. Menselijk equivalent: $15–$25 per ticket voor een uitbestede contactcentermedewerker, volgens de publieke prijsgidsen van Crescendo en de BPO-middenmarkt. De verhouding bevoordeelt de AI met ruwweg 3–5×, en de kloof is stabiel.
Begeleide substitutie. Factuurgeschillen, productprobleemoplossing waarbij de configuratie van de klant ertoe doet, accountwijzigingen met beleidsrandgevallen, eenvoudige klachten. De AI stelt een oplossing voor, een mens beoordeelt die voordat ze naar de klant gaat — hetzij per geval bij gevallen met lage betrouwbaarheid, hetzij via gebundelde audit bij gevallen met hoge betrouwbaarheid. De kostenstructuur verschilt betekenisvol van volledige substitutie: u betaalt de AI-inferentiekosten plus een fractie van de tijd van een medewerker per ticket, waarbij de fractie afhangt van uw auditbeleid. Betrouwbaarheidsband: $5–$14 per opgelost ticket. De brede band weerspiegelt de keuze tussen zware audit (elk ticket beoordeeld) en lichte audit (steekproefsgewijs). Alleen-menselijk equivalent: $18–$30 per ticket — deze tickets duren langer dan die van volledige substitutie, dus de menselijke basislijn stijgt mee. De verhouding bevoordeelt de AI met 2–3×, en verslechtert naarmate u de auditlus strakker aanhaalt.
Augmentatie. Complexe escalaties, emotionele situaties (terugbetalingen gekoppeld aan medische of familiale omstandigheden, klachten over serviceonderbrekingen), onderzoeken over meerdere systemen, zaken met aandacht van de directie. De AI assisteert de mens — stelt antwoorden op, haalt historie op, vat eerdere tickets samen, suggereert beleidsprecedent — maar handelt niet zelf. De mens is eigenaar van de oplossing. De kosten zijn in wezen „mensensalaris plus een AI-assistentabonnement per werkplek". Betrouwbaarheidsband: $20–$45 per ticket. De AI-bijdrage komt tot uiting in doorvoer, niet in personeelsbestand: een senior medewerker met een goede copiloot handelt misschien 30% meer tickets per dienst af. Alleen-menselijk equivalent: $25–$60 per ticket. Verhouding: bescheiden kostenverlaging in enkele procenten, met het voordeel uitgedrukt als snellere oplossing in plaats van minder medewerkers.
Niet-substitueerbaar residu. Relatiebeheer met strategische accounts, nieuwe randgevallen die in geen enkel eerder patroon passen, regelgevende of juridische correspondentie, crisisincidenten (fraudenetwerken, afhandeling van massale storingen, PR-gevoelige klachten). De AI kan als onderzoekstool in de lus zitten, maar het oplossingstraject is volledig menselijk en beslaat vaak meerdere mensen (een medewerker, een manager, soms juridisch). Kosten: $50–$200+ per ticket afhankelijk van duur en senioriteit. Er is geen AI-basislijn om mee te vergelijken, omdat de substitutiekans bij de huidige capaciteiten feitelijk nul is. Klarna's gedeeltelijke herinhuur van menselijke medewerkers in 2025 vond grotendeels binnen deze klasse en aan de bovenrand van Augmentatie plaats — precies de klasse waar het vertrouwen van de AI het laagst en de kosten van een fout antwoord het hoogst waren.
De menselijke basislijn, volledig belast
De bovenstaande kosten-per-ticket-cijfers rusten op een menselijke basislijn die zelf een betrouwbaarheidsband verdient. De gegevens van ZipRecruiter uit 2025 voor „Customer Support Representative" in de VS tonen een gemiddeld jaarlijks basissalaris van ruwweg $42.000, met een band van het 25e tot 75e percentiel van $34.000–$50.000 afhankelijk van geografie en anciënniteit. Volledig belast — secundaire arbeidsvoorwaarden, loonheffing, apparatuur, managementoverhead, vervangingskosten door verloop, geamortiseerde training — is de gebruikelijke vermenigvuldiger 1,35–1,55×, wat de belaste jaarkosten op ruwweg $57.000–$77.000 brengt. Gedeeld door 1.800–2.000 productieve uren per jaar krijgt u $28–$43 per belast medewerkeruur. Bij een branchegebruikelijke afhandeltijd van 8–14 minuten per ticket over de volledige mix levert dat het cijfer van $15–$25 per ticket op voor routinematig L1-werk en het cijfer van $25–$60 voor complexe tickets zoals hierboven genoemd.
Uitbestede BPO-prijzen — Crescendo's gepubliceerde gids, de middenmarktbenchmarks van de contactcenteranalisten — liggen op ticketbasis lager dan dit ($6–$15 voor L1 via spraak of chat in goedkopere regio's), maar mogen niet als de menselijke basislijn worden gelezen tenzij het AI-alternatief tegen dezelfde offshore-regeling wordt vergeleken. De economisch eerlijke vergelijking zet gelijk tegenover gelijk: intern tegen intern, BPO tegen BPO, en AI tegen de menselijke kosten die het daadwerkelijk verdringt binnen die organisatie. Het door elkaar halen van de vergelijkingen is hoe je aan de claims van 10× kostenverlaging komt die het eerste operationele kwartaal niet overleven.
De implicatie voor de substitutieklasse-rekensom: in een omgeving met hoge interne kosten versterkt de 3–5×-verhouding van Volledige substitutie, omdat de menselijke basislijn hoog is. In een goedkope BPO-omgeving levert dezelfde technologie een verhouding van 1,5–2,5× op, omdat de menselijke basislijn al laag is. De technologie is constant; de besparingen niet.
Waarom betrouwbaarheidsbanden, geen puntschattingen
Eén dollarbedrag per ticket is het schoonst denkbare antwoord, en het is bijna altijd verkeerd. Twee redenen.
Ten eerste varieert de invoerverdeling van elke klasse enorm tussen bedrijven. De ticketmix van een consumenten-fintech is bovenaan de trechter sterk Volledige substitutie; een B2B-SaaS-supportwachtrij is augmentatiezwaar omdat de tickets naar klantspecifieke configuraties verwijzen. Dezelfde claim „AI-agent vervangt een mens" kan bij het ene bedrijf op een 4×-kostenverlaging uitkomen en bij het andere op 1,2× — niet omdat de technologie anders is, maar omdat de werkverdeling dat is.
Ten tweede beweegt de AI-prijs. De kosten per token van frontier-modellen zijn van begin 2024 tot midden 2025 met ongeveer 10× gedaald. Vendor-wrappers zijn niet in hetzelfde tempo gedaald, omdat de kostenstructuur van een Intercom Fin of een Ada geen pure modelinferentie is — het is retrieval, vendormarge, verkoopinspanning en integratie. Het onderste eind van elke band volgt de ruwe inferentie; het bovenste eind volgt de vendorprijs. De kloof tussen de twee versmalt in de loop van de tijd maar is niet nul.
We publiceren betrouwbaarheidsbanden omdat puntschattingen de illusie van zekerheid creëren die de casus Klarna expliciet tegensprak. Het cijfer van 700 medewerkers was een puntschatting, en het overleefde het contact met de verdeling van resterende tickets niet.
De Wagecard-methodologie achter deze cijfers
De Wagecard van Wagecore behandelt klantenservicerollen zoals elke andere rol: als een gewogen gemiddelde over substitutieklassen, waarbij elke klasse wordt gescoord op capaciteit, betrouwbaarheid, foutkosten en toezichtkosten. De vier bovenstaande klassen worden afgebeeld op onze standaard frontier — Volledige substitutie komt overeen met onze cel „replaceable", Begeleide substitutie met „ai-augmented", Augmentatie met „human-led-ai-assisted", niet-substitueerbaar residu met „human-critical".
De Investment View van een klantenservicefunctie leest daarom als een NPV-berekening, niet als één verhouding. Invoer: verdeling van het ticketvolume over de vier klassen, huidige alleen-menselijke kosten per klasse, verwachte AI-plus-mens-kosten per klasse met een gekozen auditbeleid, overstapkosten (vendor-onboarding, opbouw van de retrieval-index, hertrainingscontracten), en een risicogecorrigeerde disconteringsvoet die rekening houdt met de kans dat de prijs of kwaliteit van de vendor midden in het contract verandert. De IRR op wachtrijen met veel volledige substitutie is hoog — doorgaans 80%+ op een horizon van één jaar bij de bovenstaande banden. De IRR op augmentatiezware wachtrijen is bescheiden. De terugverdientijd varieert van minder dan een kwartaal tot meer dan twee jaar, afhankelijk van welke klasse domineert.
Dit is geen black box. De substitutieklassen, de kostenbanden en de weging zijn allemaal in onze methodologie gepubliceerd. We vullen eerdere cijfers niet met terugwerkende kracht aan wanneer onze methodologie herziet: een onder v1 berekende Wagecard blijft een v1-Wagecard, met de v1-cijfers, ook als v2 de banden bijwerkt. De reden is dat de kosten van een substitutiebeslissing worden betaald tegen de cijfers die op het beslismoment bekend waren — het aanvullen met terugwerkende kracht herschrijft de geschiedenis op een manier die eerdere beslissingen beter of slechter laat lijken dan ze waren toen ze werden genomen.
De Klarna-boog gelezen door de klassen
Met de vier klassen in de hand leest Klarna's opeenvolging van aankondiging, escalatie en gedeeltelijke terugtrekking netjes:
De cijfers van 700 en 853 medewerkers vingen de verdringing van Volledige substitutie en het grootste deel van Begeleide substitutie. Die zijn reëel, de rekensom klopt, en de verhouding is ongeveer wat de publieke prijzen van Intercom Fin en vergelijkbare vendors zouden voorspellen voor een consumenten-fintech-ticketmix met hoog volume.
De gedeeltelijke herinhuur in 2025 ving Augmentatie en niet-substitueerbaar residu. Klarna leidde die tickets aanvankelijk ook door de AI, stuitte op een kwaliteitsmuur en paste aan. Dat is geen AI-falen — het is de substitutiekaart die de tweede keer correct wordt gelezen. De klassegrenzen zijn reëel, en ze overschrijden op optimistische aannames kost sneller geld aan klantontevredenheid dan het aan salaris bespaart.
Wat de casus niet laat zien, is de binaire framing die het grootste deel van de commentaren beheerst: AI vervangt de klantenservice, of niet. Beide lezingen zijn verkeerd. De AI vervangt een meetbare fractie van het werk tegen een bekende kostenverhouding, waarbij de fractie afhangt van de ticketverdeling en het gekozen auditbeleid. De andere fractie blijft menselijk, en wordt waardevoller naarmate het substitueerbare werk eromheen samentrekt.
Wat hiermee te doen
Er volgen drie dingen uit.
Ten eerste: voordat u kosten van „AI vervangt klantenservice" berekent, classificeer de tickets. Het aandeel Volledige substitutie telt het zwaarst omdat het de verhouding domineert. Een wachtrij die voor 70% Volledige substitutie is, gedraagt zich heel anders dan een met 30% Volledige substitutie en 40% Augmentatie — en de kopcijfers van concurrenten vertellen zelden welke ze hebben.
Ten tweede: behandel het auditbeleid als een eersteklas variabele. De kostenband van Begeleide substitutie is breder dan de andere, omdat de auditkeuze de eenheidskosten met bijna 3× verandert. De meeste uiteenzettingen slaan dit over en citeren het eindpunt dat de conclusie het beste vleit.
Ten derde: prijs het niet-substitueerbaar residu niet tegen een AI-basislijn. Die is er niet. Die tickets blijven menselijk, en de juiste vergelijking is mens tegen mens (senior medewerker versus junior, intern versus uitbesteed), niet mens tegen AI. Het residu prijzen tegen een fantoom-AI-basislijn is wat Klarna's eerste ronde de besparingen deed overschatten — en wat de meeste interne businesscases voor „AI vervangt klantenservice" met 30–50% laat overpromissen nog voordat ze in de pilotfase komen.
Ten vierde: versioneer de analyse. De banden hier weerspiegelen de inferentie- en vendorprijzen zoals waargenomen tot midden 2025. Ze zullen bewegen. Een vandaag genomen beslissing zou moeten vastleggen tegen welke cijfers ze is genomen, omdat de komende twaalf maanden aan prijsveranderingen er alleen als besparingen zullen uitzien tegen een onveranderde basislijn. Wagecards dragen om precies deze reden een methodologieversie op de voorkant van de kaart: een Wagecard is een momentopname van een beslissing, geen voorspelling.
Als u dezelfde analyse wilt laten uitvoeren op uw eigen rol of functie, met substitutieklassen, betrouwbaarheidsbanden en een Investment View, dan is dat precies wat Wagecore doet. De methodologie is open op wagecore.ai/methodology en een gratis Wagecard staat op wagecore.ai/start.
Bronnen
- Gezamenlijke aankondiging van Klarna en OpenAI, februari 2024 — AI-assistent lost 2,3 mln gesprekken op, ~700-medewerker-equivalent.
- Berichtgeving van Yahoo Finance, 2025 — Klarna's AI-assistent verricht werk gelijk aan 853 fulltime medewerkers.
- Berichtgeving van de Financial Times over Klarna's gedeeltelijke herinhuur van menselijke medewerkers, mei 2025.
- Salarisgegevens van ZipRecruiter voor customer support representative, 2025 — VS-gemiddelde als basis voor volledig belaste kosten per ticket.
- Publieke prijzen van Intercom Fin AI — benchmarkkosten per oplossing tot 2025.
- Crescendo's prijsgids voor uitbestede callcenters — BPO-kostenmarges per ticket voor L1 tot complexe niveaus.