We hebben Wagecore gebouwd om voor elke kenniswerker-rol één vraag te beantwoorden: is AI-substitutie operationeel goedkoper dan de mens, of is die alleen theoretisch goedkoper? Hieronder staan vijf bevindingen uit het toepassen van onze v1-capaciteitsmatrix op vijftien rollen. De meest ongemakkelijke is ook de eenvoudigste.
Vooraf: dit is een modelanalyse, geen enquête. We hebben nog geen adoptiedata van gebruikers op grote schaal verzameld, en de cijfers komen uit een transparante, handgeschreven matrix, geijkt aan gepubliceerd onderzoek (MIT CSAIL over de haalbaarheid van automatisering, BCG over waardecreatie door AI in ondernemingen, en de post-incident-reviews van Klarna, Uber en anderen). De matrixversionering, de asdefinities en de drempelregels staan allemaal op onze methodologiepagina. We zeggen dit meteen aan het begin, omdat de matrix open en controleerbaar is en de analyse mettertijd alleen scherper wordt naarmate meer rollen worden berekend en herijkt. Vandaag is het adoptiebeeld nog pril – v0 – en dat zeggen we ook.
De vijftien rollen
Het v1-corpus omvat vijf technische rollen (software engineer, data engineer, machine-learning engineer, product manager, product designer), vijf operationeel aangrenzende rollen (customer-support lead, sales engineer, engineering manager, financieel analist, account executive) en vijf creatieve rollen met breedte (content marketer, growth marketing manager, UX-onderzoeker, recruiter, business-operations analist). Elke rol heeft zes tot acht representatieve taken, beoordeeld op negen assen: vier capability-clusterassen, drie reliability-clusterassen, een operationele-economie-modifier en een human-advantage-demper, opgebouwd uit vijf canonieke, niet-reduceerbare waarde-assen.
Volgens ADR-016 belandt elke taak in een van vier substitutieklassen – Replaceable (AI draait van begin tot eind met minimaal toezicht), AI-augmented (AI doet het meeste werk, de mens is eigenaar van beslissingen en context), Human-led + AI-assisted (de mens leidt, AI is gereedschap) en Human-critical (AI levert geen nettowaarde, of negatieve waarde, vanwege vertrouwen, regelgeving, verantwoording of relationele complexiteit). De drempels zijn deterministisch, in code gecodeerd en uitgebreid toegelicht in de canonieke taxonomie-post.
Bevinding 1 – Het meeste kenniswerk zit in de middelste twee klassen
Over de 91 (rol × taak)-cellen in het v1-corpus is de basisverdeling van substitutieklassen naar taakaantal ruwweg: 4% Replaceable, 38% AI-augmented, 27% Human-led + AI-assisted, 31% Human-critical. De Replaceable-bak is smal – slechts een handvol taken in het corpus haalt tegelijk capability ≥ 75, reliability ≥ 80 ÉN lage foutkosten. De middelste twee klassen dragen met samen 65% de grootste massa.
Dit is van belang omdat de dominante publieke framing van AI-arbeids- economie binair is. "Veilig vs. bedreigd." "Nemen robots mijn baan af, ja of nee." De data ondersteunt geen van beide polen als meerderheid. De eerlijke lezing is dat kenniswerk uiteenvalt in een portfolio van taken waarbij AI voor sommige operationeel goedkoper is, voor andere duurder, en voor veel een nulsomspel.
Voor een software engineer in het v1-corpus belandt geen van de acht gemodelleerde taken in de basisklasse Replaceable – zelfs documentatie, waar de capability hoog scoort, faalt op het reliability- of foutkosten- gate zodra ze in productiecode terechtkomt. De rol is ongeveer voor de helft AI-augmented (feature-implementatie tegen een heldere specificatie, concepten voor code reviews, tests schrijven) en verdeeld over Human-led + AI-assisted (systeemontwerp, on-call triage) en Human-critical (mentoring, architectuurbeslissingen met meerjarige context). De aandeelgewogen lezing plaatst de rol in augmentatiegebied – niet Replaceable, niet Human-critical.
Bevinding 2 – Capability is de reliability vooruitgesneld
Van de 91 (rol × taak)-cellen in onze v1-matrix scoren 31 een capability ≥ 75 – ruim boven de drempel die populaire AI-risico- frameworks behandelen als "het model kan dit." Van die 31 scoren er maar 5 ook reliability ≥ 80 – de drempel die, gecombineerd met lage foutkosten, onder ons regelstelsel Replaceable activeert. De overige 26 taken met hoge capability falen op het reliability-gate. Ze zijn technisch haalbaar in de demo en niet haalbaar in productie.
Dit is het "Klarna-patroon" waarover we apart schreven. Het model kan het klantenservice-ticket afronden. Het model kan het niet afronden tegen de foutratio die het bedrijf kan tolereren. De kloof tussen die twee zinnen is waar de meeste reversal-cases leven.
Voorbeelden uit het corpus. De pipeline-monitoringtaak van een data engineer scoort capability in de hoge band, maar reliability in de midden-70. De capability haalt de Replaceable-lat, de reliability niet. De taak van een growth marketer om koppen te schrijven scoort capability in de lage 80 en reliability in de midden-60 – hetzelfde patroon. De transcript-synthesetaak van een UX-onderzoeker heeft dezelfde vorm: hoge capability, middelmatige reliability. In alle drie zou de populaire AI-risico-framing de taak als automatiseerbaar bestempelen. De reliability- en foutkosten-gates zeggen: niet tegen de foutratio die het bedrijf tolereert, plus de kosten van het mis hebben wanneer toezicht sommige fouten mist.
In alle drie gevallen zou de populaire framing de taak als "automatiseerbaar" bestempelen. De reliability-score zegt: niet tegen de kosten van menselijk toezicht om de fouten op te vangen, plus de kosten van het mis hebben wanneer toezicht sommige fouten mist.
Bevinding 3 – Foutkosten zijn de meest ondergewaardeerde as in het publieke debat
Wagecore scoort foutkosten op een 1–5-vermenigvuldiger per taak, waarbij 1 "foute output is goedkoop te detecteren en te corrigeren" betekent en 5 "foute output veroorzaakt regelgevende, financiële of reputatieschade die zich opstapelt." In het v1-corpus scoort ongeveer 38% van de taken een 4 of 5 – ze wegen zwaarder dan hun formaat in de toewijzing van de headline-substitutieklasse.
Volgens Regel 1 van ADR-016 belandt elke taak met
errorCostMultiplier ≥ 5 in Human-critical ongeacht de capability. De
capability-score kan 95 zijn – als zelfverzekerd foute AI-output
catastrofaal is, draagt het inzetten van die AI een negatieve verwachte
waarde. De rekensom is rechttoe rechtaan: de kosten van één zeldzame
fout, uitgesmeerd over alle keren dat de AI zich niet vergist, moeten
gunstig afsteken tegen de volledige menselijke kosten. Voor taken waar de
kosten van de zeldzame fout groot zijn (medische goedkeuring, financiële
attestering, toezichtsrechtelijke indiening) faalt de rekensom.
Twee voorbeelden. De taak van een financieel analist, "audit-waardig afwijkingscommentaar opstellen," scoort capability 70, reliability 60, foutkosten 5. De capability is middelmatig; de foutkosten sluizen de hele taak naar Human-critical. De taak van een customer-support lead, "reageren op een vraag van een toezichthouder," scoort capability 68, reliability 55, foutkosten 5. Hetzelfde gate.
Vergelijk dit nu met waar populaire AI-risico-frameworks deze taken plaatsen. Beide scoren op tools die alleen capability wegen in de band "middelhoge tot hoge AI-blootstelling." De foutkosten-as kantelt de conclusie. Als u als financieel analist een tool leest dat uw rol rangschikt als "78% blootgesteld," is de impliciete claim dat 78% van uw werk vandaag operationeel substitueerbaar is. De realiteit is dat de audit-waardige outputs, het hefboomrijke deel van de rol, vandaag operationeel niet substitueerbaar zijn, ongeacht de capability – en misschien nooit substitueerbaar zullen zijn, omdat de as van juridische verantwoordelijkheid structureel menselijk is.
Bevinding 4 – De vijf human-advantage-assen zijn niet onafhankelijk
We scoren elke taak op vijf canonieke assen van niet-reduceerbare menselijke waarde: vertrouwen (duurzame relatie), ambiguïteit (een onbekende situatie lezen), verantwoording (naamgebonden gereguleerde goedkeuring), overtuiging (iemands gedrag veranderen via menselijke dynamiek) en context (meerjarige geschiedenis die niet in een model-contextvenster past).
In het v1-corpus clusteren de assen kwalitatief in twee groepen. Taken getagd met vertrouwen zijn doorgaans ook getagd met verantwoording – de twee komen samen voor bij fiduciair werk (medische, juridische, financiële attestering, naamgebonden gereguleerde goedkeuring). Taken getagd met ambiguïteit komen doorgaans samen voor met context – open oordeelswerk zoals architectuur, systeemontwerp of directiestrategie. De twee clusters overlappen in het corpus niet noemenswaardig.
De implicatie is dat "human-critical work" niet één ding is. Er zijn minstens twee onderscheidbare soorten: fiduciair werk (accountant, arts, advocaat, naamgebonden therapeut – hoog vertrouwen, hoge verantwoording) en oordeelswerk onder ambiguïteit (architect, senior PM, principal designer – hoge ambiguïteit, hoge context). De economie van het automatiseren hiervan verschilt. Fiduciair werk heeft structurele menselijke ankers (regelgeving, professionele licenties, naamgebonden aansprakelijkheid). Oordeelswerk onder ambiguïteit heeft architectonische ankers (geen contextvenster bevat de meerjarige tech-debt-graaf; geen prompt vangt de politieke kaart van de organisatie).
We zeggen dit met een methodologisch sterretje: het corpus is handgeschreven, de assen zijn vandaag gecodeerd als string-tags per taak in plaats van numerieke scores, en we publiceren deze clusterbevinding als werkhypothese. Het v1.5-evaluatorpanel (Claude + GPT-4-klasse + Gemini-klasse) zal deze assen 0–4 scoren tegen een gestructureerde rubriek volgens ADR-017, en de medianen worden in de matrix gestempeld – op welk punt de clustercorrelaties kwantificeerbaar worden. Als de kwalitatieve clusterstructuur standhoudt, is de bevinding echt. Als ze instort, zeggen we dat op de methodologiepagina en werken we de post bij.
Bevinding 5 – Toezicht, niet inferentie, is de dominante operationele kostenpost
Voor de typische v1-cel – opgebouwd uit de toezichtsminuten per taak, het volledig belaste reviewer-loon en de huidige tokenprijs in onze kostenmodel-constanten – is de grootste enkele post van de operationele AI-kosten toezicht (minuten menselijke controle per output-eenheid, vermenigvuldigd met het volledig belaste loon van de reviewer). Niet tokens. Niet orkestratie. Niet integratie. De belangrijkste drijver van de vraag of een AI-inzet nettopositieve economie oplevert, is hoeveel minuten menselijke aandacht elke AI-output nog vereist.
Dit is de post die de meeste publieke AI-kostenanalyses overslaan. De tokenpost is goedkoop te berekenen en makkelijk te verdedigen ("een miljoen tokens kost $X"). De toezichtspost vereist kennis van de reliability-as, de foutkosten-as en het volledig belaste loon van de reviewer. Drie cijfers waar de meeste rekenmachine-achtige tools niet naar willen vragen.
De implicatie: capability-verbeteringen die de tokenpost verlagen zonder de toezichtsminuten te verlagen, verschuiven de economie niet wezenlijk. Reliability-verbeteringen die het toezicht van tien minuten per output naar twee minuten per output snijden, veranderen het antwoord voor de hele rol. Daarom weegt onze methodologie reliability en foutkosten als gates en dempers in plaats van als termen in een som. Capability bepaalt welke taken het model binnenkomen; reliability vermenigvuldigt de operationele haalbaarheid; foutkosten delen die; human advantage dempt die.
De structurele voorspelling: de volgende generatie betekenisvolle AI-arbeidskostenverlagingen komt niet uit goedkopere inferentie. Ze komt uit reliability-verbeteringen die de toezichtsminuten per output wezenlijk verminderen. De Nvidia-bestuurder die Axios in april 2026 vertelde dat "de kosten van compute ver boven de kosten van de werknemers liggen," beschreef de inferentiepost. De reliability-post is structureel veel moeilijker te drukken, en daarom clusteren post-deployment-reversals (Klarna, Uber AI-coding-budgetverbranding) zich bij de inzetten waar de reliability de capability niet heeft ingehaald.
Wat we bewust niet hebben gemodelleerd
Drie dingen, benoemd zodat u met ons kunt twisten op de juiste as. Ten eerste optiewaarde – de waarde van het uitstellen van een AI-inzet totdat capability of kosten verbeteren. Een taak die vandaag Human-led + AI-assisted scoort, kan over twee jaar verschuiven naar AI-augmented; de optie om te wachten heeft reële verwachte waarde voor het bedrijf. We beprijzen dit niet omdat we geen verdedigbare afnamecurve voor de reliability hebben. Capability-curves zijn hanteerbaar; reliability-curves niet.
Ten tweede strategische herinzetwaarde. Wanneer AI 20% van de taakuren van een rol substitueert, kunnen de vrijgekomen uren worden omgeleid naar werk met meer hefboom. De economische waarde van die omleiding hangt ervan af of de vrijgekomen tijd naar werk met hoge marginale waarde gaat (architectuur, mentoring, klantbehoud) of naar laterale activiteit. Ons model gaat uit van pure kostenbesparing op de vrijgekomen uren, wat het voordeel in het beste geval onderschat en overbelofte in het gemiddelde geval vermijdt. We zijn bewust conservatief.
Ten derde terminale waarde voorbij Jaar 5. De financiële projectielaag (NPV / IRR / Payback, beschikbaar voor Pro-abonnees op elke Wagecard) loopt vijf jaar vooruit. We extrapoleren niet verder omdat de aannames over capability- en kostenverval snel willekeurig worden. We verkiezen een vijfjaarsantwoord dat we kunnen verdedigen boven een twintigjaarsantwoord dat niemand zal vertrouwen.
Wat dit betekent als u leest als kenniswerker
De kernboodschap is de rustige. De meeste rollen in het v1-corpus zitten vandaag niet in headline-AI-blootstellingsproblemen, en het framework voorspelt dat ze ook de komende vijf jaar niet in headline-problemen zullen zitten. Dat is geen verdediging van zelfgenoegzaamheid. De middelste twee klassen (AI-augmented, Human-led + AI-assisted) zijn waar de operationele verschuiving plaatsvindt, en ze vragen van de werkende om actief te veranderen hoe hij AI gebruikt – niet om die te vrezen, niet om die te vieren, maar om ermee te werken als de nieuwe ondergrens van het gereedschap.
Als u de specifieke analyse voor uw rol, geo en takenmix wilt: de Wagecard-wizard duurt ongeveer drie minuten. Anonieme preview vóór aanmelding; geen salaris nodig, tenzij u de markt-percentiel-analyse wilt. De cijfers op uw Wagecard komen uit dezelfde matrix waaruit we de bevindingen hierboven trokken.
Wat dit betekent als u leest als deployment lead
De twee faalmodi die we het vaakst zien in publieke reversals zijn (1) capability-zonder-reliability-uitrollen die de toezichtslast onderschatten, en (2) taken die per headline Replaceable waren maar per foutkosten eigenlijk Human-critical. Beide zijn vooraf diagnosticeerbaar. Capability en reliability ontleden netjes in onze matrix; foutkosten zijn een 1–5-vermenigvuldiger per taak. De diagnose duurt ongeveer een uur als u de taken opschrijft. De post-incident-review duurt ongeveer een kwartaal als u de diagnose overslaat.
Als u de AI-inzet voor een team of organisatie aanstuurt, is de B2B-weergave een plak-de-rollen-flow die dezelfde matrix-afgeleide analyse over uw personeelsbestand produceert. De methodologie is dezelfde; het oppervlak is op organisatieniveau.
Nog één kanttekening
We zijn pre-launch. De cijfers hierboven komen uit een handgeschreven v1-matrix, geijkt aan openbaar onderzoek. Wanneer het v1.5-evaluatorpanel wordt uitgeleverd (doel Q3 2026), wordt de matrix regressiegetest tegen drie modelevaluatoren en worden de medianen in dezelfde datastructuur gestempeld. Mocht een van de vijf bevindingen hierboven na die ronde kantelen, dan zeggen we dat op de methodologiepagina, werken we deze post bij met de nieuwe cijfers en stempelen we de versie. De v1-cellen blijven leesbaar; de versiestempel op elke Wagecard legt vast welke matrix de analyse produceerde.
Mettertijd scherpt de analyse zich aan naarmate reële adoptie zich vult – welke AI-tools daadwerkelijk worden gebruikt, met welke intensiteit, per rol × geo × ervaring. Vandaag hebben we dat voor geen van de cellen; de cijfers hierboven zijn modelanalyses, geen adoptiedata. De transparantie- gates op /insights tonen in realtime precies waar die data al wel en nog niet is, per N-aantal – inclusief de nullen.
Dat is de hele pitch: open methodologie, omdat betrouwbare economie controleerbaar moet zijn. Elk cijfer komt met de methode die het produceerde en een betrouwbaarheidsband, zodat u de analyse kunt controleren in plaats van erop te vertrouwen.
Reacties en methodologische tegenspraak welkom. De snelste manier om met het framework te twisten is uw eigen Wagecard te berekenen en ons te vertellen welke cel er verkeerd uitziet. De matrixversie op elke Wagecard legt de momentopname vast die u zag; wij houden een audit-log bij van hoe die verschoof.