Vi modellerade AI-substitutionsekonomi för 15 kunskapsarbetarroller – där det blir obekvämt

Vi byggde Wagecore för att besvara en fråga för varje kunskapsarbetarroll: är AI-substitution operativt billigare än människan, eller är den bara teoretiskt billigare? Nedan följer fem slutsatser från att köra vår v1-kapacitetsmatris över femton roller. Den mest obekväma är också den enklaste.

Först detta: det här är en modellanalys, inte en enkät. Vi har ännu inte samlat in användardata om användning i stor skala, och siffrorna kommer från en transparent, handskriven matris kalibrerad mot publicerad forskning (MIT CSAIL om automatiserbarhet, BCG om företags värdefångst av AI, samt post-incident-granskningarna från Klarna, Uber och andra). Matrisversioneringen, axeldefinitionerna och tröskelreglerna finns alla på vår metodiksida. Vi säger detta direkt eftersom matrisen är öppen och granskbar, och analysen blir bara skarpare med tiden i takt med att fler roller beräknas och kalibreras om. Idag är användningsbilden tidig – v0 – och det säger vi rakt ut.

De femton rollerna

v1-korpusen täcker fem tekniska roller (mjukvaruutvecklare, data engineer, machine learning-ingenjör, product manager, produktdesigner), fem operativt närliggande roller (customer support-lead, sales engineer, engineering manager, finansanalytiker, account executive) och fem kreativa roller med bredd (content marketer, growth marketing manager, UX-forskare, rekryterare, business operations-analytiker). Varje roll har sex till åtta representativa uppgifter, poängsatta på nio axlar: fyra kapacitetsklusteraxlar, tre reliabilitetsklusteraxlar, en operativ ekonomimodifierare och en human-advantage-dämpare bestående av fem kanoniska, icke-reducerbara värdeaxlar.

Enligt ADR-016 hamnar varje uppgift i en av fyra substitutionsklasser – Replaceable (AI kör hela vägen med minimal översyn), AI-augmented (AI gör det mesta av arbetet, människan äger beslut och kontext), Human-led + AI-assisted (människan leder, AI är verktyg) och Human-critical (AI levererar inget nettovärde, eller negativt värde, på grund av förtroende, reglering, ansvar eller relationell komplexitet). Trösklarna är deterministiska, kodade i kod och utförligt förklarade i det kanoniska taxonomiinlägget.

Slutsats 1 – Det mesta kunskapsarbetet ligger i de två mellersta klasserna

Över de 91 (roll × uppgift)-cellerna i v1-korpusen är basfördelningen av substitutionsklasser efter uppgiftsantal ungefär: 4 % Replaceable, 38 % AI-augmented, 27 % Human-led + AI-assisted, 31 % Human-critical. Replaceable-facket är smalt – bara en handfull uppgifter i korpusen klarar samtidigt kapacitet ≥ 75, reliabilitet ≥ 80 OCH låg felkostnad. De två mellersta klasserna bär den största massan med 65 % tillsammans.

Detta har betydelse eftersom den dominerande offentliga inramningen av AI-arbetsekonomi är binär. "Säker vs. hotad." "Tar robotarna mitt jobb, ja eller nej." Data stödjer ingendera polen som majoritet. Den ärliga läsningen är att kunskapsarbete bryts ned i en portfölj av uppgifter där AI är operativt billigare för vissa, dyrare för andra och ett nollsummespel för många.

För en mjukvaruutvecklare i v1-korpusen hamnar ingen av de åtta modellerade uppgifterna i Replaceable som sin basklass – till och med dokumentation, där kapaciteten poängsätts högt, faller på reliabilitets- eller felkostnadsgrinden när den skeppas in i produktionskod. Rollen är ungefär till hälften AI-augmented (funktionsimplementering mot en tydlig specifikation, utkast till code review, skriva tester) och fördelad över Human-led + AI-assisted (systemdesign, on-call-triage) och Human-critical (mentorskap, arkitekturbeslut med flerårig kontext). Den andelsviktade läsningen placerar rollen i augmenteringsområdet – inte Replaceable, inte Human-critical.

Slutsats 2 – Kapaciteten har sprungit ifrån reliabiliteten

Av de 91 (roll × uppgift)-cellerna i vår v1-matris poängsätter 31 en kapacitet ≥ 75 – klart över tröskeln som populära AI-riskramverk behandlar som "modellen klarar det här." Av dessa 31 poängsätter bara 5 även reliabilitet ≥ 80 – tröskeln som, kombinerad med låg felkostnad, utlöser Replaceable under vårt regelverk. De övriga 26 uppgifterna med hög kapacitet faller på reliabilitetsgrinden. De är tekniskt genomförbara i demon och inte genomförbara i produktion.

Detta är "Klarna-mönstret" som vi skrev om separat. Modellen kan slutföra kundtjänstärendet. Modellen kan inte slutföra det till den felfrekvens som verksamheten kan tolerera. Gapet mellan de två meningarna är där de flesta reversal-fallen bor.

Exempel från korpusen. En data engineers pipeline-övervakningsuppgift poängsätter kapacitet i det höga bandet men reliabilitet i mitten av 70- talet – kapaciteten passerar Replaceable-ribban, reliabiliteten inte. En growth marketers rubrikskrivningsuppgift poängsätter kapacitet i de låga 80-talen och reliabilitet i mitten av 60-talen – samma mönster. En UX-forskares transkript-syntesuppgift har samma form: hög kapacitet, mediokur reliabilitet. I alla tre skulle den populära AI-riskinramningen stämpla uppgiften som automatiserbar. Reliabilitets- och felkostnadsgrindarna säger: inte till den felfrekvens verksamheten tolererar, plus kostnaden för att ha fel när översynen missar en del.

I alla tre fallen skulle den populära inramningen stämpla uppgiften som "automatiserbar." Reliabilitetspoängen säger: inte till kostnaden för mänsklig översyn som ska fånga felen, plus kostnaden för att ha fel när översynen missar en del.

Slutsats 3 – Felkostnad är den mest underviktade axeln i den offentliga debatten

Wagecore poängsätter felkostnad på en 1–5-multiplikator per uppgift, där 1 betyder "felaktig output är billig att upptäcka och rätta" och 5 betyder "felaktig output skapar reglerings-, finansiell eller ryktesskada som ackumuleras." I v1-korpusen poängsätter ungefär 38 % av uppgifterna en 4 eller 5 – de väger tyngre än sin storlek i tilldelningen av rubriksubstitutionsklassen.

Enligt Regel 1 i ADR-016 hamnar varje uppgift med errorCostMultiplier ≥ 5 i Human-critical oavsett kapacitet. Kapacitetspoängen kan vara 95 – om självsäkert felaktig AI-output är katastrofal bär utplaceringen av den AI:n ett negativt förväntat värde. Matematiken är rättfram: kostnaden för ett sällsynt fel, fördelad över alla gånger AI:n inte tar fel, måste stå sig väl mot den totala mänskliga kostnaden. För uppgifter där kostnaden för det sällsynta felet är stor (medicinskt godkännande, finansiell attestering, myndighetsinlämning) faller matematiken.

Två exempel. En finansanalytikers uppgift "förbered revisionsklara avvikelsekommentarer" poängsätter kapacitet 70, reliabilitet 60, felkostnad 5. Kapaciteten är medelmåttig; felkostnaden grindar hela uppgiften in i Human-critical. En customer support-leads uppgift "besvara en förfrågan från en tillsynsmyndighet" poängsätter kapacitet 68, reliabilitet 55, felkostnad 5. Samma grind.

Jämför nu med var populära AI-riskramverk placerar dessa. Båda poängsätts i bandet "medelhög till hög AI-exponering" på verktyg som bara viktar kapacitet. Felkostnadsaxeln vänder slutsatsen. Om du som finansanalytiker läser ett verktyg som rankar din roll "78 % exponerad," är det implicita påståendet att 78 % av ditt arbete är operativt substituerbart idag. Verkligheten är att de revisionsklara resultaten, som är den hävstångsrika delen av rollen, operativt inte är substituerbara idag oavsett kapacitet – och kanske aldrig blir substituerbara, eftersom axeln för juridiskt ansvar är strukturellt mänsklig.

Slutsats 4 – De fem human-advantage-axlarna är inte oberoende

Vi poängsätter varje uppgift på fem kanoniska axlar av icke-reducerbart mänskligt värde: förtroende (varaktig relation), tvetydighet (att läsa ett obekant rum), ansvar (namngivet reglerat godkännande), övertalning (att ändra någons beteende genom mänsklig dynamik) och kontext (flerårig historik som inte får plats i ett modell-kontextfönster).

I v1-korpusen klustrar axlarna kvalitativt i två grupper. Uppgifter taggade med förtroende tenderar också att taggas med ansvar – de två förekommer tillsammans i fiduciärt arbete (medicinsk, juridisk, finansiell attestering, namngivet reglerat godkännande). Uppgifter taggade med tvetydighet tenderar att förekomma tillsammans med kontext – öppet omdömesarbete som arkitektur, systemdesign eller ledningsstrategi. De två klustren överlappar inte nämnvärt i korpusen.

Implikationen är att "human-critical work" inte är en enda sak. Det finns minst två urskiljbara slag: fiduciärt arbete (revisor, läkare, jurist, namngiven terapeut – högt förtroende, högt ansvar) och omdömesarbete under tvetydighet (arkitekt, senior PM, principal designer – hög tvetydighet, hög kontext). Ekonomin i att automatisera dessa skiljer sig. Fiduciärt arbete har strukturella mänskliga ankare (reglering, professionell legitimering, namngivet ansvar). Omdömesarbete under tvetydighet har arkitektoniska ankare (inget kontextfönster rymmer den fleråriga tech-debt-grafen; ingen prompt fångar organisationens politiska karta).

Vi säger detta med en metodologisk asterisk: korpusen är handskriven, axlarna är idag kodade som stränggtaggar per uppgift snarare än numeriska poäng, och vi publicerar denna klusterslutsats som en arbetshypotes. v1.5-utvärderarpanelen (Claude + GPT-4-klass + Gemini-klass) kommer att poängsätta dessa axlar 0–4 mot en strukturerad rubrik enligt ADR-017, och medianerna stämplas in i matrisen – vid vilken punkt klusterkorrelationerna blir kvantifierbara. Om den kvalitativa klusterstrukturen håller är slutsatsen verklig. Om den kollapsar säger vi det på metodiksidan och uppdaterar inlägget.

Slutsats 5 – Översyn, inte inferens, är den dominerande operativa kostnaden

För den typiska v1-cellen – sammansatt av översynsminuterna per uppgift, den fullt belastade granskarlönen och den aktuella tokenprissättningen i våra kostnadsmodellkonstanter – är den största enskilda posten i den operativa AI-kostnaden översyn (minuter mänsklig granskning per outputenhet, multiplicerat med granskarens fullt belastade lön). Inte tokens. Inte orkestrering. Inte integration. Drivkraften nummer ett bakom om en AI-utplacering skeppar nettopositiv ekonomi är hur många minuter mänsklig uppmärksamhet varje AI-output fortfarande kräver.

Detta är posten som de flesta offentliga AI-kostnadsanalyser hoppar över. Tokenposten är billig att beräkna och lätt att försvara ("en miljon tokens kostar $X"). Översynsposten kräver kännedom om reliabilitetsaxeln, felkostnadsaxeln och granskarens fullt belastade lön. Tre siffror som de flesta kalkylatorliknande verktyg vägrar att fråga efter.

Implikationen: kapacitetsförbättringar som sänker tokenposten utan att sänka översynsminuterna flyttar inte ekonomin väsentligt. Reliabilitetsförbättringar som skär översynen från tio minuter per output till två minuter per output ändrar svaret för hela rollen. Det är därför vår metodik viktar reliabilitet och felkostnad som grindar och dämpare snarare än som termer i en summa. Kapacitet grindar vilka uppgifter som kommer in i modellen; reliabilitet multiplicerar den operativa bärkraften; felkostnad delar den; human advantage dämpar den.

Den strukturella förutsägelsen: nästa generation av meningsfulla AI-arbetskostnadssänkningar kommer inte från billigare inferens. Den kommer från reliabilitetsförbättringar som märkbart minskar översynsminuterna per output. Nvidia-chefen som i april 2026 sa till Axios att "kostnaden för compute vida överstiger kostnaderna för de anställda" beskrev inferensposten. Reliabilitetsposten är strukturellt mycket svårare att trycka ned, vilket är varför post-deployment-reversaler (Klarna, Ubers AI-kodningsbudget-brännande) klustrar vid de utplaceringar där reliabiliteten inte hunnit ikapp kapaciteten.

Vad vi medvetet inte modellerade

Tre saker, namngivna så att du kan tvista med oss på rätt axel. För det första optionsvärde – värdet av att skjuta upp en AI-utplacering tills kapacitet eller kostnad förbättras. En uppgift som idag poängsätter Human-led + AI-assisted kan förskjutas till AI-augmented om två år; optionen att vänta har ett reellt förväntat värde för företaget. Vi prissätter inte detta eftersom vi inte har en försvarbar avtagandekurva för reliabiliteten. Kapacitetskurvor är hanterbara; reliabilitetskurvor är det inte.

För det andra strategiskt omfördelningsvärde. När AI substituerar 20 % av en rolls uppgiftstimmar kan de frigjorda timmarna omdirigeras till arbete med högre hävstång. Det ekonomiska värdet av den omdirigeringen beror på om den frigjorda tiden går till arbete med högt marginalvärde (arkitektur, mentorskap, kundlojalitet) eller till lateral aktivitet. Vår modell antar ren kostnadsbesparing på de frigjorda timmarna, vilket underskattar uppsidan i bästa fall och undviker överlöften i genomsnittsfallet. Vi är medvetet konservativa.

För det tredje terminalvärde bortom år 5. Det finansiella projektionslagret (NPV / IRR / återbetalningstid, tillgängligt för Pro-prenumeranter på varje Wagecard) löper fem år framåt. Vi extrapolerar inte längre eftersom antagandena om kapacitet och kostnadsavklingning snabbt blir godtyckliga. Vi föredrar ett femårssvar vi kan försvara framför ett tjugoårssvar ingen kommer att lita på.

Vad detta betyder om du läser som kunskapsarbetare

Huvudbudskapet är det lugna. De flesta roller i v1-korpusen befinner sig idag inte i rubrikartad AI-exponeringsfara, och ramverket förutspår att de inte kommer att vara i rubrikfara under de närmaste fem åren heller. Det är inget försvar för självbelåtenhet. De två mellersta klasserna (AI-augmented, Human-led + AI-assisted) är där den operativa förskjutningen sker, och de kräver att arbetaren aktivt ändrar hur hen använder AI – inte att frukta den, inte att fira den, utan att arbeta med den som verktygslådans nya golv.

Om du vill ha den specifika analysen för din roll, geo och uppgiftsmix tar Wagecard-guiden omkring tre minuter. Anonym förhandsvisning före inloggning; ingen lön krävs om du inte vill ha marknadspercentil-analysen. Siffrorna på din Wagecard kommer från samma matris som vi drog slutsatserna ovan från.

Vad detta betyder om du läser som deployment lead

De två felmoderna vi oftast ser i offentliga reversaler är (1) kapacitet-utan-reliabilitet-utrullningar som underskattade översynsbördan, och (2) uppgifter som var Replaceable-enligt-rubriken men i själva verket Human-critical-enligt-felkostnad. Båda är diagnostiserbara i förväg. Kapacitet och reliabilitet dekomponeras rent i vår matris; felkostnad är en 1–5-multiplikator per uppgift. Diagnosen tar ungefär en timme om du skriver ned uppgifterna. Post-incident-granskningen tar ungefär ett kvartal om du hoppar över diagnosen.

Om du driver AI-utplacering för ett team eller en organisation är B2B-vyn ett klistra-in-rollerna-flöde som producerar samma matrishärledda analys över din personalstyrka. Metodiken är densamma; ytan är på organisationsnivå.

En sista brasklapp

Vi är pre-launch. Siffrorna ovan kommer från en handskriven v1-matris kalibrerad mot offentlig forskning. När v1.5-utvärderarpanelen skeppas (mål Q3 2026) kommer matrisen att regressionstestas mot tre modellutvärderare och medianerna stämplas in i samma datastruktur. Om någon av de fem slutsatserna ovan vänder efter den körningen säger vi det på metodiksidan, uppdaterar detta inlägg med de nya siffrorna och stämplar versionen. v1-cellerna förblir läsbara; versionsstämpeln på varje Wagecard registrerar vilken matris som producerade analysen.

Med tiden skärps analysen i takt med att verklig användning fyller på – vilka AI-verktyg som faktiskt används, med vilken intensitet, per roll × geo × erfarenhet. Idag har vi det för ingen av cellerna; siffrorna ovan är modellanalyser, inte användningsdata. Transparensgrindarna på /insights visar i realtid exakt var den datan finns och inte finns ännu, per N-antal – inklusive nollorna.

Det är hela pitchen: öppen metodik, eftersom trovärdig ekonomi måste vara granskbar. Varje siffra skeppas med metoden som producerade den och ett konfidensintervall, så att du kan kontrollera analysen snarare än att lita på den.

Kommentarer och metodologiskt mothugg välkomna. Det snabbaste sättet att tvista med ramverket är att beräkna din egen Wagecard och tala om för oss vilken cell som ser fel ut. Matrisversionen på varje Wagecard registrerar ögonblicksbilden du såg; vi för en granskningslogg över hur den förändrades.

Vi modellerade AI-substitutionsekonomi för 15 kunskapsarbetarroller – där det blir obekvämt

De femton rollerna

Slutsats 1 – Det mesta kunskapsarbetet ligger i de två mellersta klasserna

Slutsats 2 – Kapaciteten har sprungit ifrån reliabiliteten

Slutsats 3 – Felkostnad är den mest underviktade axeln i den offentliga debatten

Slutsats 4 – De fem human-advantage-axlarna är inte oberoende

Slutsats 5 – Översyn, inte inferens, är den dominerande operativa kostnaden

Vad vi medvetet inte modellerade

Vad detta betyder om du läser som kunskapsarbetare

Vad detta betyder om du läser som deployment lead

En sista brasklapp

Inte redo att logga in? Ställ dig på listan.

Vi modellerade AI-substitutionsekonomi för 15 kunskapsarbetarroller – där det blir obekvämt

De femton rollerna

Slutsats 1 – Det mesta kunskapsarbetet ligger i de två mellersta klasserna

Slutsats 2 – Kapaciteten har sprungit ifrån reliabiliteten

Slutsats 3 – Felkostnad är den mest underviktade axeln i den offentliga debatten

Slutsats 4 – De fem human-advantage-axlarna är inte oberoende

Slutsats 5 – Översyn, inte inferens, är den dominerande operativa kostnaden

Vad vi medvetet inte modellerade

Vad detta betyder om du läser som kunskapsarbetare

Vad detta betyder om du läser som deployment lead

En sista brasklapp

Inte redo att logga in? Ställ dig på listan.