Abbiamo costruito Wagecore per rispondere a una sola domanda per ogni ruolo della conoscenza: la sostituzione con l'IA è operativamente più economica della persona, oppure lo è solo in teoria? Di seguito cinque risultati ottenuti eseguendo la nostra matrice delle capacità v1 su quindici ruoli. Il più scomodo è anche il più semplice.
Prima dei risultati: questa è una lettura di modello, non un sondaggio. Non abbiamo ancora raccolto dati di adozione degli utenti su larga scala, e i numeri provengono da una matrice trasparente scritta a mano, calibrata su ricerche pubblicate (MIT CSAIL sulla fattibilità dell'automazione, BCG sulla cattura di valore dell'IA in azienda, e le revisioni post-incidente di Klarna, Uber e altre). Il versioning della matrice, le definizioni degli assi e le regole di soglia sono tutti sulla nostra pagina di metodologia. Lo diciamo in apertura perché la matrice è aperta e verificabile, e la lettura si affina soltanto nel tempo, man mano che più ruoli vengono calcolati e ricalibrati. Oggi il quadro dell'adozione è agli inizi — v0 — e lo dichiariamo.
I quindici ruoli
Il corpus v1 copre cinque ruoli tecnici (ingegnere del software, ingegnere dei dati, ingegnere di machine learning, product manager, product designer), cinque ruoli vicini alle operations (responsabile del supporto clienti, sales engineer, engineering manager, analista finanziario, account executive), e cinque ruoli creativi e trasversali (content marketer, growth marketing manager, ricercatore UX, recruiter, analista di business operations). Ogni ruolo ha da sei a otto attività rappresentative, valutate su nove assi: quattro assi del cluster di capacità, tre assi del cluster di affidabilità, un modificatore di economia operativa, e uno smorzatore di vantaggio umano composto da cinque assi canonici di valore irriducibile.
Come da ADR-016, ogni attività ricade in una di quattro classi di sostituzione: Replaceable (l'IA opera end-to-end con supervisione minima), AI-augmented (l'IA fa la maggior parte del lavoro, la persona è titolare delle decisioni e del contesto), Human-led + AI-assisted (la persona guida, l'IA è uno strumento), e Human-critical (l'IA non porta valore netto, o porta valore negativo, per ragioni di fiducia, regolamentazione, responsabilità o complessità relazionale). Le soglie sono deterministiche, codificate nel codice, e spiegate a fondo nell'articolo canonico sulla tassonomia.
Risultato 1 — La maggior parte del lavoro della conoscenza vive nelle due classi centrali
Sulle 91 celle (ruolo × attività) del corpus v1, la distribuzione di base delle classi di sostituzione per numero di attività è all'incirca: 4% Replaceable, 38% AI-augmented, 27% Human-led + AI-assisted, 31% Human-critical. Il bucket Replaceable è stretto: solo una manciata di attività nel corpus supera contemporaneamente capacità ≥ 75, affidabilità ≥ 80 E basso costo di errore. Le due classi centrali portano la massa maggiore, il 65% combinato.
Questo conta perché l'inquadramento pubblico dominante dell'economia del lavoro nell'era dell'IA è binario. «Al sicuro vs a rischio.» «I robot mi porteranno via il lavoro, sì o no.» I dati non sostengono nessuno dei due poli come maggioritario. La lettura onesta è che il lavoro della conoscenza si scompone in un portafoglio di attività in cui l'IA è operativamente più economica per alcune, più costosa per altre, e sostanzialmente neutra per molte.
Per un ingegnere del software nel corpus v1, nessuna delle otto attività modellate ricade in Replaceable come classe di base: anche la documentazione, dove la capacità è alta, fallisce la porta di affidabilità o di costo di errore quando finisce nel codice di produzione. Il ruolo è all'incirca per metà AI-augmented (implementazione di funzionalità contro una specifica chiara, stesura di code review, scrittura di test) e distribuito tra Human-led + AI-assisted (progettazione di sistemi, triage di reperibilità) e Human-critical (mentoring, decisioni di architettura con contesto pluriennale). La lettura ponderata per quota colloca il ruolo in territorio di augmentation, né Replaceable né Human-critical.
Risultato 2 — La capacità ha superato l'affidabilità
Delle 91 celle (ruolo × attività) della nostra matrice v1, 31 ottengono capacità ≥ 75, ben sopra la soglia che i modelli popolari di esposizione all'IA trattano come «il modello sa fare questo». Di quelle 31, solo 5 ottengono anche affidabilità ≥ 80, la soglia che, combinata con un basso costo di errore, attiva Replaceable nel nostro insieme di regole. Le altre 26 attività ad alta capacità falliscono la porta di affidabilità. Sono tecnicamente realizzabili nella demo e non realizzabili in produzione.
Questo è il «pattern Klarna» di cui abbiamo scritto separatamente. Il modello sa completare il ticket del servizio clienti. Il modello non sa completarlo al tasso di errore che l'azienda può tollerare. Il divario tra queste due frasi è dove vive la maggior parte dei casi di dietrofront.
Esempi dal corpus. L'attività di monitoraggio delle pipeline di un ingegnere dei dati ottiene capacità nella fascia alta ma affidabilità nei 70 e qualcosa bassi: la capacità supera l'asticella Replaceable, l'affidabilità no. L'attività di stesura di titoli di un growth marketer ottiene capacità negli 80 bassi e affidabilità nei 60 medi: stesso pattern. L'attività di sintesi di trascrizioni di un ricercatore UX ricade nella stessa forma: alta capacità, affidabilità intermedia. In tutti e tre i casi l'inquadramento popolare dell'esposizione all'IA etichetterebbe l'attività come automatizzabile. Le porte di affidabilità e di costo di errore dicono: non al tasso di errore che l'azienda tollererà, più il costo di sbagliare quando la supervisione ne lascia passare alcuni.
In tutti e tre i casi l'inquadramento popolare etichetterebbe l'attività come «automatizzabile». Il punteggio di affidabilità dice: non al costo della supervisione umana necessaria a intercettare gli errori, più il costo di sbagliare quando la supervisione ne lascia passare alcuni.
Risultato 3 — Il costo di errore è l'asse più sottovalutato nel dibattito pubblico
Wagecore valuta il costo di errore su un moltiplicatore da 1 a 5 per attività, dove 1 significa «un output sbagliato è economico da rilevare e correggere» e 5 significa «un output sbagliato genera danni regolatori, finanziari o reputazionali che si aggravano». Nel corpus v1, circa il 38% delle attività ottiene 4 o 5: pesano più del loro peso nell'assegnazione della classe di sostituzione di prima pagina.
Come da Regola 1 dell'ADR-016, ogni attività con
errorCostMultiplier ≥ 5 ricade in Human-critical
indipendentemente dalla capacità. Il punteggio di capacità può essere 95:
se un output dell'IA sicuro ma sbagliato è catastrofico, distribuire quell'IA
comporta un valore atteso netto negativo. Il calcolo è lineare: il
costo di un errore raro, ammortizzato su tutte le volte in cui l'IA non
sbaglia, deve reggere il confronto con il costo umano complessivo. Per
le attività in cui il costo dell'errore raro è alto (via libera medico, attestazione
finanziaria, deposito regolatorio), il calcolo fallisce.
Due esempi. L'attività «preparare un commento agli scostamenti con qualità da audit» di un analista finanziario ottiene capacità 70, affidabilità 60, costo di errore 5. La capacità è intermedia; il costo di errore blocca l'intera attività in Human-critical. L'attività «rispondere a un'istanza di un regolatore» di un responsabile del supporto clienti ottiene capacità 68, affidabilità 55, costo di errore 5. Stessa porta.
Ora confronta con dove i modelli popolari di esposizione all'IA collocano queste attività. Entrambe rientrano nella fascia «esposizione all'IA media-alta» su strumenti che pesano solo la capacità. L'asse del costo di errore ribalta la conclusione. Se sei un analista finanziario e leggi uno strumento che classifica il tuo ruolo «esposto al 78%», l'affermazione implicita è che il 78% del tuo lavoro è operativamente sostituibile oggi. La realtà è che gli output con qualità da audit, che sono la parte a maggiore leva del ruolo, sono operativamente non sostituibili oggi, indipendentemente dalla capacità, e potrebbero non esserlo mai, perché l'asse della responsabilità legale è strutturalmente umano.
Risultato 4 — I cinque assi di vantaggio umano non sono indipendenti
Valutiamo ogni attività su cinque assi canonici di valore umano irriducibile: fiducia (relazione duratura), ambiguità (leggere una stanza sconosciuta), responsabilità (via libera regolamentato e nominale), persuasione (cambiare il comportamento di qualcuno attraverso dinamiche umane), e contesto (storia pluriennale che non entra in una finestra di contesto del modello).
Nel corpus v1 gli assi si raggruppano qualitativamente in due gruppi. Le attività etichettate con fiducia tendono anche a essere etichettate con responsabilità: le due coesistono nel lavoro fiduciario (attestazione medica, legale, finanziaria, via libera regolamentato e nominale). Le attività etichettate con ambiguità tendono a coesistere con il contesto: lavoro di giudizio aperto come architettura, progettazione di sistemi o strategia esecutiva. I due cluster non si sovrappongono in modo significativo nel corpus.
L'implicazione è che il «lavoro Human-critical» non è una cosa sola. Ne esistono almeno due tipi distinguibili: il lavoro fiduciario (revisore, medico, avvocato, terapeuta nominato: alta fiducia, alta responsabilità) e il lavoro di giudizio sotto ambiguità (architetto, PM senior, principal designer: alta ambiguità, alto contesto). L'economia dell'automazione di questi due tipi è diversa. Il lavoro fiduciario ha ancore umane strutturali (regolamentazione, licenza professionale, responsabilità nominale). Il lavoro di giudizio sotto ambiguità ha ancore architetturali (nessuna finestra di contesto contiene il grafo pluriennale del debito tecnico; nessun prompt cattura la mappa politica dell'organizzazione).
Lo diciamo con un asterisco metodologico: il corpus è scritto a mano, gli assi oggi sono codificati come tag testuali per attività anziché come punteggi numerici, e pubblichiamo questo risultato di clustering come ipotesi di lavoro. Il panel di valutatori v1.5 (Claude + classe GPT-4
- classe Gemini) valuterà questi assi da 0 a 4 contro una rubrica strutturata come da ADR-017, e le mediane verranno impresse nella matrice: a quel punto le correlazioni di cluster diventano quantificabili. Se la struttura qualitativa dei cluster regge, il risultato è reale. Se crolla, lo diremo sulla pagina di metodologia e aggiorneremo l'articolo.
Risultato 5 — La supervisione, non l'inferenza, è il costo operativo dominante
Per la cella v1 tipica — combinando i minuti di supervisione per attività, il salario caricato del revisore e il prezzo corrente dei token nelle nostre costanti del modello di costo — la voce singola maggiore del costo operativo dell'IA è la supervisione (minuti di revisione umana per unità di output, moltiplicati per il salario caricato del revisore). Non i token. Non l'orchestrazione. Non l'integrazione. Il fattore numero uno che determina se il deployment dell'IA chiude con economia nettamente positiva è quanti minuti di attenzione umana ogni output dell'IA richiede ancora.
Questa è la voce che la maggior parte delle analisi pubbliche del costo dell'IA salta. La voce dei token è economica da calcolare e facile da difendere («un milione di token costa $X»). La voce di supervisione richiede di conoscere l'asse di affidabilità, l'asse del costo di errore e il salario caricato del revisore. Tre numeri che la maggior parte degli strumenti tipo calcolatrice si rifiuta di chiedere.
L'implicazione: i miglioramenti di capacità che abbassano la voce dei token senza abbassare i minuti di supervisione non spostano l'economia in modo sostanziale. I miglioramenti di affidabilità che tagliano la supervisione da dieci minuti per output a due minuti per output cambiano la risposta per l'intero ruolo. Ecco perché la nostra metodologia pesa affidabilità e costo di errore come porte e smorzatori anziché come addendi di una somma. La capacità filtra quali attività entrano nel modello; l'affidabilità moltiplica la fattibilità operativa; il costo di errore la divide; il vantaggio umano la smorza.
La previsione strutturale: la prossima generazione di riduzioni significative del costo del lavoro nell'era dell'IA non arriverà da un'inferenza più economica. Arriverà da miglioramenti di affidabilità che riducono sostanzialmente i minuti di supervisione per output. Il dirigente di Nvidia che ad aprile 2026 ha detto ad Axios che «il costo del calcolo è di gran lunga superiore ai costi dei dipendenti» descriveva la voce dell'inferenza. La voce dell'affidabilità è strutturalmente molto più difficile da spingere, ed è per questo che i dietrofront post-deployment (Klarna, budget bruciato per la programmazione con IA in Uber) si concentrano sui deployment in cui l'affidabilità non ha raggiunto la capacità.
Cosa abbiamo deliberatamente scelto di non modellare
Tre cose, nominate così che tu possa contestarci sull'asse giusto. Primo, il valore d'opzione: il valore di rinviare un deployment dell'IA finché la capacità o il costo non migliorano. Un'attività che oggi ottiene Human-led + AI-assisted può passare a AI-augmented tra due anni; l'opzione di aspettare ha un valore atteso reale per l'azienda. Non lo valorizziamo perché non abbiamo una curva di declino difendibile per l'affidabilità. Le curve di capacità sono trattabili; le curve di affidabilità no.
Secondo, il valore di ridispiegamento strategico. Quando l'IA sostituisce il 20% delle ore-attività di un ruolo, le ore liberate possono essere reindirizzate a lavoro a maggiore leva. Il valore economico di quel reindirizzamento dipende da se il tempo liberato va a lavoro ad alto valore marginale (architettura, mentoring, retention dei clienti) o ad attività laterale. Il nostro modello assume puro risparmio di costo sulle ore liberate, il che sottostima il potenziale nel caso migliore ed evita di sovrapromettere nel caso medio. Siamo deliberatamente prudenti.
Terzo, il valore terminale oltre l'anno 5. Il livello di proiezione finanziaria (VAN / TIR / periodo di recupero, disponibile per gli abbonati Pro su ogni Wagecard) arriva a cinque anni. Non estrapoliamo oltre perché le ipotesi sul declino di capacità e costo diventano arbitrarie in fretta. Preferiamo una risposta a cinque anni che possiamo difendere a una risposta a vent'anni che nessuno crederà.
Cosa significa se leggi come lavoratore della conoscenza
La lettura di prima pagina è quella pacata. La maggior parte dei ruoli nel corpus v1 non è oggi in difficoltà di esposizione all'IA da prima pagina, e il modello prevede che non lo sarà nemmeno nei prossimi cinque anni. Questa non è una difesa dell'autocompiacimento. Le due classi centrali (AI-augmented, Human-led + AI-assisted) sono dove lo spostamento operativo sta avvenendo, e richiedono al lavoratore di cambiare attivamente il modo in cui usa l'IA: non temerla, non celebrarla, ma operare con essa come nuova base del set di strumenti.
Se vuoi la lettura specifica per il tuo ruolo, la tua area geografica e il tuo mix di attività, la procedura guidata Wagecard richiede circa tre minuti. Anteprima anonima prima dell'accesso; nessuno stipendio richiesto a meno che tu non voglia la lettura del percentile di mercato. I numeri sul tuo Wagecard provengono dalla stessa matrice da cui abbiamo tratto i risultati sopra.
Cosa significa se leggi come responsabile del deployment
Le due modalità di fallimento che vediamo più spesso nei dietrofront pubblici sono (1) rollout capacità-senza-affidabilità che hanno sottovalutato il carico di supervisione, e (2) attività Replaceable-di-prima-pagina che in realtà erano Human-critical-per-costo-di-errore. Entrambe sono diagnosticabili in anticipo. Capacità e affidabilità si scompongono in modo pulito nella nostra matrice; il costo di errore è un moltiplicatore da 1 a 5 per attività. La diagnosi richiede circa un'ora se scrivi le attività. La revisione post-incidente richiede circa un trimestre se salti la diagnosi.
Se gestisci il deployment dell'IA per un team o un'organizzazione, la vista B2B è un flusso «incolla i ruoli» che produce la stessa lettura derivata dalla matrice sull'intero organico. La metodologia è la stessa; la superficie è a livello di organizzazione.
Un'ultima avvertenza
Siamo in pre-lancio. I numeri sopra provengono da una matrice v1 scritta a mano calibrata su ricerca pubblica. Quando il panel di valutatori v1.5 sarà rilasciato (obiettivo T3 2026), la matrice sarà sottoposta a test di regressione contro tre valutatori di modelli e le mediane verranno impresse nella stessa struttura dati. Se uno dei cinque risultati sopra si ribalta dopo quel passaggio, lo diremo sulla pagina di metodologia, aggiorneremo questo articolo con i nuovi numeri e imprimeremo la versione. Le celle v1 resteranno leggibili; il timbro di versione su ogni Wagecard registra quale matrice ha prodotto la lettura.
Col tempo, la lettura si affina man mano che l'adozione reale si riempie: quali strumenti di IA vengono effettivamente usati, a quale intensità, per ruolo × geo × esperienza. Oggi non abbiamo questo dato per nessuna delle celle; i numeri sopra sono letture di modello, non dati di adozione. Le porte di trasparenza su /insights mostrano esattamente dove quel dato è e dove non è ancora, per conteggio N, in tempo reale, inclusi gli zeri.
Questo è tutto il senso: metodologia aperta, perché un'economia affidabile deve essere verificabile. Ogni numero viene rilasciato con il metodo che lo ha prodotto e una banda di confidenza, così puoi verificare la lettura anziché fidartene.
Commenti e obiezioni metodologiche sono benvenuti. Il modo più rapido per contestare il modello è calcolare il tuo Wagecard e dirci quale cella ti sembra sbagliata. La versione della matrice su ogni Wagecard registra lo snapshot che hai visto; teniamo un registro di audit di come è cambiato.