Nous avons conçu Wagecore pour répondre à une seule question, métier du savoir par métier du savoir : la substitution par l'IA est-elle opérationnellement moins chère que l'humain, ou seulement théoriquement moins chère ? Voici cinq constats tirés de l'exécution de notre matrice de capacités v1 sur quinze métiers. Le plus inconfortable est aussi le plus simple.
Avant les constats : il s'agit d'une lecture par le modèle, pas d'une enquête. Nous n'avons pas encore collecté de données d'adoption utilisateur à grande échelle, et les chiffres proviennent d'une matrice transparente rédigée à la main, calibrée sur des recherches publiées (MIT CSAIL sur la viabilité de l'automatisation, BCG sur la captation de valeur de l'IA en entreprise, et les retours post-incident de Klarna, Uber et d'autres). Le versionnage de la matrice, les définitions d'axes et les règles de seuil sont tous sur notre page méthodologie. Nous le mentionnons d'emblée parce que la matrice est ouverte et auditable, et la lecture ne fait que s'affiner avec le temps, à mesure que davantage de métiers sont calculés et recalibrés. Aujourd'hui, le tableau de l'adoption est précoce — v0 — et nous le disons.
Les quinze métiers
Le corpus v1 couvre cinq métiers techniques (ingénieur logiciel, ingénieur data, ingénieur machine learning, product manager, product designer), cinq métiers proches des opérations (responsable support client, sales engineer, engineering manager, analyste financier, account executive), et cinq métiers créatifs et transversaux (content marketer, growth marketing manager, chercheur UX, recruteur, analyste business operations). Chaque métier compte six à huit tâches représentatives, notées sur neuf axes : quatre axes de cluster de capacité, trois axes de cluster de fiabilité, un modificateur d'économie opérationnelle, et un amortisseur d'avantage humain composé de cinq axes canoniques de valeur irréductible.
Conformément à l'ADR-016, chaque tâche se range dans l'une des quatre classes de substitution — Replaceable (l'IA opère de bout en bout avec une supervision minimale), AI-augmented (l'IA fait l'essentiel du travail, l'humain est propriétaire des décisions et du contexte), Human-led + AI-assisted (l'humain mène, l'IA est un outil), et Human-critical (l'IA n'apporte aucune valeur nette, voire une valeur négative, en raison de la confiance, de la réglementation, de la responsabilité ou de la complexité relationnelle). Les seuils sont déterministes, encodés dans le code, et expliqués en détail dans l'article canonique sur la taxonomie.
Constat 1 — La majorité du travail du savoir se situe dans les deux classes centrales
Sur les 91 cellules (métier × tâche) du corpus v1, la distribution de référence des classes de substitution par nombre de tâches est à peu près : 4 % Replaceable, 38 % AI-augmented, 27 % Human-led + AI-assisted, 31 % Human-critical. Le seau Replaceable est étroit — seule une poignée de tâches du corpus franchit simultanément capacité ≥ 75, fiabilité ≥ 80 ET faible coût d'erreur. Les deux classes centrales portent la plus grande masse, 65 % à elles deux.
Cela compte parce que le cadrage public dominant de l'économie du travail à l'ère de l'IA est binaire. « En sécurité vs à risque. » « Les robots vont-ils prendre mon emploi, oui ou non. » Les données ne soutiennent aucun de ces deux pôles comme majoritaire. La lecture honnête est que le travail du savoir se décompose en un portefeuille de tâches où l'IA est opérationnellement moins chère pour certaines, plus chère pour d'autres, et une opération neutre pour beaucoup.
Pour un ingénieur logiciel du corpus v1, aucune des huit tâches modélisées ne se range dans Replaceable comme classe de référence — même la documentation, où la capacité est élevée, échoue à la porte de fiabilité ou de coût d'erreur une fois livrée dans du code de production. Le métier est à peu près pour moitié AI-augmented (implémentation de fonctionnalité contre une spécification claire, rédaction de revues de code, écriture de tests) et réparti entre Human-led + AI-assisted (conception système, triage d'astreinte) et Human-critical (mentorat, décisions d'architecture avec contexte pluriannuel). La lecture pondérée par les parts range le métier en territoire d'augmentation — ni Replaceable, ni Human-critical.
Constat 2 — La capacité a devancé la fiabilité
Sur les 91 cellules (métier × tâche) de notre matrice v1, 31 obtiennent une capacité ≥ 75 — bien au-dessus du seuil que les grilles populaires d'exposition à l'IA interprètent comme « le modèle sait faire ça ». Sur ces 31, seules 5 obtiennent aussi une fiabilité ≥ 80 — le seuil qui, combiné à un faible coût d'erreur, déclenche Replaceable dans notre jeu de règles. Les 26 autres tâches à forte capacité échouent à la porte de fiabilité. Elles sont techniquement réalisables dans la démo et irréalisables en production.
C'est le « schéma Klarna » dont nous avons parlé ailleurs. Le modèle sait traiter le ticket de service client. Le modèle ne sait pas le traiter au taux d'échec que l'entreprise peut tolérer. L'écart entre ces deux phrases est là où vit la plupart des cas de revirement.
Des exemples du corpus. La tâche de surveillance de pipeline d'un ingénieur data obtient une capacité dans la bande haute mais une fiabilité dans les mi-70 — la capacité franchit la barre Replaceable, la fiabilité non. La tâche de rédaction de titres d'un growth marketer obtient une capacité dans les bas-80 et une fiabilité dans les mi-60 — même schéma. La tâche de synthèse de transcriptions d'un chercheur UX se range dans la même forme : forte capacité, fiabilité intermédiaire. Dans les trois cas, le cadrage populaire d'exposition à l'IA étiquetterait la tâche comme automatisable. Les portes de fiabilité et de coût d'erreur disent : pas au taux d'échec que l'entreprise tolérera, plus le coût de se tromper quand la supervision en laisse passer.
Dans les trois cas, le cadrage populaire étiquetterait la tâche « automatisable ». Le score de fiabilité dit : pas au coût de la supervision humaine nécessaire pour rattraper les erreurs, plus le coût de se tromper quand la supervision en laisse passer.
Constat 3 — Le coût d'erreur est l'axe le plus sous-pondéré du débat public
Wagecore note le coût d'erreur sur un multiplicateur de 1 à 5 par tâche, où 1 signifie « une sortie erronée est peu coûteuse à détecter et corriger » et 5 signifie « une sortie erronée crée des dommages réglementaires, financiers ou réputationnels qui s'aggravent ». Dans le corpus v1, environ 38 % des tâches obtiennent un 4 ou un 5 — elles pèsent plus lourd que leur poids dans l'assignation de classe de substitution en tête d'affiche.
Selon la Règle 1 de l'ADR-016, toute tâche avec
errorCostMultiplier ≥ 5 se range en Human-critical
quelle que soit la capacité. Le score de capacité peut être 95 —
si une sortie d'IA confiante mais erronée est catastrophique, déployer cette IA
porte une valeur attendue nette négative. Le calcul est simple : le
coût d'une erreur rare, amorti sur toutes les fois où l'IA ne
se trompe pas, doit se comparer favorablement au coût humain tout compris. Pour
les tâches où le coût de l'erreur rare est élevé (validation médicale, attestation
financière, dépôt réglementaire), le calcul échoue.
Deux exemples. La tâche « préparer un commentaire d'écart de qualité audit » d'un analyste financier obtient capacité 70, fiabilité 60, coût d'erreur 5. La capacité est intermédiaire ; le coût d'erreur verrouille toute la tâche en Human-critical. La tâche « répondre à une enquête d'un régulateur » d'un responsable support client obtient capacité 68, fiabilité 55, coût d'erreur 5. Même porte.
Comparez maintenant à l'endroit où les grilles populaires d'exposition à l'IA les rangent. Les deux tâches se classent dans la bande « exposition à l'IA moyenne à élevée » sur les outils qui ne pondèrent que la capacité. L'axe de coût d'erreur inverse la conclusion. Si vous êtes analyste financier et lisez un outil qui classe votre métier « exposé à 78 % », l'affirmation implicite est que 78 % de votre travail est opérationnellement substituable aujourd'hui. La réalité est que les livrables de qualité audit, qui sont la partie à fort levier du métier, sont opérationnellement non substituables aujourd'hui quelle que soit la capacité — et pourraient ne jamais l'être, car l'axe de responsabilité juridique est structurellement humain.
Constat 4 — Les cinq axes d'avantage humain ne sont pas indépendants
Nous notons chaque tâche sur cinq axes canoniques de valeur humaine irréductible : confiance (relation durable), ambiguïté (lire une salle inconnue), responsabilité (validation réglementée et nominative), persuasion (changer le comportement de quelqu'un par la dynamique humaine), et contexte (historique pluriannuel qui n'entre pas dans une fenêtre de contexte de modèle).
Dans le corpus v1, les axes se regroupent qualitativement en deux groupes. Les tâches marquées confiance tendent aussi à être marquées responsabilité — les deux coexistent sur le travail fiduciaire (attestation médicale, juridique, financière, validation réglementée et nominative). Les tâches marquées ambiguïté tendent à coexister avec le contexte — le travail de jugement ouvert comme l'architecture, la conception système ou la stratégie de direction. Les deux clusters ne se chevauchent pas de manière significative dans le corpus.
L'implication est que le « travail Human-critical » n'est pas une seule chose. Il en existe au moins deux types distinguables : le travail fiduciaire (auditeur, médecin, avocat, thérapeute nommé — forte confiance, forte responsabilité) et le travail de jugement sous ambiguïté (architecte, PM senior, principal designer — forte ambiguïté, fort contexte). L'économie de l'automatisation de ces deux types diffère. Le travail fiduciaire possède des ancres humaines structurelles (réglementation, licence professionnelle, responsabilité nominative). Le travail de jugement sous ambiguïté possède des ancres architecturales (aucune fenêtre de contexte ne contient le graphe pluriannuel de dette technique ; aucun prompt ne capture la carte politique de l'organisation).
Nous le disons avec un astérisque méthodologique : le corpus est rédigé à la main, les axes sont aujourd'hui encodés comme des étiquettes de chaîne par tâche plutôt que comme des scores numériques, et nous publions ce constat de clustering comme une hypothèse de travail. Le panel d'évaluateurs v1.5 (Claude + classe GPT-4
- classe Gemini) notera ces axes de 0 à 4 contre une grille structurée selon l'ADR-017, et les médianes seront estampillées dans la matrice — point à partir duquel les corrélations de cluster deviennent quantifiables. Si la structure de cluster qualitative tient, le constat est réel. Si elle s'effondre, nous le dirons sur la page méthodologie et mettrons à jour l'article.
Constat 5 — La supervision, et non l'inférence, est le coût opérationnel dominant
Pour la cellule v1 typique — en combinant les minutes de supervision par tâche, le salaire chargé du relecteur et le prix courant des tokens dans nos constantes de modèle de coût — la plus grande ligne unique du coût opérationnel de l'IA est la supervision (minutes de revue humaine par unité de sortie, multipliées par le salaire chargé du relecteur). Pas les tokens. Pas l'orchestration. Pas l'intégration. Le premier facteur déterminant du caractère net-positif de l'économie d'un déploiement d'IA est le nombre de minutes d'attention humaine que chaque sortie d'IA exige encore.
C'est la ligne que la plupart des analyses publiques de coût d'IA sautent. La ligne des tokens est peu coûteuse à calculer et facile à défendre (« un million de tokens coûte $X »). La ligne de supervision exige de connaître l'axe de fiabilité, l'axe de coût d'erreur et le salaire chargé du relecteur. Trois chiffres que la plupart des outils de type calculateur refusent de demander.
L'implication : les améliorations de capacité qui abaissent la ligne des tokens sans abaisser les minutes de supervision ne déplacent pas l'économie de manière matérielle. Les améliorations de fiabilité qui réduisent la supervision de dix minutes par sortie à deux minutes par sortie changent la réponse pour tout le métier. C'est pourquoi notre méthodologie traite la fiabilité et le coût d'erreur comme des portes et des amortisseurs plutôt que comme des termes d'une somme. La capacité filtre quelles tâches entrent dans le modèle ; la fiabilité multiplie la viabilité opérationnelle ; le coût d'erreur la divise ; l'avantage humain l'amortit.
La prédiction structurelle : la prochaine génération de réductions significatives du coût du travail à l'ère de l'IA ne viendra pas d'une inférence moins chère. Elle viendra d'améliorations de fiabilité qui réduisent matériellement les minutes de supervision par sortie. Le dirigeant de Nvidia qui a déclaré à Axios en avril 2026 que « le coût du calcul dépasse de loin les coûts des employés » décrivait la ligne d'inférence. La ligne de fiabilité est structurellement bien plus difficile à pousser, ce qui explique pourquoi les revirements post-déploiement (Klarna, brûlage de budget de codage IA chez Uber) se concentrent sur les déploiements où la fiabilité n'a pas rattrapé la capacité.
Ce que nous avons délibérément choisi de ne pas modéliser
Trois choses, nommées pour que vous puissiez nous contredire sur le bon axe. Premièrement, la valeur d'option — la valeur de différer un déploiement d'IA jusqu'à ce que la capacité ou le coût s'améliore. Une tâche qui obtient aujourd'hui Human-led + AI-assisted peut basculer en AI-augmented dans deux ans ; l'option d'attendre a une réelle valeur attendue pour l'entreprise. Nous ne la valorisons pas parce que nous n'avons pas de courbe de déclin défendable pour la fiabilité. Les courbes de capacité sont traitables ; les courbes de fiabilité ne le sont pas.
Deuxièmement, la valeur de redéploiement stratégique. Quand l'IA substitue 20 % des heures-tâches d'un métier, les heures libérées peuvent être redirigées vers un travail à plus fort levier. La valeur économique de cette redirection dépend de si le temps libéré va vers du travail à forte valeur marginale (architecture, mentorat, rétention client) ou vers de l'activité latérale. Notre modèle suppose de pures économies de coût sur les heures libérées, ce qui sous-estime le potentiel dans le meilleur des cas et évite de surpromettre dans le cas moyen. Nous sommes délibérément conservateurs.
Troisièmement, la valeur terminale au-delà de l'année 5. La couche de projection financière (VAN / TRI / délai de récupération, disponible pour les abonnés Pro sur chaque Wagecard) court sur cinq ans. Nous n'extrapolons pas au-delà parce que les hypothèses sur le déclin de la capacité et du coût deviennent arbitraires rapidement. Nous préférons une réponse à cinq ans que nous pouvons défendre à une réponse à vingt ans que personne ne croira.
Ce que cela signifie si vous lisez en tant que travailleur du savoir
La lecture en tête d'affiche est la plus calme. La plupart des métiers du corpus v1 ne sont pas en difficulté d'exposition à l'IA aujourd'hui, et la grille prédit qu'ils ne seront pas non plus en difficulté au premier plan dans les cinq prochaines années. Ce n'est pas une défense de la complaisance. Les deux classes centrales (AI-augmented, Human-led + AI-assisted) sont là où le déplacement opérationnel se produit, et elles exigent du travailleur qu'il change activement sa manière d'utiliser l'IA — ni de la craindre, ni de la célébrer, mais d'opérer avec elle comme nouveau socle de la boîte à outils.
Si vous voulez la lecture précise pour votre métier, votre géographie et votre mix de tâches, l' assistant Wagecard prend environ trois minutes. Aperçu anonyme avant la connexion ; aucun salaire requis sauf si vous voulez la lecture en percentile de marché. Les chiffres de votre Wagecard proviennent de la même matrice dont nous avons tiré les constats ci-dessus.
Ce que cela signifie si vous lisez en tant que responsable de déploiement
Les deux modes d'échec que nous voyons le plus souvent dans les revirements publics sont (1) les déploiements capacité-sans-fiabilité qui ont sous-estimé la charge de supervision, et (2) les tâches Replaceable-en-tête-d'affiche qui étaient en réalité Human-critical-par-coût-d'erreur. Les deux sont diagnosticables à l'avance. Capacité et fiabilité se décomposent proprement dans notre matrice ; le coût d'erreur est un multiplicateur de 1 à 5 par tâche. Le diagnostic prend environ une heure si vous notez les tâches. La revue post-incident prend environ un trimestre si vous sautez le diagnostic.
Si vous pilotez le déploiement d'IA pour une équipe ou une organisation, la vue B2B est un flux « collez les métiers » qui produit la même lecture dérivée de la matrice sur l'ensemble de votre effectif. La méthodologie est la même ; la surface est au niveau organisationnel.
Une dernière réserve
Nous sommes en pré-lancement. Les chiffres ci-dessus proviennent d'une matrice v1 rédigée à la main calibrée contre la recherche publique. Quand le panel d'évaluateurs v1.5 sera livré (cible T3 2026), la matrice sera testée en régression contre trois évaluateurs de modèles et les médianes seront estampillées dans la même structure de données. Si l'un des cinq constats ci-dessus s'inverse après cette passe, nous le dirons sur la page méthodologie, mettrons à jour cet article avec les nouveaux chiffres, et estampillerons la version. Les cellules v1 resteront lisibles ; l'estampille de version sur chaque Wagecard enregistre quelle matrice a produit la lecture.
Avec le temps, la lecture s'affine à mesure que l'adoption réelle se remplit — quels outils d'IA sont réellement utilisés, à quelle intensité, par métier × géo × expérience. Aujourd'hui, nous avons cela pour aucune des cellules ; les chiffres ci-dessus sont des lectures par le modèle, pas des données d'adoption. Les portes de transparence sur /insights montrent exactement où ces données sont et ne sont pas encore, par nombre N, en temps réel — y compris les zéros.
C'est là tout le propos : méthodologie ouverte, parce qu'une économie digne de confiance doit être auditable. Chaque chiffre est livré avec la méthode qui l'a produit et une bande de confiance, pour que vous puissiez vérifier la lecture plutôt que lui faire confiance.
Commentaires et objections méthodologiques bienvenus. La façon la plus rapide de contester la grille est de calculer votre propre Wagecard et de nous dire quelle cellule vous paraît fausse. La version de matrice sur chaque Wagecard enregistre le cliché que vous avez vu ; nous tenons un journal d'audit de son évolution.