L'erreur la plus courante dans l'économie du déploiement de l'IA est de confondre le prix de l'inférence avec le coût réel. Quand une fiche de modèle affiche dix centimes par réponse, la décision paraît évidente : une tâche de support client qui coûte cinq dollars en main-d'œuvre chargée pour un humain semble cinquante fois moins chère à automatiser. Faites les comptes honnêtement et l'écart se rapproche plutôt de trois pour un, parfois un pour un, et sur une part non négligeable des tâches l'IA perd sur le seul critère du coût, avant même que vous ne commenciez à mesurer la qualité.
Cet article expose le cadre que Wagecore utilise pour calculer le coût opérationnel réel du remplacement d'une tâche par l'IA. Rien de tout cela n'est nouveau pris isolément : chaque poste de coût apparaît dans les post-mortems de déploiements d'IA ratés. L'apport, c'est de les réunir au même endroit et de s'engager sur des estimations chiffrées, pour que la réponse ne se résume pas à « c'est plus cher que vous ne le pensez ».
Le prix des tokens, c'est les 10 % visibles
Prenons un cas concret. Un agent de support senior dans une entreprise SaaS traite environ 30 tickets par jour, à raison de 600 tokens en entrée et 300 en sortie en moyenne, sur un ou deux échanges de suivi. Aux prix actuels des modèles de pointe, cela représente de l'ordre de 0,04 $ par ticket en dépense brute de modèle. Sur 30 tickets par jour et 22 jours ouvrés par mois, on arrive à environ 26 $ par agent et par mois en tokens. Face à un salaire mensuel chargé de 7 500 $, les économies paraissent absurdes.
Ce chiffre est aussi faux, parce que le modèle n'est qu'une des neuf choses qui coûtent de l'argent quand vous le déployez pour de vrai. Voici ce qu'on oublie.
Supervision
Chaque ticket traité par l'IA soit (a) se résout automatiquement avec une confiance élevée, soit (b) est acheminé vers un humain pour relecture, soit (c) est escaladé directement à un humain. Au premier jour d'un déploiement, la plupart des équipes ont besoin d'une relecture humaine à 100 % jusqu'à ce que le calibrage soit solide ; les déploiements matures maintiennent la relecture sur la tranche des 20 à 40 % de confiance la plus basse, plus un audit aléatoire de 5 %. Si un relecteur humain met 45 secondes par réponse auditée et que votre équipe de relecture coûte 30 $/h chargés, cela fait 0,38 $ par ticket audité. Auditez 30 % des tickets et vous avez ajouté plus de coût que le modèle lui-même.
Réessais
Les déploiements en production ne font pas un seul appel de modèle par tâche : ils en font de un à cinq. Il y a la complétion initiale, souvent une passe d'auto-vérification, parfois une boucle de critique-et-réécriture, et, sur les agents à outils, une étape de planification, plus les appels d'outils, plus une synthèse. Un agent de support bien instrumenté auquel nous nous comparons fait en moyenne 3,4 appels de modèle par ticket résolu et 8,7 par ticket escaladé. Multipliez le coût des tokens en conséquence.
Coût des erreurs
C'est le poste qui fait échouer plus de déploiements que tout autre. Une réponse d'IA fausse mais assurée n'équivaut pas à une réponse humaine fausse ; c'est pire, parce que le client y croit et agit en conséquence. Des litiges de remboursement qui se règlent proprement avec des excuses se transforment en rejets de débit quand l'IA a dit au client que son remboursement était déjà traité. Des dossiers de récupération de compte où l'IA hallucine une étape de vérification génèrent des tickets de support deux fois : le dossier d'origine, puis le nettoyage. Le rétropédalage de Klarna en mai 2025 sur le déploiement de support client par IA lancé en 2024 est le cas public le plus marquant à ce jour : le PDG a reconnu que la qualité des résultats avait chuté et a recommencé à réembaucher des humains. Klarna n'a pas divulgué l'écart sous-jacent de taux de récurrence, mais le schéma qualitatif — un travail de nettoyage sur les tickets complexes à l'origine du revirement, et non des économies sur les tickets simples — est cohérent avec ce que nous observons dans des post-mortems voisins.
Nous modélisons le coût des erreurs comme un multiplicateur du temps qu'il faut à un humain senior pour trier la trace de la mauvaise réponse et soit l'escalader, soit réparer la relation. Pour une tâche en contact client, le multiplicateur est généralement de 2 à 5× le temps de résolution de base du même dossier ; pour une tâche de back-office sans client dans la boucle, il est plutôt de 1 à 2×.
Coûts d'intégration
L'IA ne lit pas les tickets dans un document Word. Elle les lit dans un CRM via une API, avec authentification, limites de débit, versionnage de schéma et une couche de récupération sur la base de connaissances de l'entreprise. Cette couche demande des ingénieurs pour la construire et la maintenir. Amorti sur le volume de tickets d'une seule équipe, un effort d'intégration sérieux représente 20 à 60 k$ de construction initiale, plus 10 à 30 % du temps courant d'un ingénieur. Sur une équipe de 50 agents, cela fait environ 1,50 $ par ticket en régime permanent, dans notre calibrage.
Orchestration et dépendance au fournisseur
Configurations multi-modèles, chaînes de repli, registres de gabarits de prompts, infrastructure d'évaluation. Rien de tout cela n'est gratuit. Nous le chiffrons prudemment à 0,20 à 0,80 $ par ticket résolu selon la maturité de l'entreprise. Une bonne infrastructure d'évaluation se rentabilise, mais le poste « coût de l'IA » apparaît quand même.
L'addition des postes de coût
Avec ces cinq ajouts concrets et des hypothèses médianes raisonnables — taux d'audit de 30 %, 3,4 appels de modèle par ticket résolu, 8,7 par ticket escaladé, taux d'escalade de 20 %, multiplicateur de coût d'erreur de 3× sur les 12 % de cas qui tournent mal — l'exemple du support passe de 26 $/agent/mois en tokens à environ 1 800 $/agent/mois tout compris. C'est toujours moins cher que l'humain à 7 500 $, mais le rapport est de 4 pour 1, pas de 290 pour 1. Et le calcul empire à mesure que l'on remonte la chaîne de valeur. Pour les rôles où les mauvaises réponses causent de vrais dégâts — conseil financier, triage médical, revue juridique — le poste du coût des erreurs domine et le déploiement perd sur le coût avant même que l'on compte le salaire.
Le schéma est général : à mesure que la complexité de la tâche augmente, le poste du coût d'inférence reste à peu près stable (prompts plus longs, plus de contexte, mais pas 10× plus) tandis que tous les autres postes croissent de façon superlinéaire. L'audit prend plus de temps parce que les relecteurs doivent vraiment lire le dossier. Les réessais se multiplient parce que le modèle a besoin de plus d'étapes pour traiter le cas. Le coût des erreurs explose parce que les cas qui tournent mal sont ceux où l'enjeu est le plus grand. Le temps d'arriver au travail de connaissance senior, le coût opérationnel est presque entièrement du temps humain autour de l'IA, et le modèle est devenu le composant le moins cher de son propre déploiement.
Là où l'IA gagne vraiment sur le coût
Trois profils de tâches sortent systématiquement gagnants sous ce type de comptabilité :
- Délimité, répétitif, à faible enjeu. Des tâches de catégorisation où se tromper coûte peu (par exemple, l'acheminement d'un e-mail interne). Les taux d'audit peuvent être bas, le coût des erreurs est minime, l'intégration est superficielle.
- Rédaction sous relecture humaine. L'IA produit la première version, l'humain la termine sur les 30 % restants. Les deux postes de coût (modèle + relecture humaine) restent bornés parce que l'humain allait de toute façon la regarder.
- Agrégation et recherche. Faire remonter les documents pertinents, résumer les tickets de la veille, retrouver la bonne politique. L'IA remplace une interface de recherche, pas un travailleur, et elle le fait bien parce que les erreurs de récupération se manifestent généralement vite.
Chacun de ces cas se rattache proprement à une classe de substitution de la taxonomie Wagecore : ai-augmented (rédaction), human-led + ai-assisted (agrégation), et une bande étroite de vrai travail replaceable (le cas délimité à faible enjeu). En dehors de ceux-là, le calcul dit de s'abstenir.
Ce qui fait bouger la réponse dans le temps
Trois facteurs déplacent la ligne du coût opérationnel :
Le prix de l'inférence. Le coût des tokens a baissé d'environ 10× tous les 18 à 24 mois à capacité comparable. Cela déplace le poste du modèle mais ne touche pas l'audit, les réessais ni le coût des erreurs — donc pour les tâches à fort enjeu, cela ne change presque rien au verdict.
Les outils d'évaluation et d'orchestration. De meilleures évaluations réduisent sensiblement la composante « taux d'audit » ; c'est actuellement le poste au plus fort effet de levier à optimiser. Passer de 30 % à 10 % de taux d'audit sur un déploiement mature est un vrai changement de coût.
Le régime de responsabilité et de réglementation. Quand l'IA est le tenue de registre légal, le multiplicateur du coût des erreurs monte. Quand l'IA est utilisée comme aide à la décision avec un humain clairement dans la boucle, il baisse. C'est le poste qui bouge en fonction de la politique publique, pas de la technologie.
En résumé
Chiffrer un déploiement d'IA à partir de la fiche de modèle, c'est l'équivalent de chiffrer une voiture à son prix d'affichage en ignorant le carburant, l'assurance, la dépréciation et la personne que vous devez payer pour la conduire. Le coût opérationnel compte parce que c'est lui qui détermine si un déploiement survit aux six premiers mois. Les rôles où l'IA est « 3 à 10× moins chère que l'humain » en pratique sont les rôles où la démo était honnête sur son périmètre. La plupart des rôles, surtout ceux que le débat public vise sans cesse, ressemblent bien davantage à du 4 pour 1 — de vraies économies, de la vraie valeur, mais pas un remplacement, et pas un remplacement gratuit.
Wagecore calcule cette version de l'estimation pour des rôles individuels, à partir des mêmes catégories opérationnelles exposées ici. Si vous voulez voir à quoi ressemble le calcul pour votre travail en particulier, l'assistant se fait en deux minutes et la méthodologie est publiée. Vous pouvez aussi lire la méthodologie et contester nos estimations par poste — nous les mettons à jour chaque trimestre selon ce que disent les données.