Чому операційна вартість ШІ у 3–10× вища, ніж показує демо

Найпоширеніша помилка в економіці впровадження ШІ — вважати вартістю ціну інференсу. Коли в картці моделі написано десять центів за відповідь, рішення виглядає очевидним: задачу підтримки клієнтів, за яку людина отримує п'ять доларів у повністю навантаженій вартості праці, автоматизувати вп'ятдесят разів дешевше. Порахуйте чесно — і розрив виявиться ближчим до три-до-одного, іноді один-до-одного, а на помітній частці задач ШІ програє за самою лише вартістю ще до того, як ви почнете вимірювати якість.

Цей матеріал викладає підхід, яким Wagecore користується, щоб обчислити реальну операційну вартість заміни задачі на ШІ. Окремо тут немає нічого нового — кожна стаття витрат спливає в розборах провальних впроваджень ШІ. Цінність у тому, щоб зібрати їх в одному місці й зафіксувати числові оцінки, аби відповідь звучала не просто як «це дорожче, ніж вам здається».

Рядок з токенами — це видимі 10%

Візьмімо конкретний випадок. Старший агент підтримки в SaaS-компанії обробляє близько 30 тикетів на день, у середньому по 600 вхідних + 300 вихідних токенів на кожен, за один-два додаткові обміни. За поточних цін на фронтир-моделі це порядку $0,04 за тикет у чистих витратах на модель. На 30 тикетів на день, 22 робочі дні на місяць — близько $26 на агента на місяць у токенах. На тлі повністю навантаженої зарплати в $7 500 на місяць економія виглядає абсурдною.

Це число теж хибне, бо модель — лише одна з дев'яти речей, що коштують грошей, коли ви справді її розгортаєте. Ось що випадає з поля зору.

Контроль

Кожен оброблений ШІ тикет або (a) автоматично закривається з високою впевненістю, або (b) іде людині на перевірку, або (c) одразу ескалюється людині. У перший день упровадження більшості команд потрібна 100% перевірка людиною, поки калібрування не стане надійним; зрілі впровадження лишають перевірку на нижні 20–40% смуги впевненості плюс 5% випадкового аудиту. Якщо перевіряльник витрачає 45 секунд на аудит однієї відповіді, а пул перевіряльників коштує $30/год у навантаженій вартості, це $0,38 за проаудійований тикет. Аудіюйте 30% тикетів — і ви додали більше витрат, ніж коштує сама модель.

Повторні виклики

Продакшн-впровадження не роблять один виклик моделі на задачу — вони роблять від одного до п'яти. Є первинне завершення, часто прохід самоперевірки, іноді цикл критики й переписування, а на агентах, що використовують інструменти, — крок планування плюс виклики інструментів плюс сумаризація. Добре інструментований агент підтримки, з яким ми порівнюємо, у середньому робить 3,4 виклики моделі на закритий тикет і 8,7 на ескальований. Множте вартість токенів відповідно.

Ціна помилок

Це стаття, що ламає більше впроваджень, ніж будь-яка інша. Впевнено-хибна відповідь ШІ не рівнозначна хибній відповіді людини; вона гірша, бо клієнт вірить їй і діє на її основі. Спори про повернення коштів, що чисто закриваються вибаченням, перетворюються на чарджбеки, коли ШІ повідомив клієнту, що його повернення вже оброблено. Кейси відновлення доступу, де ШІ вигадує крок верифікації, породжують тикети двічі — вихідний кейс і прибирання за ним. Відмова Klarna в травні 2025 року від розгортання ШІ-підтримки клієнтів 2024 року — найпубічніший випадок на сьогодні: гендиректор визнав, що показники якості впали, і почав наймати людей назад. Klarna не розкрила базову різницю в частці повторних звернень, але якісна картина — прибиральна робота за складними тикетами як причина відкату, а не економія на простих тикетах — узгоджується з тим, що ми бачимо в суміжних розборах.

Ми моделюємо ціну помилки як множник до часу, який потрібен старшому фахівцю, щоб розібрати слід хибної відповіді й або ескалювати, або відновити стосунки. Для задачі з клієнтом на іншому кінці множник зазвичай становить 2–5× від базового часу розв'язання того самого кейса; для бек-офісної задачі без клієнта в ланцюжку він ближчий до 1–2×.

Накладні витрати на інтеграцію

ШІ не читає тикети з документа Word. Він читає їх із CRM через API, з автентифікацією, лімітами запитів, версіонуванням схеми й шаром вилучення поверх бази знань компанії. Цей шар потрібно будувати й підтримувати інженерам. Амортизований за обсягом тикетів однієї команди, серйозний інтеграційний проєкт коштує $20–60 тис. на первинну збірку плюс 10–30% часу інженера на постійній основі. На команді з 50 агентів це приблизно $1,50 на тикет у сталому стані, за нашим калібруванням.

Оркестрація та прив'язка до вендора

Мультимодельні конфігурації, ланцюжки резервних викликів, реєстри шаблонів промптів, інфраструктура оцінювання. Ніщо з цього не безкоштовне. Ми консервативно закладаємо це в $0,20–0,80 на закритий тикет залежно від стадії компанії. Сильна інфраструктура оцінювання окупається, але стаття витрат на ШІ все одно з'являється.

Складаємо статті витрат

З цими п'ятьма конкретними додатками й розумними серединними припущеннями — 30% частка аудиту, 3,4 виклики моделі на закритий тикет, 8,7 на ескальований, 20% частка ескалацій, множник ціни помилки 3× на 12% кейсів, що йдуть не так — приклад підтримки зсувається з $26 на агента на місяць у токенах приблизно до $1 800 на агента на місяць з усім включеним. Це все ще дешевше, ніж людина за $7 500, але співвідношення вже 4-до-1, а не 290-до-1. І математика погіршується в міру руху вгору ланцюжком створення вартості. Для ролей, де хибні відповіді завдають реальної шкоди — фінансові консультації, медичне сортування, юридична експертиза, — стаття ціни помилки домінує, і впровадження програє за вартістю ще до того, як ви взагалі врахували зарплату.

Закономірність загальна: у міру зростання складності задачі рядок вартості інференсу лишається приблизно пласким (довші промпти, більше контексту, але не в 10× більше), тоді як кожна інша стаття зростає суперлінійно. Аудит забирає більше часу, бо перевіряльникам доводиться справді вчитуватися в кейс. Повторні виклики множаться, бо моделі потрібно більше кроків, щоб упоратися з кейсом. Ціна помилки вибухає, бо кейси, що йдуть не так, — це ті, де на кону найбільше. До моменту, коли ви дивитеся на старшу інтелектуальну роботу, операційна вартість майже цілком складається з людського часу навколо ШІ, а сама модель стала найдешевшим компонентом власного впровадження.

Де ШІ справді виграє за вартістю

Три профілі задач стабільно опиняються попереду за такого обліку:

Обмежені, повторювані, з низькими ставками. Задачі категоризації, де помилитися дешево (наприклад, маршрутизація внутрішньої пошти). Частка аудиту може бути низькою, ціна помилки мінімальна, інтеграція неглибока.
Чернетки під контролем людини. ШІ видає першу версію, людина доводить останні 30%. Обидва рядки витрат (модель + перевірка людиною) лишаються обмеженими, бо людина все одно збиралася це переглянути.
Агрегація й пошук. Підняти релевантні документи, сумаризувати вчорашні тикети, знайти потрібну політику. ШІ замінює пошуковий інтерфейс, а не працівника, і замінює добре, бо помилки вилучення зазвичай спливають швидко.

Кожен із цих профілів чітко лягає на клас заміщення в таксономії Wagecore: ШІ-доповнювана робота (чернетки), під керівництвом людини з допомогою ШІ (агрегація) і вузька смуга справді замінюваної роботи (випадок з обмеженими низькими ставками). Поза їхніми межами математика каже: тримайтеся.

Що змінює відповідь з часом

Три речі зсувають рядок операційної вартості:

Ціна інференсу. Вартість токенів падала приблизно в 10× кожні 18–24 місяці за співставних можливостей. Це зсуває рядок моделі, але не торкається аудиту, повторних викликів і ціни помилки — тож для задач із високими ставками вердикт майже не змінюється.

Інструменти оцінювання та оркестрації. Якісніші оцінки помітно скорочують компонент частки аудиту; зараз це рядок із найбільшим важелем для оптимізації. Перехід з 30% на 10% частки аудиту на зрілому впровадженні — реальна зміна вартості.

Режим відповідальності та регулювання. Коли ШІ стає юридичним зберігачем записів, множник ціни помилки зростає. Коли ШІ використовується як підтримка рішень із явною людиною в ланцюжку, він падає. Це рядок, що рухається від політики, а не від технології.

Підсумок

Оцінювати впровадження ШІ за карткою моделі — те саме, що оцінювати автомобіль за цінником, ігноруючи пальне, страховку, амортизацію та людину, якій треба платити за кермування. Операційна вартість важлива, бо саме вона визначає, чи переживе впровадження перші пів року. Ролі, де ШІ на практиці «у 3–10× дешевший за людину», — це ролі, де демо було чесним щодо своїх меж. Більшість ролей, особливо ті, на які постійно націлюється дискусія, виглядають набагато ближче до 4-до-1 — реальна економія, реальна цінність, але не заміна, і не безкоштовна.

Wagecore обчислює цю версію розрахунку для окремих ролей, використовуючи ті самі операційні категорії, що викладені тут. Якщо хочете побачити, як виглядає математика саме для вашої роботи, майстер відпрацьовує за дві хвилини, а методологія опублікована. Ви також можете прочитати методологію і не погодитися з нашими оцінками за статтями — ми оновлюємо їх щоквартально на основі того, що кажуть дані.

Рядок з токенами — це видимі 10%

Контроль

Повторні виклики

Ціна помилок

Накладні витрати на інтеграцію

Оркестрація та прив'язка до вендора

Складаємо статті витрат

Де ШІ справді виграє за вартістю

Три профілі задач стабільно опиняються попереду за такого обліку:

Обмежені, повторювані, з низькими ставками. Задачі категоризації, де помилитися дешево (наприклад, маршрутизація внутрішньої пошти). Частка аудиту може бути низькою, ціна помилки мінімальна, інтеграція неглибока.
Чернетки під контролем людини. ШІ видає першу версію, людина доводить останні 30%. Обидва рядки витрат (модель + перевірка людиною) лишаються обмеженими, бо людина все одно збиралася це переглянути.
Агрегація й пошук. Підняти релевантні документи, сумаризувати вчорашні тикети, знайти потрібну політику. ШІ замінює пошуковий інтерфейс, а не працівника, і замінює добре, бо помилки вилучення зазвичай спливають швидко.

Що змінює відповідь з часом

Три речі зсувають рядок операційної вартості:

Чому операційна вартість ШІ у 3–10× вища, ніж показує демо

Рядок з токенами — це видимі 10%

Контроль

Повторні виклики

Ціна помилок

Накладні витрати на інтеграцію

Оркестрація та прив'язка до вендора

Складаємо статті витрат

Де ШІ справді виграє за вартістю

Що змінює відповідь з часом

Підсумок

Ще не готові увійти? Запишіться в список.

Чому операційна вартість ШІ у 3–10× вища, ніж показує демо

Рядок з токенами — це видимі 10%

Контроль

Повторні виклики

Ціна помилок

Накладні витрати на інтеграцію

Оркестрація та прив'язка до вендора

Складаємо статті витрат

Де ШІ справді виграє за вартістю

Що змінює відповідь з часом

Підсумок

Ще не готові увійти? Запишіться в список.