Почему операционная стоимость ИИ в 3–10× выше, чем показывает демо

Самая частая ошибка в экономике внедрения ИИ — считать стоимостью цену инференса. Когда в карточке модели написано десять центов за ответ, решение выглядит очевидным: задачу поддержки клиентов, за которую человек получает пять долларов в полностью нагруженной стоимости труда, автоматизировать в пятьдесят раз дешевле. Посчитайте честно — и разрыв окажется ближе к три-к-одному, иногда один-к-одному, а на заметной доле задач ИИ проигрывает по одной только стоимости ещё до того, как вы начнёте измерять качество.

Этот материал излагает подход, которым Wagecore пользуется, чтобы вычислить реальную операционную стоимость замены задачи на ИИ. По отдельности ничего нового здесь нет — каждая статья расходов всплывает в разборах провальных внедрений ИИ. Ценность в том, чтобы собрать их в одном месте и зафиксировать численные оценки, чтобы ответ звучал не просто как «это дороже, чем вам кажется».

Строка с токенами — это видимые 10%

Возьмём конкретный случай. Старший агент поддержки в SaaS-компании обрабатывает около 30 тикетов в день, в среднем по 600 входных + 300 выходных токенов на каждый, за один-два дополнительных обмена. При текущих ценах на фронтир-модели это порядка $0,04 за тикет в чистых расходах на модель. На 30 тикетов в день, 22 рабочих дня в месяц — около $26 на агента в месяц в токенах. На фоне полностью нагруженной зарплаты в $7 500 в месяц экономия выглядит абсурдной.

Это число тоже неверно, потому что модель — лишь одна из девяти вещей, которые стоят денег, когда вы действительно её разворачиваете. Вот что упускается из виду.

Контроль

Каждый обработанный ИИ тикет либо (a) автоматически закрывается с высокой уверенностью, либо (b) уходит человеку на проверку, либо (c) сразу эскалируется человеку. В первый день внедрения большинству команд нужна 100% проверка человеком, пока калибровка не станет надёжной; зрелые внедрения оставляют проверку на нижние 20–40% полосы уверенности плюс 5% случайного аудита. Если проверяющий тратит 45 секунд на аудит одного ответа, а пул проверяющих обходится в $30/час в нагруженной стоимости, это $0,38 за проаудированный тикет. Аудируйте 30% тикетов — и вы добавили больше расходов, чем стоит сама модель.

Повторные вызовы

Продакшн-внедрения не делают один вызов модели на задачу — они делают от одного до пяти. Есть первичное завершение, часто проход самопроверки, иногда цикл критики и переписывания, а на агентах, использующих инструменты, — шаг планирования плюс вызовы инструментов плюс суммаризация. Хорошо инструментированный агент поддержки, с которым мы сравниваем, в среднем делает 3,4 вызова модели на закрытый тикет и 8,7 на эскалированный. Умножайте стоимость токенов соответственно.

Цена ошибок

Это статья, которая ломает больше внедрений, чем любая другая. Уверенно-неверный ответ ИИ не равнозначен неверному ответу человека; он хуже, потому что клиент верит ему и действует на его основе. Споры о возвратах, которые чисто закрываются извинением, превращаются в чарджбэки, когда ИИ сообщил клиенту, что его возврат уже обработан. Кейсы восстановления доступа, где ИИ выдумывает шаг верификации, порождают тикеты дважды — исходный кейс и уборку за ним. Отказ Klarna в мае 2025 года от развёртывания ИИ-поддержки клиентов 2024 года — самый публичный случай на сегодня: гендиректор признал, что показатели качества упали, и начал нанимать людей обратно. Klarna не раскрыла лежащую в основе разницу в доле повторных обращений, но качественная картина — уборочная работа по сложным тикетам как причина отката, а не экономия на простых тикетах — согласуется с тем, что мы видим в смежных разборах.

Мы моделируем цену ошибки как множитель ко времени, которое требуется старшему специалисту, чтобы разобрать след неверного ответа и либо эскалировать, либо восстановить отношения. Для задачи с клиентом на другом конце множитель обычно составляет 2–5× от базового времени решения того же кейса; для бэк-офисной задачи без клиента в цепочке он ближе к 1–2×.

Накладные расходы на интеграцию

ИИ не читает тикеты из документа Word. Он читает их из CRM через API, с аутентификацией, лимитами запросов, версионированием схемы и слоем извлечения поверх базы знаний компании. Этот слой нужно строить и поддерживать инженерам. Амортизированный по объёму тикетов одной команды, серьёзный интеграционный проект обходится в $20–60 тыс. на первичную сборку плюс 10–30% времени инженера на постоянной основе. На команде из 50 агентов это примерно $1,50 на тикет в устойчивом состоянии, по нашей калибровке.

Оркестрация и привязка к вендору

Мультимодельные конфигурации, цепочки резервных вызовов, реестры шаблонов промптов, инфраструктура оценки. Ничто из этого не бесплатно. Мы консервативно закладываем это в $0,20–0,80 на закрытый тикет в зависимости от стадии компании. Сильная инфраструктура оценки окупается, но статья расходов на ИИ всё равно появляется.

Складываем статьи расходов

С этими пятью конкретными добавками и разумными срединными допущениями — 30% доля аудита, 3,4 вызова модели на закрытый тикет, 8,7 на эскалированный, 20% доля эскалаций, множитель цены ошибки 3× на 12% кейсов, которые идут не так — пример поддержки сдвигается с $26 на агента в месяц в токенах примерно до $1 800 на агента в месяц со всем включённым. Это всё ещё дешевле, чем человек за $7 500, но соотношение уже 4-к-1, а не 290-к-1. И математика ухудшается по мере движения вверх по цепочке создания стоимости. Для ролей, где неверные ответы наносят реальный ущерб — финансовые консультации, медицинская сортировка, юридическая экспертиза, — статья цены ошибки доминирует, и внедрение проигрывает по стоимости ещё до того, как вы вообще учли зарплату.

Закономерность общая: по мере роста сложности задачи строка стоимости инференса остаётся примерно плоской (более длинные промпты, больше контекста, но не в 10× больше), тогда как каждая другая статья растёт суперлинейно. Аудит занимает больше времени, потому что проверяющим приходится действительно вчитываться в кейс. Повторные вызовы множатся, потому что модели нужно больше шагов, чтобы справиться с кейсом. Цена ошибки взрывается, потому что кейсы, которые идут не так, — это те, где на кону больше всего. К моменту, когда вы смотрите на старшую интеллектуальную работу, операционная стоимость почти целиком состоит из человеческого времени вокруг ИИ, а сама модель стала самым дешёвым компонентом собственного внедрения.

Где ИИ действительно выигрывает по стоимости

Три профиля задач стабильно оказываются впереди при таком учёте:

Ограниченные, повторяющиеся, с низкими ставками. Задачи категоризации, где ошибиться дёшево (например, маршрутизация внутренней почты). Доля аудита может быть низкой, цена ошибки минимальна, интеграция неглубока.
Черновики под контролем человека. ИИ выдаёт первую версию, человек доводит последние 30%. Обе строки расходов (модель + проверка человеком) остаются ограниченными, потому что человек всё равно собирался это просмотреть.
Агрегация и поиск. Поднять релевантные документы, суммировать вчерашние тикеты, найти нужную политику. ИИ заменяет поисковый интерфейс, а не работника, и заменяет хорошо, потому что ошибки извлечения обычно всплывают быстро.

Каждый из этих профилей чётко ложится на класс замещения в таксономии Wagecore: ИИ-дополняемая работа (черновики), под руководством человека с помощью ИИ (агрегация) и узкая полоса действительно заменяемой работы (случай с ограниченными низкими ставками). За их пределами математика говорит: держитесь.

Что меняет ответ со временем

Три вещи сдвигают строку операционной стоимости:

Цена инференса. Стоимость токенов падала примерно в 10× каждые 18–24 месяца при сопоставимых возможностях. Это сдвигает строку модели, но не трогает аудит, повторные вызовы и цену ошибки — так что для задач с высокими ставками вердикт почти не меняется.

Инструменты оценки и оркестрации. Более качественные оценки заметно сокращают компонент доли аудита; сейчас это строка с наибольшим рычагом для оптимизации. Переход с 30% на 10% доли аудита на зрелом внедрении — реальное изменение стоимости.

Режим ответственности и регулирования. Когда ИИ становится юридическим хранителем записей, множитель цены ошибки растёт. Когда ИИ используется как поддержка решений с явным человеком в цепочке, он падает. Это строка, которая движется от политики, а не от технологии.

Итог

Оценивать внедрение ИИ по карточке модели — то же самое, что оценивать автомобиль по ценнику, игнорируя топливо, страховку, амортизацию и человека, которому надо платить за вождение. Операционная стоимость важна, потому что именно она определяет, переживёт ли внедрение первые полгода. Роли, где ИИ на практике «в 3–10× дешевле человека», — это роли, где демо было честным насчёт своих границ. Большинство ролей, особенно те, на которые постоянно нацеливается дискуссия, выглядят гораздо ближе к 4-к-1 — реальная экономия, реальная ценность, но не замена, и не бесплатная.

Wagecore вычисляет эту версию расчёта для отдельных ролей, используя те же операционные категории, что изложены здесь. Если хотите увидеть, как выглядит математика именно для вашей работы, мастер отрабатывает за две минуты, а методология опубликована. Вы также можете прочитать методологию и не согласиться с нашими оценками по статьям — мы обновляем их ежеквартально на основе того, что говорят данные.

Строка с токенами — это видимые 10%

Контроль

Повторные вызовы

Цена ошибок

Накладные расходы на интеграцию

Оркестрация и привязка к вендору

Складываем статьи расходов

Где ИИ действительно выигрывает по стоимости

Три профиля задач стабильно оказываются впереди при таком учёте:

Ограниченные, повторяющиеся, с низкими ставками. Задачи категоризации, где ошибиться дёшево (например, маршрутизация внутренней почты). Доля аудита может быть низкой, цена ошибки минимальна, интеграция неглубока.
Черновики под контролем человека. ИИ выдаёт первую версию, человек доводит последние 30%. Обе строки расходов (модель + проверка человеком) остаются ограниченными, потому что человек всё равно собирался это просмотреть.
Агрегация и поиск. Поднять релевантные документы, суммировать вчерашние тикеты, найти нужную политику. ИИ заменяет поисковый интерфейс, а не работника, и заменяет хорошо, потому что ошибки извлечения обычно всплывают быстро.

Что меняет ответ со временем

Три вещи сдвигают строку операционной стоимости:

Почему операционная стоимость ИИ в 3–10× выше, чем показывает демо

Строка с токенами — это видимые 10%

Контроль

Повторные вызовы

Цена ошибок

Накладные расходы на интеграцию

Оркестрация и привязка к вендору

Складываем статьи расходов

Где ИИ действительно выигрывает по стоимости

Что меняет ответ со временем

Итог

Не готовы войти? Запишитесь в список.

Почему операционная стоимость ИИ в 3–10× выше, чем показывает демо

Строка с токенами — это видимые 10%

Контроль

Повторные вызовы

Цена ошибок

Накладные расходы на интеграцию

Оркестрация и привязка к вендору

Складываем статьи расходов

Где ИИ действительно выигрывает по стоимости

Что меняет ответ со временем

Итог

Не готовы войти? Запишитесь в список.