У лютому 2024 року Klarna оголосила, що AI-агент перебрав на себе роботу 700 підрядників із клієнтської підтримки, подавши це як історію про покращення прибутку приблизно на $40 млн. У травні 2025 року CEO публічно визнав, що впровадження зайшло надто далеко на шкоду якості, і компанія почала знову наймати людей у підтримку. Реальні зміни в частоті повторних звернень чи відтоку клієнтів не розкривалися; відомості про розворот спираються на публікації Bloomberg, Fortune і CX Dive, що висвітлювали власні заяви Klarna.
Це найчистіший публічний кейс спроможності без економічної спроможності серед усіх, що ми маємо в продакшн-впровадженнях AI. Спроможність була реальною — модель справлялася з обсягом — і впровадження все одно провалилося за якістю, бо спроможність — лише одна з дев'яти осей, від яких залежить операційна вартість. Нижче — ілюстративна реконструкція математики, прив'язана до публічних розкриттів Klarna і чітко позначена там, де використовуються сторонні оцінки чи модельні припущення, а не власна звітність Klarna. Урок не в тому, що «AI не працює в підтримці». Урок у тому, що операційний фреймворк передбачив характер провалу, а більша частина публічної дискусії оцінювала AI так, ніби значення має лише рядок витрат на інференс.
Що насправді сказали в анонсі 2024 року
Заголовкові цифри, які Klarna розкрила публічно: AI-агент обробив 2,3 мільйона чатів за перший місяць — обсяг роботи, еквівалентний 700 співробітникам на повній ставці, при цьому середній час вирішення знизився з 11 хвилин до менш ніж 2, а показники CSAT були на рівні живих операторів. Klarna подала впровадження як внесок у покращення прибутку на $40 млн за 2024 рік. (Джерело: пресреліз Klarna, лютий 2024 року.)
Якщо взяти лише ці цифри, у впровадження майже не видно зворотного боку. Проста математика — використовуючи сторонню оцінку повністю навантаженої вартості одного оператора Klarna (~$60 тис./рік, що правдоподібно з огляду на те, що Klarna задіює дешевші регіони для підтримки першого рівня — самою Klarna не розкривалося) і сторонню оцінку загальної вартості AI ($1,5–3 млн на рік за цінами на інференс 2024 року та розкритого обсягу чатів — теж не розкривалося Klarna) — дає ~$42 млн витісненої праці проти ~$2 млн AI-інфраструктури: приблизно 14-кратне співвідношення, ще до врахування виграшу у швидкості.
У межах операційного фреймворку ось чого цьому аналізу бракувало.
Де ламається математика: довгий хвіст
Навантаження в клієнтській підтримці неоднорідне. Майже повсюдно застосовна бімодальна модель: 70–85% тикетів прості, структуровані й розв'язувані від початку до кінця за чіткими правилами. Решта 15–30% — складні: суперечки щодо повернень, що зачіпають шахрайство, відновлення доступу на межових сценаріях автентифікації, звернення про скрутну життєву ситуацію, що потребують емпатії та розсудливості, багатосторонні суперечки між продавцем і покупцем.
На простій смузі AI виконує роботу з високою надійністю та низькою вартістю нагляду. Саме це й зафіксували метрики запуску. На складній смузі AI видає впевнено звучну відповідь, яка помилкова достатньо часто, щоб це мало значення. Хибна відповідь не просто не вирішує проблему — вона робить ситуацію гіршою, бо клієнту вже повідомили результат, який не настає. Клієнт ескалює. Скаржиться в соцмережі. Відкриває зворотний платіж, який не відкрив би проти живого оператора, що сказав йому: «Не можу цього обіцяти, дайте перевірю».
CEO Klarna публічно визнав, що якість результатів впала; компанія не розкривала базові зміни за частотою повторних звернень чи NPS. Нижче ми моделюємо зростання частоти повторних звернень на 25% на складній смузі як ілюстративну навантажувальну перевірку — не як цифру Klarna, — бо такий порядок величини узгоджується з тим, що повідомили чотири інші публічні розбори аналогічних AI-впроваджень у підтримці (жоден із них не Klarna) у 2023–2025 роках. Сенс у тому, щоб показати, як невелике зростання частоти повторних звернень на складній смузі перевертає чисту вартість впровадження.
Ілюстративна операційна математика
Наведені нижче цифри — змодельована реконструкція: Klarna не публікувала розбивку за витратами. У них використовується фреймворк операційної вартості з попереднього матеріалу : п'ять статей витрат окрім інференсу. Ставтеся до цього як до розібраного прикладу того, як проєктувати AI-впровадження на навантаження з бімодальною складністю, а не як до реального P&L Klarna.
Візьмімо порівнянну з Klarna команду, що обробляє 30 мільйонів тикетів на рік. Припустимо, співвідношення простих і складних — 80/20. Прості тикети займають у середньому 3 хвилини людського часу за $30/год із навантаженням ($1,50/тикет) і мають частку аудиту, яку AI-впровадження обмежують на рівні 5–10%. Складні тикети займають 18 хвилин за $45/год із навантаженням ($13,50/тикет) і потребують аудиту 25–35%. Множник вартості помилки: 1,5× на простих, 4× на складних, коли кейс іде не так.
Базова лінія до впровадження: 24 млн простих тикетів × $1,50 + 6 млн складних × $13,50 = $36 млн + $81 млн = $117 млн загальних витрат на працю. Плюс накладні витрати: $30 млн. Назвімо базову лінію $147 млн.
Оптимістичний сценарій впровадження — те, що мали на увазі цифри запуску Klarna — припускав, що 80% тикетів вирішуються автоматично (уся проста смуга), складна смуга лишається за людьми, і складна смуга не змінюється. Математика: 24 млн × $0,05 інференс + $0,10 нагляд (5% аудиту за 0,5 хвилини часу рев'юера) = ~$3,6 млн на простій смузі. Складна смуга втримана на $81 млн. Плюс накладні витрати: $30 млн. Разом: $114,6 млн. Змодельована економія: ~$32 млн на рік, що перебуває поряд із $40 млн, які Klarna прогнозувала як внесок у покращення прибутку за 2024 рік.
Який вигляд має характер провалу, коли вартість помилки зачіпає складну смугу: за нашого ілюстративного зростання частоти повторних звернень на 25% на складній смузі обсяг складних тикетів фактично зростає з 6 млн до 7,5 млн. 1,5 млн нових складних тикетів приходять у чергу старших спеціалістів із уже роздратованим клієнтом, що (за опублікованими розборами операцій підтримки на порівнянних навантаженнях) підіймає час на тикет із 18 хвилин до 27. Вартість черги старших спеціалістів: 7,5 млн × ($45/год × 27/60) ≈ $151 млн. Проста смуга лишається на $3,6 млн. Накладні витрати: $32 млн (невелике зростання на реагування на інциденти та PR). Разом: $186,6 млн.
Це не $32 млн економії. Це на ~$40 млн гірше, ніж базова лінія до впровадження. Економія на простій смузі була реальною, але меншою за заголовкову, а вартість складної смуги зросла на 86% — чистий мінус.
Фреймворк це передбачив. Складна смуга — це задача класу 4 в таксономії з чотирьох типів заміщення: human-critical, де помилка в тому, що AI упевнений, але неправий, — це характер провалу, а не прогалина у можливостях, що закривається з кращими моделями. Передзапускова проєкція трактувала все навантаження як клас 1 (replaceable) і отримала 14-кратну перевагу у вартості, якої реальний мікс не підтверджував. Повне викладення — в поясненні таксономії.
Чому демометрики брехали (і що вони насправді вимірювали)
CSAT у перший місяць був не вимірюванням упровадження — він був вимірюванням простої смуги. Три речі маскували провал на складній смузі:
Самовідбір в опитуваннях. Опитування CSAT розсилаються після вирішення. Клієнти, чиї тикети ескалювали, не потрапляли у вибірку за своїм першим зверненням. Вони отримували відповідь AI, їм казали, що тикет вирішено, вони ставили оцінку CSAT і лише згодом усвідомлювали, що рішення не втрималося. Негативний CSAT проявлявся на другому зверненні, тижні по тому, і приписувався «старшій підтримці».
Помилка того, хто вижив, у панелі метрик. Панель упровадження вимірювала тикети, які AI повністю закрив. Тикети, перенаправлені людям, проходили під «зверненнями до операторів» — окрема панель, окрема ціль, окрема історія. Спочатку ні в кого в Klarna не було єдиного рядка, що показує кількість дотиків тикета на клієнта, а це єдина метрика, що ловить частоту повторних звернень як сигнал системного рівня.
Затримка в часі в характері провалу. Економія на простій смузі проявилася на першому тижні. Шкода на складній смузі проявлялася в наступні 6–12 місяців, у міру того як когорта поганих рішень за першого звернення прокладала собі шлях крізь чергу ескалацій, суперечки про шахрайство та соцмережі. На той час, коли команда керівництва побачила тренд за частотою повторних звернень, упровадження вже пів року прославляли у фінансовій пресі.
Що узагальнюється
Патерн Klarna не специфічний для Klarna. Та сама форма застосовна щоразу, коли виконуються три умови:
(1) У навантаження бімодальний розподіл складності, де складна смуга має високу вартість помилки. У клієнтської підтримки це є. Як і в чат-ботів медичного сортування, первинної перевірки страхових претензій, юридичних консультацій першого рівня. Скрізь, де впевнено хибна відповідь робить подальшу ситуацію гіршою, а не просто невирішеною.
(2) Метрики запуску вимірюють просту смугу у відриві від решти. Час вирішення, частка відхилених звернень, CSAT-за-вирішенням — усе це метрики простої смуги. Жодна з них не ловить частоту повторних звернень чи час до остаточного вирішення на рівні клієнта.
(3) Економіка простої смуги має настільки хороший вигляд, що виправдовує впровадження взагалі без моделювання складної смуги. Це критичний хід. 14-кратну перевагу у вартості на простій смузі треба зважувати проти множника вартості на складній смузі, а не проти її абсолютної базової лінії.
Коригувальна дисципліна — моделювати обидві смуги, явно моделювати множник вартості помилки на складній смузі й обирати охоплення впровадження так, щоб тримати AI в тій смузі, де в нього є захищувана перевага у вартості. Публічні заяви Klarna про розворот вказують у цей бік — компанія наймає людей назад у ті частини навантаження, де AI давав результати нижчої якості, не відкликаючи при цьому повністю AI-впровадження на простій смузі. Нова рівновага, імовірно, дешевша за вихідну базову лінію, просто не в 14 разів.
Чого вартий цей кейс
Розворот Klarna наразі — найцитованіший публічний приклад того, як ламається економіка AI-впроваджень, і він заслуговує на це цитування. Але кориснішою є не версія уроку «AI-підтримка провалюється». Вона звучить так: «розгортай AI на тій смузі роботи, яку можеш строго моделювати, а не на тій, яку хотів би моделювати». Фреймворк — спроможність + надійність + вартість помилки + інтеграція + демпфування людської переваги — був достатнім, щоб передбачити це ще у 2024 році. Продуктова індустрія здебільшого воліла ним не користуватися.
Якщо хочете провести такий аналіз за своєю роллю чи за командою, яку розглядаєте до автоматизації, Wagecore обчислює розподіл заміщення за задачами й операційну вартість відносно сьогоднішньої матриці можливостей. Майстер займає близько двох хвилин; методологія відкрита на /methodology. Версія того самого розрахунку на рівні організації — на /org/preview — вставте свої ролі та штат, подивіться теплову карту на рівні організації та п'ятирічну фінансову проєкцію.