Im Februar 2024 gab Klarna bekannt, dass ein von OpenAI betriebener Assistent die Arbeit von 700 Vollzeit-Kundendienstmitarbeitern übernommen habe. Bis 2025 nannte das Unternehmen eine Zahl von 853. Im Mai 2025 erklärte Klarnas CEO gegenüber der Financial Times, man habe wieder begonnen, Menschen einzustellen, und verwies auf Qualitätsbeschwerden und die Grenzen reiner Automatisierung. Dieser Verlauf — Ankündigung, Eskalation, teilweiser Rückzug — ist die meistzitierte Geschichte in jeder Diskussion über KI, die den Kundensupport ersetzt, und zugleich die am häufigsten missverstandene. Als Triumph gelesen, überzeichnet sie den Fall. Als Fehlschlag gelesen, unterschätzt sie ihn. Als Instrument gelesen, sagt sie etwas Konkretes: Die Kosten für die Substitution eines Mitarbeiters sind keine einzelne Zahl, sondern eine Verteilung über Substitutionsklassen hinweg, und die Klassen verhalten sich sehr unterschiedlich.
Dieser Beitrag geht die vier Substitutionsklassen durch, die Wagecore für Kundensupport-Arbeit verwendet, die Kostenspannen mit Konfidenzbändern innerhalb jeder Klasse sowie die methodischen Entscheidungen hinter den Zahlen.
Der Fall Klarna, sorgfältig gelesen
Die ursprüngliche Pressemitteilung von Klarna/OpenAI im Februar 2024 berichtete, der KI-Assistent habe im ersten Monat 2,3 Millionen Konversationen bearbeitet — etwa zwei Drittel der eingehenden Chat-Tickets — mit Kundenzufriedenheitswerten, die sich statistisch nicht von menschlichen Mitarbeitern unterscheiden ließen, und einer durchschnittlichen Bearbeitungszeit, die von 11 Minuten auf unter 2 fiel. Das war die Schlagzeile. Die Detailfragen, die überwiegend erst 2025 in der Berichterstattung von Yahoo Finance und der Financial Times auftauchten, wiegen schwerer: Die Zahl von 700 Mitarbeitern war ein Vergleich mit der vertraglich gebundenen Agentenkapazität, die der Assistent verdrängte, nicht mit Klarnas eigenen Angestellten. Die später 2025 verkündete Zahl von 853 nutzte dieselbe Vergleichsmethode. Und der teilweise Rückzug 2025 bedeutete nicht „KI funktioniert nicht" — sondern „die verbleibenden Tickets, die KI nicht lösen kann, sind schwieriger, emotional stärker aufgeladen und erfordern Menschen, die besser bezahlt werden als die vertraglich gebundene Agenten-Basislinie."
Was der Fall tatsächlich zeigt, sind die Substitutionsklassen, die in der realen Welt auseinanderdriften. Die Klasse der Massentickets, Passwort-Rücksetzungen und „Wo ist meine Bestellung"-Anfragen ging fast vollständig an die KI und blieb dort. Die Klasse aus Streitfällen und Fehlerbehebung ging überwiegend an die KI mit menschlicher Prüfschleife und blieb ebenfalls dort. Die Klasse der komplexen Eskalationen ging zunächst an die KI, dann teilweise zurück zu Menschen. Und die Klasse der Beziehungspflege oder neuartigen Sonderfälle bewegte sich nie wirklich.
Das ist kein Versagen der Technologie. Es ist die Substitutionslandkarte, die sich behauptet.
Vier Substitutionsklassen
Wagecore ordnet Kundensupport-Aufgaben vier Klassen zu, die auf beobachtbaren Kosten- und Zuverlässigkeitseigenschaften beruhen — nicht darauf, ob sich eine Aufgabe „automatisierbar anfühlt". Die Klassen sind:
Vollständige Substitution. L1-Ticket-Triage, Passwort-Rücksetzungen, Bestellstatus-Abfragen, FAQ-Antworten, einfache Rückerstattungen innerhalb der Richtliniengrenzen. Diese Aufgaben haben enge Eingabeverteilungen, hohe Zuverlässigkeitsanforderungen nur bei einer kleinen Menge von Fehlermodi und geringe Fehlerkosten. Die KI bearbeitet sie von Anfang bis Ende, ohne einen Menschen im Lösungspfad. Konfidenzband: 2–8 $ pro gelöstem Ticket bei Nutzung einer Frontier-Modell-API plus einem Anbieter-Wrapper (Intercom Fin, Ada, Forethought liegen laut öffentlicher Preisgestaltung bis 2025 alle in diesem Bereich). Das untere Ende setzt einen gut abgestimmten Anbieter voraus, das obere Ende ein Standardprodukt mit Retrieval, aber ohne Nachtraining. Menschliches Äquivalent: 15–25 $ pro Ticket für einen ausgelagerten Contact-Center-Mitarbeiter, gemäß den öffentlichen Preisleitfäden von Crescendo und dem BPO-Mittelstand. Das Verhältnis begünstigt die KI um etwa das 3- bis 5-Fache, und der Abstand ist stabil.
Überwachte Substitution. Abrechnungsstreitigkeiten, Produkt-Fehlerbehebung, bei der die Konfiguration des Kunden eine Rolle spielt, Kontoänderungen mit Richtlinien-Sonderfällen, einfache Beschwerden. Die KI schlägt eine Lösung vor, ein Mensch prüft sie, bevor sie an den Kunden geht — entweder Fall für Fall bei Fällen mit geringer Konfidenz oder per gebündeltem Audit bei Fällen mit hoher Konfidenz. Die Kostenstruktur unterscheidet sich deutlich von der vollständigen Substitution: Sie zahlen die KI-Inferenzkosten plus einen Bruchteil der Arbeitszeit eines Mitarbeiters pro Ticket, wobei der Bruchteil von Ihrer Audit-Richtlinie abhängt. Konfidenzband: 5–14 $ pro gelöstem Ticket. Das breite Band spiegelt die Wahl zwischen intensivem Audit (jedes Ticket geprüft) und leichtem Audit (stichprobenartig) wider. Rein menschliches Äquivalent: 18–30 $ pro Ticket — diese Tickets dauern länger als solche der vollständigen Substitution, also steigt auch die menschliche Basislinie. Das Verhältnis begünstigt die KI um das 2- bis 3-Fache und verschlechtert sich, je enger Sie die Audit-Schleife ziehen.
Augmentierung. Komplexe Eskalationen, emotionale Situationen (Rückerstattungen im Zusammenhang mit medizinischen oder familiären Umständen, Beschwerden über Serviceausfälle), systemübergreifende Untersuchungen, Fälle mit Aufmerksamkeit der Führungsebene. Die KI unterstützt den Menschen — entwirft Antworten, ruft Historien ab, fasst frühere Tickets zusammen, schlägt Richtlinien-Präzedenzfälle vor — handelt aber nicht selbst. Der Mensch verantwortet die Lösung. Die Kosten entsprechen im Wesentlichen „Menschgehalt plus einem KI-Assistenten-Abonnement pro Arbeitsplatz". Konfidenzband: 20–45 $ pro Ticket. Der KI-Beitrag zeigt sich im Durchsatz, nicht im Personalbestand: Ein erfahrener Mitarbeiter mit einem guten Copiloten bearbeitet vielleicht 30 % mehr Tickets pro Schicht. Rein menschliches Äquivalent: 25–60 $ pro Ticket. Verhältnis: bescheidene Kostensenkung im einstelligen Prozentbereich, wobei der Vorteil eher in schnelleren Lösungen als in geringerem Personalbestand liegt.
Nicht substituierbarer Rest. Beziehungsmanagement mit strategischen Kunden, neuartige Sonderfälle, die in kein früheres Muster passen, regulatorische oder rechtliche Korrespondenz, Krisenvorfälle (Betrugsringe, Bewältigung von Massenausfällen, PR-sensible Beschwerden). Die KI kann als Recherchewerkzeug einbezogen sein, aber der Lösungspfad ist vollständig menschlich und erstreckt sich oft über mehrere Menschen (einen Mitarbeiter, einen Vorgesetzten, manchmal die Rechtsabteilung). Kosten: 50–200 $+ pro Ticket, je nach Dauer und Seniorität. Es gibt keine KI-Basislinie zum Vergleich, weil die Substitutionswahrscheinlichkeit bei den aktuellen Fähigkeiten praktisch null ist. Klarnas teilweise Wiedereinstellung menschlicher Mitarbeiter 2025 fand überwiegend innerhalb dieser Klasse und am oberen Rand der Augmentierung statt — genau der Klasse, in der die Konfidenz der KI am niedrigsten und die Kosten einer falschen Antwort am höchsten waren.
Die menschliche Basislinie, voll belastet
Die obigen Kosten-pro-Ticket-Zahlen ruhen auf einer menschlichen Basislinie, die selbst ein Konfidenzband verdient. Die Daten von ZipRecruiter aus dem Jahr 2025 für „Customer Support Representative" in den USA zeigen ein durchschnittliches jährliches Grundgehalt von rund 42.000 $, mit einem Band zwischen dem 25. und 75. Perzentil von 34.000–50.000 $ je nach Region und Betriebszugehörigkeit. Voll belastet — Sozialleistungen, Lohnsteuer, Ausrüstung, Führungs-Overhead, Fluktuations-Ersatzkosten, amortisierte Schulung — beträgt der übliche Multiplikator 1,35–1,55×, womit die belasteten Jahreskosten bei rund 57.000–77.000 $ liegen. Geteilt durch 1.800–2.000 produktive Stunden pro Jahr ergeben sich 28–43 $ pro belasteter Mitarbeiterstunde. Bei einer branchenüblichen Bearbeitungszeit von 8–14 Minuten pro Ticket über den gesamten Mix hinweg ergibt das die oben genannten 15–25 $ pro Ticket für Routine-L1-Arbeit und die 25–60 $ für komplexe Tickets.
Die Preisgestaltung ausgelagerter BPO — Crescendos veröffentlichter Leitfaden, die Mittelstandsbenchmarks der Contact-Center-Analysten — liegt auf Ticketbasis niedriger als dies (6–15 $ für L1 per Sprache oder Chat in Regionen mit niedrigeren Kosten), sollte aber nicht als menschliche Basislinie gelesen werden, es sei denn, die KI-Alternative wird gegen dieselbe Offshore-Konstellation verglichen. Der ökonomisch ehrliche Vergleich stellt Gleiches gegen Gleiches: intern gegen intern, BPO gegen BPO und KI gegen die menschlichen Kosten, die sie tatsächlich verdrängt. Das Vermischen der Vergleiche ist der Weg zu den Behauptungen einer 10-fachen Kostensenkung, die das erste Betriebsquartal nicht überstehen.
Die Konsequenz für die Substitutionsklassen-Rechnung: In einem teuren internen Umfeld verstärkt sich das 3- bis 5-fache Verhältnis der vollständigen Substitution, weil die menschliche Basislinie hoch ist. In einem günstigen BPO-Umfeld erzeugt dieselbe Technologie ein Verhältnis von 1,5–2,5×, weil die menschliche Basislinie bereits niedrig ist. Die Technologie ist konstant; die Einsparungen sind es nicht.
Warum Konfidenzbänder statt Punktschätzungen
Ein einzelner Dollarbetrag pro Ticket ist die sauberste denkbare Antwort, und er ist fast immer falsch. Zwei Gründe.
Erstens variiert die Eingabeverteilung jeder Klasse enorm zwischen Unternehmen. Der Ticket-Mix eines Verbraucher-Fintechs ist an der Spitze des Trichters stark von vollständiger Substitution geprägt; eine B2B-SaaS-Support-Warteschlange ist augmentierungslastig, weil die Tickets auf kundenspezifische Konfigurationen verweisen. Dieselbe Behauptung „KI-Agent ersetzt einen Menschen" kann bei einem Unternehmen einer 4-fachen Kostensenkung entsprechen und bei einem anderen einer 1,2-fachen — nicht weil die Technologie unterschiedlich ist, sondern weil die Arbeitsverteilung es ist.
Zweitens bewegt sich die KI-Preisgestaltung. Die Kosten pro Token bei Frontier-Modellen sind von Anfang 2024 bis Mitte 2025 um etwa das 10-Fache gefallen. Anbieter-Wrapper sind nicht im gleichen Tempo gefallen, weil die Kostenstruktur eines Intercom Fin oder eines Ada keine reine Modell-Inferenz ist — es sind Retrieval, Anbietermarge, Vertriebsaufwand und Integration. Das untere Ende jedes Bandes folgt der reinen Inferenz; das obere Ende folgt der Anbieter-Preisgestaltung. Der Abstand zwischen beiden verengt sich über die Zeit, ist aber nicht null.
Wir veröffentlichen Konfidenzbänder, weil Punktschätzungen die Illusion einer Gewissheit erzeugen, die der Fall Klarna ausdrücklich widerlegt hat. Die Zahl von 700 Mitarbeitern war eine Punktschätzung, und sie überstand den Kontakt mit der Verteilung der verbleibenden Tickets nicht.
Die Wagecard-Methodik hinter diesen Zahlen
Die Wagecard von Wagecore behandelt Kundensupport-Rollen so wie jede andere Rolle: als gewichteten Durchschnitt über Substitutionsklassen hinweg, wobei jede Klasse nach Fähigkeit, Zuverlässigkeit, Fehlerkosten und Aufsichtskosten bewertet wird. Die vier obigen Klassen bilden sich auf unsere Standard-Frontier ab — Vollständige Substitution entspricht unserer Zelle „replaceable", Überwachte Substitution „ai-augmented", Augmentierung „human-led-ai-assisted", nicht substituierbarer Rest „human-critical".
Die Investment View einer Kundensupport-Funktion liest sich daher als NPV-Berechnung, nicht als einzelnes Verhältnis. Eingaben: Verteilung des Ticketvolumens über die vier Klassen, aktuelle rein menschliche Kosten pro Klasse, erwartete KI-plus-Mensch-Kosten pro Klasse bei gewählter Audit-Richtlinie, Umstellungskosten (Anbieter-Onboarding, Aufbau des Retrieval-Index, Nachtraining-Verträge) sowie ein risikobereinigter Diskontsatz, der die Möglichkeit berücksichtigt, dass sich die Preisgestaltung oder Qualität des Anbieters mitten im Vertrag ändert. Der IRR bei Warteschlangen mit hohem Anteil vollständiger Substitution ist hoch — typischerweise 80 %+ auf Einjahressicht bei den obigen Bändern. Der IRR bei augmentierungslastigen Warteschlangen ist bescheiden. Die Amortisationsdauer reicht von unter einem Quartal bis über zwei Jahre, je nachdem, welche Klasse dominiert.
Das ist keine Blackbox. Die Substitutionsklassen, die Kostenbänder und die Gewichtung sind allesamt in unserer Methodik veröffentlicht. Wir füllen frühere Zahlen nicht rückwirkend auf, wenn unsere Methodik überarbeitet wird: Eine unter v1 berechnete Wagecard bleibt eine v1-Wagecard mit den v1-Zahlen, auch wenn v2 die Bänder aktualisiert. Der Grund ist, dass die Kosten einer Substitutionsentscheidung gegen die zum Entscheidungszeitpunkt bekannten Zahlen gezahlt werden — das Rückwirken schreibt die Geschichte auf eine Weise um, die frühere Entscheidungen besser oder schlechter aussehen lässt, als sie zum Zeitpunkt ihrer Fällung waren.
Der Klarna-Verlauf, durch die Klassen gelesen
Mit den vier Klassen in der Hand liest sich Klarnas Abfolge aus Ankündigung, Eskalation und teilweisem Rückzug sauber:
Die Zahlen von 700 und 853 Mitarbeitern erfassten die Verdrängung der vollständigen Substitution und des größten Teils der überwachten Substitution. Die sind real, die Rechnung stimmt, und das Verhältnis entspricht ungefähr dem, was die öffentliche Preisgestaltung von Intercom Fin und vergleichbaren Anbietern für einen hochvolumigen Verbraucher-Fintech-Ticket-Mix vorhersagen würde.
Die teilweise Wiedereinstellung 2025 erfasste Augmentierung und nicht substituierbaren Rest. Klarna leitete diese Tickets zunächst ebenfalls durch die KI, stieß an eine Qualitätsgrenze und korrigierte. Das ist kein KI-Versagen — es ist die Substitutionslandkarte, die beim zweiten Mal richtig gelesen wurde. Die Klassengrenzen sind real, und sie unter optimistischen Annahmen zu überschreiten, kostet in Kundenunzufriedenheit schneller Geld, als es an Gehalt spart.
Was der Fall nicht zeigt, ist die binäre Rahmung, die den größten Teil des Kommentars beherrscht: KI ersetzt entweder den Kundensupport oder nicht. Beide Lesarten sind falsch. Die KI ersetzt einen messbaren Bruchteil der Arbeit zu einem bekannten Kostenverhältnis, wobei der Bruchteil von der Ticketverteilung und der gewählten Audit-Richtlinie abhängt. Der andere Bruchteil bleibt menschlich und wird wertvoller, je stärker sich die substituierbare Arbeit um ihn herum verdichtet.
Was damit anzufangen ist
Drei Dinge folgen daraus.
Erstens: Bevor Sie irgendwelche „KI ersetzt Kundensupport"-Kosten berechnen, klassifizieren Sie die Tickets. Der Anteil der vollständigen Substitution zählt am meisten, weil er das Verhältnis dominiert. Eine Warteschlange, die zu 70 % aus vollständiger Substitution besteht, verhält sich sehr anders als eine mit 30 % vollständiger Substitution und 40 % Augmentierung — und die Schlagzeilenzahlen der Wettbewerber verraten selten, welche sie haben.
Zweitens: Behandeln Sie die Audit-Richtlinie als erstklassige Variable. Das Kostenband der überwachten Substitution ist breiter als die anderen, weil die Audit-Wahl die Stückkosten um fast das 3-Fache verändert. Die meisten Darstellungen überspringen dies und zitieren den Endpunkt, der die Schlussfolgerung am besten schmeichelt.
Drittens: Preisen Sie den nicht substituierbaren Rest nicht gegen eine KI-Basislinie. Es gibt keine. Diese Tickets bleiben menschlich, und der richtige Vergleich ist Mensch gegen Mensch (erfahrener Mitarbeiter gegen Junior, intern gegen ausgelagert), nicht Mensch gegen KI. Den Rest gegen eine Phantom-KI-Basislinie zu bepreisen, ist das, was Klarnas ersten Durchlauf die Einsparungen überschätzen ließ — und was die meisten internen „KI ersetzt Kundensupport"-Business-Cases um 30–50 % übertreiben lässt, noch bevor sie in den Pilotbetrieb gehen.
Viertens: Versionieren Sie die Analyse. Die hier genannten Bänder spiegeln die Inferenz- und Anbieter-Preisgestaltung wider, wie sie bis Mitte 2025 beobachtet wurde. Sie werden sich bewegen. Eine heute getroffene Entscheidung sollte festhalten, gegen welche Zahlen sie getroffen wurde, weil die nächsten zwölf Monate der Preisänderungen nur gegen eine unveränderte Basislinie wie Einsparungen aussehen werden. Wagecards tragen aus genau diesem Grund eine Methodikversion auf der Vorderseite der Karte: Eine Wagecard ist eine Momentaufnahme einer Entscheidung, keine Prognose.
Wenn Sie dieselbe Analyse für Ihre eigene Rolle oder Funktion durchgeführt haben möchten, mit Substitutionsklassen, Konfidenzbändern und einer Investment View, dann ist das genau, was Wagecore tut. Die Methodik ist offen unter wagecore.ai/methodology, und eine kostenlose Wagecard gibt es unter wagecore.ai/start.
Quellen
- Gemeinsame Ankündigung von Klarna und OpenAI, Februar 2024 — KI-Assistent löst 2,3 Mio. Konversationen, ~700-Mitarbeiter-Äquivalent.
- Berichterstattung von Yahoo Finance, 2025 — Klarnas KI-Assistent leistet Arbeit im Umfang von 853 Vollzeitmitarbeitern.
- Berichterstattung der Financial Times über Klarnas teilweise Wiedereinstellung menschlicher Mitarbeiter, Mai 2025.
- Gehaltsdaten von ZipRecruiter für Customer Support Representative, 2025 — US-Durchschnitt als Grundlage für voll belastete Kosten pro Ticket.
- Öffentliche Preisgestaltung von Intercom Fin AI — Benchmark-Kosten pro Lösung bis 2025.
- Crescendos Preisleitfaden für ausgelagerte Callcenter — BPO-Kostenspannen pro Ticket für L1 bis komplexe Stufen.