Warum operative KI-Kosten 3–10× höher sind als die Demo zeigt

Der häufigste Fehler in der Ökonomie von KI-Einsätzen ist, den Inferenzpreis mit den Kosten gleichzusetzen. Wenn eine Modellkarte zehn Cent pro Antwort ausweist, sieht die Entscheidung einfach aus: Eine Kundensupport-Aufgabe, für die ein Mensch fünf Dollar an voll belasteten Arbeitskosten verursacht, wirkt fünfzigmal günstiger, wenn man sie automatisiert. Rechnet man ehrlich, liegt die Lücke eher bei drei zu eins, manchmal eins zu eins, und bei einem nicht unerheblichen Anteil der Aufgaben verliert die KI schon bei den reinen Kosten, bevor man überhaupt die Qualität misst.

Dieser Beitrag legt den Rahmen offen, mit dem Wagecore die realen operativen Kosten der Substitution einer Aufgabe durch KI berechnet. Kein einzelner Punkt darin ist neu — jede Position taucht in den Post-mortems gescheiterter KI-Rollouts auf. Der Beitrag besteht darin, sie an einem Ort zu bündeln und sich auf konkrete Zahlen festzulegen, damit die Antwort nicht bloß lautet: „Es ist mehr, als du denkst."

Die Token-Zeile ist die sichtbaren 10 %

Nehmen wir einen konkreten Fall. Ein erfahrener Support-Mitarbeiter in einem SaaS-Unternehmen bearbeitet rund 30 Tickets pro Tag mit durchschnittlich 600 Eingabe- und 300 Ausgabe-Token je Ticket, verteilt auf ein bis zwei Nachfrage-Durchgänge. Zu aktuellen Preisen der Spitzenmodelle sind das in der Größenordnung von 0,04 $ pro Ticket an reinen Modellkosten. Bei 30 Tickets pro Tag und 22 Arbeitstagen im Monat ergibt das etwa 26 $ pro Mitarbeiter und Monat an Token-Kosten. Gegenüber einem voll belasteten Monatsgehalt von 7.500 $ wirkt die Ersparnis absurd.

Diese Zahl ist aber auch falsch, denn das Modell ist nur eines von neun Dingen, die Geld kosten, wenn man es tatsächlich einsetzt. Hier ist, was ausgelassen wird.

Aufsicht

Jedes von der KI bearbeitete Ticket wird entweder (a) mit hoher Zuversicht automatisch gelöst, (b) zur Prüfung an einen Menschen weitergeleitet oder (c) direkt an einen Menschen eskaliert. Am ersten Tag eines Einsatzes brauchen die meisten Teams eine 100-prozentige menschliche Prüfung, bis die Kalibrierung solide ist; ausgereifte Einsätze halten die Prüfung auf dem unteren Zuversichtsband von 20–40 % plus einer 5-prozentigen Zufallsprüfung. Wenn ein menschlicher Prüfer 45 Sekunden pro geprüfter Antwort braucht und der Prüferpool 30 $/Std. voll belastet kostet, sind das 0,38 $ pro geprüftem Ticket. Prüfe 30 % der Tickets und du hast mehr Kosten hinzugefügt als das Modell selbst verursacht.

Wiederholungen

Produktive Einsätze machen nicht einen Modellaufruf pro Aufgabe — sie machen einen bis fünf. Da ist die erste Vervollständigung, oft ein Selbstprüfungsdurchlauf, manchmal eine Kritik-und-Überarbeitungs-Schleife, und bei werkzeugnutzenden Agenten ein Planungsschritt plus Werkzeugaufrufe plus eine Zusammenfassung. Ein gut instrumentierter Support-Agent, gegen den wir benchmarken, kommt im Schnitt auf 3,4 Modellaufrufe pro gelöstem Ticket und 8,7 pro eskaliertem. Multipliziere die Token-Kosten entsprechend.

Fehlerkosten

Das ist die Position, die mehr Einsätze zum Scheitern bringt als jede andere. Eine selbstsicher-falsche KI-Antwort ist nicht dasselbe wie eine falsche menschliche Antwort; sie ist schlimmer, weil der Kunde ihr glaubt und danach handelt. Rückerstattungsstreitigkeiten, die sich mit einer Entschuldigung sauber lösen ließen, werden zu Rückbuchungen, wenn die KI dem Kunden sagte, seine Rückerstattung sei bereits verarbeitet. Kontowiederherstellungsfälle, in denen die KI einen Verifizierungsschritt halluziniert, erzeugen Support-Tickets doppelt — den ursprünglichen Fall und die Aufräumarbeit. Klarnas Rückzieher vom Mai 2025 bei seinem KI-Kundensupport-Rollout von 2024 ist der bislang öffentlichste Fall: Der CEO räumte ein, dass die Qualitätsergebnisse gefallen waren, und begann, wieder Menschen einzustellen. Klarna hat die zugrunde liegende Differenz bei der Wiederholungsrate nicht offengelegt, aber das qualitative Muster — Aufräumarbeit bei komplexen Tickets als Auslöser des Rückziehers, nicht Einsparungen bei einfachen Tickets — deckt sich mit dem, was wir in angrenzenden Post-mortems sehen.

Wir modellieren die Fehlerkosten als Multiplikator auf die Zeit, die ein erfahrener Mensch braucht, um die Spur der falschen Antwort zu sichten und entweder zu eskalieren oder die Beziehung zu reparieren. Für eine kundenorientierte Aufgabe liegt der Multiplikator typischerweise beim 2- bis 5-fachen der Basis-Bearbeitungszeit desselben Falls; für eine Back-Office-Aufgabe ohne Kunden im Ablauf eher beim 1- bis 2-fachen.

Integrationsaufwand

Die KI liest Tickets nicht aus einem Word-Dokument. Sie liest sie aus einem CRM über eine API, mit Authentifizierung, Ratenbegrenzungen, Schema-Versionierung und einer Retrieval-Schicht über der Wissensdatenbank des Unternehmens. Diese Schicht braucht Ingenieure zum Bauen und Warten. Umgelegt auf das Ticket-Volumen eines einzelnen Teams verursacht ein ernsthafter Integrationsaufwand 20.000–60.000 $ im ersten Aufbau plus 10–30 % der laufenden Zeit eines Ingenieurs. In einem 50-köpfigen Team sind das im eingeschwungenen Zustand nach unserer Kalibrierung rund 1,50 $ pro Ticket.

Orchestrierung & Anbieterbindung

Multi-Modell-Aufbauten, Fallback-Ketten, Registries für Prompt-Vorlagen, Eval-Infrastruktur. Nichts davon ist umsonst. Wir veranschlagen es konservativ mit 0,20–0,80 $ pro gelöstem Ticket, je nach Unternehmensphase. Starke Eval-Infrastruktur rechnet sich, aber die KI-Kostenposition taucht trotzdem auf.

Die Positionen kumulieren

Mit diesen fünf konkreten Zusätzen und plausiblen mittleren Annahmen — 30 % Prüfquote, 3,4 Modellaufrufe pro gelöstem Ticket, 8,7 pro eskaliertem, 20 % Eskalationsquote, Fehlerkostenmultiplikator von 3× auf die 12 % der Fälle, die schieflaufen — bewegt sich das Support-Beispiel von 26 $/Mitarbeiter-Monat an Token auf rund 1.800 $/Mitarbeiter-Monat all-in. Das ist immer noch günstiger als der Mensch für 7.500 $, aber das Verhältnis ist 4 zu 1, nicht 290 zu 1. Und die Rechnung wird schlechter, je weiter man die Wertschöpfungskette hinaufgeht. Bei Rollen, in denen falsche Antworten echten Schaden anrichten — Finanzberatung, medizinische Triage, juristische Prüfung — dominiert die Fehlerkostenposition, und der Einsatz verliert bei den Kosten, bevor man das Gehalt überhaupt mitzählt.

Das Muster ist allgemein: Steigt die Aufgabenkomplexität, bleibt die Inferenzkosten-Zeile ungefähr flach (längere Prompts, mehr Kontext, aber nicht 10× mehr), während jede andere Position überlinear skaliert. Die Prüfung dauert länger, weil die Prüfer den Fall tatsächlich lesen müssen. Die Wiederholungen vervielfachen sich, weil das Modell mehr Schritte braucht, um den Fall zu bewältigen. Die Fehlerkosten explodieren, weil die Fälle, die schieflaufen, die mit dem höchsten Einsatz sind. Bei anspruchsvoller Wissensarbeit angekommen, bestehen die operativen Kosten fast vollständig aus menschlicher Zeit rund um die KI, und das Modell ist zur günstigsten Komponente seines eigenen Einsatzes geworden.

Wo KI bei den Kosten tatsächlich gewinnt

Drei Aufgabenprofile schneiden unter dieser Art von Rechnung durchweg besser ab:

Begrenzt, repetitiv, risikoarm. Kategorisierungsaufgaben, bei denen ein Fehler billig ist (z. B. das Weiterleiten einer internen E-Mail). Prüfquoten können niedrig sein, die Fehlerkosten sind minimal, die Integration ist flach.
Entwürfe unter menschlicher Prüfung. Die KI erstellt die erste Fassung, der Mensch übernimmt die letzten 30 %. Beide Kostenzeilen (Modell + menschliche Prüfung) bleiben begrenzt, weil der Mensch ohnehin darauf geschaut hätte.
Aggregation und Suche. Die relevanten Dokumente hervorholen, die gestrigen Tickets zusammenfassen, die richtige Richtlinie abrufen. Die KI ersetzt eine Suchoberfläche, keinen Mitarbeiter, und ersetzt sie gut, weil Retrieval-Fehler in der Regel schnell auffallen.

Jedes davon lässt sich sauber einer Substitutionsklasse in der Wagecore-Taxonomie zuordnen: ai-augmented (Entwürfe), human-led + ai-assisted (Aggregation) und ein schmales Band echter ersetzbarer Arbeit (der begrenzte, risikoarme Fall). Außerhalb davon sagt die Rechnung: abwarten.

Was die Antwort im Lauf der Zeit verändert

Drei Dinge bewegen die operative Kostenzeile:

Inferenzpreis. Die Token-Kosten sind bei vergleichbarer Leistungsfähigkeit etwa alle 18–24 Monate um rund 10× gesunken. Das verschiebt die Modellzeile, berührt aber weder Prüfung, Wiederholungen noch Fehlerkosten — für Aufgaben mit hohem Einsatz ändert es das Urteil daher kaum.

Eval- und Orchestrierungs-Tooling. Bessere Evals verkleinern die Prüfquoten-Komponente spürbar; das ist derzeit die Zeile mit dem höchsten Hebel zur Optimierung. Von 30 % auf 10 % Prüfquote bei einem ausgereiften Einsatz zu kommen, ist eine echte Kostenveränderung.

Haftung und regulatorisches Umfeld. Wenn eine KI der rechtliche Aktenführer ist, steigt der Fehlerkostenmultiplikator. Wird die KI als Entscheidungsunterstützung mit einem klaren Menschen im Ablauf eingesetzt, sinkt er. Das ist die Zeile, die sich mit Politik bewegt, nicht mit Technik.

Das Fazit

KI-Einsätze anhand der Modellkarte zu bepreisen, ist so, als bepreise man ein Auto nach dem Listenpreis und ignoriere Kraftstoff, Versicherung, Abschreibung und die Person, die man fürs Fahren bezahlen muss. Operative Kosten sind entscheidend, weil sie bestimmen, ob ein Einsatz die ersten sechs Monate übersteht. Die Rollen, in denen KI in der Praxis „3–10× günstiger als der Mensch" ist, sind die Rollen, bei denen die Demo ehrlich über ihren Umfang war. Die meisten Rollen, besonders jene, auf die der Diskurs immer wieder zielt, sehen viel eher nach 4 zu 1 aus — echte Ersparnis, echter Wert, aber kein Ersatz, und kein kostenloser.

Wagecore berechnet diese Version der Rechnung für einzelne Rollen, mit denselben operativen Kategorien, die hier dargelegt sind. Wenn du sehen willst, wie die Rechnung für deine Arbeit konkret aussieht, läuft der Wizard in zwei Minuten und die Methodik ist veröffentlicht. Du kannst außerdem die Methodik lesen und unseren Positionsschätzungen widersprechen — wir aktualisieren sie vierteljährlich auf Basis dessen, was die Daten sagen.

Die Token-Zeile ist die sichtbaren 10 %

Diese Zahl ist aber auch falsch, denn das Modell ist nur eines von neun Dingen, die Geld kosten, wenn man es tatsächlich einsetzt. Hier ist, was ausgelassen wird.

Aufsicht

Wiederholungen

Fehlerkosten

Integrationsaufwand

Orchestrierung & Anbieterbindung

Die Positionen kumulieren

Wo KI bei den Kosten tatsächlich gewinnt

Drei Aufgabenprofile schneiden unter dieser Art von Rechnung durchweg besser ab:

Begrenzt, repetitiv, risikoarm. Kategorisierungsaufgaben, bei denen ein Fehler billig ist (z. B. das Weiterleiten einer internen E-Mail). Prüfquoten können niedrig sein, die Fehlerkosten sind minimal, die Integration ist flach.
Entwürfe unter menschlicher Prüfung. Die KI erstellt die erste Fassung, der Mensch übernimmt die letzten 30 %. Beide Kostenzeilen (Modell + menschliche Prüfung) bleiben begrenzt, weil der Mensch ohnehin darauf geschaut hätte.
Aggregation und Suche. Die relevanten Dokumente hervorholen, die gestrigen Tickets zusammenfassen, die richtige Richtlinie abrufen. Die KI ersetzt eine Suchoberfläche, keinen Mitarbeiter, und ersetzt sie gut, weil Retrieval-Fehler in der Regel schnell auffallen.

Was die Antwort im Lauf der Zeit verändert

Drei Dinge bewegen die operative Kostenzeile:

Warum operative KI-Kosten 3–10× höher sind als die Demo zeigt

Die Token-Zeile ist die sichtbaren 10 %

Aufsicht

Wiederholungen

Fehlerkosten

Integrationsaufwand

Orchestrierung & Anbieterbindung

Die Positionen kumulieren

Wo KI bei den Kosten tatsächlich gewinnt

Was die Antwort im Lauf der Zeit verändert

Das Fazit

Noch nicht bereit für die Anmeldung? Trag dich in die Liste ein.

Warum operative KI-Kosten 3–10× höher sind als die Demo zeigt

Die Token-Zeile ist die sichtbaren 10 %

Aufsicht

Wiederholungen

Fehlerkosten

Integrationsaufwand

Orchestrierung & Anbieterbindung

Die Positionen kumulieren

Wo KI bei den Kosten tatsächlich gewinnt

Was die Antwort im Lauf der Zeit verändert

Das Fazit

Noch nicht bereit für die Anmeldung? Trag dich in die Liste ein.