Wir haben Wagecore gebaut, um für jede Wissensarbeiter-Rolle eine Frage zu beantworten: Ist die KI-Substitution operativ günstiger als der Mensch, oder ist sie nur theoretisch günstiger? Unten stehen fünf Erkenntnisse aus der Anwendung unserer v1-Capability-Matrix auf fünfzehn Rollen. Die unbequemste davon ist auch die einfachste.
Vorab: Das ist eine Modellanalyse, keine Umfrage. Wir haben noch keine Nutzer-Adoptionsdaten im großen Maßstab erhoben, und die Zahlen stammen aus einer transparenten, handgeschriebenen Matrix, kalibriert an veröffentlichter Forschung (MIT CSAIL zur Automatisierbarkeit, BCG zur Wertschöpfung durch KI in Unternehmen sowie die Post-Incident-Reviews von Klarna, Uber und anderen). Die Matrix-Versionierung, die Achsendefinitionen und die Schwellenwertregeln stehen alle auf unserer Methodik-Seite. Wir sagen das gleich zu Beginn, weil die Matrix offen und prüfbar ist und die Analyse mit der Zeit nur schärfer wird, je mehr Rollen berechnet und rekalibriert werden. Heute ist das Adoptionsbild noch früh – v0 – und das sagen wir auch so.
Die fünfzehn Rollen
Der v1-Korpus umfasst fünf technische Rollen (Softwareentwickler, Data Engineer, Machine-Learning-Engineer, Product Manager, Product Designer), fünf operativ angrenzende Rollen (Customer-Support-Lead, Sales Engineer, Engineering Manager, Finanzanalyst, Account Executive) und fünf kreative Rollen mit Breite (Content-Marketer, Growth-Marketing-Manager, UX-Researcher, Recruiter, Business-Operations-Analyst). Jede Rolle hat sechs bis acht repräsentative Aufgaben, bewertet auf neun Achsen: vier Capability-Cluster-Achsen, drei Reliability-Cluster-Achsen, ein operativer Ökonomie-Modifikator und ein Human-Advantage-Dämpfer aus fünf kanonischen, nicht reduzierbaren Wert-Achsen.
Gemäß ADR-016 landet jede Aufgabe in einer von vier Substitutionsklassen – Replaceable (KI läuft durchgängig mit minimaler Aufsicht), AI-augmented (KI erledigt den Großteil der Arbeit, der Mensch verantwortet Entscheidungen und Kontext), Human-led + AI-assisted (der Mensch führt, KI ist Werkzeug) und Human-critical (KI liefert keinen Nettowert, oder negativen Wert, wegen Vertrauen, Regulierung, Verantwortung oder relationaler Komplexität). Die Schwellenwerte sind deterministisch, im Code kodiert und ausführlich erklärt im kanonischen Taxonomie-Beitrag.
Erkenntnis 1 – Der Großteil der Wissensarbeit liegt in den mittleren beiden Klassen
Über die 91 (Rolle × Aufgabe)-Zellen im v1-Korpus verteilt sich die Substitutionsklassen-Basisverteilung nach Aufgabenzahl ungefähr so: 4 % Replaceable, 38 % AI-augmented, 27 % Human-led + AI-assisted, 31 % Human-critical. Der Replaceable-Bereich ist schmal – nur eine Handvoll Aufgaben im Korpus überschreiten gleichzeitig Capability ≥ 75, Reliability ≥ 80 UND niedrige Fehlerkosten. Die mittleren beiden Klassen tragen mit zusammen 65 % die größte Masse.
Das ist wichtig, weil die vorherrschende öffentliche Rahmung der KI-Arbeitsökonomie binär ist. „Sicher vs. gefährdet.“ „Nehmen mir Roboter meinen Job weg, ja oder nein.“ Die Daten stützen keinen der beiden Pole als Mehrheit. Die ehrliche Lesart: Wissensarbeit zerfällt in ein Portfolio von Aufgaben, bei denen KI für einige operativ günstiger, für andere teurer und für viele ein Nullsummenspiel ist.
Für einen Softwareentwickler im v1-Korpus landet keine der acht modellierten Aufgaben in ihrer Basisklasse bei Replaceable – selbst die Dokumentation, bei der die Capability hoch bewertet ist, scheitert am Reliability- oder Fehlerkosten-Gate, sobald sie in Produktionscode fließt. Die Rolle ist etwa zur Hälfte AI-augmented (Feature- Implementierung gegen eine klare Spezifikation, Entwürfe für Code Reviews, Tests schreiben) und verteilt sich über Human-led + AI-assisted (Systemdesign, On-Call-Triage) und Human-critical (Mentoring, Architekturentscheidungen mit mehrjährigem Kontext). Die anteilsgewichtete Lesart verortet die Rolle im Augmentierungsbereich – nicht Replaceable, nicht Human-critical.
Erkenntnis 2 – Die Capability ist der Reliability davongelaufen
Von den 91 (Rolle × Aufgabe)-Zellen in unserer v1-Matrix erreichen 31 eine Capability ≥ 75 – deutlich über der Schwelle, die populäre KI-Risiko-Frameworks als „das Modell kann das“ behandeln. Von diesen 31 erreichen nur 5 zugleich Reliability ≥ 80 – die Schwelle, die zusammen mit niedrigen Fehlerkosten unter unserem Regelwerk Replaceable auslöst. Die übrigen 26 Aufgaben mit hoher Capability scheitern am Reliability-Gate. Sie sind in der Demo technisch machbar und in der Produktion nicht machbar.
Das ist das „Klarna-Muster“, über das wir separat geschrieben haben. Das Modell kann das Kundenservice-Ticket abschließen. Das Modell kann es nicht zu der Fehlerrate abschließen, die das Unternehmen tolerieren kann. Die Lücke zwischen diesen beiden Sätzen ist der Ort, an dem die meisten Reversal-Fälle leben.
Beispiele aus dem Korpus. Die Pipeline-Monitoring-Aufgabe eines Data Engineers erreicht Capability im oberen Band, Reliability aber in den mittleren 70ern – die Capability überschreitet die Replaceable-Latte, die Reliability nicht. Die Headline-Entwurfsaufgabe eines Growth-Marketers erreicht Capability in den niedrigen 80ern und Reliability in den mittleren 60ern – dasselbe Muster. Die Transkript-Synthese-Aufgabe eines UX-Researchers hat dieselbe Form: hohe Capability, mittlere Reliability. In allen dreien würde die populäre KI-Risiko-Rahmung die Aufgabe als automatisierbar einstufen. Die Reliability- und Fehlerkosten-Gates sagen: nicht zu der Fehlerrate, die das Unternehmen toleriert, plus die Kosten des Irrtums, wenn die Aufsicht manches übersieht.
In allen drei Fällen würde die populäre Rahmung die Aufgabe als „automatisierbar“ einstufen. Der Reliability-Wert sagt: nicht zu den Kosten der menschlichen Aufsicht, die die Fehler auffangen muss, plus die Kosten des Irrtums, wenn die Aufsicht manches übersieht.
Erkenntnis 3 – Fehlerkosten sind die im öffentlichen Diskurs am stärksten unterschätzte Achse
Wagecore bewertet die Fehlerkosten je Aufgabe auf einem 1–5-Multiplikator, wobei 1 „falscher Output ist billig zu erkennen und zu korrigieren“ bedeutet und 5 „falscher Output erzeugt regulatorischen, finanziellen oder Reputationsschaden, der sich aufschaukelt“. Im v1-Korpus erreichen rund 38 % der Aufgaben eine 4 oder 5 – sie schlagen in der Zuweisung der Headline-Substitutionsklasse über ihre Verhältnisse.
Gemäß Regel 1 von ADR-016 landet jede Aufgabe mit
errorCostMultiplier ≥ 5 in Human-critical unabhängig von der
Capability. Der Capability-Wert kann 95 sein – wenn selbstsicher
falscher KI-Output katastrophal ist, trägt der Einsatz dieser KI einen
negativen Erwartungswert. Die Rechnung ist geradlinig: Die Kosten eines
seltenen Fehlers, verteilt über alle Fälle, in denen die KI sich nicht
irrt, müssen günstig gegen die vollständigen menschlichen Kosten
abschneiden. Bei Aufgaben, bei denen die Kosten des seltenen Fehlers
groß sind (medizinische Freigabe, finanzielle Testierung,
aufsichtsrechtliche Einreichung), scheitert die Rechnung.
Zwei Beispiele. Die Aufgabe eines Finanzanalysten, „prüfungssichere Abweichungskommentare erstellen“, erreicht Capability 70, Reliability 60, Fehlerkosten 5. Die Capability ist mittelmäßig; die Fehlerkosten schleusen die ganze Aufgabe in Human-critical. Die Aufgabe eines Customer-Support-Leads, „auf eine Aufsichtsanfrage antworten“, erreicht Capability 68, Reliability 55, Fehlerkosten 5. Dasselbe Gate.
Vergleichen Sie das nun mit dem Ort, an dem populäre KI-Risiko-Frameworks diese Aufgaben verorten. Beide erreichen auf Tools, die nur die Capability gewichten, das Band „mittlere bis hohe KI-Exposition“. Die Fehlerkosten-Achse kippt die Schlussfolgerung. Wenn Sie als Finanzanalyst ein Tool lesen, das Ihre Rolle mit „78 % exponiert“ einstuft, ist die implizite Behauptung, dass 78 % Ihrer Arbeit heute operativ substituierbar sind. Die Realität ist, dass die prüfungssicheren Outputs, die der hebelstarke Teil der Rolle sind, heute operativ nicht substituierbar sind, unabhängig von der Capability – und vielleicht nie substituierbar sein werden, weil die Achse der rechtlichen Verantwortung strukturell menschlich ist.
Erkenntnis 4 – Die fünf Human-Advantage-Achsen sind nicht unabhängig
Wir bewerten jede Aufgabe auf fünf kanonischen Achsen nicht reduzierbaren menschlichen Werts: Vertrauen (dauerhafte Beziehung), Ambiguität (eine unbekannte Situation lesen), Verantwortung (namentliche regulierte Freigabe), Überzeugung (das Verhalten eines Menschen durch zwischenmenschliche Dynamik ändern) und Kontext (mehrjährige Historie, die nicht in ein Modell-Kontextfenster passt).
Im v1-Korpus gruppieren sich die Achsen qualitativ in zwei Gruppen. Aufgaben, die mit Vertrauen getaggt sind, sind tendenziell auch mit Verantwortung getaggt – die beiden treten gemeinsam bei treuhänderischer Arbeit auf (medizinische, juristische, finanzielle Testierung, namentliche regulierte Freigabe). Aufgaben, die mit Ambiguität getaggt sind, treten tendenziell gemeinsam mit Kontext auf – ergebnisoffene Urteilsarbeit wie Architektur, Systemdesign oder Führungsstrategie. Die beiden Cluster überlappen sich im Korpus nicht nennenswert.
Die Implikation: „Human-critical work“ ist nicht eine einzige Sache. Es gibt mindestens zwei unterscheidbare Arten: treuhänderische Arbeit (Prüfer, Arzt, Anwalt, namentlicher Therapeut – hohes Vertrauen, hohe Verantwortung) und Urteilsarbeit unter Ambiguität (Architekt, Senior PM, Principal Designer – hohe Ambiguität, hoher Kontext). Die Ökonomie der Automatisierung unterscheidet sich zwischen beiden. Treuhänderische Arbeit hat strukturelle menschliche Anker (Regulierung, professionelle Zulassung, namentliche Haftung). Urteilsarbeit unter Ambiguität hat architektonische Anker (kein Kontextfenster fasst den mehrjährigen Tech-Debt-Graphen; kein Prompt erfasst die politische Landkarte der Organisation).
Wir sagen das mit einem methodischen Sternchen: Der Korpus ist handgeschrieben, die Achsen sind heute als String-Tags je Aufgabe kodiert statt als numerische Werte, und wir veröffentlichen diese Cluster-Erkenntnis als Arbeitshypothese. Das v1.5-Evaluator-Panel (Claude + GPT-4-Klasse + Gemini-Klasse) wird diese Achsen von 0–4 gegen eine strukturierte Rubrik gemäß ADR-017 bewerten, und die Mediane werden in die Matrix gestempelt – ab dem Punkt werden die Cluster-Korrelationen quantifizierbar. Wenn die qualitative Cluster-Struktur hält, ist die Erkenntnis real. Wenn sie zusammenbricht, sagen wir das auf der Methodik-Seite und aktualisieren den Beitrag.
Erkenntnis 5 – Aufsicht, nicht Inferenz, ist der dominante operative Kostenblock
Für die typische v1-Zelle – aus den Aufsichtsminuten je Aufgabe, dem vollbelasteten Reviewer-Lohn und der aktuellen Token-Preisstruktur in unseren Kostenmodell-Konstanten – ist der größte einzelne Posten der operativen KI-Kosten die Aufsicht (Minuten menschlicher Prüfung je Output-Einheit, multipliziert mit dem vollbelasteten Lohn des Reviewers). Nicht Tokens. Nicht Orchestrierung. Nicht Integration. Der Treiber Nummer eins dafür, ob ein KI-Einsatz nettopositive Ökonomie liefert, ist, wie viele Minuten menschlicher Aufmerksamkeit jeder KI-Output noch erfordert.
Das ist der Posten, den die meisten öffentlichen KI-Kostenanalysen überspringen. Der Token-Posten ist billig zu berechnen und leicht zu verteidigen („eine Million Tokens kostet $X“). Der Aufsichtsposten erfordert die Kenntnis der Reliability-Achse, der Fehlerkosten-Achse und des vollbelasteten Lohns des Reviewers. Drei Zahlen, nach denen die meisten Rechner-artigen Tools nicht fragen wollen.
Die Implikation: Capability-Verbesserungen, die den Token-Posten senken, ohne die Aufsichtsminuten zu senken, verschieben die Ökonomie nicht wesentlich. Reliability-Verbesserungen, die die Aufsicht von zehn Minuten je Output auf zwei Minuten je Output kürzen, verändern die Antwort für die ganze Rolle. Deshalb gewichtet unsere Methodik Reliability und Fehlerkosten als Gates und Dämpfer statt als Summanden. Capability entscheidet, welche Aufgaben ins Modell eintreten; Reliability multipliziert die operative Tragfähigkeit; Fehlerkosten teilen sie; Human Advantage dämpft sie.
Die strukturelle Vorhersage: Die nächste Generation bedeutsamer KI-Arbeitskostensenkungen kommt nicht aus billigerer Inferenz. Sie kommt aus Reliability-Verbesserungen, die die Aufsichtsminuten je Output spürbar reduzieren. Die Nvidia-Führungskraft, die Axios im April 2026 sagte, dass „die Kosten für Compute weit über den Kosten der Mitarbeiter liegen“, beschrieb den Inferenz-Posten. Der Reliability-Posten ist strukturell viel schwerer zu drücken, weshalb sich Post-Deployment-Reversals (Klarna, Uber KI-Coding-Budgetverbrennung) an den Einsätzen häufen, bei denen die Reliability die Capability nicht eingeholt hat.
Was wir bewusst nicht modelliert haben
Drei Dinge, benannt, damit Sie mit uns auf der richtigen Achse streiten können. Erstens: Optionswert – der Wert, einen KI-Einsatz aufzuschieben, bis Capability oder Kosten sich verbessern. Eine Aufgabe, die heute Human-led + AI-assisted erreicht, kann sich in zwei Jahren nach AI-augmented verschieben; die Option zu warten hat für das Unternehmen realen Erwartungswert. Wir bepreisen das nicht, weil wir keine verteidigbare Verlaufskurve für die Reliability haben. Capability-Kurven sind handhabbar; Reliability-Kurven sind es nicht.
Zweitens: strategischer Umschichtungswert. Wenn KI 20 % der Aufgabenstunden einer Rolle substituiert, können die frei gewordenen Stunden auf hebelstärkere Arbeit umgelenkt werden. Der ökonomische Wert dieser Umlenkung hängt davon ab, ob die frei gewordene Zeit in Arbeit mit hohem Grenzwert geht (Architektur, Mentoring, Kundenbindung) oder in laterale Tätigkeit. Unser Modell nimmt reine Kosteneinsparung auf den frei gewordenen Stunden an, was den Vorteil im besten Fall unterschätzt und im Durchschnittsfall Überversprechen vermeidet. Wir sind bewusst konservativ.
Drittens: Terminalwert jenseits von Jahr 5. Die Finanzprojektionsschicht (NPV / IRR / Payback, für Pro-Abonnenten auf jeder Wagecard verfügbar) läuft fünf Jahre. Wir extrapolieren nicht weiter, weil die Annahmen über Capability und Kostenverfall schnell willkürlich werden. Wir bevorzugen eine Fünf-Jahres-Antwort, die wir verteidigen können, gegenüber einer Zwanzig-Jahres-Antwort, der niemand traut.
Was das bedeutet, wenn Sie als Wissensarbeiter lesen
Die zentrale Botschaft ist die ruhige. Die meisten Rollen im v1-Korpus sind heute nicht in Headline-KI-Expositionsgefahr, und das Framework sagt voraus, dass sie es auch in den nächsten fünf Jahren nicht sein werden. Das ist keine Rechtfertigung für Selbstzufriedenheit. Die mittleren beiden Klassen (AI-augmented, Human-led + AI-assisted) sind der Ort, an dem die operative Verschiebung stattfindet, und sie verlangen vom Arbeitenden, aktiv zu ändern, wie er KI nutzt – sie nicht zu fürchten, sie nicht zu feiern, sondern mit ihr als dem neuen Grundniveau des Werkzeugkastens zu arbeiten.
Wenn Sie die konkrete Analyse für Ihre Rolle, Geo und Ihren Aufgaben-Mix wollen: Der Wagecard-Assistent dauert etwa drei Minuten. Anonyme Vorschau vor der Anmeldung; kein Gehalt erforderlich, außer Sie wollen die Markt-Perzentil-Analyse. Die Zahlen auf Ihrer Wagecard stammen aus derselben Matrix, aus der wir die obigen Erkenntnisse gezogen haben.
Was das bedeutet, wenn Sie als Deployment-Lead lesen
Die beiden Fehlermodi, die wir in öffentlichen Reversals am häufigsten sehen, sind (1) Capability-ohne-Reliability-Rollouts, die die Aufsichtslast unterschätzt haben, und (2) Aufgaben, die per Headline Replaceable waren, per Fehlerkosten aber tatsächlich Human-critical. Beide sind im Voraus diagnostizierbar. Capability und Reliability zerlegen sich sauber in unserer Matrix; die Fehlerkosten sind ein 1–5-Multiplikator je Aufgabe. Die Diagnose dauert etwa eine Stunde, wenn Sie die Aufgaben aufschreiben. Das Post-Incident-Review dauert etwa ein Quartal, wenn Sie die Diagnose auslassen.
Wenn Sie den KI-Einsatz für ein Team oder eine Organisation steuern, ist die B2B-Ansicht ein Rollen-einfügen-Flow, der dieselbe matrixbasierte Analyse über Ihren Personalbestand erzeugt. Die Methodik ist dieselbe; die Oberfläche ist auf Organisationsebene.
Noch ein Vorbehalt
Wir sind vor dem Launch. Die obigen Zahlen stammen aus einer handgeschriebenen v1-Matrix, kalibriert an öffentlicher Forschung. Wenn das v1.5-Evaluator-Panel ausgeliefert wird (Ziel Q3 2026), wird die Matrix gegen drei Modell-Evaluatoren regressionsgetestet und die Mediane werden in dieselbe Datenstruktur gestempelt. Sollte eine der fünf obigen Erkenntnisse nach diesem Durchlauf kippen, sagen wir das auf der Methodik-Seite, aktualisieren diesen Beitrag mit den neuen Zahlen und stempeln die Version. Die v1-Zellen bleiben lesbar; der Versionsstempel auf jeder Wagecard hält fest, welche Matrix die Analyse erzeugt hat.
Mit der Zeit schärft sich die Analyse, während reale Adoption sich füllt – welche KI-Tools tatsächlich genutzt werden, in welcher Intensität, je Rolle × Geo × Erfahrung. Heute haben wir das für keine der Zellen; die obigen Zahlen sind Modell-Analysen, keine Adoptionsdaten. Die Transparenz-Gates auf /insights zeigen in Echtzeit genau, wo diese Daten schon vorliegen und wo noch nicht, nach N-Zahl – einschließlich der Nullen.
Das ist der ganze Pitch: offene Methodik, weil vertrauenswürdige Ökonomie prüfbar sein muss. Jede Zahl kommt mit der Methode, die sie erzeugt hat, und einem Konfidenzband, damit Sie die Analyse prüfen können, statt ihr zu vertrauen.
Kommentare und Methodik-Einwände willkommen. Der schnellste Weg, mit dem Framework zu streiten, ist, Ihre eigene Wagecard zu berechnen und uns zu sagen, welche Zelle falsch aussieht. Die Matrix-Version auf jeder Wagecard hält den Snapshot fest, den Sie gesehen haben; wir führen ein Audit-Log darüber, wie er sich verschoben hat.