Data Engineers nehmen eine ungewöhnliche Position auf der KI-Substitutionskarte ein: Zwei von sechs Aufgaben liegen bereits fest innerhalb der KI-erweiterten Grenze, zwei weitere sind mittlerer Klasse, und zwei sind tief Human-critical. Die Rolle zerfällt nicht sauber — was dich 2026 wertvoll macht, ist nicht mehr „ich schreibe SQL", aber es ist auch nicht „ich baue Dateninfrastruktur" für sich allein. Es ist die geschichtete Arbeit, die beides verbindet.
Dieser Beitrag liest die sechs repräsentativen Aufgaben aus der v1-Capability-Matrix und ermittelt das anteilsgewichtete Bild für eine typische Tier-2-mid-Zelle eines Data Engineers.
Aufgaben-Ebene im Detail
SQL-Transformationen schreiben. Capability 82, Zuverlässigkeit 78, Fehlerkosten 2, Aufsicht 15 Min./Einheit. Klassifiziert als KI-erweitert. Das ist die Zelle mit der höchsten Capability in der Rolle. Frontier-Modelle übersetzen Prosa-Spezifikationen kompetent in SQL über die meisten Warehouse-Dialekte hinweg, und die Fehlermodi sind sichtbar genug, dass ein 15-minütiger Aufsichtsdurchgang sie erwischt. Reale Teams berichten von einer Zeitersparnis von 40–60 % bei Routine-Transformationen. Die Ökonomie spricht hier stark für KI — die Token-Kosten pro Transformation liegen bei aktuellen Frontier-Preisen deutlich unter einem Dollar, gegen 0,30 $ an Analysten-Minuten.
ETL/ELT-Pipelines bauen. Cap 78, Zuv. 70, Fehler 3, Aufsicht 25 Min. Ebenfalls KI-erweitert, aber die Zuverlässigkeitslücke wiegt hier schwerer. Eine fehlerhafte Pipeline beschädigt nachgelagerte Tabellen unbemerkt und schafft Arbeit für jeden, der sie liest. Die 25-minütige Aufsicht ist keine Beschäftigungstherapie — es ist die Integrationsprüfung, die die Pipeline vertrauenswürdig hält. In der Praxis: KI glänzt beim Greenfield-Pipeline-Gerüst (40 % Ersparnis), tut sich schwer bei individuellen Quell-Integrationen, wenn die Quelldaten formliche Eigenheiten haben.
Schema-Design. Cap 55, Zuv. 50, Fehler 4, Aufsicht 45 Min. Human-led, AI-assisted. KI ist nützlich, um bestehende Schemas zu kanonisieren und Varianten vorzuschlagen. Sie ist nicht nützlich für die strategische Frage — „wie sollte diese Tabelle aussehen, angesichts dessen, wie das Unternehmen sie in zwei Jahren abfragen wird." Das ist eine Produktentscheidung, kein Syntaxproblem. Die Zuverlässigkeit liegt in den mittleren 50ern, weil KI-vorgeschlagene Schemas oft die unausgesprochene Annahme verfehlen (z. B. dass dieser Kunde mehrere Rechnungsadressen über verschiedene Regionen hinweg haben kann).
Pipeline-Debugging. Cap 50, Zuv. 45, Fehler 4, Aufsicht 50 Min. Ebenfalls human-led. KI kann verbreitete Pipeline-Fehler per Mustererkennung erfassen — Schema-Drift, Zeitzonen-Bugs, NULL-Behandlung — und plausible Fixes vorschlagen. Aber die Capability wird durch den langen Schwanz von Pipeline-Fehlern gedeckelt, die Systemkontext erfordern, den die KI nicht hat. Die Zuverlässigkeit ist der niedrigere Limiter: Wenn die KI bei einem Pipeline-Fix falsch liegt, ist die Folge eine Datenkorruption, die sich nachgelagert ausbreitet und oft erst Tage später bemerkt wird.
Dateninfrastruktur-Architektur. Cap 40, Zuv. 40, Fehler 5 (die höchsten in der Rolle), Aufsicht 90 Min. Klassifiziert als Human-critical. Architekturentscheidungen wirken kumulativ — eine falsche Wahl auf dieser Ebene kostet Monate rückgängig zu machen und erzeugt technische Schulden, die jedes Team belasten, das Daten anfasst. KI kann Trade-offs zwischen Spark / Snowflake / DuckDB auf dem Niveau eines Anbieter-Briefings beschreiben; sie kann die Entscheidung nicht treffen angesichts der Fähigkeiten deines Teams, der Skalierungsprognose und der Compliance-Vorgaben. Die Fehlerkosten 5 erfassen die Asymmetrie: billig zu hinterfragen, teuer falsch zu machen.
Stakeholder-Pipeline-Reviews. Cap 25, Zuv. 25, Fehler 3, Aufsicht 60 Min. Human-critical. Das ist die Aufgabe, bei der Data Engineers PMs erklären, warum die „einfache Kennzahl, die sie wollen" ein sechswöchiges Refactoring erfordert, oder bei der sie eine Anfrage zurückweisen, die die Datenqualität über andere Teams hinweg beeinträchtigen würde. KI kann Material vorbereiten, aber das Gespräch nicht führen. Die Capability ist bewusst niedrig — wir gehen nicht davon aus, dass sich diese Lücke im Zeithorizont von v1 nennenswert schließt.
Anteilsgewichtete Zusammenfassung
Für einen typischen Tier-2-mid Data Engineer, der über die Standard-Verteilung der Aufgabenstunden mittelt, verteilt sich die Rolle etwa so: 0 % Replaceable, ~40 % KI-erweitert (SQL + ETL), ~30 % Human-led-AI-assisted (Schema + Debugging), ~30 % Human-critical (Architektur + Stakeholder-Reviews).
Die operativen KI-Kosten für den KI-erweiterten Anteil liegen bei typischem Aufgabenvolumen bei 3.200–4.100 $ pro Monat, gegen ein voll umlagefähiges Jahresgehalt von 145.000 $. Das ist ein Kostenverhältnis von etwa eins zu drei auf dem substituierbaren Anteil — bedeutsam, aber nicht die Reduktion um eine Größenordnung, die populäre Darstellungen suggerieren. Die verbleibenden 60 % der Rollenstunden tauchen in dieser Rechnung nicht auf, weil sie bei der Capability von v1 nicht substituierbar sind.
Was „kein Replaceable" bedeutet
Beachte, was fehlt: In v1 gibt es null Aufgaben, bei denen der Beitrag eines Data Engineers vollständig durch KI substituierbar ist. Selbst SQL-Transformationen — die Zelle mit der höchsten Capability — erfordern menschliche Integration in die breitere Codebasis, Review gegen die Konventionen des Teams und die Verantwortung für das entstehende Artefakt. Die ökonomische Grenze für diese Rolle ist Erweiterung, nicht Ersatz.
Das ist ungewöhnlich. Mehrere benachbarte Rollen (Data Analyst, Junior-Frontend, Kundensupport-Agent) haben in v1 mindestens eine ersetzbare Aufgabe. Data Engineering hat das nicht — und das ist eine Tatsache über die Struktur der Rolle, keine Abmilderung durch die Brand-Voice. Pipeline-Fehler sind zu teuer und Architekturentscheidungen zu kumulativ, um sie einem System zu übergeben, das zu 70–80 % korrekt liegt.
Was du damit anfängst
Drei Dinge folgen daraus:
Setz auf die erweiterten Aufgaben. Frontier-Modell-Unterstützung bei SQL-Transformationen und Pipeline-Gerüsten ist die günstigste 40-%-Zeitersparnis in dieser Rolle. Teams, die sie nicht abschöpfen, lassen Marge liegen. Die Ökonomie geht selbst im Solo-Engineer-Maßstab auf.
Lagere Architekturentscheidungen nicht aus. Die Capability-Lücke bei der Dateninfrastruktur-Architektur (Cap 40, Fehler 5) ist größer, als der Diskurs nahelegt. Eine Anbieter-Evaluation, in der steht „ChatGPT empfiehlt Snowflake", ist ein Warnzeichen — das Modell kann deine Skalierungsprognose, die Spark-Erfahrung deines Teams oder deine Compliance-Lage nicht wirklich abwägen. Das bleibt Aufgabe von Menschen, gegen dokumentierte Kriterien.
Investiere in die Stakeholder-Kommunikation. Das ist die Zelle mit der niedrigsten Capability in der Rolle (Cap 25). Die Data Engineers, die befördert werden, sind die, deren Stakeholder-Reviews technische Komplexität in geschäftslesbare Trade-offs übersetzen. KI kann das Deck vorbereiten — das Meeting selbst bleibt menschlich.
Siehe die Einzelzell-Lesung unter /roles/data-engineer für die kanonische Tier-2-mid-Aufschlüsselung, /insights/data-engineer für Verteilungen über Zellen hinweg, während sich Wagecards ansammeln, und /methodology für die Mathematik hinter den Capability-Werten.