Data engineers nemen een ongewone positie in op de AI-substitutiekaart: twee van de zes taken zitten al stevig binnen de AI-versterkte grens, twee andere zijn middenklasse, en twee zijn diep Human-critical. De rol valt niet netjes uiteen — wat je in 2026 waardevol maakt is niet meer „ik schrijf SQL", maar het is ook niet „ik ontwerp data-infrastructuur" op zichzelf. Het is het gelaagde werk dat beide verbindt.
Deze post leest de zes representatieve taken uit de v1-capability-matrix en bepaalt het aandeelgewogen beeld voor een typische Tier-2-mid-cel van een data engineer.
Lezing op taakniveau
SQL-transformaties schrijven. Capability 82, betrouwbaarheid 78, foutkosten 2, toezicht 15 min/eenheid. Geclassificeerd als AI-versterkt. Dit is de cel met de hoogste capability in de rol. Frontier-modellen vertalen prozaspecificaties competent naar SQL over de meeste warehouse-dialecten heen, en de faalmodi zijn zichtbaar genoeg dat een toezichtronde van 15 minuten ze opvangt. Echte teams rapporteren een tijdsbesparing van 40–60% op routinetransformaties. De economie spreekt hier sterk voor AI — de tokenkosten per transformatie liggen bij de huidige frontier-prijzen ruim onder een dollar, tegen $0,30 aan analistminuten.
ETL/ELT-pipelines bouwen. Cap 78, betr. 70, fout 3, toezicht 25 min. Ook AI-versterkt, maar het betrouwbaarheidsgat weegt hier zwaarder. Een buggy pipeline corrumpeert stilletjes stroomafwaartse tabellen en creëert werk voor iedereen die ze leest. Het toezicht van 25 minuten is geen bezigheidstherapie — het is de integratiecontrole die de pipeline betrouwbaar houdt. In de praktijk: AI blinkt uit bij greenfield-pipeline-steigers (40% besparing), worstelt met maatwerk-broninintegraties waar de brondata vormeigenaardigheden heeft.
Schemaontwerp. Cap 55, betr. 50, fout 4, toezicht 45 min. Human-led, AI-assisted. AI is nuttig om bestaande schema's te canoniseren en varianten voor te stellen. Het is niet nuttig voor de strategische vraag — „hoe moet deze tabel eruitzien, gegeven hoe het bedrijf hem over twee jaar zal bevragen." Dat is een productoordeel, geen syntaxprobleem. De betrouwbaarheid zit in de midden-50 omdat door AI voorgestelde schema's vaak de onuitgesproken aanname missen (bijv. dat deze klant meerdere factuuradressen over regio's heen kan hebben).
Pipeline-debugging. Cap 50, betr. 45, fout 4, toezicht 50 min. Ook human-led. AI kan veelvoorkomende pipeline-fouten via patroonherkenning oppikken — schema-drift, tijdzonebugs, NULL-afhandeling — en plausibele fixes voorstellen. Maar de capability wordt laaggehouden door de lange staart van pipeline-fouten die systeemcontext vereisen die de AI niet heeft. De betrouwbaarheid is de lagere begrenzer: als de AI zich vergist bij een pipeline-fix, is het gevolg datacorruptie die zich stroomafwaarts verspreidt en vaak pas dagen later wordt opgemerkt.
Data-infrastructuurarchitectuur. Cap 40, betr. 40, fout 5 (de hoogste in de rol), toezicht 90 min. Geclassificeerd als Human-critical. Architectuurbeslissingen stapelen zich op — een verkeerde keuze op deze laag kost maanden om terug te draaien en creëert technische schuld die elk team belast dat data aanraakt. AI kan afwegingen tussen Spark / Snowflake / DuckDB beschrijven op het niveau van een leveranciersbriefing; ze kan de beslissing niet nemen gegeven de vaardigheden van je team, de schaalprojectie en de compliance-eisen. Foutkosten 5 vangen de asymmetrie: goedkoop te betwijfelen, duur om fout te doen.
Stakeholder-pipeline-reviews. Cap 25, betr. 25, fout 3, toezicht 60 min. Human-critical. Dit is de taak waarbij data engineers aan PM's uitleggen waarom de „eenvoudige metriek die ze willen" een refactor van zes weken vereist, of waarbij ze een verzoek terugkaatsen dat de datakwaliteit over andere teams heen zou aantasten. AI kan materiaal voorbereiden maar kan het gesprek niet voeren. De capability is bewust laag — we denken niet dat dit gat noemenswaardig sluit binnen de tijdshorizon van v1.
Aandeelgewogen samenvatting
Voor een typische Tier-2-mid data engineer die middelt over de standaardverdeling van taakuren, verdeelt de rol zich ruwweg als: 0% Replaceable, ~40% AI-versterkt (SQL + ETL), ~30% Human-led-AI-assisted (schema + debugging), ~30% Human-critical (architectuur + stakeholder-reviews).
De operationele AI-kosten voor het AI-versterkte deel lopen bij typisch taakvolume op tot $3.200–$4.100 per maand, tegen een volledig belast jaarsalaris van $145K. Dat is een kostenverhouding van ongeveer één op drie op het substitueerbare deel — betekenisvol, maar niet de reductie met een orde van grootte die populaire framings suggereren. De resterende 60% van de uren van de rol verschijnt niet in die berekening omdat ze bij de capability van v1 niet substitueerbaar zijn.
Wat „geen Replaceable" betekent
Merk op wat ontbreekt: er zijn nul taken in v1 waar de bijdrage van een data engineer volledig door AI substitueerbaar is. Zelfs SQL-transformaties — de cel met de hoogste capability — vereisen menselijke integratie in de bredere codebase, review tegen de conventies van het team, en eigenaarschap van het resulterende artefact. De economische grens voor deze rol is versterking, geen vervanging.
Dit is ongewoon. Verschillende aangrenzende rollen (data-analist, junior frontend, klantenservicemedewerker) hebben in v1 minstens één vervangbare taak. Data engineering niet — en dat is een feit over de structuur van de rol, geen verzachting via de brand voice. Pipeline-fouten zijn te duur en architectuurbeslissingen te opstapelend om over te laten aan een systeem dat 70–80% van de tijd correct is.
Wat je hiermee doet
Drie dingen volgen hieruit:
Leun in op de versterkte taken. Frontier-model-ondersteuning bij SQL-transformaties en pipeline-steigers is de goedkoopste 40% tijdsbesparing in deze rol. Teams die haar niet oogsten laten marge liggen. De economie klopt zelfs op de schaal van een solo-engineer.
Besteed architectuurbeslissingen niet uit. Het capability-gat bij data-infrastructuurarchitectuur (cap 40, fout 5) is groter dan het discours suggereert. Een leveranciersevaluatie waarin staat „ChatGPT beveelt Snowflake aan" is een waarschuwingssignaal — het model kan je schaalprojectie, de Spark-ervaring van je team of je compliance-houding niet echt afwegen. Dat blijft mensenwerk, tegen gedocumenteerde criteria.
Investeer in stakeholder-communicatie. Dit is de cel met de laagste capability in de rol (cap 25). De data engineers die promotie maken zijn degenen wier stakeholder-reviews technische complexiteit vertalen naar bedrijfsleesbare afwegingen. AI kan de deck voorbereiden — de vergadering zelf blijft menselijk.
Zie de single-cell-lezing op /roles/data-engineer voor de canonieke Tier-2-mid-uitsplitsing, /insights/data-engineer voor verdelingen over cellen heen naarmate Wagecards zich opstapelen, en /methodology voor de wiskunde achter de capability-scores.