Inżynierowie danych zajmują nietypową pozycję na mapie substytucji przez AI: dwa z sześciu zadań już mocno mieszczą się w granicy AI-augmented, kolejne dwa należą do klasy pośredniej, a dwa są głęboko Human-critical. Rola nie rozpada się na czysto rozdzielone części. To, co czyni cię wartościowym w 2026 roku, to już nie „piszę SQL", ale też nie „projektuję infrastrukturę danych" w oderwaniu od reszty. To warstwowa praca, która łączy jedno z drugim.
Ten tekst odczytuje sześć reprezentatywnych zadań z macierzy zdolności v1 i dochodzi do obrazu ważonego udziałem dla typowej komórki inżyniera danych Tier-2-mid.
Odczyt na poziomie zadań
Pisanie transformacji SQL. Zdolność 82, niezawodność 78, koszt błędu 2, nadzór 15 min/jednostkę. Sklasyfikowane jako AI-augmented. To komórka o najwyższej zdolności w tej roli. Modele graniczne kompetentnie tłumaczą specyfikację prozą na SQL w większości dialektów hurtowni danych, a tryby awarii są na tyle widoczne, że 15-minutowy przegląd je wychwytuje. Realne zespoły raportują skrócenie czasu o 40–60% przy rutynowych transformacjach. Ekonomia mocno sprzyja tu AI — koszt tokenów na jedną transformację jest znacznie poniżej dolara przy obecnych cenach modeli granicznych, wobec 0,30 USD minut pracy analityka.
Budowa potoków ETL/ELT. Zdol. 78, niez. 70, bł. 3, nadzór 25 min. Również AI-augmented, ale tutaj luka w niezawodności waży więcej. Wadliwy potok po cichu uszkadza tabele w dalszej części łańcucha i tworzy pracę wszystkim, którzy z nich korzystają. Te 25 minut nadzoru to nie zajętość dla pozoru — to sprawdzanie integracji, które utrzymuje potok w stanie godnym zaufania. W praktyce: AI błyszczy przy tworzeniu szkieletu potoków greenfield (redukcja o 40%), a potyka się na integracjach z niestandardowymi źródłami, gdzie dane źródłowe mają osobliwości kształtu.
Projektowanie schematów. Zdol. 55, niez. 50, bł. 4, nadzór 45 min. Human-led, AI-assisted. AI jest przydatne do kanonizacji istniejących schematów i proponowania wariantów. Nie jest przydatne przy pytaniu strategicznym — „jak powinna wyglądać ta tabela, biorąc pod uwagę, jak firma będzie ją odpytywać za dwa lata". To osąd produktowy, nie problem składni. Niezawodność jest w okolicach 50, bo schematy proponowane przez AI często pomijają niewypowiedziane założenie (np. że ten klient może mieć wiele adresów rozliczeniowych w różnych regionach).
Debugowanie potoków. Zdol. 50, niez. 45, bł. 4, nadzór 50 min. Również human-led. AI potrafi dopasować wzorce typowych awarii potoków — dryf schematu, błędy stref czasowych, obsługę NULL — i proponuje wiarygodne poprawki. Ale zdolność jest ograniczana przez długi ogon awarii potoków, które wymagają kontekstu systemowego, jakiego AI nie ma. Niezawodność to niższy ogranicznik: gdy AI myli się co do poprawki potoku, konsekwencją jest uszkodzenie danych, które propaguje się dalej, często zauważane dopiero po kilku dniach.
Architektura infrastruktury danych. Zdol. 40, niez. 40, bł. 5 (najwyższy w roli), nadzór 90 min. Sklasyfikowane jako Human-critical. Decyzje architektoniczne się kumulują — błędny wybór na tej warstwie kosztuje miesiące na cofnięcie i tworzy dług techniczny, który obciąża każdy zespół dotykający danych. AI potrafi opisać kompromisy między Spark / Snowflake / DuckDB na poziomie briefu dostawcy; nie potrafi podjąć decyzji przy uwzględnieniu umiejętności twojego zespołu, prognozy skali i ograniczeń zgodności. Koszt błędu 5 oddaje asymetrię: tanio zakwestionować, drogo się pomylić.
Przeglądy potoków z interesariuszami. Zdol. 25, niez. 25, bł. 3, nadzór 60 min. Human-critical. To zadanie, w którym inżynierowie danych tłumaczą product managerom, dlaczego „prosta metryka, której chcą" wymaga sześciotygodniowej refaktoryzacji, albo w którym odpierają prośbę mogącą pogorszyć jakość danych w innych zespołach. AI potrafi przygotować materiały, ale nie poprowadzi rozmowy. Zdolność jest celowo niska — nie sądzimy, by ta luka domknęła się w istotnym stopniu w horyzoncie czasowym v1.
Podsumowanie ważone udziałem
Dla typowego inżyniera danych Tier-2-mid przy standardowym rozkładzie godzin na zadania rola rozkłada się mniej więcej tak: 0% Replaceable, ~40% AI-augmented (SQL + ETL), ~30% Human-led-AI-assisted (schematy + debugowanie), ~30% Human-critical (architektura + przeglądy z interesariuszami).
Operacyjny koszt AI dla części AI-augmented wynosi 3200–4100 USD miesięcznie przy typowym wolumenie zadań, wobec w pełni obciążonego rocznego wynagrodzenia 145 tys. USD. To daje stosunek kosztów około jeden do trzech na części podlegającej substytucji — istotny, ale nie o rząd wielkości mniejszy, jak sugerują popularne ujęcia. Pozostałe 60% godzin roli nie pojawia się w tej kalkulacji, bo nie podlega substytucji przy zdolności z v1.
Co oznacza brak Replaceable
Zauważ, czego brakuje: w v1 nie ma ani jednego zadania, w którym wkład inżyniera danych byłby w całości zastępowalny przez AI. Nawet transformacje SQL — komórka o najwyższej zdolności — wymagają ludzkiej integracji z szerszą bazą kodu, przeglądu względem konwencji zespołu i odpowiedzialności za powstały artefakt. Granicą ekonomiczną tej roli jest wspomaganie, nie zastępowanie.
To nietypowe. Kilka sąsiednich ról (analityk danych, junior frontend, agent obsługi klienta) ma w v1 co najmniej jedno zadanie Replaceable. Inżynieria danych nie ma — i to fakt o strukturze roli, nie złagodzenie w duchu tonu marki. Awarie potoków są zbyt kosztowne, a decyzje architektoniczne zbyt kumulatywne, by powierzyć je systemowi, który ma rację w 70–80% przypadków.
Co z tym zrobić
Wynikają z tego trzy rzeczy:
Postaw na zadania wspierane. Wsparcie modeli granicznych przy transformacjach SQL i tworzeniu szkieletu potoków to najtańsze 40% redukcji czasu w tej roli. Zespoły, które tego nie wykorzystują, zostawiają marżę na stole. Rachunek się zgadza nawet w skali pojedynczego inżyniera.
Nie zlecaj na zewnątrz decyzji architektonicznych. Luka w zdolnościach przy architekturze infrastruktury danych (zdol. 40, bł. 5) jest szersza, niż sugeruje debata. Ocena dostawcy, która brzmi „ChatGPT poleca Snowflake", to sygnał ostrzegawczy — model naprawdę nie potrafi zważyć twojej prognozy skali, doświadczenia zespołu ze Spark ani twojej postawy wobec zgodności. To wciąż ludzie, wobec udokumentowanych kryteriów.
Zainwestuj w komunikację z interesariuszami. To komórka o najniższej zdolności w roli (zdol. 25). Awansują ci inżynierowie danych, których przeglądy z interesariuszami przekładają złożoność techniczną na kompromisy czytelne dla biznesu. AI może przygotować prezentację — samo spotkanie pozostaje ludzkie.
Zobacz odczyt pojedynczej komórki w /roles/data-engineer, by poznać kanoniczny podział Tier-2-mid, /insights/data-engineer, by zobaczyć rozkłady między komórkami w miarę kumulowania się Wagecardów, oraz /methodology, by poznać matematykę stojącą za wynikami zdolności.