Zbudowaliśmy Wagecore, by dla każdej roli pracy umysłowej odpowiedzieć na jedno pytanie: czy zastąpienie przez AI jest operacyjnie tańsze niż człowiek, czy tylko teoretycznie tańsze? Poniżej pięć wniosków z uruchomienia naszej macierzy kompetencji v1 na piętnastu rolach. Najbardziej niewygodny jest zarazem najprostszy.
Zanim przejdziemy do wniosków: to odczyt modelu, a nie badanie ankietowe. Nie zebraliśmy jeszcze danych o adopcji wśród użytkowników na dużą skalę, a liczby pochodzą z przejrzystej, ręcznie napisanej macierzy skalibrowanej względem opublikowanych badań (MIT CSAIL o opłacalności automatyzacji, BCG o przechwytywaniu wartości AI w przedsiębiorstwach oraz analizy po-incydentowe Klarny, Ubera i innych). Wersjonowanie macierzy, definicje osi i reguły progowe są wszystkie na naszej stronie metodologii. Wspominamy o tym na wstępie, bo macierz jest otwarta i audytowalna, a odczyt tylko ostrzeje z czasem, w miarę jak kolejne role są obliczane i rekalibrowane. Dziś obraz adopcji jest wczesny — v0 — i mówimy to wprost.
Piętnaście ról
Korpus v1 obejmuje pięć ról technicznych (inżynier oprogramowania, inżynier danych, inżynier machine learningu, product manager, product designer), pięć ról bliskich operacjom (lider wsparcia klienta, sales engineer, engineering manager, analityk finansowy, account executive) oraz pięć ról kreatywnych i szerokich (content marketer, growth marketing manager, badacz UX, rekruter, analityk operacji biznesowych). Każda rola ma od sześciu do ośmiu reprezentatywnych zadań, ocenianych na dziewięciu osiach: czterech osiach klastra kompetencji, trzech osiach klastra niezawodności, modyfikatorze ekonomii operacyjnej oraz tłumiku przewagi ludzkiej złożonym z pięciu kanonicznych osi nieredukowalnej wartości.
Zgodnie z ADR-016 każde zadanie trafia do jednej z czterech klas zastępowania — Replaceable (AI działa od początku do końca przy minimalnym nadzorze), AI-augmented (AI wykonuje większość pracy, człowiek jest właścicielem decyzji i kontekstu), Human-led + AI-assisted (człowiek prowadzi, AI jest narzędziem) oraz Human-critical (AI nie dostarcza wartości netto lub dostarcza wartość ujemną z powodu zaufania, regulacji, odpowiedzialności lub złożoności relacyjnej). Progi są deterministyczne, zakodowane w kodzie i wyjaśnione szczegółowo w kanonicznym poście o taksonomii.
Wniosek 1 — Większość pracy umysłowej mieszka w dwóch środkowych klasach
W 91 komórkach (rola × zadanie) korpusu v1 bazowy rozkład klas zastępowania według liczby zadań wynosi w przybliżeniu: 4% Replaceable, 38% AI-augmented, 27% Human-led + AI-assisted, 31% Human-critical. Koszyk Replaceable jest wąski — tylko garstka zadań w korpusie przekracza jednocześnie kompetencję ≥ 75, niezawodność ≥ 80 ORAZ niski koszt błędu. Dwie środkowe klasy niosą największą masę, łącznie 65%.
To ma znaczenie, bo dominujące publiczne ujęcie ekonomii pracy z AI jest binarne. „Bezpieczny vs zagrożony". „Czy robot zabierze mi pracę, tak czy nie". Dane nie potwierdzają żadnego z tych biegunów jako większości. Uczciwy odczyt brzmi tak, że praca umysłowa rozkłada się na portfel zadań, gdzie AI jest operacyjnie tańsze dla jednych, droższe dla drugich i netto na zero dla wielu.
Dla inżyniera oprogramowania w korpusie v1 żadne z ośmiu zamodelowanych zadań nie trafia do Replaceable jako klasa bazowa — nawet dokumentacja, gdzie kompetencja punktuje wysoko, nie przechodzi przez bramkę niezawodności lub kosztu błędu, gdy trafia do kodu produkcyjnego. Rola jest mniej więcej w połowie AI-augmented (implementacja funkcji wg jasnej specyfikacji, szkicowanie code review, pisanie testów) i rozłożona między Human-led + AI-assisted (projektowanie systemów, triaż na dyżurze) a Human-critical (mentoring, decyzje architektoniczne z wieloletnim kontekstem). Odczyt ważony udziałem lokuje rolę na terytorium Augmentation — nie Replaceable, nie Human-critical.
Wniosek 2 — Kompetencja wyprzedziła niezawodność
Z 91 komórek (rola × zadanie) naszej macierzy v1 31 punktuje kompetencję ≥ 75 — znacznie powyżej progu, który popularne frameworki ryzyka AI traktują jako „model to potrafi". Z tych 31 tylko 5 punktuje również niezawodność ≥ 80 — próg, który w połączeniu z niskim kosztem błędu wyzwala Replaceable w naszym zestawie reguł. Pozostałe 26 wysokokompetencyjnych zadań nie przechodzi przez bramkę niezawodności. Są technicznie osiągalne w demo i nieosiągalne w produkcji.
To „wzorzec Klarny", o którym pisaliśmy osobno. Model potrafi domknąć zgłoszenie obsługi klienta. Model nie potrafi domknąć go przy poziomie awaryjności, który biznes toleruje. Odległość między tymi dwoma zdaniami to miejsce, gdzie mieszka większość przypadków odwrotu.
Przykłady z korpusu. Zadanie monitorowania pipeline'ów inżyniera danych punktuje kompetencję w wysokim paśmie, ale niezawodność w okolicach 70 — kompetencja przechodzi poprzeczkę Replaceable, niezawodność nie. Zadanie szkicowania nagłówków growth marketera punktuje kompetencję w niskich 80 i niezawodność w połowie 60 — ten sam wzorzec. Zadanie syntezy transkrypcji badacza UX ma ten sam kształt: wysoka kompetencja, niezawodność ze środkowego pasma. We wszystkich trzech popularne ujęcie ryzyka AI oznaczy zadanie jako automatyzowalne. Bramki niezawodności i kosztu błędu mówią: nie przy poziomie awaryjności, który biznes toleruje, plus koszt bycia w błędzie, gdy nadzór przepuści część przypadków.
We wszystkich trzech przypadkach popularne ujęcie oznaczyłoby zadanie jako „automatyzowalne". Wynik niezawodności mówi: nie przy koszcie ludzkiego nadzoru wyłapującego błędy, plus koszt bycia w błędzie, gdy nadzór przepuści część przypadków.
Wniosek 3 — Koszt błędu to najbardziej niedoszacowana oś w publicznej debacie
Wagecore punktuje koszt błędu na mnożniku 1–5 dla każdego zadania, gdzie 1 oznacza „błędny wynik jest tani do wykrycia i poprawienia", a 5 oznacza „błędny wynik tworzy narastającą szkodę regulacyjną, finansową lub reputacyjną". W korpusie v1 około 38% zadań punktuje 4 lub 5 — biją powyżej swojej wagi w nagłówkowym przypisaniu klasy zastępowania.
Zgodnie z Regułą 1 ADR-016 każde zadanie z errorCostMultiplier ≥ 5 trafia
do Human-critical niezależnie od kompetencji. Wynik kompetencji może
wynosić 95 — jeśli pewny siebie, ale błędny wynik AI jest katastrofalny,
wdrożenie tego AI niesie ujemną wartość oczekiwaną netto. Rachunek jest
prosty: koszt jednego rzadkiego błędu, zamortyzowany na wszystkich
przypadkach, w których AI nie błądzi, musi wypaść korzystnie względem
pełnego kosztu ludzkiego. Dla zadań, gdzie koszt rzadkiego błędu jest duży
(podpis medyczny, atestacja finansowa, zgłoszenie regulacyjne), rachunek
się nie domyka.
Dwa przykłady. Zadanie analityka finansowego „przygotuj komentarz do wariancji na poziomie audytowym" punktuje kompetencję 70, niezawodność 60, koszt błędu 5. Kompetencja jest średnia; koszt błędu wpycha całe zadanie do Human-critical. Zadanie lidera wsparcia klienta „odpowiedz na zapytanie regulatora" punktuje kompetencję 68, niezawodność 55, koszt błędu 5. Ta sama bramka.
Teraz porównaj to z miejscem, gdzie te zadania lokują popularne frameworki ryzyka AI. Oba punktują w paśmie „średniej do wysokiej ekspozycji na AI" w narzędziach, które ważą wyłącznie kompetencję. Oś kosztu błędu odwraca wniosek. Jeśli jesteś analitykiem finansowym czytającym narzędzie, które klasyfikuje twoją rolę jako „78% ekspozycji", ukryte twierdzenie brzmi, że 78% twojej pracy jest dziś operacyjnie zastępowalne. Rzeczywistość jest taka, że wyniki na poziomie audytowym, które są najbardziej dźwigniową częścią roli, są dziś operacyjnie niezastępowalne niezależnie od kompetencji — i mogą nigdy nie stać się zastępowalne, bo oś prawnej odpowiedzialności jest strukturalnie ludzka.
Wniosek 4 — Pięć osi przewagi ludzkiej nie jest niezależnych
Punktujemy każde zadanie na pięciu kanonicznych osiach nieredukowalnej wartości ludzkiej: zaufanie (trwała relacja), niejednoznaczność (odczytanie nieznanego pomieszczenia), odpowiedzialność (imienny, regulowany podpis), perswazja (zmiana czyjegoś zachowania przez ludzką dynamikę) oraz kontekst (wieloletnia historia, która nie mieści się w oknie kontekstu modelu).
W korpusie v1 osie grupują się jakościowo w dwie grupy. Zadania oznaczone zaufaniem zwykle są też oznaczone odpowiedzialnością — te dwie współwystępują w pracy powierniczej (atestacja medyczna, prawna, finansowa, imienny regulowany podpis). Zadania oznaczone niejednoznacznością zwykle współwystępują z kontekstem — otwarta praca oceny, jak architektura, projektowanie systemów czy strategia zarządu. Te dwa klastry nie nakładają się znacząco w korpusie.
Implikacja jest taka, że „praca human-critical" to nie jedna rzecz. Istnieją co najmniej dwa rozróżnialne rodzaje: praca powiernicza (audytor, lekarz, prawnik, imienny terapeuta — wysokie zaufanie, wysoka odpowiedzialność) oraz praca oceny w warunkach niejednoznaczności (architekt, senior PM, principal designer — wysoka niejednoznaczność, wysoki kontekst). Ekonomia automatyzowania tych dwóch różni się. Praca powiernicza ma strukturalne ludzkie kotwice (regulacja, licencjonowanie zawodowe, imienna odpowiedzialność). Praca oceny w warunkach niejednoznaczności ma kotwice architektoniczne (żadne okno kontekstu nie pomieści wieloletniego grafu długu technicznego; żaden prompt nie uchwyci politycznej mapy organizacji).
Mówimy to z metodologiczną gwiazdką: korpus jest napisany ręcznie, osie są dziś zakodowane jako tekstowe tagi na zadanie, a nie jako wyniki liczbowe, i publikujemy ten wniosek o klastrowaniu jako hipotezę roboczą. Panel ewaluatorów v1.5 (Claude + klasa GPT-4 + klasa Gemini) oceni te osie w skali 0–4 względem ustrukturyzowanego rubrykonu zgodnie z ADR-017, a mediany zostaną wbite w macierz — w tym momencie korelacje klastrów staną się mierzalne. Jeśli jakościowa struktura klastrów się utrzyma, wniosek jest prawdziwy. Jeśli się rozpadnie, powiemy to na stronie metodologii i zaktualizujemy post.
Wniosek 5 — Nadzór, nie inferencja, jest dominującym kosztem operacyjnym
Dla typowej komórki v1 — łączącej minuty nadzoru na zadanie, obciążoną stawkę recenzenta i bieżącą wycenę tokenów w stałych naszego modelu kosztu — największą pojedynczą pozycją w operacyjnym koszcie AI jest nadzór (minuty ludzkiej recenzji na jednostkę wyniku, pomnożone przez obciążoną stawkę recenzenta). Nie tokeny. Nie orkiestracja. Nie integracja. Głównym czynnikiem decydującym o tym, czy wdrożenie AI dostarcza dodatnią ekonomię netto, jest to, ile minut ludzkiej uwagi wciąż wymaga każdy wynik AI.
To pozycja, którą większość publicznych analiz kosztu AI pomija. Linia tokenów jest tania do policzenia i łatwa do obrony („milion tokenów kosztuje $X"). Linia nadzoru wymaga znajomości osi niezawodności, osi kosztu błędu i obciążonej stawki recenzenta. Trzy liczby, o które większość narzędzi typu kalkulator odmawia zapytać.
Implikacja: poprawy kompetencji, które obniżają linię tokenów bez obniżania minut nadzoru, nie przesuwają ekonomii w sposób istotny. Poprawy niezawodności, które tną nadzór z dziesięciu minut na wynik do dwóch minut na wynik, zmieniają odpowiedź dla całej roli. Dlatego nasza metodologia waży niezawodność i koszt błędu jako bramki i tłumiki, a nie jako składniki sumy. Kompetencja filtruje, które zadania wchodzą do modelu; niezawodność mnoży opłacalność operacyjną; koszt błędu ją dzieli; przewaga ludzka ją tłumi.
Prognoza strukturalna: kolejna generacja znaczących redukcji kosztu pracy z AI nie pochodzi z tańszej inferencji. Pochodzi z popraw niezawodności, które istotnie zmniejszają minuty nadzoru na wynik. Członek zarządu Nvidii, który powiedział Axios w kwietniu 2026, że „koszt obliczeń jest daleko powyżej kosztów pracowników", opisywał linię inferencji. Linia niezawodności jest strukturalnie znacznie trudniejsza do popchnięcia, dlatego odwroty po-wdrożeniowe (Klarna, przepalanie budżetu na kodowanie AI w Uberze) skupiają się przy wdrożeniach, gdzie niezawodność nie dogoniła kompetencji.
Czego celowo nie zamodelowaliśmy
Trzech rzeczy, nazwanych po to, byś mógł się z nami spierać na właściwej osi. Po pierwsze, wartość opcji — wartość odroczenia wdrożenia AI, dopóki kompetencja lub koszt się nie poprawią. Zadanie, które dziś punktuje Human-led + AI-assisted, może za dwa lata przesunąć się do AI-augmented; opcja czekania ma realną wartość oczekiwaną dla firmy. Nie wyceniamy tego, bo nie mamy bronialnej krzywej spadku dla niezawodności. Krzywe kompetencji są uchwytne; krzywe niezawodności nie.
Po drugie, wartość strategicznej realokacji. Gdy AI zastępuje 20% godzin zadaniowych roli, uwolnione godziny można przekierować na pracę o wyższej dźwigni. Wartość ekonomiczna tej realokacji zależy od tego, czy uwolniony czas idzie na pracę o wysokiej wartości krańcowej (architektura, mentoring, utrzymanie klientów), czy na aktywność poziomą. Nasz model zakłada czystą oszczędność kosztu na uwolnionych godzinach, co niedoszacowuje potencjał w najlepszym przypadku i unika przeobiecywania w przypadku średnim. Jesteśmy celowo konserwatywni.
Po trzecie, wartość końcowa poza Rokiem 5. Warstwa projekcji finansowej (NPV / IRR / Payback, dostępna dla subskrybentów Pro na każdym Wagecard) biegnie pięć lat do przodu. Nie ekstrapolujemy dalej, bo założenia o spadku kompetencji i kosztu szybko robią się arbitralne. Wolimy pięcioletnią odpowiedź, której możemy bronić, od dwudziestoletniej, której nikt nie zaufa.
Co to oznacza, jeśli czytasz jako pracownik umysłowy
Nagłówkowy przekaz jest spokojny. Większość ról w korpusie v1 nie ma dziś nagłówkowych kłopotów z ekspozycją na AI, a framework przewiduje, że nie będzie ich mieć również w ciągu najbliższych pięciu lat. To nie jest obrona samozadowolenia. Dwie środkowe klasy (AI-augmented, Human-led + AI-assisted) to miejsce, gdzie dzieje się przesunięcie operacyjne, i wymagają one, by pracownik aktywnie zmienił sposób korzystania z AI — nie by się jej bać, nie by ją celebrować, ale by działać z nią jako nową podłogą zestawu narzędzi.
Jeśli chcesz konkretnego odczytu dla swojej roli, geografii i miksu zadań, kreator Wagecard zajmuje około trzech minut. Anonimowy podgląd przed zalogowaniem; żadnej pensji nie wymagamy, chyba że chcesz odczyt percentyla rynkowego. Liczby na twoim Wagecard pochodzą z tej samej macierzy, z której wyciągnęliśmy powyższe wnioski.
Co to oznacza, jeśli czytasz jako lider wdrożenia
Dwa tryby awarii, które najczęściej widzimy w publicznych odwrotach, to (1) wdrożenia kompetencja-bez-niezawodności, które niedoszacowały obciążenia nadzorem, oraz (2) zadania Replaceable-według-nagłówka, które w rzeczywistości były Human-critical-według-kosztu-błędu. Oba da się zdiagnozować z wyprzedzeniem. Kompetencja i niezawodność rozkładają się czysto w naszej macierzy; koszt błędu to mnożnik 1–5 na zadanie. Diagnoza zajmuje około godziny, jeśli spiszesz zadania. Analiza po-incydentowa zajmuje około kwartału, jeśli diagnozę pominiesz.
Jeśli prowadzisz wdrożenie AI dla zespołu lub organizacji, widok B2B to przepływ wklej-role, który produkuje ten sam odczyt wyprowadzony z macierzy dla całego zatrudnienia. Metodologia jest ta sama; powierzchnia jest na poziomie organizacji.
Jeszcze jedno zastrzeżenie
Jesteśmy przed startem. Liczby powyżej pochodzą z ręcznie napisanej macierzy v1 skalibrowanej względem badań publicznych. Gdy panel ewaluatorów v1.5 ruszy (cel Q3 2026), macierz zostanie poddana testom regresji względem trzech ewaluatorów modeli, a mediany zostaną wbite w tę samą strukturę danych. Jeśli którykolwiek z pięciu powyższych wniosków odwróci się po tym przejściu, powiemy to na stronie metodologii, zaktualizujemy ten post o nowe liczby i ostemplujemy wersję. Komórki v1 pozostaną czytelne; stempel wersji na każdym Wagecard zapisuje, która macierz wyprodukowała odczyt.
Z czasem odczyt ostrzeje, w miarę jak rzeczywista adopcja wypełnia dane — jakie narzędzia AI są faktycznie używane, z jaką intensywnością, na rolę × geografię × doświadczenie. Dziś mamy to dla żadnej z komórek; liczby powyżej to odczyty modelu, a nie dane o adopcji. Bramki przejrzystości na /insights pokazują dokładnie, gdzie te dane są, a gdzie jeszcze ich nie ma, według liczby N, w czasie rzeczywistym — w tym zera.
To cała propozycja: otwarta metodologia, bo wiarygodna ekonomia musi być audytowalna. Każda liczba jest dostarczana z metodą, która ją wyprodukowała, i pasmem ufności, byś mógł sprawdzić odczyt, zamiast mu zaufać.
Komentarze i kontrargumenty wobec metodologii mile widziane. Najszybszy sposób, by spierać się z frameworkiem, to policzyć własny Wagecard i powiedzieć nam, która komórka wygląda błędnie. Wersja macierzy na każdym Wagecard zapisuje snapshot, który widziałeś; prowadzimy log audytowy tego, jak się zmieniała.