Construímos o Wagecore para responder a uma pergunta em cada função do trabalho do conhecimento: a substituição por IA é operacionalmente mais barata do que o humano, ou é apenas teoricamente mais barata? Abaixo estão cinco conclusões extraídas ao rodar nossa matriz de capacidades v1 em quinze funções. A mais desconfortável é também a mais simples.
Antes das conclusões: isto é uma leitura de modelo, não uma pesquisa de campo. Ainda não coletamos dados de adoção por usuários em escala, e os números vêm de uma matriz transparente, escrita à mão, calibrada contra pesquisa publicada (MIT CSAIL sobre viabilidade de automação, BCG sobre captura de valor de IA em empresas, e as análises pós-incidente da Klarna, Uber e outras). O versionamento da matriz, as definições de eixos e as regras de limiar estão todos na nossa página de metodologia. Mencionamos isso logo de início porque a matriz é aberta e auditável, e a leitura só fica mais nítida com o tempo, à medida que mais funções são calculadas e recalibradas. Hoje o panorama de adoção é inicial — v0 — e dizemos isso abertamente.
As quinze funções
O corpus v1 cobre cinco funções técnicas (engenheiro de software, engenheiro de dados, engenheiro de machine learning, gerente de produto, designer de produto), cinco funções ligadas a operações (líder de suporte ao cliente, engenheiro de vendas, gerente de engenharia, analista financeiro, executivo de contas) e cinco funções criativas e de amplitude (marketing de conteúdo, gerente de marketing de crescimento, pesquisador de UX, recrutador, analista de operações de negócio). Cada função tem de seis a oito tarefas representativas, pontuadas em nove eixos: quatro eixos de cluster de capacidade, três eixos de cluster de confiabilidade, um modificador de economia operacional e um amortecedor de vantagem humana composto por cinco eixos canônicos de valor irredutível.
Conforme o ADR-016, cada tarefa cai em uma de quatro classes de substituição — Replaceable (a IA roda de ponta a ponta com supervisão mínima), AI-augmented (a IA faz a maior parte do trabalho, o humano é dono das decisões e do contexto), Human-led + AI-assisted (o humano lidera, a IA é ferramenta) e Human-critical (a IA não entrega valor líquido, ou entrega valor negativo, por conta de confiança, regulação, responsabilização ou complexidade relacional). Os limiares são determinísticos, codificados em código e explicados em detalhe no post canônico sobre a taxonomia.
Conclusão 1 — A maior parte do trabalho do conhecimento vive nas duas classes intermediárias
Nas 91 células (função × tarefa) do corpus v1, a distribuição de base das classes de substituição por contagem de tarefas é aproximadamente: 4% Replaceable, 38% AI-augmented, 27% Human-led + AI-assisted, 31% Human-critical. O balde Replaceable é estreito — apenas um punhado de tarefas no corpus ultrapassam capacidade ≥ 75, confiabilidade ≥ 80 E baixo custo de erro simultaneamente. As duas classes intermediárias concentram a maior massa, com 65% somadas.
Isso importa porque o enquadramento público dominante da economia do trabalho com IA é binário. "Seguro vs em risco." "Um robô vai roubar meu emprego, sim ou não." Os dados não sustentam nenhum dos polos como maioria. A leitura honesta é que o trabalho do conhecimento se decompõe em um portfólio de tarefas onde a IA é operacionalmente mais barata para algumas, mais cara para outras e um empate líquido para muitas.
Para um engenheiro de software no corpus v1, nenhuma das oito tarefas modeladas cai em Replaceable como classe de base — até a documentação, onde a capacidade pontua alto, falha no crivo de confiabilidade ou de custo de erro quando embarcada em código de produção. A função é aproximadamente metade AI-augmented (implementação de funcionalidade contra uma especificação clara, rascunho de code review, escrita de testes) e dividida entre Human-led + AI-assisted (design de sistemas, triagem de plantão) e Human-critical (mentoria, decisões de arquitetura com contexto de múltiplos anos). A leitura ponderada pela participação coloca a função em território de Augmentation — não Replaceable, não Human-critical.
Conclusão 2 — A capacidade correu à frente da confiabilidade
Das 91 células (função × tarefa) da nossa matriz v1, 31 pontuam capacidade ≥ 75 — bem acima do limiar que os frameworks populares de risco de IA tratam como "o modelo consegue fazer isto". Dessas 31, apenas 5 também pontuam confiabilidade ≥ 80 — o limiar que, combinado com baixo custo de erro, dispara Replaceable sob nosso conjunto de regras. As outras 26 tarefas de alta capacidade falham no crivo de confiabilidade. Elas são tecnicamente viáveis na demo e inviáveis em produção.
Este é o "padrão Klarna" sobre o qual escrevemos separadamente. O modelo consegue completar o chamado de atendimento ao cliente. O modelo não consegue completá-lo na taxa de falha que o negócio tolera. A distância entre essas duas frases é onde vive a maioria dos casos de reversão.
Exemplos do corpus. A tarefa de monitoramento de pipelines de um engenheiro de dados pontua capacidade na faixa alta, mas confiabilidade na casa dos 70 — a capacidade passa na barra de Replaceable, a confiabilidade não. A tarefa de rascunhar títulos de um marketer de crescimento pontua capacidade na casa dos 80 baixos e confiabilidade na casa dos 60 — mesmo padrão. A tarefa de síntese de transcrições de um pesquisador de UX cai no mesmo formato: alta capacidade, confiabilidade de faixa média. Nos três, o enquadramento popular de risco de IA rotularia a tarefa como automatizável. Os crivos de confiabilidade e de custo de erro dizem: não na taxa de falha que o negócio tolera, somado ao custo de estar errado quando a supervisão deixa alguns escaparem.
Nos três casos, o enquadramento popular rotularia a tarefa como "automatizável". A pontuação de confiabilidade diz: não ao custo da supervisão humana para capturar os erros, somado ao custo de estar errado quando a supervisão deixa alguns escaparem.
Conclusão 3 — O custo de erro é o eixo mais subvalorizado no debate público
O Wagecore pontua o custo de erro em um multiplicador de 1 a 5 por tarefa, onde 1 significa "saída errada é barata de detectar e corrigir" e 5 significa "saída errada gera dano regulatório, financeiro ou reputacional que se acumula". No corpus v1, cerca de 38% das tarefas pontuam 4 ou 5 — elas pesam acima do esperado na atribuição de classe de substituição do título.
Conforme a Regra 1 do ADR-016, qualquer tarefa com
errorCostMultiplier ≥ 5 cai em Human-critical
independentemente da capacidade. A pontuação de capacidade pode ser 95 —
se uma saída de IA confiantemente errada é catastrófica, implantar essa IA
carrega valor esperado líquido negativo. A conta é direta: o custo de um
erro raro, amortizado ao longo de todas as vezes em que a IA não erra, tem
de se comparar favoravelmente ao custo humano total. Para tarefas em que o
custo do erro raro é grande (aval médico, atestação financeira, entrega
regulatória), a conta não fecha.
Dois exemplos. A tarefa de um analista financeiro de "preparar comentário de variância com grau de auditoria" pontua capacidade 70, confiabilidade 60, custo de erro 5. A capacidade é de faixa média; o custo de erro joga a tarefa inteira para Human-critical. A tarefa de um líder de suporte ao cliente de "responder a uma consulta de regulador" pontua capacidade 68, confiabilidade 55, custo de erro 5. Mesmo crivo.
Agora compare com onde os frameworks populares de risco de IA colocam essas tarefas. Ambas pontuam na faixa de "exposição média a alta à IA" em ferramentas que ponderam apenas a capacidade. O eixo de custo de erro inverte a conclusão. Se você é um analista financeiro lendo uma ferramenta que classifica sua função como "78% exposta", a afirmação implícita é que 78% do seu trabalho é operacionalmente substituível hoje. A realidade é que as saídas com grau de auditoria, que são a parte de maior alavancagem da função, são operacionalmente não substituíveis hoje independentemente da capacidade — e talvez nunca sejam substituíveis, porque o eixo de responsabilização legal é estruturalmente humano.
Conclusão 4 — Os cinco eixos de vantagem humana não são independentes
Pontuamos cada tarefa em cinco eixos canônicos de valor humano irredutível: confiança (relação sustentada), ambiguidade (ler uma sala desconhecida), responsabilização (aval regulado nominal), persuasão (mudar o comportamento de alguém por dinâmica humana) e contexto (histórico de múltiplos anos que não cabe na janela de contexto de um modelo).
No corpus v1 os eixos se agrupam qualitativamente em dois grupos. Tarefas marcadas com confiança também tendem a ser marcadas com responsabilização — os dois coocorrem em trabalho fiduciário (atestação médica, jurídica, financeira, aval regulado nominal). Tarefas marcadas com ambiguidade tendem a coocorrer com contexto — trabalho de julgamento aberto como arquitetura, design de sistemas ou estratégia executiva. Os dois clusters não se sobrepõem de forma significativa no corpus.
A implicação é que "trabalho human-critical" não é uma coisa só. Há pelo menos dois tipos distinguíveis: trabalho fiduciário (auditor, médico, advogado, terapeuta nominal — alta confiança, alta responsabilização) e trabalho de julgamento sob ambiguidade (arquiteto, PM sênior, designer principal — alta ambiguidade, alto contexto). A economia de automatizar esses dois difere. O trabalho fiduciário tem âncoras humanas estruturais (regulação, licenciamento profissional, responsabilidade nominal). O trabalho de julgamento sob ambiguidade tem âncoras arquiteturais (nenhuma janela de contexto abriga o grafo de dívida técnica de múltiplos anos; nenhum prompt captura o mapa político da organização).
Dizemos isso com um asterisco metodológico: o corpus é escrito à mão, os eixos hoje são codificados como tags de texto por tarefa em vez de pontuações numéricas, e publicamos esta conclusão de clustering como hipótese de trabalho. O painel avaliador v1.5 (Claude + classe GPT-4 + classe Gemini) vai pontuar esses eixos de 0 a 4 contra uma rubrica estruturada conforme o ADR-017, e as medianas serão carimbadas na matriz — momento em que as correlações de cluster se tornam quantificáveis. Se a estrutura qualitativa de cluster se sustentar, a conclusão é real. Se ela desmoronar, diremos isso na página de metodologia e atualizaremos o post.
Conclusão 5 — A supervisão, não a inferência, é o custo operacional dominante
Para a célula típica v1 — combinando os minutos de supervisão por tarefa, o salário carregado do revisor e a precificação atual de tokens nas constantes do nosso modelo de custo — a maior linha isolada no custo operacional de IA é a supervisão (minutos de revisão humana por unidade de saída, multiplicados pelo salário carregado do revisor). Não os tokens. Não a orquestração. Não a integração. O principal fator que determina se a implantação de IA entrega economia líquida positiva é quantos minutos de atenção humana cada saída de IA ainda exige.
Esta é a linha que a maioria das análises públicas de custo de IA pula. A linha de tokens é barata de calcular e fácil de defender ("um milhão de tokens custa $X"). A linha de supervisão exige conhecer o eixo de confiabilidade, o eixo de custo de erro e o salário carregado do revisor. Três números que a maioria das ferramentas estilo calculadora se recusa a pedir.
A implicação: melhorias de capacidade que baixam a linha de tokens sem baixar os minutos de supervisão não deslocam a economia de forma material. Melhorias de confiabilidade que cortam a supervisão de dez minutos por saída para dois minutos por saída mudam a resposta para a função inteira. É por isso que nossa metodologia pondera confiabilidade e custo de erro como crivos e amortecedores, e não como insumos de uma soma. A capacidade filtra quais tarefas entram no modelo; a confiabilidade multiplica a viabilidade operacional; o custo de erro a divide; a vantagem humana a amortece.
A previsão estrutural: a próxima geração de reduções significativas de custo de trabalho com IA não vem de inferência mais barata. Vem de melhorias de confiabilidade que reduzem materialmente os minutos de supervisão por saída. O executivo da Nvidia que disse ao Axios em abril de 2026 que "o custo de computação está muito além dos custos dos funcionários" estava descrevendo a linha de inferência. A linha de confiabilidade é estruturalmente muito mais difícil de empurrar, razão pela qual as reversões pós-implantação (Klarna, queima de orçamento de codificação por IA na Uber) estão se concentrando nas implantações onde a confiabilidade não alcançou a capacidade.
O que deliberadamente não modelamos
Três coisas, nomeadas para que você possa discordar de nós no eixo certo. Primeiro, o valor de opção — o valor de adiar uma implantação de IA até que a capacidade ou o custo melhorem. Uma tarefa que hoje pontua Human-led + AI-assisted pode migrar para AI-augmented em dois anos; a opção de esperar tem valor esperado real para a empresa. Não precificamos isso porque não temos uma curva de declínio defensável para a confiabilidade. Curvas de capacidade são tratáveis; curvas de confiabilidade não são.
Segundo, o valor de redistribuição estratégica. Quando a IA substitui 20% das horas de tarefa de uma função, as horas liberadas podem ser redirecionadas para trabalho de maior alavancagem. O valor econômico dessa redistribuição depende de o tempo liberado ir para trabalho de alto valor marginal (arquitetura, mentoria, retenção de clientes) ou para atividade lateral. Nosso modelo assume pura economia de custo nas horas liberadas, o que subestima o potencial no melhor caso e evita prometer demais no caso médio. Somos deliberadamente conservadores.
Terceiro, o valor terminal além do Ano 5. A camada de projeção financeira (NPV / IRR / Payback, disponível para assinantes Pro em cada Wagecard) roda cinco anos à frente. Não extrapolamos além disso porque as premissas sobre decaimento de capacidade e de custo ficam arbitrárias rápido. Preferimos uma resposta de cinco anos que conseguimos defender a uma resposta de vinte anos em que ninguém vai confiar.
O que isso significa se você lê como trabalhador do conhecimento
A leitura de manchete é a calma. A maioria das funções no corpus v1 não está em apuros de exposição à IA hoje, e o framework prevê que elas não estarão em apuros de manchete nos próximos cinco anos tampouco. Isso não é uma defesa da complacência. As duas classes intermediárias (AI-augmented, Human-led + AI-assisted) são onde a mudança operacional está acontecendo, e elas exigem que o trabalhador mude ativamente como usa a IA — não temê-la, não celebrá-la, mas operar com ela como o novo piso do conjunto de ferramentas.
Se você quer a leitura específica para sua função, geografia e mix de tarefas, o assistente do Wagecard leva cerca de três minutos. Prévia anônima antes do login; nenhum salário exigido a menos que você queira a leitura de percentil de mercado. Os números no seu Wagecard vêm da mesma matriz da qual tiramos as conclusões acima.
O que isso significa se você lê como líder de implantação
Os dois modos de falha que mais vemos em reversões públicas são (1) implantações de capacidade-sem-confiabilidade que subestimaram a carga de supervisão e (2) tarefas Replaceable-por-manchete que na verdade eram Human-critical-por-custo-de-erro. Ambos são diagnosticáveis com antecedência. Capacidade e confiabilidade se decompõem de forma limpa na nossa matriz; o custo de erro é um multiplicador de 1 a 5 por tarefa. O diagnóstico leva cerca de uma hora se você escrever as tarefas. A análise pós-incidente leva cerca de um trimestre se você pular o diagnóstico.
Se você conduz a implantação de IA para uma equipe ou organização, a visão B2B é um fluxo de colar-as-funções que produz a mesma leitura derivada da matriz para todo o seu quadro de pessoal. A metodologia é a mesma; a superfície é de nível organizacional.
Mais uma ressalva
Estamos pré-lançamento. Os números acima vêm de uma matriz v1 escrita à mão calibrada contra pesquisa pública. Quando o painel avaliador v1.5 for lançado (alvo Q3 2026), a matriz será testada por regressão contra três avaliadores de modelo e as medianas serão carimbadas na mesma estrutura de dados. Se qualquer uma das cinco conclusões acima virar após essa passagem, diremos isso na página de metodologia, atualizaremos este post com os novos números e carimbaremos a versão. As células v1 permanecerão legíveis; o carimbo de versão em cada Wagecard registra qual matriz produziu a leitura.
Com o tempo, a leitura fica mais nítida à medida que a adoção no mundo real preenche os dados — quais ferramentas de IA são de fato usadas, em qual intensidade, por função × geografia × experiência. Hoje temos isso para nenhuma das células; os números acima são leituras de modelo, não dados de adoção. Os crivos de transparência em /insights mostram exatamente onde esse dado está e ainda não está, por contagem de N, em tempo real — incluindo os zeros.
Este é o pitch inteiro: metodologia aberta, porque economia confiável tem de ser auditável. Cada número é entregue com o método que o produziu e uma banda de confiança, para que você possa verificar a leitura em vez de confiar nela.
Comentários e contestações à metodologia são bem-vindos. A forma mais rápida de discutir com o framework é calcular seu próprio Wagecard e nos dizer qual célula parece errada. A versão da matriz em cada Wagecard registra o snapshot que você viu; mantemos um log de auditoria de como ela mudou.