Construimos Wagecore para responder una sola pregunta por cada rol del conocimiento: ¿la sustitución por IA es operativamente más barata que la persona, o solo es más barata en teoría? A continuación, cinco hallazgos tras ejecutar nuestra matriz de capacidades v1 sobre quince roles. El más incómodo es también el más simple.
Antes de los hallazgos: esto es una lectura de modelo, no una encuesta. Todavía no hemos recopilado datos de adopción de usuarios a escala, y las cifras provienen de una matriz transparente escrita a mano, calibrada contra investigación publicada (MIT CSAIL sobre viabilidad de la automatización, BCG sobre captura de valor de la IA en empresas, y las revisiones posteriores a incidentes de Klarna, Uber y otras). El versionado de la matriz, las definiciones de ejes y las reglas de umbral están todos en nuestra página de metodología. Lo mencionamos por adelantado porque la matriz es abierta y auditable, y la lectura solo se afina con el tiempo, a medida que se calculan y recalibran más roles. Hoy el panorama de la adopción es temprano —v0— y así lo decimos.
Los quince roles
El corpus v1 cubre cinco roles técnicos (ingeniero de software, ingeniero de datos, ingeniero de machine learning, product manager, product designer), cinco roles cercanos a operaciones (responsable de soporte al cliente, sales engineer, engineering manager, analista financiero, account executive), y cinco roles creativos y transversales (content marketer, growth marketing manager, investigador UX, reclutador, analista de business operations). Cada rol tiene de seis a ocho tareas representativas, puntuadas en nueve ejes: cuatro ejes del clúster de capacidad, tres ejes del clúster de fiabilidad, un modificador de economía operativa, y un amortiguador de ventaja humana compuesto por cinco ejes canónicos de valor irreducible.
Según la ADR-016, cada tarea cae en una de cuatro clases de sustitución: Replaceable (la IA opera de extremo a extremo con supervisión mínima), AI-augmented (la IA hace la mayor parte del trabajo, la persona es dueña de las decisiones y el contexto), Human-led + AI-assisted (la persona lidera, la IA es una herramienta), y Human-critical (la IA no aporta valor neto, o aporta valor negativo, por confianza, regulación, responsabilidad o complejidad relacional). Los umbrales son deterministas, codificados en el código, y explicados en detalle en el artículo canónico sobre la taxonomía.
Hallazgo 1 — La mayor parte del trabajo del conocimiento vive en las dos clases centrales
En las 91 celdas (rol × tarea) del corpus v1, la distribución base de clases de sustitución por número de tareas es aproximadamente: 4 % Replaceable, 38 % AI-augmented, 27 % Human-led + AI-assisted, 31 % Human-critical. El cubo Replaceable es estrecho: solo un puñado de tareas del corpus supera simultáneamente capacidad ≥ 75, fiabilidad ≥ 80 Y bajo coste de error. Las dos clases centrales cargan con la mayor masa, un 65 % combinado.
Esto importa porque el encuadre público dominante de la economía laboral de la IA es binario. «A salvo vs en riesgo.» «¿Van a quitarme los robots mi empleo, sí o no?» Los datos no respaldan ninguno de los dos polos como mayoritario. La lectura honesta es que el trabajo del conocimiento se descompone en una cartera de tareas donde la IA es operativamente más barata para algunas, más cara para otras, y neutra para muchas.
Para un ingeniero de software del corpus v1, ninguna de las ocho tareas modeladas cae en Replaceable como clase base: incluso la documentación, donde la capacidad puntúa alto, falla en la puerta de fiabilidad o de coste de error cuando se lleva a código de producción. El rol es aproximadamente mitad AI-augmented (implementación de funcionalidad contra una especificación clara, redacción de revisiones de código, escritura de pruebas) y se reparte entre Human-led + AI-assisted (diseño de sistemas, triaje de guardias) y Human-critical (mentoría, decisiones de arquitectura con contexto de varios años). La lectura ponderada por peso sitúa el rol en territorio de aumento, ni Replaceable ni Human-critical.
Hallazgo 2 — La capacidad ha corrido por delante de la fiabilidad
De las 91 celdas (rol × tarea) de nuestra matriz v1, 31 puntúan capacidad ≥ 75, muy por encima del umbral que los marcos populares de exposición a la IA tratan como «el modelo sabe hacer esto». De esas 31, solo 5 también puntúan fiabilidad ≥ 80, el umbral que, combinado con bajo coste de error, dispara Replaceable en nuestro conjunto de reglas. Las otras 26 tareas de alta capacidad fallan en la puerta de fiabilidad. Son técnicamente alcanzables en la demo y no alcanzables en producción.
Este es el «patrón Klarna» sobre el que escribimos por separado. El modelo sabe completar el ticket de atención al cliente. El modelo no sabe completarlo a la tasa de fallo que el negocio puede tolerar. La brecha entre esas dos frases es donde vive la mayoría de los casos de reversión.
Ejemplos del corpus. La tarea de monitoreo de pipelines de un ingeniero de datos puntúa capacidad en la banda alta pero fiabilidad en los 70 y pico bajos: la capacidad supera la barra Replaceable, la fiabilidad no. La tarea de redacción de titulares de un growth marketer puntúa capacidad en los 80 bajos y fiabilidad en los 60 medios: mismo patrón. La tarea de síntesis de transcripciones de un investigador UX cae en la misma forma: alta capacidad, fiabilidad intermedia. En los tres casos el encuadre popular de exposición a la IA etiquetaría la tarea como automatizable. Las puertas de fiabilidad y de coste de error dicen: no a la tasa de fallo que el negocio tolerará, más el coste de equivocarse cuando la supervisión deja pasar algunos.
En los tres casos el encuadre popular etiquetaría la tarea como «automatizable». La puntuación de fiabilidad dice: no al coste de la supervisión humana necesaria para atrapar los errores, más el coste de equivocarse cuando la supervisión deja pasar algunos.
Hallazgo 3 — El coste de error es el eje más infravalorado en el debate público
Wagecore puntúa el coste de error en un multiplicador de 1 a 5 por tarea, donde 1 significa «una salida errónea es barata de detectar y corregir» y 5 significa «una salida errónea genera daño regulatorio, financiero o reputacional que se agrava». En el corpus v1, aproximadamente el 38 % de las tareas puntúa 4 o 5: pesan más de lo que su peso indicaría en la asignación de clase de sustitución de titular.
Según la Regla 1 de la ADR-016, cualquier tarea con
errorCostMultiplier ≥ 5 cae en Human-critical
independientemente de la capacidad. La puntuación de capacidad puede ser 95:
si una salida de IA segura pero errónea es catastrófica, desplegar esa IA
conlleva un valor esperado neto negativo. El cálculo es directo: el
coste de un error raro, amortizado entre todas las veces que la IA no
se equivoca, tiene que compararse favorablemente con el coste humano total. Para
tareas donde el coste del error raro es alto (visto bueno médico, atestación
financiera, presentación regulatoria), el cálculo falla.
Dos ejemplos. La tarea «preparar comentario de varianza con calidad de auditoría» de un analista financiero puntúa capacidad 70, fiabilidad 60, coste de error 5. La capacidad es intermedia; el coste de error encierra toda la tarea en Human-critical. La tarea «responder a una consulta de un regulador» de un responsable de soporte al cliente puntúa capacidad 68, fiabilidad 55, coste de error 5. Misma puerta.
Ahora compara con dónde sitúan estas tareas los marcos populares de exposición a la IA. Ambas puntúan en la banda «exposición a la IA media a alta» en herramientas que solo ponderan la capacidad. El eje de coste de error invierte la conclusión. Si eres analista financiero y lees una herramienta que clasifica tu rol como «78 % expuesto», la afirmación implícita es que el 78 % de tu trabajo es operativamente sustituible hoy. La realidad es que las salidas con calidad de auditoría, que son la parte de mayor apalancamiento del rol, son operativamente no sustituibles hoy, independientemente de la capacidad, y puede que nunca lo sean, porque el eje de responsabilidad legal es estructuralmente humano.
Hallazgo 4 — Los cinco ejes de ventaja humana no son independientes
Puntuamos cada tarea en cinco ejes canónicos de valor humano irreducible: confianza (relación sostenida), ambigüedad (leer una sala desconocida), responsabilidad (visto bueno regulado y nominal), persuasión (cambiar el comportamiento de alguien mediante dinámicas humanas), y contexto (historia de varios años que no cabe en una ventana de contexto de modelo).
En el corpus v1 los ejes se agrupan cualitativamente en dos grupos. Las tareas etiquetadas con confianza también tienden a estar etiquetadas con responsabilidad: ambas coexisten en trabajo fiduciario (atestación médica, legal, financiera, visto bueno regulado y nominal). Las tareas etiquetadas con ambigüedad tienden a coexistir con contexto: trabajo de juicio abierto como arquitectura, diseño de sistemas o estrategia ejecutiva. Los dos clústeres no se solapan de forma significativa en el corpus.
La implicación es que el «trabajo Human-critical» no es una sola cosa. Hay al menos dos tipos distinguibles: el trabajo fiduciario (auditor, médico, abogado, terapeuta nombrado: alta confianza, alta responsabilidad) y el trabajo de juicio bajo ambigüedad (arquitecto, PM senior, principal designer: alta ambigüedad, alto contexto). La economía de automatizar cada uno difiere. El trabajo fiduciario tiene anclas humanas estructurales (regulación, licencia profesional, responsabilidad nominal). El trabajo de juicio bajo ambigüedad tiene anclas arquitectónicas (ninguna ventana de contexto contiene el grafo de deuda técnica de varios años; ningún prompt captura el mapa político de la organización).
Lo decimos con un asterisco metodológico: el corpus está escrito a mano, los ejes hoy se codifican como etiquetas de texto por tarea en lugar de puntuaciones numéricas, y publicamos este hallazgo de agrupamiento como una hipótesis de trabajo. El panel de evaluadores v1.5 (Claude + clase GPT-4
- clase Gemini) puntuará estos ejes de 0 a 4 contra una rúbrica estructurada según la ADR-017, y las medianas se sellarán en la matriz: punto en el que las correlaciones de clúster se vuelven cuantificables. Si la estructura cualitativa de clústeres se sostiene, el hallazgo es real. Si colapsa, lo diremos en la página de metodología y actualizaremos el artículo.
Hallazgo 5 — La supervisión, no la inferencia, es el coste operativo dominante
Para la celda v1 típica —combinando los minutos de supervisión por tarea, el salario cargado del revisor y el precio actual de los tokens en nuestras constantes de modelo de coste— la mayor línea individual del coste operativo de la IA es la supervisión (minutos de revisión humana por unidad de salida, multiplicados por el salario cargado del revisor). No los tokens. No la orquestación. No la integración. El principal factor que determina si el despliegue de IA sale con economía netamente positiva es cuántos minutos de atención humana sigue requiriendo cada salida de IA.
Esta es la línea que la mayoría de los análisis públicos de coste de IA se saltan. La línea de tokens es barata de calcular y fácil de defender («un millón de tokens cuesta $X»). La línea de supervisión exige conocer el eje de fiabilidad, el eje de coste de error y el salario cargado del revisor. Tres cifras que la mayoría de las herramientas tipo calculadora se niegan a pedir.
La implicación: las mejoras de capacidad que bajan la línea de tokens sin bajar los minutos de supervisión no desplazan la economía de forma material. Las mejoras de fiabilidad que recortan la supervisión de diez minutos por salida a dos minutos por salida cambian la respuesta para todo el rol. Por eso nuestra metodología pondera la fiabilidad y el coste de error como puertas y amortiguadores en lugar de como entradas de una suma. La capacidad filtra qué tareas entran en el modelo; la fiabilidad multiplica la viabilidad operativa; el coste de error la divide; la ventaja humana la amortigua.
La predicción estructural: la próxima generación de reducciones significativas del coste laboral de la IA no vendrá de una inferencia más barata. Vendrá de mejoras de fiabilidad que reduzcan materialmente los minutos de supervisión por salida. El directivo de Nvidia que dijo a Axios en abril de 2026 que «el coste del cómputo está muy por encima de los costes de los empleados» describía la línea de inferencia. La línea de fiabilidad es estructuralmente mucho más difícil de empujar, y por eso las reversiones posteriores al despliegue (Klarna, quema de presupuesto de codificación con IA en Uber) se concentran en los despliegues donde la fiabilidad no ha alcanzado a la capacidad.
Lo que deliberadamente no modelamos
Tres cosas, nombradas para que puedas discutirnos en el eje correcto. Primero, el valor de opción: el valor de posponer un despliegue de IA hasta que la capacidad o el coste mejoren. Una tarea que hoy puntúa Human-led + AI-assisted puede pasar a AI-augmented en dos años; la opción de esperar tiene un valor esperado real para la empresa. No lo valoramos porque no tenemos una curva de descenso defendible para la fiabilidad. Las curvas de capacidad son tratables; las curvas de fiabilidad no.
Segundo, el valor de redistribución estratégica. Cuando la IA sustituye el 20 % de las horas-tarea de un rol, las horas liberadas pueden redirigirse a trabajo de mayor apalancamiento. El valor económico de esa redirección depende de si el tiempo liberado va a trabajo de alto valor marginal (arquitectura, mentoría, retención de clientes) o a actividad lateral. Nuestro modelo asume puro ahorro de coste en las horas liberadas, lo que subestima el potencial en el mejor caso y evita sobreprometer en el caso promedio. Somos deliberadamente conservadores.
Tercero, el valor terminal más allá del año 5. La capa de proyección financiera (VAN / TIR / periodo de recuperación, disponible para suscriptores Pro en cada Wagecard) corre cinco años. No extrapolamos más allá porque los supuestos sobre el declive de capacidad y coste se vuelven arbitrarios rápido. Preferimos una respuesta a cinco años que podemos defender a una respuesta a veinte años que nadie creerá.
Qué significa esto si lees como trabajador del conocimiento
La lectura de titular es la tranquila. La mayoría de los roles del corpus v1 no están hoy en problemas de exposición a la IA de titular, y el marco predice que tampoco lo estarán en los próximos cinco años. Eso no es una defensa de la complacencia. Las dos clases centrales (AI-augmented, Human-led + AI-assisted) son donde el desplazamiento operativo está ocurriendo, y exigen que el trabajador cambie activamente cómo usa la IA: ni temerla, ni celebrarla, sino operar con ella como el nuevo suelo del conjunto de herramientas.
Si quieres la lectura específica para tu rol, geografía y mezcla de tareas, el asistente de Wagecard lleva unos tres minutos. Vista previa anónima antes de iniciar sesión; no se requiere salario salvo que quieras la lectura de percentil de mercado. Las cifras de tu Wagecard provienen de la misma matriz de la que sacamos los hallazgos anteriores.
Qué significa esto si lees como responsable de despliegue
Los dos modos de fallo que más vemos en las reversiones públicas son (1) despliegues capacidad-sin-fiabilidad que subestimaron la carga de supervisión, y (2) tareas Replaceable-por-titular que en realidad eran Human-critical-por-coste-de-error. Ambos son diagnosticables de antemano. Capacidad y fiabilidad se descomponen limpiamente en nuestra matriz; el coste de error es un multiplicador de 1 a 5 por tarea. El diagnóstico lleva alrededor de una hora si anotas las tareas. La revisión posterior al incidente lleva alrededor de un trimestre si te saltas el diagnóstico.
Si diriges el despliegue de IA para un equipo u organización, la vista B2B es un flujo de «pega los roles» que produce la misma lectura derivada de la matriz en toda tu plantilla. La metodología es la misma; la superficie es a nivel de organización.
Una salvedad más
Estamos en prelanzamiento. Las cifras anteriores provienen de una matriz v1 escrita a mano calibrada contra investigación pública. Cuando el panel de evaluadores v1.5 se despliegue (objetivo T3 2026), la matriz se someterá a pruebas de regresión contra tres evaluadores de modelos y las medianas se sellarán en la misma estructura de datos. Si alguno de los cinco hallazgos anteriores se invierte tras esa pasada, lo diremos en la página de metodología, actualizaremos este artículo con las nuevas cifras y sellaremos la versión. Las celdas v1 seguirán siendo legibles; el sello de versión en cada Wagecard registra qué matriz produjo la lectura.
Con el tiempo, la lectura se afina a medida que la adopción real se llena: qué herramientas de IA se usan realmente, a qué intensidad, por rol × geo × experiencia. Hoy no tenemos eso para ninguna de las celdas; las cifras anteriores son lecturas de modelo, no datos de adopción. Las puertas de transparencia en /insights muestran exactamente dónde están y dónde aún no están esos datos, por recuento N, en tiempo real, incluidos los ceros.
Esa es toda la propuesta: metodología abierta, porque una economía digna de confianza tiene que ser auditable. Cada cifra se entrega con el método que la produjo y una banda de confianza, para que puedas comprobar la lectura en lugar de confiar en ella.
Comentarios y objeciones metodológicas bienvenidos. La forma más rápida de discutir el marco es calcular tu propio Wagecard y decirnos qué celda te parece equivocada. La versión de matriz en cada Wagecard registra la instantánea que viste; llevamos un registro de auditoría de cómo cambió.