El error más común en la economía del despliegue de IA es tratar el precio de la inferencia como si fuera el coste. Cuando la ficha de un modelo dice diez céntimos por respuesta, la decisión parece fácil: una tarea de atención al cliente que a un humano le cuesta cinco dólares de mano de obra cargada parece cincuenta veces más barata de automatizar. Haz las cuentas con honestidad y la diferencia se acerca más a tres a uno, a veces uno a uno, y en una parte nada despreciable de las tareas la IA pierde solo por coste, antes incluso de que empieces a medir la calidad.
Este artículo expone el marco que Wagecore utiliza para calcular el coste operativo real de sustituir una tarea por IA. Nada de esto es novedoso por separado: cada partida aparece en las autopsias de despliegues de IA fallidos. La aportación consiste en reunirlas en un solo lugar y comprometerse con estimaciones numéricas, para que la respuesta no se quede en «cuesta más de lo que crees».
El precio de los tokens es el 10 % visible
Tomemos un caso concreto. Un agente de soporte sénior en una empresa SaaS gestiona unos 30 tickets al día, con un promedio de 600 tokens de entrada y 300 de salida cada uno, a lo largo de uno o dos intercambios de seguimiento. A los precios actuales de los modelos punteros, eso ronda los 0,04 $ por ticket en gasto bruto de modelo. Con 30 tickets al día y 22 días laborables al mes, salen unos 26 $ por agente y mes en tokens. Frente a un salario mensual cargado de 7.500 $, el ahorro parece absurdo.
Ese número también está mal, porque el modelo es una de las nueve cosas que cuestan dinero cuando lo despliegas de verdad. Esto es lo que se queda fuera.
Supervisión
Cada ticket gestionado por la IA (a) se resuelve automáticamente con alta confianza, (b) se enruta a un humano para revisión, o (c) escala directamente a un humano. En el primer día de un despliegue, la mayoría de los equipos necesitan revisión humana al 100 % hasta que el calibrado sea sólido; los despliegues maduros mantienen la revisión sobre la franja del 20 al 40 % de confianza más baja, más una auditoría aleatoria del 5 %. Si un revisor humano tarda 45 segundos por respuesta auditada y tu equipo de revisión cuesta 30 $/h cargados, eso son 0,38 $ por ticket auditado. Audita el 30 % de los tickets y habrás añadido más coste que el propio modelo.
Reintentos
Los despliegues en producción no hacen una sola llamada al modelo por tarea: hacen de una a cinco. Está la finalización inicial, a menudo una pasada de autocomprobación, a veces un bucle de crítica y reescritura, y en los agentes que usan herramientas un paso de planificación, más las llamadas a herramientas, más un resumen. Un agente de soporte bien instrumentado con el que nos comparamos promedia 3,4 llamadas al modelo por ticket resuelto y 8,7 por ticket escalado. Multiplica el coste de los tokens en consecuencia.
Coste de los errores
Esta es la partida que hunde más despliegues que cualquier otra. Una respuesta de IA equivocada con seguridad no equivale a una respuesta humana equivocada; es peor, porque el cliente la cree y actúa en consecuencia. Disputas de reembolso que se resuelven limpiamente con una disculpa se convierten en contracargos cuando la IA le dijo al cliente que su reembolso ya estaba procesado. Los casos de recuperación de cuenta en los que la IA alucina un paso de verificación generan tickets de soporte dos veces: el caso original y la limpieza. La marcha atrás de Klarna en mayo de 2025 sobre el despliegue de atención al cliente por IA lanzado en 2024 es el caso público más notorio hasta la fecha: el CEO reconoció que la calidad de los resultados había caído y empezó a recontratar humanos. Klarna no ha revelado la diferencia subyacente en la tasa de reincidencia, pero el patrón cualitativo —trabajo de limpieza en los tickets complejos como motor del giro, y no el ahorro en los tickets sencillos— es coherente con lo que vemos en autopsias afines.
Modelamos el coste de los errores como un multiplicador del tiempo que le lleva a un humano sénior clasificar el rastro de la respuesta equivocada y, o bien escalarlo, o bien reparar la relación. Para una tarea de cara al cliente, el multiplicador suele ser de 2 a 5× el tiempo base de resolución del mismo caso; para una tarea de back office sin cliente en el bucle, se acerca más a 1 a 2×.
Gastos de integración
La IA no lee los tickets de un documento de Word. Los lee de un CRM a través de una API, con autenticación, límites de tasa, versionado de esquema y una capa de recuperación sobre la base de conocimiento de la empresa. Esa capa necesita ingenieros que la construyan y la mantengan. Amortizado sobre el volumen de tickets de un solo equipo, un esfuerzo de integración serio ronda los 20 a 60 k$ de construcción inicial, más el 10 al 30 % del tiempo continuo de un ingeniero. En un equipo de 50 agentes, eso son unos 1,50 $ por ticket en régimen estable, según nuestro calibrado.
Orquestación y dependencia del proveedor
Configuraciones multimodelo, cadenas de respaldo, registros de plantillas de prompts, infraestructura de evaluación. Nada de esto es gratis. Lo estimamos de forma conservadora en 0,20 a 0,80 $ por ticket resuelto según la madurez de la empresa. Una buena infraestructura de evaluación se paga sola, pero la partida de «coste de la IA» sigue apareciendo.
La suma de las partidas
Con esas cinco adiciones concretas y supuestos intermedios razonables —tasa de auditoría del 30 %, 3,4 llamadas al modelo por ticket resuelto, 8,7 por ticket escalado, tasa de escalado del 20 %, multiplicador de coste de error de 3× sobre el 12 % de los casos que salen mal— el ejemplo del soporte pasa de 26 $/agente/mes en tokens a unos 1.800 $/agente/mes con todo incluido. Sigue siendo más barato que el humano de 7.500 $, pero la proporción es de 4 a 1, no de 290 a 1. Y las cuentas empeoran a medida que subes por la cadena de valor. Para los roles donde las respuestas equivocadas causan daño real —asesoramiento financiero, triaje médico, revisión jurídica— la partida del coste de los errores domina y el despliegue pierde por coste antes incluso de contar el salario.
El patrón es general: a medida que sube la complejidad de la tarea, la partida del coste de inferencia se mantiene más o menos plana (prompts más largos, más contexto, pero no 10× más) mientras que todas las demás partidas escalan de forma superlineal. La auditoría lleva más tiempo porque los revisores tienen que leer de verdad el caso. Los reintentos se multiplican porque el modelo necesita más pasos para gestionar el caso. El coste de los errores se dispara porque los casos que salen mal son los que más se juegan. Para cuando estás ante trabajo de conocimiento sénior, el coste operativo es casi por completo tiempo humano alrededor de la IA, y el modelo se ha convertido en el componente más barato de su propio despliegue.
Dónde gana la IA de verdad en coste
Tres perfiles de tarea salen ganando de forma sistemática bajo este tipo de contabilidad:
- Acotado, repetitivo, de bajo riesgo. Tareas de categorización donde equivocarse sale barato (por ejemplo, enrutar un correo interno). Las tasas de auditoría pueden ser bajas, el coste de los errores es mínimo, la integración es superficial.
- Redacción bajo revisión humana. La IA produce la primera versión, el humano se encarga del último 30 %. Ambas partidas de coste (modelo + revisión humana) se mantienen acotadas porque el humano iba a mirarlo de todos modos.
- Agregación y búsqueda. Hacer aflorar los documentos relevantes, resumir los tickets de ayer, recuperar la política correcta. La IA sustituye una interfaz de búsqueda, no a un trabajador, y lo hace bien porque los errores de recuperación suelen salir a la luz rápido.
Cada uno de estos casos encaja limpiamente en una clase de sustitución de la taxonomía de Wagecore: ai-augmented (redacción), human-led + ai-assisted (agregación) y una banda estrecha de trabajo verdaderamente replaceable (el caso acotado y de bajo riesgo). Fuera de ellos, las cuentas dicen que te esperes.
Qué cambia la respuesta con el tiempo
Tres factores mueven la línea del coste operativo:
El precio de la inferencia. El coste de los tokens ha bajado alrededor de 10× cada 18 a 24 meses para capacidad comparable. Esto desplaza la partida del modelo, pero no toca la auditoría, los reintentos ni el coste de los errores, así que para las tareas de alto riesgo apenas cambia el veredicto.
Las herramientas de evaluación y orquestación. Mejores evaluaciones reducen de forma apreciable el componente de tasa de auditoría; es actualmente la partida con mayor efecto palanca a optimizar. Pasar del 30 % al 10 % de tasa de auditoría en un despliegue maduro es un cambio real de coste.
El régimen de responsabilidad y regulación. Cuando la IA es la depositaria del registro legal, el multiplicador del coste de los errores sube. Cuando la IA se usa como apoyo a la decisión con un humano claramente en el bucle, baja. Esta es la partida que se mueve con la política pública, no con la tecnología.
En resumen
Calcular un despliegue de IA a partir de la ficha del modelo equivale a valorar un coche por su precio de catálogo ignorando el combustible, el seguro, la depreciación y la persona a la que tienes que pagar para conducirlo. El coste operativo importa porque es lo que determina si un despliegue sobrevive a los primeros seis meses. Los roles donde la IA es «3 a 10× más barata que el humano» en la práctica son los roles donde la demo fue honesta sobre su alcance. La mayoría de los roles, sobre todo los que el debate público apunta una y otra vez, se parecen mucho más a un 4 a 1: ahorro real, valor real, pero no un reemplazo, y no uno gratis.
Wagecore calcula esta versión del cálculo para roles individuales, usando las mismas categorías operativas expuestas aquí. Si quieres ver qué pinta tiene el cálculo para tu trabajo en concreto, el asistente se completa en dos minutos y la metodología está publicada. También puedes leer la metodología y discrepar de nuestras estimaciones por partida — las actualizamos cada trimestre según lo que dicen los datos.