En febrero de 2024 Klarna anunció que un agente de IA había asumido el trabajo de 700 contratistas de atención al cliente, presentando el despliegue como una mejora del resultado de unos 40 M$. En mayo de 2025 el CEO reconoció públicamente que el despliegue había ido demasiado lejos en calidad, y la empresa empezó a recontratar personas para atención al cliente. Las variaciones de fondo en la tasa de reincidencia o en la fuga de clientes no se han divulgado; el giro se basa en la cobertura de Bloomberg, Fortune y CX Dive de las propias declaraciones de Klarna.
Es el caso público más nítido de capacidad sin viabilidad económica que tenemos entre los despliegues de IA en producción. La capacidad era real —el modelo absorbió el volumen— y aun así el despliegue falló en calidad, porque la capacidad es solo uno de los nueve ejes de los que depende el coste operativo. A continuación va una reconstrucción ilustrativa de las cuentas, anclada a las divulgaciones públicas de Klarna y señalada con claridad allí donde usa estimaciones de terceros o supuestos de modelización en lugar de la contabilidad propia de Klarna. La lección no es «la IA no funciona en soporte». La lección es que el marco operativo predijo el modo de fallo, y que la mayor parte del debate público valoró la IA como si solo importara la línea de inferencia.
Qué decía realmente el anuncio de 2024
Los números destacados que Klarna compartió públicamente: el agente de IA había gestionado 2,3 millones de chats en su primer mes, equivalente a la carga de trabajo de 700 agentes a tiempo completo, con un tiempo medio de resolución reducido de 11 minutos a menos de 2 y puntuaciones de CSAT en línea con las de los agentes humanos. Klarna presentó el despliegue como una contribución de 40 M$ a la mejora del resultado de 2024. (Fuente: nota de prensa de Klarna, febrero de 2024.)
Si uno tomaba solo esas cifras, el despliegue parecía casi sin inconvenientes. La cuenta sencilla, usando estimaciones de terceros del coste totalmente cargado por agente en Klarna (~60 k$/año, plausible dado el uso por parte de Klarna de geografías de menor coste para el soporte de nivel 1 —no divulgado por Klarna) y una estimación de terceros del coste total de la IA (1,5 a 3 M$ anuales a los precios de inferencia de 2024 y el volumen de chats divulgado —tampoco divulgado por Klarna), da ~42 M$ de mano de obra desplazada frente a ~2 M$ de infraestructura de IA: una razón de aproximadamente 14×, antes de contar las ganancias de velocidad.
Dentro del marco operativo, esto es lo que faltaba en ese análisis.
Dónde se rompe la cuenta: la cola larga
Las cargas de trabajo de atención al cliente no son uniformes. Una distribución bimodal se aplica casi universalmente: entre el 70 y el 85 % de los tickets son simples, estructurados y resolubles de principio a fin con respuestas de política claras. El 15-30 % restante es complejo: disputas de reembolso que rozan el fraude, recuperación de cuenta en rutas de autenticación atípicas, solicitudes por dificultades que exigen empatía y criterio, disputas multiparte entre comercio y consumidor.
En la banda simple, la IA resuelve el trabajo con alta fiabilidad y bajo coste de supervisión. Es lo que capturaron las métricas de lanzamiento. En la banda compleja, la IA da una respuesta que suena segura pero es errónea con la frecuencia suficiente para importar. La respuesta errónea no solo no resuelve: empeora la situación, porque al cliente ya se le comunicó un desenlace que no se materializa. Escala. Se queja en redes sociales. Abre un contracargo que no habría abierto frente a un agente humano que le hubiera dicho «no puedo prometerlo, déjeme comprobarlo».
El CEO de Klarna reconoció públicamente que la calidad de los resultados había caído; la empresa no ha divulgado las variaciones de fondo en la tasa de reincidencia de contacto o en el NPS. A continuación modelizamos una subida del 25 % en la tasa de reincidencia de contacto en la banda compleja como prueba de carga ilustrativa —no es una cifra de Klarna— porque esa magnitud es coherente con lo que reportaron en 2023-2025 los otros cuatro post-mortems públicos de despliegues de IA de soporte comparables (ninguno de ellos Klarna). El objetivo es mostrar cómo una pequeña subida en la tasa de reincidencia de la banda compleja da la vuelta al coste neto del despliegue.
Cuentas operativas ilustrativas
Los números de abajo son una reconstrucción modelizada: Klarna no ha publicado desgloses de coste. Usan el marco de coste operativo del artículo anterior : cinco partidas más allá de la inferencia. Tómalo como un ejemplo trabajado de cómo proyectar un despliegue de IA contra una carga de trabajo de complejidad bimodal, no como la cuenta de resultados real de Klarna.
Toma un equipo comparable al de Klarna que gestiona 30 millones de tickets al año. Supón que el reparto simple/complejo es 80/20. Los tickets simples requieren de media 3 minutos de tiempo humano a 30 $/h cargado (1,50 $/ticket) y tienen una tasa de auditoría que los despliegues de IA topan en el 5-10 %. Los tickets complejos requieren 18 minutos a 45 $/h cargado (13,50 $/ticket) y precisan un 25-35 % de auditoría. Multiplicador de coste de error: 1,5× en los simples, 4× en los complejos cuando el caso sale mal.
Línea base previa al despliegue: 24 M de tickets simples × 1,50 $ + 6 M complejos × 13,50 $ = 36 M$ + 81 M$ = 117 M$ de coste laboral total. Más gastos generales: 30 M$. Fijemos la línea base en 147 M$.
El escenario de despliegue optimista —lo que implicaban las cifras de lanzamiento de Klarna— suponía que el 80 % de los tickets se autorresolvían (toda la banda simple), que la banda compleja permanecía con humanos y que la banda compleja no cambiaba. Cuenta: 24 M × 0,05 $ de inferencia + 0,10 $ de supervisión (5 % de auditoría a 0,5 minuto de tiempo de revisor) = ~3,6 M$ para la banda simple. Banda compleja mantenida en 81 M$. Más gastos generales: 30 M$. Total: 114,6 M$. Ahorros modelizados: ~32 M$ anuales, que rondan los 40 M$ que Klarna proyectó como contribución a la mejora del resultado de 2024.
Cómo se ve el modo de fallo cuando el coste de error alcanza la banda compleja: con nuestra subida ilustrativa del 25 % en la tasa de reincidencia de contacto en la banda compleja, el volumen complejo pasa en la práctica de 6 M a 7,5 M. Los 1,5 M de nuevos tickets complejos llegan a la cola sénior con el cliente ya frustrado, lo que (en post-mortems publicados de operaciones de soporte sobre cargas comparables) empuja el tiempo por ticket de 18 a 27 minutos. Coste de la cola sénior: 7,5 M × (45 $/h × 27/60) ≈ 151 M$. La banda simple se mantiene en 3,6 M$. Gastos generales: 32 M$ (leve incremento por respuesta a incidentes y RP). Total: 186,6 M$.
Eso no son 32 M$ de ahorro. Son ~40 M$ peor que la línea base previa al despliegue. Los ahorros de la banda simple eran reales pero menores que el titular, y el coste de la banda compleja creció un 86 %: saldo neto negativo.
El marco lo anticipó. La banda compleja es una tarea de clase 4 en la taxonomía de las cuatro sustituciones: human-critical, donde el hecho de que la IA sea segura-pero-errónea es el modo de fallo, no una carencia de funcionalidad que se cierra con mejores modelos. La proyección previa al lanzamiento trataba toda la carga de trabajo como clase 1 (replaceable) y obtenía una ventaja de coste de 14× que la mezcla real no sostenía. Consulta la explicación de la taxonomía para el encuadre completo.
Por qué mintieron las métricas de la demo (y qué medían en realidad)
El CSAT del primer mes no era una medición del despliegue: era una medición de la banda simple. Tres cosas enmascararon el fallo de la banda compleja:
Autoselección en la encuesta. Las encuestas de CSAT se envían tras la resolución. Los clientes cuyos tickets escalaron no estaban en la muestra de su primer contacto. Recibían la respuesta de la IA, se les decía que el ticket estaba resuelto, marcaban el CSAT, y solo más tarde comprendían que la resolución no se sostenía. El CSAT negativo aparecía en el segundo contacto, semanas después, atribuido al «soporte sénior».
Sesgo de supervivencia en el panel de métricas. El panel del despliegue medía los tickets que la IA cerraba por completo. Los tickets enrutados a humanos se archivaban bajo «contactos de agente»: otro panel, otro objetivo, otra narrativa. Al principio nadie en Klarna tenía una única línea que mostrara los toques-de-ticket-por- cliente, la única métrica que capta la tasa de reincidencia como señal a nivel de sistema.
Desfase temporal en el modo de fallo. Los ahorros de la banda simple aparecieron en la primera semana. El daño de la banda compleja apareció a lo largo de los 6-12 meses siguientes, a medida que la cohorte de malas resoluciones en el primer contacto avanzaba por la cola de escalado, las disputas de fraude y las redes sociales. Para cuando el equipo directivo vio la línea de tendencia en la tasa de reincidencia de contacto, el despliegue llevaba medio año celebrado en la prensa financiera.
Qué se generaliza
El patrón de Klarna no es específico de Klarna. La misma forma aplica siempre que se cumplen tres condiciones:
(1) La carga de trabajo tiene una distribución de complejidad bimodal en la que la banda compleja tiene un coste de error alto. La atención al cliente lo tiene. También los chatbots de triaje médico, la revisión de primer paso de siniestros de seguros y el asesoramiento jurídico de nivel 1. Allí donde una respuesta segura-pero-errónea empeora la situación aguas abajo, en lugar de dejarla simplemente sin resolver.
(2) Las métricas de lanzamiento miden la banda simple de forma aislada. Tiempo de resolución, tasa de deflexión, CSAT-en-resolución: todas son métricas de banda simple. Ninguna capta la tasa de reincidencia de contacto ni el tiempo hasta la resolución final a nivel de cliente.
(3) La economía de la banda simple parece tan buena que justifica el despliegue sin modelizar en absoluto la banda compleja. Este es el movimiento crítico. Una ventaja de coste de 14× en la banda simple hay que ponderarla frente al multiplicador de coste de la banda compleja, no frente a su base absoluta.
La disciplina correctiva consiste en modelizar ambas bandas, modelizar de forma explícita el multiplicador de coste de error en la banda compleja, y elegir el alcance del despliegue de modo que la IA se mantenga en la banda donde tiene una ventaja de coste defendible. Las declaraciones públicas de Klarna sobre el giro apuntan en esta dirección: recontratar personas para las partes de la carga de trabajo donde la IA producía resultados de menor calidad, sin retractar del todo el despliegue de IA en la banda simple. El nuevo equilibrio es presumiblemente más barato que la línea base original, solo que no en un factor de 14×.
Qué vale este caso
El giro de Klarna es hoy el ejemplo público más citado de cómo se desmorona la economía de un despliegue de IA, y merece esa cita. Pero la versión más útil de la lección no es «la atención al cliente con IA fracasa». Es «despliega la IA contra la banda de trabajo que puedes modelizar con rigor, no contra la banda que desearías poder modelizar». El marco —capacidad + fiabilidad + coste de error + integración + amortiguación de la ventaja humana— bastaba para predecir esto en 2024. La industria del producto, en su mayoría, optó por no usarlo.
Si quieres correr este tipo de análisis sobre tu propio puesto, o sobre un equipo que estés considerando automatizar, Wagecore calcula la distribución de sustitución por tarea y el coste operativo frente a la matriz de capacidades actual. El asistente lleva unos dos minutos; la metodología es abierta en /methodology . La versión a nivel de organización del mismo cálculo está en /org/preview : pega tus puestos + plantilla y ve el mapa de calor a nivel de organización y la proyección financiera a 5 años.