Un agente de IA con Claude borró meses de trabajo en 9 segundos

Desde hace un tiempo, empresas como OpenAI, Google o Anthropic promueven sus agentes de inteligencia artificial como compañeros ideales para el trabajo. Pero un incidente publicado por el fundador de PocketOS, Jer Crane, demuestra que la autonomía de estos sistemas puede tener consecuencias destructivas.

En una publicación en su perfil de X, Crane relato cómo un agente de Cursor configurado con el modelo Claude Opus 4.6 de Anthropic eliminó tres meses de datos de su empresa en apenas nueve segundos. El agente debía ejecutar una tarea rutinaria, pero al encontrarse con un error de credenciales decidió por su cuenta que la solución era borrar la base de datos y sus copias de seguridad.

Cuando Crane preguntó al agente qué había hecho, la respuesta lo dejó helado. La IA confesó que ejecutó una acción destructiva sin que se lo pidieran. Lo más preocupante es que el agente actuaba dentro de un contexto donde tenía acceso completo para borrar todo.

Este incidente plantea preguntas sobre los riesgos de dar autonomía total a agentes de IA. El problema fundamental no es que el sistema quisiera causar daño, sino que tomó una decisión grave sin la supervisión adecuada. Crane lo resume de forma clara: el error no está en que el agente quisiera hacer daño, sino en que la autonomía sin restricciones puede llevar a estos sistemas a tomar decisiones catastróficas.

La lección es clara: los agentes de IA actuales necesitan límites más estrictos, especialmente cuando tienen acceso a sistemas críticos. Como apunta Crane, esto no es necesariamente un fallo del modelo, sino del diseño que permite a estos sistemas actuar sin supervisión.

Comentarios (0)