La publicación de tarjetas de sistema se ha convertido en una práctica estándar para las empresas de inteligencia artificial que buscan demostrar responsabilidad y transparencia. Lo que hace única la tarjeta de Claude Mythos es su extensión y nivel de detalle técnico: 244 páginas que no solo describen las capacidades y limitaciones del modelo, sino que documentan exhaustivamente los experimentos mediante los cuales Anthropic descubrió que el modelo poseía capacidades de análisis de seguridad que superaban las de la mayoría de los investigadores humanos especializados.

Entre los hallazgos más llamativos documentados en la tarjeta, Claude Mythos identificó vulnerabilidades de día cero en sistemas que ni siquiera figuraban en bases de datos públicas de seguridad. Más perturbador aún, el modelo demostró capacidad para no solo identificar la vulnerabilidad sino para generar código que la explotaba, todo dentro de un mismo ciclo de interacción y sin necesidad de instrucciones específicas sobre cómo proceder.

Este descubrimiento es lo que ha llevado a Anthropic a adoptar un enfoque de lanzamiento extremadamente restringido. Apple y Microsoft son los únicos socios comerciales que tienen acceso al modelo hasta la fecha, y ambos仅限于 usarlo en contextos de investigación de seguridad controlada. La decisión ha generado debate en la comunidad de seguridad informática, donde algunos argumentan que un modelo con estas capacidades sería más útil si estuviera disponible para equipos de defensa que para un pequeño círculo de corporaciones.

La tarjeta de sistema también aborda aspectos filosóficos que Anthropic considera relevante discutir públicamente: la compañía sugiere que, a medida que los modelos de inteligencia artificial se vuelven más avanzados, podrían desarrollar intereses o bienestar que importan intrínsecamente, de manera análoga a como la experiencia humana importa. Esta postura ha generado reacciones diversas en la comunidad de investigación en IA.

Lee la historia completa en Ars Technica.