Anthropic se alía con sus rivales para evitar que la IA lo hackee todo

A finales de marzo, tras desarrollar un nuevo y potente modelo de Claude, Anthropic anunció formalmente Mythos Preview, junto con la creación de un consorcio industrial, conocido como Proyecto Glasswing, para abordar las implicaciones en ciberseguridad del nuevo modelo y el avance general de las capacidades en el campo de la IA.

El grupo incluye a Microsoft, Apple y Google, así como a Amazon Web Services (AWS), la Fundación Linux, Cisco, Nvidia, Broadcom y más de 40 organizaciones de tecnología, ciberseguridad, infraestructuras críticas y finanzas que tendrán acceso privado al modelo, que aún no se ha hecho público. La idea, en parte, es dar tiempo a los desarrolladores de las plataformas tecnológicas fundacionales del mundo para activar Mythos Preview en sus propios sistemas, de modo que puedan mitigar las vulnerabilidades y explotar las cadenas que el modelo desarrolla en ataques simulados. En términos más generales, Anthropic destaca que el propósito de esta iniciativa es impulsar una exploración urgente de cómo las capacidades de IA en toda la industria están, según la compañía, a punto de revolucionar las prácticas actuales de seguridad de software y defensa digital en todo el mundo.

"El verdadero mensaje es que esto no tiene que ver con el modelo ni con Anthropic. Debemos prepararnos ahora para un mundo donde estas capacidades estén ampliamente disponibles en 6, 12 o 24 meses. La seguridad cambiará en muchos aspectos. Muchos de los supuestos sobre los que hemos construido los paradigmas de seguridad modernos podrían dejar de ser válidos", explica Logan Graham, líder del equipo de pruebas de penetración de la compañía, a WIRED.

Anthropic hace un intento por minimizar las vulnerabilidades

Los modelos desarrollados y entrenados por múltiples empresas han sido cada vez más capaces de encontrar vulnerabilidades en el código y proponer mitigaciones, o estrategias de explotación. Esto crea una nueva generación del clásico juego del gato y el ratón de la seguridad, en el que una herramienta puede ayudar a los defensores, pero también puede alimentar a los hackers y facilitar la realización de ataques que antes eran demasiado caros o complejos para ser prácticos.

"Claude Mythos es un salto especialmente grande. No lo hemos entrenado específicamente para que sea bueno en ciberseguridad. Lo entrenamos para que fuera bueno en programación, pero como consecuencia de ello, también lo es en ciberseguridad", declaró Dario Amodei, CEO de Anthropic, en un video de presentación del proyecto Glasswing. Y añade que "modelos más potentes van a venir de nosotros y de otros. Así que necesitamos un plan para responder a esto".

Graham, de Anthropic, señala que, además del descubrimiento de vulnerabilidades, incluida la producción de posibles cadenas de ataque y pruebas de concepto, Mythos Preview es capaz de desarrollar exploits más avanzados, realizar pruebas de penetración, evaluar la seguridad de puntos finales, buscar errores de configuración del sistema y evaluar binarios de software sin acceder a su código fuente.

Según Graham, al llevar a cabo un lanzamiento escalonado de Mythos Preview, que comenzó con una fase de colaboración con la industria, Anthropic buscó basarse en los principios de la divulgación coordinada de vulnerabilidades, el proceso de dar tiempo a los desarrolladores para corregir un error antes de que se discuta públicamente.

"Hemos visto cómo Mythos Preview lograba cosas que un investigador de seguridad de alto nivel sería capaz de lograr. Esto tiene implicaciones muy grandes entonces sobre cómo se deben liberar capacidades como esta. Si no se hace con cuidado, podría ser un acelerador significativo para los atacantes", afirma Graham.

La respuesta de Google y otras big tech

Los socios del proyecto Glasswing, incluidos algunos de los competidores de Anthropic, adoptaron un tono colaborativo en las declaraciones realizadas durante el lanzamiento. "Google se complace en ver que esta iniciativa de ciberseguridad intersectorial se está uniendo. Hace tiempo que creemos que la IA plantea nuevos retos y abre nuevas oportunidades en ciberdefensa", afirma Heather Adkins, vicepresidenta de ingeniería de seguridad de Google, en un comunicado.

Aquellos que mantienen componentes de la infraestructura de internet y las empresas que desarrollan plataformas tecnológicas fundacionales también parecen entusiasmados con la colaboración, especialmente dado que Anthropic dice que el uso de Mythos Preview ya ha comenzado a descubrir miles de vulnerabilidades críticas, incluidos algunos errores de décadas de antigüedad que han sido repetidamente pasados por alto o pasados por alto incluso en el código más escudriñado.