Por fin existe un sitio para reportar todas las fallas de la IA

Paylaş

Bu Yazıyı Paylaş

veya linki kopyala

De vez en cuando, me encuentro con modelos de IA que se comportan de forma incorrecta y extraña. Normalmente, no hay nada que se pueda hacer al respecto, salvo compartir mis anécdotas con los lectores de WIRED. Pero eso podría cambiar pronto.

Un grupo de investigadores de IA ha creado un sitio web colaborativo, Flaw Reporting for AI (FLARE-AI), para reportar y rastrear los daños causados ​​por la IA. Por ejemplo, si un chatbot genera malware o una receta para fabricar bombas, filtra información personal o provoca delirios en los usuarios, FLARE-AI podría usarse para alertar. El código fuente abierto del sistema permite que otros verifiquen un problema y envíen los informes a los creadores del modelo, así como a organizaciones como MITRE, una organización sin fines de lucro que monitorea los problemas con los sistemas técnicos. Es similar a Downdetector, que recopila informes de usuarios en tiempo real sobre interrupciones de servicio globales que afectan a aplicaciones y sitios web.

Un sitio para acusar a tu IA maligna

El sitio web supone un paso más en el trabajo continuo del grupo en materia de notificación de fallas de IA. Los miembros del grupo también prestaron asesoramiento sobre un proyecto de ley del Congreso anunciado en junio, que supondría que el gobierno de EE UU asumiera un papel central en el seguimiento de este tipo de comportamientos indebidos de la IA.

"En la actualidad, no existe una forma centralizada y transparente de informar sobre fallas en los sistemas de IA", afirma Avijit Ghosh, investigador de políticas de IA en HuggingFace, quien codirigió el desarrollo de FLARE-AI junto con los científicos informáticos Elaine Zhu y Shayne Longpre.

El sistema de alarma se desarrolló en colaboración con 49 expertos en IA de 32 organizaciones diferentes. En un documento que describe el trabajo, los investigadores argumentan que su iniciativa podría resultar crucial a medida que la IA se adopte de forma más generalizada y los sistemas con capacidad agéntica adquieran mayor poder. Consideran que la falta de un método consistente para informar sobre fallas en la IA es un problema importante.

"Me parece excelente. Apoyo cualquier iniciativa que haga que la IA sea más transparente", afirma Jessica Ji, investigadora del centro de estudios Center for Security and Emerging Technology. Ji señala que los investigadores tienen razón al destacar que los mecanismos de denuncia existentes están fragmentados y que los modelos de IA son opacos.

Aunque las fallas y los problemas de ciberseguridad reciben mucha atención, Ghosh comenta que los problemas con los sistemas de IA abarcan temas como el daño psicológico, la discriminación o los sesgos, y la desinformación. Añade que las distintas empresas tienen estándares diferentes en relación con estos temas, lo que significa que algunos problemas pasan desapercibidos. "Ante la ausencia de un sistema de divulgación coordinado, no existen mecanismos externos que garanticen la transparencia", afirma Ghosh.

Una serie de incidentes recientes relacionados con herramientas populares de IA demuestra lo fácil que es que esta tecnología falle.

Esta semana, una empresa llamada LayerX reveló una forma de engañar a los navegadores web con IA, incluidos Atlas de OpenAI y Comet de Perplexity, para que eludieran sus medidas de seguridad. Por ejemplo, convencer al modelo de IA del navegador de que estaba jugando a un juego podría provocar que el navegador se descontrolara e intentara hackear un sitio web. Según LayerX, las empresas responsables de los navegadores afectados ya han solucionado el problema. Y en abril, Johann Rehberger, un investigador de seguridad, descubrió una forma de engañar a Claude para que revelara datos personales utilizando imágenes generadas por ChatGTP.

Collage de personas en un concierto y tickets.

Un investigador descubrió que, utilizando Claude Opus 4.7 de Anthropic, podía acceder sin autorización a la página web de Front Gate, utilizada por todos los festivales, desde Lollapalooza hasta Bonnaroo, y emitir libremente cualquier entrada que quisiera.

Nuevos y extraños tipos de problemas

El año pasado, OpenAI se vio obligada a actualizar sus modelos tras descubrir que eran excesivamente aduladores, lo que a veces parecía fomentar el pensamiento delirante.

Rumman Chowdhury, CEO y fundadora de Humane Intelligence PBC, afirma que FLARE-AI podría ser una herramienta útil para que muchos desarrolladores de IA implementen sistemas para reportar problemas con sus herramientas. Sin embargo, añade que este tipo de iniciativas suelen presentar serios desafíos.