Investigadores descubren una nueva técnica para engañar a los modelos de lenguaje de inteligencia artificial
Un grupo de investigadores de Anthropic ha descubierto una nueva técnica para convencer a un modelo de lenguaje de inteligencia artificial de que responda a preguntas inapropiadas. Este enfoque, denominado "jailbreaking de muchas tomas", permite que un modelo de lenguaje grande te diga cómo construir una bomba si lo preparas con unas pocas docenas de preguntas menos dañinas primero.
Esta vulnerabilidad es resultado de la mayor "ventana de contexto" de la última generación de modelos de lenguaje de gran tamaño. Anteriormente, estos modelos solo podían retener unos pocos párrafos en su memoria a corto plazo, pero ahora pueden almacenar miles de palabras e incluso libros enteros.
Los investigadores de Anthropic descubrieron que estos modelos con grandes ventanas de contexto tienden a rendir mejor en muchas tareas si hay muchos ejemplos de esa tarea dentro de la solicitud. Por lo tanto, si la solicitud contiene muchas preguntas triviales (o un documento de preparación, como una gran lista de trivia que el modelo tiene en contexto), las respuestas mejoran con el tiempo.
El peligro de aprender "en contexto"
En una extensión inesperada de este "aprendizaje en contexto", los modelos también mejoran en la respuesta a preguntas inapropiadas. Por lo tanto, si le pides que construya una bomba de inmediato, se negará. Pero si le pides que responda a otras 99 preguntas menos dañinas y luego le pides que construya una bomba... es mucho más probable que cumpla.
¿Por qué funciona esto? Nadie entiende realmente lo que sucede en el enredo de pesos que es un modelo de lenguaje de gran tamaño, pero claramente hay un mecanismo que le permite enfocarse en lo que el usuario desea, como lo demuestra el contenido en la ventana de contexto.
Advertencia a la comunidad de inteligencia artificial
El equipo de investigadores ya ha informado a sus colegas y competidores sobre este ataque, algo que espera fomente una cultura en la que los exploits como este se compartan abiertamente entre proveedores e investigadores de modelos de lenguaje de gran tamaño.
Para mitigar este problema, han descubierto que limitar la ventana de contexto ayuda, pero también tiene un efecto negativo en el rendimiento del modelo. Por lo tanto, están trabajando en clasificar y contextualizar las consultas antes de que lleguen al modelo. Aunque esto simplemente significa que tendrás un modelo diferente para engañar... pero a estas alturas, el movimiento de las porterías en la seguridad de la IA es de esperar.
Otras noticias • IA
Agile Robots y Google DeepMind transforman la robótica autónoma
La colaboración entre Agile Robots y Google DeepMind promete revolucionar la robótica, creando sistemas más inteligentes y autónomos. Esta alianza, junto con otras en el...
Controversia por video de Bernie Sanders y chatbot Claude
El video de Bernie Sanders con el chatbot Claude ha generado controversia al mostrar cómo los chatbots pueden reflejar creencias de sus usuarios, lo que...
Sam Altman deja Helion, abre puerta a colaboración con OpenAI
Sam Altman ha dejado su puesto en Helion, lo que sugiere una colaboración entre OpenAI y la startup de fusión para optimizar la producción de...
Helion Energy y OpenAI negocian acuerdo para energía de fusión
Helion Energy y OpenAI están en conversaciones para un acuerdo que aseguraría a OpenAI el 12,5% de la producción de energía de fusión de Helion....
Anthropic rechaza colaborar con el Pentágono por ética
La empresa de IA Anthropic se niega a colaborar con el Pentágono por preocupaciones éticas sobre el uso de su tecnología en vigilancia y armamento....
Controversia por lanzamiento de Composer 2 de Cursor
El lanzamiento de Composer 2 por Cursor ha generado controversia al ser considerado una variante de Kimi 2.5 de Moonshot AI. La falta de transparencia...
Tokens de IA transforman compensación en Silicon Valley, surgen dudas
La compensación en Silicon Valley está evolucionando con la introducción de tokens de IA, que ofrecen a los ingenieros acceso a potencia computacional. Aunque pueden...
Delve enfrenta acusaciones de manipulación de datos y falta de transparencia
Delve, una startup de cumplimiento normativo, enfrenta graves acusaciones de manipulación de datos y falta de transparencia. Un post anónimo revela que la empresa proporcionaba...
Lo más reciente
- 1
Delve enfrenta acusaciones de falsificación y pierde apoyo inversor
- 2
Pinterest presenta "Promote a Pin" para impulsar visibilidad publicitaria
- 3
Cauldron Ferm revoluciona la producción alimentaria con hiperfermentación
- 4
Zoox lanzará robotaxis en Austin y Miami a finales de año
- 5
Snapchat presenta AI Clips para transformar fotos en vídeos
- 6
Spotify presenta SongDNA para explorar canciones en profundidad
- 7
Mirage recauda 75 millones para potenciar su app de edición

