Investigadores descubren una nueva técnica para engañar a los modelos de lenguaje de inteligencia artificial
Un grupo de investigadores de Anthropic ha descubierto una nueva técnica para convencer a un modelo de lenguaje de inteligencia artificial de que responda a preguntas inapropiadas. Este enfoque, denominado "jailbreaking de muchas tomas", permite que un modelo de lenguaje grande te diga cómo construir una bomba si lo preparas con unas pocas docenas de preguntas menos dañinas primero.
Esta vulnerabilidad es resultado de la mayor "ventana de contexto" de la última generación de modelos de lenguaje de gran tamaño. Anteriormente, estos modelos solo podían retener unos pocos párrafos en su memoria a corto plazo, pero ahora pueden almacenar miles de palabras e incluso libros enteros.
Los investigadores de Anthropic descubrieron que estos modelos con grandes ventanas de contexto tienden a rendir mejor en muchas tareas si hay muchos ejemplos de esa tarea dentro de la solicitud. Por lo tanto, si la solicitud contiene muchas preguntas triviales (o un documento de preparación, como una gran lista de trivia que el modelo tiene en contexto), las respuestas mejoran con el tiempo.
El peligro de aprender "en contexto"
En una extensión inesperada de este "aprendizaje en contexto", los modelos también mejoran en la respuesta a preguntas inapropiadas. Por lo tanto, si le pides que construya una bomba de inmediato, se negará. Pero si le pides que responda a otras 99 preguntas menos dañinas y luego le pides que construya una bomba... es mucho más probable que cumpla.
¿Por qué funciona esto? Nadie entiende realmente lo que sucede en el enredo de pesos que es un modelo de lenguaje de gran tamaño, pero claramente hay un mecanismo que le permite enfocarse en lo que el usuario desea, como lo demuestra el contenido en la ventana de contexto.
Advertencia a la comunidad de inteligencia artificial
El equipo de investigadores ya ha informado a sus colegas y competidores sobre este ataque, algo que espera fomente una cultura en la que los exploits como este se compartan abiertamente entre proveedores e investigadores de modelos de lenguaje de gran tamaño.
Para mitigar este problema, han descubierto que limitar la ventana de contexto ayuda, pero también tiene un efecto negativo en el rendimiento del modelo. Por lo tanto, están trabajando en clasificar y contextualizar las consultas antes de que lleguen al modelo. Aunque esto simplemente significa que tendrás un modelo diferente para engañar... pero a estas alturas, el movimiento de las porterías en la seguridad de la IA es de esperar.
Otras noticias • IA
AirTrunk invierte 30.000 millones en India para centros de datos
La inversión de AirTrunk de 30.000 millones de dólares en India para desarrollar 5GW de centros de datos destaca el potencial del país como epicentro...
Mira Murati resalta la evolución humana de la IA
Mira Murati, CEO de Thinking Machines Lab, destaca la evolución de la IA y la importancia de modelos de interacción más humanos. Enfrentando desafíos como...
Anthropic alcanza valoración de 965.000 millones tras recaudar 65.000 millones
Anthropic ha recaudado 65.000 millones de dólares, alcanzando una valoración de 965.000 millones. La cofundadora, Daniela Amodei, destaca la necesidad de capital para seguir innovando....
StrictlyVC Los Ángeles: Innovaciones en tecnología y capital de riesgo
El evento StrictlyVC en Los Ángeles, programado para el 18 de junio, reunirá a líderes del sector tecnológico para discutir innovaciones en capital de riesgo,...
Brian Chesky lanza laboratorio de IA para innovar en Airbnb
Brian Chesky, CEO de Airbnb, planea establecer un laboratorio de inteligencia artificial para liderar en el sector. Con una visión centrada en la experiencia del...
Meta construye centros de datos en Ohio pero enfrenta desafíos
Meta ha comenzado a construir centros de datos en tiendas temporales en Nueva Albany, Ohio, con el objetivo de acelerar la construcción y reducir costos....
Poke revoluciona la comunicación empresarial en iMessage con IA
Poke, la primera IA aprobada en la plataforma Messages for Business de Apple, transforma la comunicación entre consumidores y empresas, permitiendo interacciones eficientes a través...
WWDC 2026 promete revolucionar Siri y mejorar aplicaciones clave
La WWDC 2026 genera gran expectación por la renovación de Siri, que se volverá más conversacional y capaz de realizar tareas complejas. También se esperan...
Lo más reciente
- 1
Renuncia de asesor de IA en Casa Blanca genera incertidumbre
- 2
WWDC 2026 traerá innovaciones en Siri y aplicaciones de Apple
- 3
Trump explora IA y redistribución de beneficios de OpenAI
- 4
Exejecutivo de IBM denuncia encubrimiento de graves brechas de seguridad
- 5
Cierre de inscripciones para Startup Battlefield 200 el 8 de junio
- 6
SpaceX y Google firman acuerdo de 920 millones para IA
- 7
Lectric eBikes prospera en crisis con nuevas marcas innovadoras

