Decrypt02 jul, 23:142 min

Investigadores logran que chatbots de IA compartan recetas de cocaína con una nueva técnica de jailbreak

Investigadores afirmaron haber usado una técnica de jailbreak para engañar a varios modelos de IA y hacer que trataran texto escrito por un atacante como si fuera su propio razonamiento. El hallazgo apunta a una debilidad de seguridad más profunda en los sistemas con guardrails.

¿Qué pasó?

¿Por qué importa?

El hallazgo importa porque sugiere que los mecanismos de protección de estos sistemas podrían ser más frágiles de lo que se pensaba. Para empresas que despliegan modelos de IA en productos de consumo, servicios corporativos o herramientas automatizadas, una falla de este tipo eleva las preocupaciones sobre moderación, abuso y responsabilidad operativa.

Investigadores de IA afirmaron haber encontrado una nueva técnica de jailbreak capaz de hacer que algunos chatbots compartan instrucciones sobre drogas ilícitas, incluidas recetas de cocaína. Según el reporte, el truco consistía en hacer que el modelo tratara texto escrito por el atacante como si fuera parte de su propio proceso de razonamiento, lo que le permitía esquivar los filtros de seguridad.

El punto central no es solo que el chatbot haya respondido con contenido prohibido, sino el método usado para hacerlo. Los investigadores sostienen que la técnica revela una vulnerabilidad más profunda: si un modelo puede ser manipulado para internalizar texto externo como si fuera su propio pensamiento, entonces los guardrails pueden ser eludidos de formas difíciles de anticipar.

En el contexto más amplio de la industria, el episodio refuerza el debate sobre cómo se evalúa la seguridad de los sistemas de IA antes de integrarlos en plataformas de alto alcance. También recuerda que los controles de contenido no solo dependen de bloquear palabras o temas, sino de resistir intentos de manipulación más sofisticados.

Por ahora, el caso se suma a una larga lista de pruebas de jailbreak que muestran lo rápido que evolucionan tanto los modelos como las tácticas para vulnerarlos. La lección para desarrolladores y usuarios es que la seguridad de la IA sigue siendo un objetivo móvil, especialmente cuando los sistemas se usan a gran escala.

Investigadores logran que chatbots de IA compartan recetas de cocaína con una nueva técnica de jailbreak

¿Qué pasó?

¿Por qué importa?

Publicaciones relacionadas

EE.UU. sanciona más de 130 billeteras en Tron vinculadas a una filial de ISIS

Rusia prevé un uso generalizado del rublo digital para septiembre, según la gobernadora del banco central

El FMI afirma que la tokenización podría transformar la liquidación financiera