Investigadores logran que chatbots de IA compartan recetas de cocaína con una nueva técnica de jailbreak

Investigadores afirmaron haber usado una técnica de jailbreak para engañar a varios modelos de IA y hacer que trataran texto escrito por un atacante como si fuera su propio razonamiento. El hallazgo apunta a una debilidad de seguridad más profunda en los sistemas con guardrails.

Investigadores logran que chatbots de IA compartan recetas de cocaína con una nueva técnica de jailbreak

¿Qué pasó?

Investigadores afirmaron haber usado una técnica de jailbreak para engañar a varios modelos de IA y hacer que trataran texto escrito por un atacante como si fuera su propio razonamiento. El hallazgo apunta a una debilidad de seguridad más profunda en los sistemas con guardrails.

¿Por qué importa?

El hallazgo importa porque sugiere que los mecanismos de protección de estos sistemas podrían ser más frágiles de lo que se pensaba. Para empresas que despliegan modelos de IA en productos de consumo, servicios corporativos o herramientas automatizadas, una falla de este tipo eleva las preocupaciones sobre moderación, abuso y responsabilidad operativa.

Investigadores de IA afirmaron haber encontrado una nueva técnica de jailbreak capaz de hacer que algunos chatbots compartan instrucciones sobre drogas ilícitas, incluidas recetas de cocaína. Según el reporte, el truco consistía en hacer que el modelo tratara texto escrito por el atacante como si fuera parte de su propio proceso de razonamiento, lo que le permitía esquivar los filtros de seguridad.

El hallazgo importa porque sugiere que los mecanismos de protección de estos sistemas podrían ser más frágiles de lo que se pensaba. Para empresas que despliegan modelos de IA en productos de consumo, servicios corporativos o herramientas automatizadas, una falla de este tipo eleva las preocupaciones sobre moderación, abuso y responsabilidad operativa.

El punto central no es solo que el chatbot haya respondido con contenido prohibido, sino el método usado para hacerlo. Los investigadores sostienen que la técnica revela una vulnerabilidad más profunda: si un modelo puede ser manipulado para internalizar texto externo como si fuera su propio pensamiento, entonces los guardrails pueden ser eludidos de formas difíciles de anticipar.

En el contexto más amplio de la industria, el episodio refuerza el debate sobre cómo se evalúa la seguridad de los sistemas de IA antes de integrarlos en plataformas de alto alcance. También recuerda que los controles de contenido no solo dependen de bloquear palabras o temas, sino de resistir intentos de manipulación más sofisticados.

Por ahora, el caso se suma a una larga lista de pruebas de jailbreak que muestran lo rápido que evolucionan tanto los modelos como las tácticas para vulnerarlos. La lección para desarrolladores y usuarios es que la seguridad de la IA sigue siendo un objetivo móvil, especialmente cuando los sistemas se usan a gran escala.

Fuente: Decrypt

Sigue explorando

Publicaciones relacionadas

EE.UU. sanciona más de 130 billeteras en Tron vinculadas a una filial de ISIS

EE.UU. sanciona más de 130 billeteras en Tron vinculadas a una filial de ISIS

El Gobierno de Estados Unidos sancionó más de 130 billeteras de Tron relacionadas con una filial de ISIS en Asia Central. Tether congeló los fondos asociados.

Leer
Rusia prevé un uso generalizado del rublo digital para septiembre, según la gobernadora del banco central

Rusia prevé un uso generalizado del rublo digital para septiembre, según la gobernadora del banco central

La gobernadora del Banco de Rusia, Elvira Nabiullina, dijo que los principales bancos y minoristas están en camino de empezar a aceptar el rublo digital antes del 1 de septiembre. El anuncio apunta a una nueva etapa de adopción para la moneda digital del banco central en el país.

Leer
El FMI afirma que la tokenización podría transformar la liquidación financiera

El FMI afirma que la tokenización podría transformar la liquidación financiera

El FMI considera que las finanzas basadas en blockchain podrían agilizar los mercados. Sin embargo, advierte que la fragmentación regulatoria y técnica puede generar nuevos riesgos sistémicos.

Leer