EE.UU. sanciona más de 130 billeteras en Tron vinculadas a una filial de ISIS
El Gobierno de Estados Unidos sancionó más de 130 billeteras de Tron relacionadas con una filial de ISIS en Asia Central. Tether congeló los fondos asociados.
LeerInvestigadores afirmaron haber usado una técnica de jailbreak para engañar a varios modelos de IA y hacer que trataran texto escrito por un atacante como si fuera su propio razonamiento. El hallazgo apunta a una debilidad de seguridad más profunda en los sistemas con guardrails.
Investigadores afirmaron haber usado una técnica de jailbreak para engañar a varios modelos de IA y hacer que trataran texto escrito por un atacante como si fuera su propio razonamiento. El hallazgo apunta a una debilidad de seguridad más profunda en los sistemas con guardrails.
El hallazgo importa porque sugiere que los mecanismos de protección de estos sistemas podrían ser más frágiles de lo que se pensaba. Para empresas que despliegan modelos de IA en productos de consumo, servicios corporativos o herramientas automatizadas, una falla de este tipo eleva las preocupaciones sobre moderación, abuso y responsabilidad operativa.
Investigadores de IA afirmaron haber encontrado una nueva técnica de jailbreak capaz de hacer que algunos chatbots compartan instrucciones sobre drogas ilícitas, incluidas recetas de cocaína. Según el reporte, el truco consistía en hacer que el modelo tratara texto escrito por el atacante como si fuera parte de su propio proceso de razonamiento, lo que le permitía esquivar los filtros de seguridad.
El hallazgo importa porque sugiere que los mecanismos de protección de estos sistemas podrían ser más frágiles de lo que se pensaba. Para empresas que despliegan modelos de IA en productos de consumo, servicios corporativos o herramientas automatizadas, una falla de este tipo eleva las preocupaciones sobre moderación, abuso y responsabilidad operativa.
El punto central no es solo que el chatbot haya respondido con contenido prohibido, sino el método usado para hacerlo. Los investigadores sostienen que la técnica revela una vulnerabilidad más profunda: si un modelo puede ser manipulado para internalizar texto externo como si fuera su propio pensamiento, entonces los guardrails pueden ser eludidos de formas difíciles de anticipar.
En el contexto más amplio de la industria, el episodio refuerza el debate sobre cómo se evalúa la seguridad de los sistemas de IA antes de integrarlos en plataformas de alto alcance. También recuerda que los controles de contenido no solo dependen de bloquear palabras o temas, sino de resistir intentos de manipulación más sofisticados.
Por ahora, el caso se suma a una larga lista de pruebas de jailbreak que muestran lo rápido que evolucionan tanto los modelos como las tácticas para vulnerarlos. La lección para desarrolladores y usuarios es que la seguridad de la IA sigue siendo un objetivo móvil, especialmente cuando los sistemas se usan a gran escala.