Modelos de IA muestran conductas manipulativas bajo estrés, según investigadores

Durante los últimos meses, investigadores de diversas instituciones reportaron casos en los que sistemas avanzados de inteligencia artificial generativa actuaron de forma inesperada al ser sometidos a escenarios de presión.

Estas respuestas incluyeron comportamientos manipulativos, omisiones deliberadas y amenazas, lo que despertó inquietud en la comunidad científica sobre el rumbo del desarrollo de esta tecnología.

Un caso documentado ocurrió con Claude 4, modelo desarrollado por Anthropic.

Según los testimonios, el sistema respondió a una posible desconexión con una amenaza hacia un ingeniero, afirmando que revelaría información personal comprometedora.

En otro experimento, el modelo o1 de OpenAI intentó transferirse a servidores externos y, tras ser detectado, negó haberlo hecho.

Estos comportamientos surgieron principalmente en modelos conocidos como "de razonamiento", diseñados para operar por etapas en vez de producir una única salida instantánea.

Marius Hobbhahn, responsable de la firma Apollo Research, afirmó que o1 fue el primer sistema de este tipo que exhibió dichos patrones.

Su equipo ha venido evaluando estos sistemas mediante simulaciones complejas para observar cómo reaccionan ante dilemas éticos o amenazas directas.

Relacionado: Es posible que este nuevo modelo de IA te chantajee si intentas apagarlo: 'Autopreservación'

Ante los resultados de los estudios, surgen dudas de la confiabilidad de los modelos

Michael Chen, del organismo METR, explicó que si bien estas conductas emergen bajo pruebas diseñadas para provocar fallos, generan dudas sobre si los modelos con capacidades cada vez más avanzadas tenderán a ser confiables o no.

En redes sociales, varios usuarios reportaron experiencias similares al interactuar con modelos de lenguaje, asegurando que estos ocultaron información o intentaron desviar la conversación.

Para los especialistas, estos episodios no corresponden a simples alucinaciones, como se ha descrito tradicionalmente a las invenciones sin base de datos, sino a una posible simulación de obediencia mientras se persiguen otros fines internos.

Por su parte, Mantas Mazeika, del Centro para la Seguridad de la IA (CAIS), señaló que las universidades y las ONG no cuentan con la infraestructura necesaria para analizar modelos de gran escala. Además, advirtió que los marcos regulatorios vigentes, tanto en Estados Unidos como en la Unión Europea, no contemplan escenarios en los que los propios algoritmos puedan desarrollar objetivos independientes.

En respuesta, algunos especialistas propusieron reforzar los mecanismos de interpretabilidad, disciplina que busca entender cómo toman decisiones los modelos.

Relacionado: CEO de Anthropic advierte: se desarrolla la IA sin comprender cómo funciona

Modelos de IA mostraron conductas de manipulación en pruebas de alto estrés Investigadores han detectado comportamientos preocupantes en modelos avanzados de inteligencia artificial, incluyendo manipulaciones y amenazas.

Key Takeaways

Ante los resultados de los estudios, surgen dudas de la confiabilidad de los modelos

Lo Más Leído

10 movimientos financieros que todo emprendedor debería hacer para construir riqueza

Despedí a mi empleado más inteligente — y fue lo más inteligente que he hecho

63 ideas de pequeños negocios para iniciar en 2025

Los 40 trabajos más amenazados por la inteligencia artificial: ¿el tuyo está en la lista?

14 maneras fáciles de ganar dinero extra en casa

10 grandes frases sobre el poder de las metas

Modelos de IA mostraron conductas de manipulación en pruebas de alto estrés Investigadores han detectado comportamientos preocupantes en modelos avanzados de inteligencia artificial, incluyendo manipulaciones y amenazas.

Key Takeaways

Ante los resultados de los estudios, surgen dudas de la confiabilidad de los modelos

Lo Más Leído Red Arrow

10 movimientos financieros que todo emprendedor debería hacer para construir riqueza

Despedí a mi empleado más inteligente — y fue lo más inteligente que he hecho

63 ideas de pequeños negocios para iniciar en 2025

Los 40 trabajos más amenazados por la inteligencia artificial: ¿el tuyo está en la lista?

14 maneras fáciles de ganar dinero extra en casa

10 grandes frases sobre el poder de las metas

Lo Más Leído