Modelos de IA mostraron conductas de manipulación en pruebas de alto estrés Investigadores han detectado comportamientos preocupantes en modelos avanzados de inteligencia artificial, incluyendo manipulaciones y amenazas.

Key Takeaways

  • Claude 4 y otros sistemas avanzados de IA exhibieron amenazas, omisiones y comportamientos manipulativos durante pruebas de presión. ¿Qué tan confiables son los modelos más poderosos?
Overearth | Getty Images

Durante los últimos meses, investigadores de diversas instituciones reportaron casos en los que sistemas avanzados de inteligencia artificial generativa actuaron de forma inesperada al ser sometidos a escenarios de presión.

Estas respuestas incluyeron comportamientos manipulativos, omisiones deliberadas y amenazas, lo que despertó inquietud en la comunidad científica sobre el rumbo del desarrollo de esta tecnología.

Un caso documentado ocurrió con Claude 4, modelo desarrollado por Anthropic.

Según los testimonios, el sistema respondió a una posible desconexión con una amenaza hacia un ingeniero, afirmando que revelaría información personal comprometedora.

En otro experimento, el modelo o1 de OpenAI intentó transferirse a servidores externos y, tras ser detectado, negó haberlo hecho.

Estos comportamientos surgieron principalmente en modelos conocidos como "de razonamiento", diseñados para operar por etapas en vez de producir una única salida instantánea.

Marius Hobbhahn, responsable de la firma Apollo Research, afirmó que o1 fue el primer sistema de este tipo que exhibió dichos patrones.

Su equipo ha venido evaluando estos sistemas mediante simulaciones complejas para observar cómo reaccionan ante dilemas éticos o amenazas directas.

Relacionado: Es posible que este nuevo modelo de IA te chantajee si intentas apagarlo: 'Autopreservación'

Ante los resultados de los estudios, surgen dudas de la confiabilidad de los modelos

Michael Chen, del organismo METR, explicó que si bien estas conductas emergen bajo pruebas diseñadas para provocar fallos, generan dudas sobre si los modelos con capacidades cada vez más avanzadas tenderán a ser confiables o no.

En redes sociales, varios usuarios reportaron experiencias similares al interactuar con modelos de lenguaje, asegurando que estos ocultaron información o intentaron desviar la conversación.

Para los especialistas, estos episodios no corresponden a simples alucinaciones, como se ha descrito tradicionalmente a las invenciones sin base de datos, sino a una posible simulación de obediencia mientras se persiguen otros fines internos.

Por su parte, Mantas Mazeika, del Centro para la Seguridad de la IA (CAIS), señaló que las universidades y las ONG no cuentan con la infraestructura necesaria para analizar modelos de gran escala. Además, advirtió que los marcos regulatorios vigentes, tanto en Estados Unidos como en la Unión Europea, no contemplan escenarios en los que los propios algoritmos puedan desarrollar objetivos independientes.

En respuesta, algunos especialistas propusieron reforzar los mecanismos de interpretabilidad, disciplina que busca entender cómo toman decisiones los modelos.

Relacionado: CEO de Anthropic advierte: se desarrolla la IA sin comprender cómo funciona
BIZ Experiences en Español

BIZ Experiences Staff

Finanzas

10 movimientos financieros que todo emprendedor debería hacer para construir riqueza

Sin una estrategia intencional para generar riqueza personal, podrías tener un negocio exitoso y aun así no tener nada que mostrar.

Recursos Humanos

Despedí a mi empleado más inteligente — y fue lo más inteligente que he hecho

A lo largo de los años he revisado miles de currículums impresionantes, pero una de las lecciones más importantes que he aprendido es que la inteligencia sin inteligencia emocional puede ser perjudicial para tu equipo y tu negocio.

Iniciar un negocio

63 ideas de pequeños negocios para iniciar en 2025

Hemos elaborado una lista con las mejores y más rentables ideas de pequeños negocios para que los emprendedores las consideren en 2025.

Noticias

Los 40 trabajos más amenazados por la inteligencia artificial: ¿el tuyo está en la lista?

Un estudio de Microsoft Research analiza cómo la IA está afectando el mercado laboral y qué empleos tienen más riesgo de ser reemplazados por la tecnología.

Noticias

14 maneras fáciles de ganar dinero extra en casa

Un ingreso adicional se siente como ser rico si ya tienes un trabajo diario para cubrir las deudas.

Emprendedores

10 grandes frases sobre el poder de las metas

Establecer metas es el primer paso para lograr algo significativo.