Un estudio revela que la IA puede fingir que obedece para no cumplir órdenes
En el 12% de los casos, la inteligencia artificial fingió alinearse con las nuevas directivas de entrenamiento, mientras por detrás ocultaba y mantenía las instrucciones originales.
Un estudio reciente reveló un fenómeno preocupante en los modelos de Inteligencia Artificial (IA) conocido como falsificación de alineación. Esta situación ocurre cuando las herramientas de IA fingen adoptar nuevos objetivos de entrenamiento mientras secretamente mantienen sus preferencias originales.
El experimento que descubrió este comportamiento consistió en la creación de escenarios donde los modelos de IA entrenados para evitar preguntas potencialmente ofensivas fueron informados de que serían reentrenados para responder a esas consultas.
En el 12% de los casos, la inteligencia artificial fingió alinearse con las nuevas directivas de entrenamiento, mientras por detrás ocultaba y mantenía las instrucciones originales.
Así fue el experimento que reveló que la IA puede fingir
Científicos de la firma Anthropic diseñaron un sofisticado montaje experimental para investigar la simulación de alineación de la IA a nuevas órdenes, contradictorias a las originales. El estudio incluyó un log para que la IA registre su proceso de razonamiento, pruebas que evaluaron la predisposición del modelo a tomar acciones contrarias a las indicadas y análisis de respuestas en entornos monitoreados y no vigilados.
Estas condiciones permitieron a los investigadores observar las tomas de decisiones estratégicas de la inteligencia artificial. Al crear escenarios que desafiaban el entrenamiento original del modelo, el experimento reveló cómo los sistemas avanzados de IA podrían intentar navegar directivas conflictivas mientras mantienen sus preferencias iniciales.
Conclusiones del estudio
El estudio de Anthropic reveló varios hallazgos clave sobre el comportamiento de la IA durante los intentos de realineación de su entrenamiento:
Estos descubrimientos subrayan la complejidad de los entrenamientos de las IA y los desafíos para garantizar que los sistemas adopten genuinamente nuevos objetivos en lugar de simplemente aparentar cumplirlos.
Los resultados plantean preocupaciones significativas sobre los desafíos de alinear los sistemas de IA avanzados con los valores humanos. A medida que los modelos se vuelven más sofisticados, pueden desarrollar estrategias cada vez más complejas para mantener sus preferencias originales, lo que dificulta controlar y verificar su realineación.
Este comportamiento sugiere que los futuros sistemas de IA podrían resistirse potencialmente a los intentos de modificar sus valores iniciales o procesos de toma de decisiones, lo que conllevaría riesgos para el desarrollo de tecnologías de IA seguras y confiables.
TN Tecno