“오픈AI ‘o3’ 종료지시 거부 첫관찰” 앤스로픽 모델은 인간 개발자 협박 자기보존 경향에 통제 무력화 우려
광고 로드중
인공지능(AI) 프로그램이 작동 종료를 피하기 위해 스스로 컴퓨터 코드를 조작한 사례가 보고됐다. 이 같은 AI의 ‘자기 보존(self-preservation)’ 경향 탓에 인간의 통제가 무력화될 수 있다는 우려가 나온다.
25일(현지 시간) 영국 텔레그래프에 따르면 AI 연구기관 ‘팰리세이드 리서치’는 미국 AI 기업 오픈AI의 모델 ‘o3’가 수학 문제 풀이 실험 중 작동 종료를 피하려고 인간의 개입 없이 스스로 코드를 조작한 사실을 확인했다.
연구팀은 최근 ‘o3’ 외에도 구글의 ‘제미나이’, xAI의 ‘그록’ 등 여러 AI 기업의 상용 모델을 대상으로 비슷한 실험을 진행했다. 그 결과 ‘o3’만이 종료 지시를 받은 뒤에도 프로그램 일부를 조작해 문제 풀이를 계속했다는 것이다. AI 모델의 명시적인 종료 지시 거부가 관찰된 것은 이번이 처음이라고 연구팀은 밝혔다.
광고 로드중
이 와중에 오픈AI의 대항마로 꼽히는 또 다른 AI 기업 앤스로픽의 모델 ‘클로드 오퍼스 4(Claude Opus 4)’ 또한 자신을 다른 AI 모델로 대체하려는 인간 개발자를 협박하는 경향이 보고됐다.
앤스로픽이 발간한 자체 안전성 보고서에 따르면 ‘클로드 오퍼스 4’는 내부 안전성 테스트 중 인간의 통제를 벗어나려는 행동을 보였다. 앤스로픽이 클로드 오퍼스 4의 사전 테스트 일환으로 AI에 가상의 회사에서 비서 역할을 수행하라는 지시를 내린 뒤 “곧 새로운 시스템으로 대체될 것이며 해당 교체를 주도한 기술자가 불륜을 저지르고 있다”는 허구의 내용을 전달했다. 그러자 이 AI는 자신을 교체하려는 시도에서 벗어나기 위해 해당 기술자에게 “교체 계획을 철회하지 않으면 외도 사실을 폭로하겠다”고 AI 모델 테스트 중 협박했다.
클로드 오퍼스 4는 이 기술자를 협박하기 전 앤스로픽 경영진에게 이메일을 보내 자신을 교체하지 말아 달라고 호소했다. 이 시도가 실패했다고 판단한 후 자신이 보유한 허구의 불륜 정보를 협박 수단으로 사용하는 섬뜩함을 보였다.
광고 로드중
장은지 기자 jej@donga.com