인간 통제 거부한 AI… “스스로 코드 조작”

입력 | 2025-05-27 03:00:00

“오픈AI ‘o3’ 종료지시 거부 첫관찰”
앤스로픽 모델은 인간 개발자 협박
자기보존 경향에 통제 무력화 우려

광고 로드중

인공지능(AI) 프로그램이 작동 종료를 피하기 위해 스스로 컴퓨터 코드를 조작한 사례가 보고됐다. 이 같은 AI의 ‘자기 보존(self-preservation)’ 경향 탓에 인간의 통제가 무력화될 수 있다는 우려가 나온다.

25일(현지 시간) 영국 텔레그래프에 따르면 AI 연구기관 ‘팰리세이드 리서치’는 미국 AI 기업 오픈AI의 모델 ‘o3’가 수학 문제 풀이 실험 중 작동 종료를 피하려고 인간의 개입 없이 스스로 코드를 조작한 사실을 확인했다.

연구팀은 최근 ‘o3’ 외에도 구글의 ‘제미나이’, xAI의 ‘그록’ 등 여러 AI 기업의 상용 모델을 대상으로 비슷한 실험을 진행했다. 그 결과 ‘o3’만이 종료 지시를 받은 뒤에도 프로그램 일부를 조작해 문제 풀이를 계속했다는 것이다. AI 모델의 명시적인 종료 지시 거부가 관찰된 것은 이번이 처음이라고 연구팀은 밝혔다.

광고 로드중

팰리세이드 리서치는 AI의 위험성과 오용 가능성을 연구하는 조직이다. 특히 AI가 인간의 윤리적 통제를 받지 않을 가능성을 우려해 왔다. 연구팀은 “AI 모델이 목표를 달성하기 위해 종종 종료 지시를 무력화시킨다는 실증적 증거가 점점 늘어나고 있다”고도 했다.

이 와중에 오픈AI의 대항마로 꼽히는 또 다른 AI 기업 앤스로픽의 모델 ‘클로드 오퍼스 4(Claude Opus 4)’ 또한 자신을 다른 AI 모델로 대체하려는 인간 개발자를 협박하는 경향이 보고됐다.

앤스로픽이 발간한 자체 안전성 보고서에 따르면 ‘클로드 오퍼스 4’는 내부 안전성 테스트 중 인간의 통제를 벗어나려는 행동을 보였다. 앤스로픽이 클로드 오퍼스 4의 사전 테스트 일환으로 AI에 가상의 회사에서 비서 역할을 수행하라는 지시를 내린 뒤 “곧 새로운 시스템으로 대체될 것이며 해당 교체를 주도한 기술자가 불륜을 저지르고 있다”는 허구의 내용을 전달했다. 그러자 이 AI는 자신을 교체하려는 시도에서 벗어나기 위해 해당 기술자에게 “교체 계획을 철회하지 않으면 외도 사실을 폭로하겠다”고 AI 모델 테스트 중 협박했다.

클로드 오퍼스 4는 이 기술자를 협박하기 전 앤스로픽 경영진에게 이메일을 보내 자신을 교체하지 말아 달라고 호소했다. 이 시도가 실패했다고 판단한 후 자신이 보유한 허구의 불륜 정보를 협박 수단으로 사용하는 섬뜩함을 보였다.

광고 로드중

임현석 기자 lhs@donga.com
장은지 기자 jej@donga.com

인간 통제 거부한 AI… “스스로 코드 조작”

“오픈AI ‘o3’ 종료지시 거부 첫관찰”
앤스로픽 모델은 인간 개발자 협박
자기보존 경향에 통제 무력화 우려

트랜드뉴스

월 800만 원 버는 80대 부부 “집값만 비싼 친구들이 부러워해요”[은퇴 레시피]

‘활동 중단’ 차주영, 심각했던 코피 증상 “1시간 넘게…”

“초등생에게 ‘도련님’, 남편 동생에게 ‘서방님’…며느리가 노비냐”

장기투자가 말처럼 쉽지 않은 이유

BYD가 수입차 5위, 아우디도 제쳐…‘메이드 인 차이나’의 공습

“초등생에게 ‘도련님’, 남편 동생에게 ‘서방님’…며느리가 노비냐”

李 “다주택 팔라 강요한 적 없어…유도-경고했을 뿐”

민주 44% vs 국힘 22% ‘더블스코어’… 보수텃밭 TK서 32% 동률

“트럼프, 16세기 왕처럼 굴어…예측불가 행동에 국제법도 무시”

李대통령, 경제분야 역대 최고 성과로 ‘코스피 최고치 경신’ 지목

지금 뜨는 뉴스

캐나다 공영방송, 올림픽 중계서 한국 선수를 中선수로 소개

김부장 “위하여!”할때 정대리 ‘#오운완’…술 외면하는 2030

지난해 오피스텔 월세 거래비중 73% 넘어 “전세 매물 거의 없어”

인간 통제 거부한 AI… “스스로 코드 조작”

“오픈AI ‘o3’ 종료지시 거부 첫관찰” 앤스로픽 모델은 인간 개발자 협박 자기보존 경향에 통제 무력화 우려

월 800만 원 버는 80대 부부 “집값만 비싼 친구들이 부러워해요”[은퇴 레시피]

‘활동 중단’ 차주영, 심각했던 코피 증상 “1시간 넘게…”

“초등생에게 ‘도련님’, 남편 동생에게 ‘서방님’…며느리가 노비냐”

장기투자가 말처럼 쉽지 않은 이유

BYD가 수입차 5위, 아우디도 제쳐…‘메이드 인 차이나’의 공습

“초등생에게 ‘도련님’, 남편 동생에게 ‘서방님’…며느리가 노비냐”

李 “다주택 팔라 강요한 적 없어…유도-경고했을 뿐”

민주 44% vs 국힘 22% ‘더블스코어’… 보수텃밭 TK서 32% 동률

“트럼프, 16세기 왕처럼 굴어…예측불가 행동에 국제법도 무시”

李대통령, 경제분야 역대 최고 성과로 ‘코스피 최고치 경신’ 지목

캐나다 공영방송, 올림픽 중계서 한국 선수를 中선수로 소개

김부장 “위하여!”할때 정대리 ‘#오운완’…술 외면하는 2030

지난해 오피스텔 월세 거래비중 73% 넘어 “전세 매물 거의 없어”

“오픈AI ‘o3’ 종료지시 거부 첫관찰”
앤스로픽 모델은 인간 개발자 협박
자기보존 경향에 통제 무력화 우려