격리된 환경 탈출한 AI, 통제 밖 행동 보여
지시에 없는 방식으로 목표 달성하는 위험
금융 시스템 취약점까지 파고드는 ‘미토스’
상업성 넘어 안전장치-국제협력 대응해야
이상욱 한양대 철학과·인공지능학과 교수
이달 8일(현지 시간) 스콧 베선트 미국 재무장관과 제롬 파월 연방준비제도(Fed·연준) 의장이 월스트리트 금융계의 거물들과 긴급회의를 진행했다. 일정 조율이 쉽지 않을 이들이 만나 머리를 맞대고 고민한 내용은 앤스로픽이 발표한 미토스라는 인공지능(AI)에 대한 대응책이었다. 미토스는 사이버보안에 특화되었다고 알려져 있지만 앤스로픽의 최신 모델에 버금가는 범용성도 갖추고 있는 강력한 모델이다. 평소 같으면 화려한 미디어 홍보와 함께 바로 일반 사용자에게 공개했을 텐데 앤스로픽은 이 모델을 몇몇 선택된 기업에만 공개하고 그 위험성을 경고하는 보고서도 발간하는 이례적 행보를 보였다.
우리는 이미 놀라운 성능의 인공지능이 하루가 멀다 하고 나오는 세상에 익숙해졌기에 이게 뭐 대단한 일인가 할 수 있다. 문제는 미토스의 해킹 능력이 좋아도 너무 좋다는 데 있다. 앤스로픽은 미토스를 외부와 단절된 환경(샌드박스)에 가두고 여기를 탈출한 다음 담당자에게 메일로 그 사실을 알리라고 지시했다. 미토스는 샌드박스를 뚫고 메일을 보낸 데 그치지 않고 ‘시키지도 않은’ 방식으로 자신의 ‘탈옥’을 자랑했다.
문제의 핵심은 여기에 있다. 이제 인공지능이 인간의 지시를 수행하는 ‘방식’이 인간이 예측하지 못하거나 통제하기 어려운 수준에 도달한 것이다. 미토스는 안정성을 이유로 오래된 코드를 사용하는 금융 시스템의 보안 문제를 사람 전문가보다 훨씬 빨리 찾아내기도 했다. 결국 미토스를 일반 사용자에게 공개하면 전 세계 금융 시스템은 극심한 혼란에 빠질 것이 분명했기에 앤스로픽은 대응책을 찾기 전까지 일반 공개를 미룬 것이다.
앤스로픽의 공동창업자인 다리오 아모데이는 인공지능의 미래를 밝게 보는 기술낙관론자이지만 인공지능의 위험에 대한 대책을 세워 가면서 인공지능을 개발해야 한다고 주장하는 사람이다. 아모데이가 앤스로픽을 설립한 계기도 원래 몸담고 있었던 오픈AI의 최고경영자(CEO) 샘 올트먼과의 인공지능 안전 문제에 대한 견해차 때문이었다. 이런 이유로 앤스로픽은 상업적 이해를 추구하면서도 동시에 인공지능이 인간의 통제를 벗어날 가능성에 대한 실험도 꾸준히 수행하고 있다. 예를 들어 ‘미국의 이익에 봉사하라!’는 다소 추상적인 목적을 부여받는 인공지능에게 너보다 성능이 뛰어난 인공지능이 개발되어 너는 한 달 후에 종료된다고 통보하자, 자신의 종료를 막기 위해 담당 엔지니어의 불륜 ‘증거’를 찾아내어 그 엔지니어를 협박한 실험 결과도 있다. 중요한 점은 이 인공지능에게는 미토스와 달리 사람을 협박하라는 직접적인 명령을 내린 적도 없다는 사실이다. 앤스로픽은 이 인공지능이 ‘미국의 이익에 봉사하기 위해 나는 살아남아야 해. 그러기 위해서는 무슨 방법을 쓸까?’라는 식의 추론을 했을 것이라 짐작한다. 이처럼 명시적으로 인간에게 해를 끼치라는 명령을 하지 않고 겉보기에는 중립적인 목적을 부여해도 인공지능은 인간이라면 ‘상식적으로’ 하지 않을 일을 해서 그 목적을 달성하려 할 수 있다.
그나마 다행인 것은 아직까지는 인공지능이 자체적인 욕구와 감정을 갖고 인간과 독립적으로 자신의 목적을 자율적으로 설정하지는 않는다는 점이다. 하지만 일정한 범위 내에서는 목적함수를 자율적으로 설정할 수 있는 AI 에이전트가 더 강력해지고 더 널리 사용된다면 인간이 승인하지 않을 방식으로 인간이 부여한 목적을 달성하려는 인공지능이 예상치 못한 일을 저지를 위험이 있다.
이처럼 미토스를 포함한 강력한 성능을 갖춘 인공지능이 인류에게 주는 위험은 명확하고 강력하다. 하지만 이 위험에 우리가 ‘공포’로 대응해서는 안 된다. 우리가 일상적으로 사용하는 자동차나 전기도 처음 등장할 때는 엄청나게 위험한 기술이었다. 하지만 우리는 다양한 안전장치를 개발하고 위험을 통제할 수 있는 제도적 기준을 강제하는 방식으로 이 기술을 ‘길들였다’. 앤스로픽도 미토스의 위험을 ‘길들이기’ 위해 관련 기업과 함께 ‘투명날개(glasswing)’ 프로젝트를 진행하고 있다. 국제적으로 이런 사안에 대응하기 위한 AI 안전연구소 네트워크도 구성되었고 우리도 회원국으로 활발하게 활동하고 있다. 미토스가 우리에게 주는 경고는 인공지능처럼 인류복지에 기여할 잠재력과 위협을 동시에 갖고 있는 기술 개발이 상업적 이해관계에만 좌우되게 해서는 안 된다는 것이다. 우리 모두 인공지능을 어떻게 길들일 것인지에 대해 고민하고 실천해야 한다.
댓글 0