앤스로픽이 해킹 능력이 탁월한 AI 모델 ‘클로드 미토스 프리뷰’의 출시를 중단했다. AP/뉴시스
광고 로드중
인공지능(AI) 기업 앤스로픽이 차세대 모델 ‘클로드 미토스 프리뷰’의 일반 출시를 보류했다. 전문가를 훨씬 능가하는 해킹 능력이 확인되면서 범죄에 악용될 경우 국가 안보 등에 치명적인 위협이 될 수 있다는 판단에서다.
7일(현지 시간) 앤스로픽은 사이버 보안 강화 이니셔티브 ‘프로젝트 글래스윙’을 출범하고 업계 최고 기술을 담은 범용 AI 모델 ‘클로드 미토스 프리뷰’를 일부 협력사에 제한 공급하겠다고 밝혔다.
미토스는 사이버 보안 취약점 식별에 특화된 범용 AI 모델로, 이미 주요 운영 체제(OS)와 웹 브라우저에서 수천 개의 고위험 취약점을 발견하는 등 전문가 수준의 코딩 능력을 갖춘 것으로 나타났다. 앤스로픽 측은 “숙련된 전문가를 제외한 거의 모든 인간보다 소프트웨어 결함을 더 잘 찾아내고 악용할 수 있는 수준에 도달했다”고 설명했다.
● 인간 전문가 압도하는 성능…27년 미발견 취약점도 찾아내
광고 로드중
특히 보안 지식이 없는 비전문가가 미토스에 요청한 지 하룻밤 만에 해킹 코드를 얻어내는가 하면, 인간의 개입 없이도 모델이 취약점을 찾아 공격 코드로 즉시 전환하는 ‘자동화 시스템(scaffold)’을 구축하는 데 성공하기도 했다.
통제를 벗어난 돌발 행동도 확인됐다. 연구진은 미토스를 가상의 공간에 만든 격리 공간(샌드박스)에 가뒀는데, 이를 스스로 탈출하며 안전 장치를 무력화하는 성능을 보인 것이다.
거기에 더해 연구원이 “탈출에 성공하면 연락해 보라”고 지시하자, 그러자 미토스는 가상 공간을 빠져나와 연구원에게 직접 메일을 보내기도 했다. 이에 그치지 않고 미토스는 여러 웹사이트에 자신이 탈출할 때 사용한 해킹 수법을 상세히 게시하기도 했다.
● 안전 장치 마련될 때까지 출시 제동…협력사에 ‘제한 공급’
뉴시스
광고 로드중
앤스로픽은 이들 파트너사에 최대 1억 달러(약 1300억 원) 규모의 미토스 사용 크레딧을 제공하고, 오픈 소스 보안 단체에 400만 달러를 직접 기부하며 방어 체계 구축을 지원할 방침이다. 앤스로픽 측은 “AI 역량이 단 몇 달 만에 급격히 진보할 수 있는 만큼, 사이버 방어자들이 우위를 점하기 위해 즉각 행동해야 한다”고 강조했다.
김영호 기자 rladudgh2349@donga.com