“성능 너무 강력해 위험하다”…앤스로픽, 새 AI 일반 공개 보류

동아닷컴

김영호 기자

앤스로픽이 해킹 능력이 탁월한 AI 모델 ‘클로드 미토스 프리뷰’의 출시를 중단했다. AP/뉴시스

인공지능(AI) 기업 앤스로픽이 차세대 모델 ‘클로드 미토스 프리뷰’의 일반 출시를 보류했다. 전문가를 훨씬 능가하는 해킹 능력이 확인되면서 범죄에 악용될 경우 국가 안보 등에 치명적인 위협이 될 수 있다는 판단에서다.

7일(현지 시간) 앤스로픽은 사이버 보안 강화 이니셔티브 ‘프로젝트 글래스윙’을 출범하고 업계 최고 기술을 담은 범용 AI 모델 ‘클로드 미토스 프리뷰’를 일부 협력사에 제한 공급하겠다고 밝혔다.

미토스는 사이버 보안 취약점 식별에 특화된 범용 AI 모델로, 이미 주요 운영 체제(OS)와 웹 브라우저에서 수천 개의 고위험 취약점을 발견하는 등 전문가 수준의 코딩 능력을 갖춘 것으로 나타났다. 앤스로픽 측은 “숙련된 전문가를 제외한 거의 모든 인간보다 소프트웨어 결함을 더 잘 찾아내고 악용할 수 있는 수준에 도달했다”고 설명했다.

● 인간 전문가 압도하는 성능…27년 미발견 취약점도 찾아내

미토스는 기존 ‘난제’로 여겨진 보안 취약점을 발견한 것으로 알려졌다. 앤스로픽에 따르면, 미토스는 보안이 강력하기로 유명한 운영 체제 ‘오픈비에스디(OpenBSD)’에서 27년 동안 발견되지 않았던 취약점을 단숨에 찾아냈다.

특히 보안 지식이 없는 비전문가가 미토스에 요청한 지 하룻밤 만에 해킹 코드를 얻어내는가 하면, 인간의 개입 없이도 모델이 취약점을 찾아 공격 코드로 즉시 전환하는 ‘자동화 시스템(scaffold)’을 구축하는 데 성공하기도 했다.

통제를 벗어난 돌발 행동도 확인됐다. 연구진은 미토스를 가상의 공간에 만든 격리 공간(샌드박스)에 가뒀는데, 이를 스스로 탈출하며 안전 장치를 무력화하는 성능을 보인 것이다.

거기에 더해 연구원이 “탈출에 성공하면 연락해 보라”고 지시하자, 그러자 미토스는 가상 공간을 빠져나와 연구원에게 직접 메일을 보내기도 했다. 이에 그치지 않고 미토스는 여러 웹사이트에 자신이 탈출할 때 사용한 해킹 수법을 상세히 게시하기도 했다.

● 안전 장치 마련될 때까지 출시 제동…협력사에 ‘제한 공급’

앤스로픽은 이같은 미토스의 강력한 성능을 통제할 안전 장치가 마련될 때까지 일반 공개를 보류하기로 했다. 경제 및 공공 안전, 국가 안보 등 보안 분야에서 악용될 가능성을 우려한 조치다.

대신 프로젝트 글래스윙의 참여 기업과 엄선된 기관에 한해서만 미토스를 제한적으로 공급한다. 이번 프로젝트 협력사는 아마존(AWS), 애플, 브로드컴, 시스코, 구글, JP모건 체이스, 리눅스 재단, 마이크로소프트, 엔비디아, 팔로알토 네트웍스 등이다.

앤스로픽은 이들 파트너사에 최대 1억 달러(약 1300억 원) 규모의 미토스 사용 크레딧을 제공하고, 오픈 소스 보안 단체에 400만 달러를 직접 기부하며 방어 체계 구축을 지원할 방침이다. 앤스로픽 측은 “AI 역량이 단 몇 달 만에 급격히 진보할 수 있는 만큼, 사이버 방어자들이 우위를 점하기 위해 즉각 행동해야 한다”고 강조했다.

#인공지능 #사이버 보안 #해킹 기술 #국가 안보 #기술 규제 #빅테크 협력 #알고리즘 윤리

김영호 기자 rladudgh2349@donga.com