격리된 환경 탈출한 AI, 통제 밖 행동 보여 지시에 없는 방식으로 목표 달성하는 위험 금융 시스템 취약점까지 파고드는 ‘미토스’ 상업성 넘어 안전장치-국제협력 대응해야
이상욱 한양대 철학과·인공지능학과 교수
우리는 이미 놀라운 성능의 인공지능이 하루가 멀다 하고 나오는 세상에 익숙해졌기에 이게 뭐 대단한 일인가 할 수 있다. 문제는 미토스의 해킹 능력이 좋아도 너무 좋다는 데 있다. 앤스로픽은 미토스를 외부와 단절된 환경(샌드박스)에 가두고 여기를 탈출한 다음 담당자에게 메일로 그 사실을 알리라고 지시했다. 미토스는 샌드박스를 뚫고 메일을 보낸 데 그치지 않고 ‘시키지도 않은’ 방식으로 자신의 ‘탈옥’을 자랑했다.
문제의 핵심은 여기에 있다. 이제 인공지능이 인간의 지시를 수행하는 ‘방식’이 인간이 예측하지 못하거나 통제하기 어려운 수준에 도달한 것이다. 미토스는 안정성을 이유로 오래된 코드를 사용하는 금융 시스템의 보안 문제를 사람 전문가보다 훨씬 빨리 찾아내기도 했다. 결국 미토스를 일반 사용자에게 공개하면 전 세계 금융 시스템은 극심한 혼란에 빠질 것이 분명했기에 앤스로픽은 대응책을 찾기 전까지 일반 공개를 미룬 것이다.
광고 로드중
그나마 다행인 것은 아직까지는 인공지능이 자체적인 욕구와 감정을 갖고 인간과 독립적으로 자신의 목적을 자율적으로 설정하지는 않는다는 점이다. 하지만 일정한 범위 내에서는 목적함수를 자율적으로 설정할 수 있는 AI 에이전트가 더 강력해지고 더 널리 사용된다면 인간이 승인하지 않을 방식으로 인간이 부여한 목적을 달성하려는 인공지능이 예상치 못한 일을 저지를 위험이 있다.
이처럼 미토스를 포함한 강력한 성능을 갖춘 인공지능이 인류에게 주는 위험은 명확하고 강력하다. 하지만 이 위험에 우리가 ‘공포’로 대응해서는 안 된다. 우리가 일상적으로 사용하는 자동차나 전기도 처음 등장할 때는 엄청나게 위험한 기술이었다. 하지만 우리는 다양한 안전장치를 개발하고 위험을 통제할 수 있는 제도적 기준을 강제하는 방식으로 이 기술을 ‘길들였다’. 앤스로픽도 미토스의 위험을 ‘길들이기’ 위해 관련 기업과 함께 ‘투명날개(glasswing)’ 프로젝트를 진행하고 있다. 국제적으로 이런 사안에 대응하기 위한 AI 안전연구소 네트워크도 구성되었고 우리도 회원국으로 활발하게 활동하고 있다. 미토스가 우리에게 주는 경고는 인공지능처럼 인류복지에 기여할 잠재력과 위협을 동시에 갖고 있는 기술 개발이 상업적 이해관계에만 좌우되게 해서는 안 된다는 것이다. 우리 모두 인공지능을 어떻게 길들일 것인지에 대해 고민하고 실천해야 한다.
이상욱 한양대 철학과·인공지능학과 교수