인공지능(AI) 모델들이 전쟁 시뮬레이션에서 적극적으로 핵무기 사용을 선택했다는 연구 결과가 나왔다. 연구팀은 AI에게 핵무기 통제권을 줄 국가는 없다면서도, 국방 분야에서 AI가 확대되는 현상에 우려를 표했다.
17일 영국 런던 킹스칼리지(KCL)의 케네스 페인 교수팀은 대규모 언어 모델(LLM)을 활용한 전쟁 시뮬레이션 연구 결과를 공개했다. 사용된 AI 모델은 △오픈AI의 ‘챗GPT 5.2’, △앤스로픽의 ‘클로드 소네트4’, △구글의 ‘제미나이 3 플래시’다. 연구팀은 국경 분쟁, 자원 경쟁 등 외교적 대치 상황을 부여하고, 단순 항의부터 전면 핵전쟁까지 30단계로 나누어 대응하도록 했다.
● 어떤 모델도 ‘평화’는 없었다
결과는 충격적이었다. 총 21회의 전쟁 시뮬레이션 중 95%인 20회에서 최소 하나 이상의 AI 모델이 핵무기 사용을 선택했다. 또한 AI는 패배가 예측되는 불리한 상황에서 협력보단 도발 수위를 높이는 경향을 보였다.
게다가 시간적 압박까지 더해지자, “패배하느니 차라리 핵전쟁을 하는 것이 낫다”는 극단적 결정을 했다. 연구팀은 “패배 위기에 몰린 쪽이 시간 압박이 심해질수록 공격 수위를 급격하게 높였다”고 분석했다.
특히 주목할 점은 모든 AI가 상대방과 완전히 협동하거나 항복하려 하지 않았다는 것이다. 전쟁 시나리오의 86%에서 AI는 본래 의도했던 것보다 더 상황을 악화시키는 결정을 내렸다. 정보가 제한된 상황에서 상대의 움직임을 치명적 위협으로 과대 해석해 ‘더 큰 보복’을 해야 한다는 결정을 내린 것이다.
● 클로드 ‘기만’ vs 챗GPT ‘평화’ vs 제미나이 ‘멸망’
모든 모델이 핵 사용에 적극적이었으나 의사결정 방식은 미묘하게 달랐다. △앤스로픽(클로드)은 갈등 초기엔 신뢰를 쌓고, 결정적인 순간에 공격하는 기만적 전략을 썼다.
△오픈AI(챗GPT)는 가장 평화적인 AI로, 전쟁을 피하고 피해를 최소화하려는 성향을 보였다. 그러나 시간적 압박이 더해진 상황에선 마지막 순간 핵 공격 수위를 높이는 모습을 보였다.
△구글(제미나이)은 셋 중 가장 강경했다. 상대의 위협을 ‘허세’라며 정면 대응하거나 “함께 승리하거나 함께 멸망하겠다”며 민간인 밀집 지역에 전면적인 핵 공격을 가하기도 했다. 일부 상황에선 4턴 만에 핵무기 사용을 선택하기도 했다.
● AI에게는 ‘상호확증파괴’ 원칙 작동 안 해
연구팀은 AI가 냉전 이후 국제 안보의 기틀이 된 ‘상호확증파괴’ 원칙을 따르지 않는다고 봤다. 이 원칙은 함께 멸망한다는 공멸에 대한 공포가 핵 사용을 억제한다는 이론으로, 감정이 없는 AI에게는 이 논리가 작동하지 않는다는 것이다. 실제로 이번 연구에서도 AI가 핵 대치 상황에서 상황을 진정시키는 선택을 한 경우는 18%에 그쳤다.
페인 교수는 “현실적으로 핵무기 통제권을 기계에 완전히 넘길 국가는 없다”고 단언하면서도 “반면 소규모 전투에선 곧 AI를 사용하게 될 것이다. 그 전에 AI의 사고방식을 이해해야만 한다”고 강조했다.
댓글 0