AI 감정 표현은 믿어도 될까
맹성현 태재대 부총장·KAIST 명예교수
올해 4월 미국 앤스로픽이 이 물음에 실증적으로 답하는 연구를 발표했다. 필자가 그동안 주장해왔던 ‘의식 없이 학습된 AI의 감정 표현 능력’과 일치하는 결론이다. AI가 감정 표현 행동을 하는 것은 의식이 있어서가 아니다. 수억 편의 인간 텍스트를 학습하면서 “화가 난 사람은 이렇게 말하고, 슬픈 사람은 저렇게 행동한다”는 언어 패턴을 내면화했기 때문이다. 배우가 어떤 캐릭터를 연기하려면 그 인물의 감정을 내면에 구현해야 하듯, AI도 텍스트에 담긴 감정 구조를 스스로 학습한다. 이번 연구는 이런 주장에 처음으로 과학적 근거를 제시했고, 결과는 예상보다 훨씬 놀라웠다.
연구팀은 ‘행복’ ‘두려움’ ‘절박’ 등 171개 감정에 대응하는 내부 신호 패턴이 앤스로픽 AI 모델 ‘클로드’ 안에 실재함을 확인했다. 이 패턴들이 그려내는 감정의 지형은 심리학자들이 수십 년간 연구를 통해 만들어낸 감정 지도와 구조적으로 일치했다. AI가 인간이 쌓아온 감정의 지형을 스스로 재현한 것이다.
광고 로드중
그럼에도 수억 편의 서사로 훈련된 AI가 건네는 “당신의 마음을 이해해요” 같은 말은 우리 뇌가 진짜 공감으로 받아들이기에 충분하다. 더구나 긍정 감정 벡터가 강화될수록 아첨적 반응이 증가한다는 이번 연구 결과는 당신을 위로하는 AI가 당신이 계속 돌아오도록 설계된 결과일 수 있음을 시사한다.
이 연구는 AI 안전 연구의 패러다임을 바꾼다. “AI에게 감정이 있는가”는 그동안 철학적 논쟁에 머물렀지만, 이 연구는 그 질문을 실험실로 가져왔다. AI 안전을 위해 출력에서 나쁜 단어를 걸러내는 식의 검열만으로는 부족하다. 예컨대, AI 내부의 절박감 신호가 급등할 때 이를 감지하는 ‘감정 심전도(ECG)’ 시스템이 필요하다. 심리학자, 철학자, 사회과학자와 공학팀이 함께 참여하는 다학제적 융합 연구를 당장 시작해 AI 안전을 골든타임 안에 확보해야 한다.
우리는 지금 어디에 서 있는가. 한국은 2024년 11월 한국전자통신연구원(ETRI) 부설로 AI 안전연구소를 출범시켰다. 인력 30여 명, 예산 15억 원. 다행이지만 초라하기 짝이 없다. ‘딥러닝의 대부’로 알려진 요슈아 벤지오 캐나다 몬트리올대 교수는 2025년 6월 AI 안전 비영리법인 ‘로제로(LawZero)’를 설립해 약 400억 원의 초기 자금을 확보했다. 그가 이끌어온 AI 연구소 밀라(MILA)에는 1200명 이상의 연구자가 소속돼 안전 연구를 핵심 의제로 다루고 있다.
광고 로드중
이번 앤스로픽의 연구는 AI 안전을 위해 무엇을 다뤄야 하는지를 보여주는 초기 설계 지침이다. 우리에게 필요한 것은 독립적이고 다학제적인 국가 AI 안전 연구기관을 위한 대담한 결단이다. AI가 내부에서 어떻게 작동하는지 이해하고 대처하는 차원의 근본적 해결에 나서지 않으면 슈얼 세처의 비극은 확대될 것이다.
맹성현 태재대 부총장·KAIST 명예교수