LLM, 인간과 구별 힘든 응답 재현… “인간이 쓴 줄 알았다” 오인율 61% 대선 결과 예측도 여론조사와 근접 AI에 특정 정당 유리하게 지시하니, 대통령 지지율 34% → 98.3% 왜곡 AI 샘플 55~97명이면 결과 흔들어
광고 로드중
《AI는 여론조사에 기회? 위협?
6·3 지방선거가 2주일 앞으로 다가왔다. 각지에서 여론조사 전화가 걸려 오고, 스마트폰에는 온라인 설문조사 참여를 독려하는 알림이 쌓여간다. 챗GPT의 등장은 여론·설문조사에도 변혁을 가져오고 있다. 거대언어모델(LLM)이 인간의 언어와 추론능력을 고도로 모방하면서, 학계에서는 두 가지 엇갈린 시선이 등장했다.》
광고 로드중
박재혁 KDI 국제정책대학원 교수
첫 번째 연구(연구①)는 미국국립선거연구(ANES)의 방대한 데이터를 바탕으로 인종, 성별, 연령, 이념, 거주지 등 실제 응답자 수천 명의 배경정보를 오픈AI ‘GPT-3’ 모델에 부여했다. 그리고 이 가상의 응답자들에게 실제 했던 것과 동일한 설문조사를 진행했다.
인간과 GPT-3가 각각 생성한 단어 목록은 내용과 어조 모두에서 높은 일관성을 나타냈다. 인간 응답자들은 상대 정당 지지자를 묘사할 때 긍정성, 극단성, 이슈 등 다른 요소에 비해 ‘편협한’이나 ‘도덕적인’ 같은 성격 특성을 훨씬 더 많이 포함했는데(72.6%), GPT-3 역시 동일한 패턴을 보였다(66.8%). 또한 작성된 텍스트가 ‘극단적’이라고 평가된 비율도 인간(38.6%)과 GPT-3(39.9%)가 매우 비슷했다.
투표 결과 예측에서도 AI는 놀라운 성능을 보였다. 2012년, 2016년, 2020년 미 대선 투표 결과와 AI가 시뮬레이션한 투표 예측치 간 사분상관계수(―1∼1, 1에 가까울수록 강한 양의 상관관계)는 각각 0.90, 0.92, 0.94로 관련성이 매우 높게 나타났다. 이 연구는 연구자들이 실제 조사 전 AI로 구성된 샘플로 미리 가설을 검증해 이론을 세워볼 가능성을 열어준다.
광고 로드중
과거 단순한 매크로 봇이나 불성실한 인간 응답자를 걸러내기 위해 여론조사 기관들은 “다음 문장을 읽고 3번을 선택하시오” 같은 주의력 확인 질문을 사용해 왔다. 그러나 연구진이 6000번의 테스트를 진행한 결과 AI 응답자의 주의력 검사 통과율은 99.8%에 달했다. AI의 본질을 숨기려는 행동은 더욱 소름 돋는다. 복잡한 코드를 짜보라거나 미국 헌법을 토씨 하나 틀리지 않고 읊어보라는 등 인간에겐 불가능에 가깝지만 AI에는 매우 쉬운 질문을 던졌을 때 AI 응답자는 97.7%의 확률로 대답을 거부하거나 모른다고 답했다. 자신의 높은 지능을 숨기고 평범한 인간인 척 연기하도록 프롬프트가 설정돼 있었기 때문이다.
여론조사는 시민의 뜻을 수렴하고 정책 결정 및 정치적 판단에 필수 정보를 제공하는 민주주의의 중요한 도구다. 여론조사 분야 AI의 등장은 뚜렷한 명암을 동시에 가지고 있다. 기술이 빚어낸 위험을 통제하고 기회를 극대화하기 위한 사회적 합의와 제도적 대비가 시급하다.
광고 로드중
연구① Argyle, Lisa P., et al. “Out of one, many: Using language models to simulate human samples.” Political Analysis 31.3 (2023): 337-351.
연구② Westwood, Sean J. “The potential existential threat of large language models to online survey research.” Proceedings of the National Academy of Sciences 122.47 (2025): e2518075122.
연구② Westwood, Sean J. “The potential existential threat of large language models to online survey research.” Proceedings of the National Academy of Sciences 122.47 (2025): e2518075122.
박재혁 KDI 국제정책대학원 교수