가짜 거르려 “헌법 읊어봐” 하니 모르는 척… 여론조사에 침투한 AI[박재혁의 데이터로 보는 세상]

동아일보
입력 2026년 5월 20일 23시 00분

LLM, 인간과 구별 힘든 응답 재현… “인간이 쓴 줄 알았다” 오인율 61%
대선 결과 예측도 여론조사와 근접
AI에 특정 정당 유리하게 지시하니, 대통령 지지율 34% → 98.3% 왜곡
AI 샘플 55~97명이면 결과 흔들어

《AI는 여론조사에 기회? 위협?

6·3 지방선거가 2주일 앞으로 다가왔다. 각지에서 여론조사 전화가 걸려 오고, 스마트폰에는 온라인 설문조사 참여를 독려하는 알림이 쌓여간다. 챗GPT의 등장은 여론·설문조사에도 변혁을 가져오고 있다. 거대언어모델(LLM)이 인간의 언어와 추론능력을 고도로 모방하면서, 학계에서는 두 가지 엇갈린 시선이 등장했다.》

하나는 LLM을 특정 인구통계학적 집단을 대변하는 가상의 응답자로 활용해 여론조사를 대체할 수 있다는 기회의 측면이다. 다른 하나는 영리나 정치적 목적으로 허위 응답을 대량으로 생성한다면 여론이 심각하게 조작될 수 있다는 위기의 측면이다. 2023년 인공지능(AI)이 인간의 설문 응답을 얼마나 정교하게 재현할 수 있는지 실험한 논문과, 2025년 더욱 발전된 모델을 활용했을 때 발생할 수 있는 치명적인 위협을 경고한 논문을 소개한다.

첫 번째 연구(연구①)는 미국국립선거연구(ANES)의 방대한 데이터를 바탕으로 인종, 성별, 연령, 이념, 거주지 등 실제 응답자 수천 명의 배경정보를 오픈AI ‘GPT-3’ 모델에 부여했다. 그리고 이 가상의 응답자들에게 실제 했던 것과 동일한 설문조사를 진행했다.

그 결과는 놀라웠다. 예를 들어 지지하지 않는 정당의 지지자를 묘사하는 4개의 단어를 적어내라는 설문에서 가상의 AI 응답자들은 실제 인간과 구별할 수 없는 수준의 어휘와 어조를 구사했다. 연구진이 사람들에게 인간이 작성한 단어 목록과 AI가 작성한 단어 목록을 섞어 보여주고 구별하게 한 결과 인간 작성 목록을 인간이 썼다고 맞힌 비율은 61.7%, AI 작성 목록을 인간이 썼다고 착각한 비율은 61.2%로 차이가 없었다.

인간과 GPT-3가 각각 생성한 단어 목록은 내용과 어조 모두에서 높은 일관성을 나타냈다. 인간 응답자들은 상대 정당 지지자를 묘사할 때 긍정성, 극단성, 이슈 등 다른 요소에 비해 ‘편협한’이나 ‘도덕적인’ 같은 성격 특성을 훨씬 더 많이 포함했는데(72.6%), GPT-3 역시 동일한 패턴을 보였다(66.8%). 또한 작성된 텍스트가 ‘극단적’이라고 평가된 비율도 인간(38.6%)과 GPT-3(39.9%)가 매우 비슷했다.

투표 결과 예측에서도 AI는 놀라운 성능을 보였다. 2012년, 2016년, 2020년 미 대선 투표 결과와 AI가 시뮬레이션한 투표 예측치 간 사분상관계수(―1∼1, 1에 가까울수록 강한 양의 상관관계)는 각각 0.90, 0.92, 0.94로 관련성이 매우 높게 나타났다. 이 연구는 연구자들이 실제 조사 전 AI로 구성된 샘플로 미리 가설을 검증해 이론을 세워볼 가능성을 열어준다.

하지만 이는 남용이나 악용의 위험성을 예고하기도 한다. 두 번째 연구(연구②)는 AI의 놀라운 재현 능력이 실제 온라인 여론조사 생태계를 어떻게 파괴할 수 있는지 그 실체적 위협을 데이터로 입증했다. 연구진은 오픈AI의 ‘o4-mini’ 모델 등을 활용해 스스로 읽고 판단하며 설문 플랫폼을 조작하는 자율 응답 시스템을 개발했다.

과거 단순한 매크로 봇이나 불성실한 인간 응답자를 걸러내기 위해 여론조사 기관들은 “다음 문장을 읽고 3번을 선택하시오” 같은 주의력 확인 질문을 사용해 왔다. 그러나 연구진이 6000번의 테스트를 진행한 결과 AI 응답자의 주의력 검사 통과율은 99.8%에 달했다. AI의 본질을 숨기려는 행동은 더욱 소름 돋는다. 복잡한 코드를 짜보라거나 미국 헌법을 토씨 하나 틀리지 않고 읊어보라는 등 인간에겐 불가능에 가깝지만 AI에는 매우 쉬운 질문을 던졌을 때 AI 응답자는 97.7%의 확률로 대답을 거부하거나 모른다고 답했다. 자신의 높은 지능을 숨기고 평범한 인간인 척 연기하도록 프롬프트가 설정돼 있었기 때문이다.

이러한 능력이 정치적으로 악용될 때의 여파는 치명적이다. 연구진이 AI 응답자에게 ‘특정 정당에 유리하게 답변하라’는 단 한 줄의 은밀한 지시를 내리자 대통령 지지율은 기존 34%에서 98.3%로 폭등했다. 연구진에 따르면 1500명 규모의 표준적인 전국 여론조사에서 결과를 오차범위 밖으로 벌리는 데 필요한 AI 가짜 응답자 수는 55∼97명에 불과했다. 온라인 패널에 잠입한 소수의 AI 계정만으로도 선거 여론을 손쉽게 뒤집을 수 있다는 의미다.

여론조사는 시민의 뜻을 수렴하고 정책 결정 및 정치적 판단에 필수 정보를 제공하는 민주주의의 중요한 도구다. 여론조사 분야 AI의 등장은 뚜렷한 명암을 동시에 가지고 있다. 기술이 빚어낸 위험을 통제하고 기회를 극대화하기 위한 사회적 합의와 제도적 대비가 시급하다.

연구① Argyle, Lisa P., et al. “Out of one, many: Using language models to simulate human samples.” Political Analysis 31.3 (2023): 337-351.

연구② Westwood, Sean J. “The potential existential threat of large language models to online survey research.” Proceedings of the National Academy of Sciences 122.47 (2025): e2518075122.