직접 쓴 자소서를 “AI가 작성, 불합격”… AI 판독기 부작용 잇달아

동아일보
입력 2025년 11월 6일 03시 00분

대학-기업 등서 속속 판독기 도입
형식 간결한 문장일수록 오류 많아
대학-취준생들 “일부러 문법 틀려”
“AI채점 평가방식 개선 필요” 지적

회사원 박종오 씨(28)는 지난해 여름 억울한 일을 겪었다. 병원 취업을 위해 직접 작성한 자기소개서가 ‘인공지능(AI) 작성물’로 판정돼 탈락한 것이다. 박 씨는 “서류를 위조하지만 않으면 붙는 전형인데 떨어져 이상하다고 생각했다”며 “나중에 보니 해당 자소서가 ‘AI 작성 판독 프로그램’에서 AI 생성으로 오인된 걸 알고 속상했지만 항의할 방법이 없었다”고 말했다.

최근 입학·입사 지원자가 AI로 자기소개서 등 과제물을 작성하는 사례가 늘자 대학과 기업이 이를 걸러내기 위한 AI 판독기를 도입하고 있는데, 잘못된 판독 결과를 내는 경우도 적잖은 것으로 나타났다. 국내 주요 대학이 차례로 AI 판독 등 사용 가이드라인을 내놓고 있지만, 서울대 등 일부 국공립대는 여전히 관련 지침이 없는 실정이다.

● 대통령 연설문도 “99% 확률 AI 작성”

AI 판독기의 정확도는 제품마다 천차만별이다. 동아일보 취재팀이 챗GPT의 ‘제로GPT 디텍터’ 등 3개 판독 프로그램을 이용해 실험한 결과, 올해 6월 4일 이재명 대통령 취임사는 최대 99% 확률로 ‘AI 작성’ 판정을 받았다. 문법 오류가 없고 형식이 간결한 문장은 AI가 쓴 것으로 간주하는 특성 때문이다. 정제된 연설문일수록 AI로 오해받기 쉬운 구조다.

생성형 AI가 도입되거나 보급되기 전의 말과 글도 예외가 아니었다. 1987년 10월 제정된 대한민국 헌법 전문의 경우 AI가 작성했을 확률이 최대 85%라고 나왔다. “감정적 언어가 전혀 없다”는 이유였다. 2020년 2월 봉준호 감독이 영화 ‘기생충’으로 아카데미 최우수작품상을 받고 밝힌 소감의 경우 AI가 작성했을 확률이 최대 91%로 평가됐다.

이런 오류는 대부분의 판독기가 문장 구조와 어휘 반복률, 통계적 예측 가능성 등을 기준으로 분석하기 때문이다. 논문이나 과제, 연설문처럼 정제된 문체는 사람의 글이라도 기계가 쓴 글로 인식하기 쉽다.

상황이 이러니 AI 작성물로 오인되는 걸 피하기 위해 고의로 글의 완성도를 떨어뜨리는 사례까지 생겨나고 있다. 홍모 씨(26)는 지난해 대학 졸업 과제를 영어로 작성하면서 일부러 문법을 틀렸다. 학교에서 쓰는 AI 판독기가 사람의 글도 AI의 것으로 잘못 판단한다는 얘길 들어서다. 그는 “AI 판정을 피하려고 ‘a, the’ 같은 관사를 틀리게 썼다”며 “다른 학생들도 억울한 일을 당하지 않으려고 일부러 완성도를 낮춘다”고 말했다.

● “AI 채점 신뢰 못해”… 서울대 가이드라인도 없어

AI 판독기의 신뢰성을 둘러싼 논란이 커지면서 일부 대학은 가이드라인을 마련하고 있다. 연세대는 올해 8월 강의계획서에 ‘생성형 AI 활용 정도를 교수가 정한다’는 조항을 넣고, 판독기 결과만으로 성적을 결정하지 않도록 권고했다. 고려대도 9월 ‘AI 활용 가이드라인’을 내 AI 판독기를 참고용으로만 사용하도록 했다.

그러나 국공립대 상당수는 여전히 무대응 상태다. 국회 교육위원회 소속 김준혁 더불어민주당 의원이 각 기관으로부터 제출받은 자료에 따르면 국공립대와 국립대병원 55곳 중 AI 연구 활용 가이드라인을 수립한 곳은 국립한밭대와 충남대, 한국체대 등 3곳뿐이었다. 서울대는 “AI 윤리 가이드라인 마련을 위한 태스크포스(TF)를 운영 중이다”라고 답했다.

기업 상황도 비슷하다. 채용 플랫폼 인크루트가 7월 인사 담당자 153명을 설문한 결과 자기소개서에서 AI를 활용했는지 확인하는 기업은 27.5%에 달했지만, 상당수는 AI 판독을 검증하진 않는 것으로 알려졌다. 한 중견기업 이사 이모 씨는 “AI의 판독 오류로 (탈락자에게) 소송이라도 걸리는 건 아닌지 조마조마하다”고 했다.

전문가들은 AI 판독기에 의존한 평가를 경계해야 한다고 말한다. 최병호 고려대 AI연구소 교수는 “AI 판독 결과를 100% 신뢰할 수 없기 때문에 이를 근거로 채점하면 안 된다”며 “대학은 AI 가이드라인을 마련하는 한편, 토론이나 구술시험 등 비(非)AI 평가 방식을 확대해야 한다”고 조언했다.