美 비카리어스AI, ‘RCN’ 개발… 왜곡된 문자 인식… 해독률 94.3%
캡차 보안 이미지. 사이언스 제공
캡차는 텍스트를 의도적으로 비틀거나 덧칠해 컴퓨터가 인식하기 어렵게 만든 암호다. 주로 6∼8자의 알파벳이나 숫자를 일그러뜨려 제시한 뒤 이를 올바르게 인식하면 사람으로 판명한다. 자동화한 프로그램이 캡차를 해독할 확률은 1% 이하라고 알려져 있었다.
비카리어스AI가 개발한 RCN은 사람이 물체를 인식하는 방식을 따라한 알고리즘이다. 사람은 알파벳 A를 몇 번 따라 쓰며 학습하면 그 글자를 뒤집고, 기울이고, 비틀어도 알아볼 수 있다. 이를 AI에 접목한 것이다.
광고 로드중
사실 캡차 암호를 푼 AI가 이번이 처음은 아니다. 하지만 기존 딥러닝으로 학습한 텍스트 인식 AI는 암호의 형태가 조금만 달라져도 암호를 풀지 못한다. 가령 글자의 자간을 15%만 넓히면 38.4%, 25% 넓히면 7% 수준으로 해독률이 급격히 떨어진다. 반면 RCN은 자간이 달라지거나 비트는 방식을 바꿔도 해독률은 그대로다. 2300만 건의 이미지를 통해 학습한 딥러닝 알고리즘이 89.9%의 확률로 캡차를 해독하는 반면 RCN은 고작 500개의 이미지로 학습하고도 해독률이 더 높다. 효율을 5만 배가량 높인 셈이다.
딜립 조지 비카리어스AI 연구원은 “사람이 리캡차를 해독하는 확률도 87.4%에 그칠 정도로 암호의 형태가 복잡해졌지만 AI가 간단한 학습을 통해 이를 풀어낼 수 있다는 것을 실증했다. 더 발전된 보안 기술이 필요할 것”이라고 말했다.
권예슬 동아사이언스 기자 yskwon@donga.com