이세돌에 완승 거둔 인공지능 드디어 포커게임도 정복했다

  • 뉴시스
  • 입력 2022년 1월 19일 11시 55분


코멘트
IBM의 수퍼컴퓨터 딥 블루가 가리 카스파로프 세계 체스 챔피언을 완파한 것이 1997년이다. 2016년에는 구글의 자회사가 개발한 인공지능(AI) 컴퓨터 알파고가 프로기사 이세돌에게 완승을 거둬 바둑을 정복했다.

인간의 두뇌 게임 가운데 마지막으로 남은 분야가 바로 포커게임이다. 블러핑과 정직한 플레이를 적절히 섞어가며 게임을 이끌어가는 것이 중요한데 블러핑은 인공지능이 쉽게 따라잡기 어려운 분야기 때문이다. 그러나 미 뉴욕타임스(NYT)는 18일(현지시간) 인공지능이 드디어 포커를 정복했다는 제목의 기사를 실었다. 다음은 기사요약이다.

지난해 11월 라스베이거스 리오 카지노의 동굴같은 아마존룸에서 20여명의 남성이 3개의 포커테이블에 앉아 텍사스홀덤이라는 게임을 했다. 세계 최고의 포커 선수들이 모인 현장이었다. 3일 동안 열리는 이 대회의 명칭은 포커 수퍼 하이 롤러 월드 시리즈(the World Series of Poker Super High Roller)로 참가자들은 25만달러(약 2억9790만원) 이상의 참가금을 내고 참가했다.

한 테이블에서 세스 데이비스라는 선수가 은밀하게 카드 한쪽을 들어 방금 받은 패를 확인했다. 다이아몬드 6과 7이었다. 데이비스는 몇시간 동안 게임을 하면서 150만달러(약 17억8740만원)의 판돈을 200만달러(약 23억8360만원) 이상으로 늘렸다. 이번 판도 시작부터 판돈을 올렸다. 갈색 수염을 잘 다듬은 얼굴의 33살 먹은 대학야구선수 출신 포커선수 데이비스가 몸을 바로 세우고 테이블 위에서 벌어지는 상황을 유심히 지켜봤다. 두 사람이 데이비스의 베팅에 콜을 했고 낡은 카우보이 모자를 쓴 둥근 얼굴의 댄 스미스 선수가 베팅을 올렸다. 콜 한 사람은 데이비스 뿐이었다.

딜러가 킹과 4, 5 클로버를 펼쳤고 데이비스는 스트레이트를 기대할 수 있게 됐다. 스미스가 첵을 했다. 다음 패는 다이아몬드 2였고 데이비스의 스트레이트 기대가 무산됐다. 스미스가 또 첵을 했다. 데이비스가 다시 베팅했고 스미스가 콜을 했다. 다음 카드는 클로버 2였다. 데이비스의 스트레이트 희망이 사라졌다. 지금 테이블에 중앙에 쌓인 칩은 100만달러(약 11억9200만원)어치가 넘었다. 마지막 카드는 4클로버였다. 손에 클로버 한 장만 있으며 플러시가 되는 패로 보였다.

3이나 8을 받아 스트레이트가 될 것을 기대하고 베팅을 해온 데이비스는 끝까지 패를 완성하지 못했다. 스미스가 세번째로 첵을 하자 데이비스가 1분여 동안 고민하다가 170만달러(약 20억2500만원)어치의 칩을 올인했다. 스미스가 콜을 하면 데이비스는 게임에서 탈락하고 그가 낸 25만달러의 참가비도 날아갈 판이었다. 고심하던 스미스가 마침내 패를 접었고 딜러가 테이블 위의 칩을 모두 데이비스 앞으로 밀었다.

다음날 새벽 2시30분이 되서야 첫날 경기가 모두 끝났고 돈을 환전한 데이비스는 차를 몰고 15분 떨어진 라스베가스 외곽의 집으로 갔다. 주차장에서 바로 사무실로 들어간 데이비스는 컴퓨터를 켜고 피오솔버(PioSOLVER)라는 프로그램을 열었다. 몇 년 새 최고 수준의 포커게임으로 업데이트된 인공지능 프로그램이다. 데이비스는 게임에 등장했던 모든 패를 전부 넣고 프로그램을 돌렸다. 잠시 뒤 프로그램에서 그의 플레이에 대한 평가를 제시했다. 데이비스가 전반적으로 잘 플레이했다는 평이었다. 다이아몬드 2 패를 받았을 때 베팅금이 판 돈의 절반이 아닌 80%이라고 지적했지만 마지막에 170만달러를 올인한 것은 잘 한 것이라고 했다.

“정말 기분이 좋았습니다. 판돈이 큰 판에서 이긴 것보다 더 좋았습니다. 쪽집게처럼 잘 맞춘 대목이 말이지요.” 데이비스는 자기가 거의 완벽에 가까운 플레이를 해냈음을 확신하면서 잠자리에 들었다.

완벽한 포커게임을 추구하는 노력은 1944년 수학자 존 폰 노이만과 경제학자 오스카 모겐스턴이 펴낸 “경제 활동의 게임 이론”이라는 저서 이전부터 시작됐다. 두 사람은 경제학에 근본적으로 애매한 부분이 있음을 파악하고 “사회 경제 참여자들의 ‘합리적 행동’을 규정하는 완벽한 수학적 원칙을 찾아내고 이를 근거로 합리적 행동의 일반적 특성을 추출하려 한다”고 썼다. 그들은 경제 생활이란 개인 행위자가 자신의 일상으로부터 가능한한 최대의 효용성을 뽑아내려고 경쟁하는 것이라고 가정했다. 옳은 결정을 내리는 방식을 수량화할 수 있다면 두 사람은 경제학을 든든한 근거 위에 올려놓을 수 있게 되는 셈이었다.

그들이 경제학적 의사결정에 게임 이론을 접목한 이유였다. 폰 노이만은 체스와 같은 게임이 자신들 과제에 적합하지 않다고 보고 배제했다. 체스판 위의 모든 말의 위치와 움직임에 대한 정보를 체스를 두는 사람이 공유한다는 것이 이유였다. 그는 동료 수학자인 제이콥 브로노프스키에게 “실제 삶은 체스판과 다르다”고 설명했다. “실제 삶에서는 블러핑, 작은 속임수, 내가 무슨 생각을 하는지에 대해 상대방이 생각하는 것을 염두에 두는 것 등이 개입한다. 내 이론에서 게임은 바로 그런 것”이라는 것이었다. 그는 실제 생활은 포커와 닮았다고 생각했다.

그는 두 플레이어에게 마구잡이로 비밀 숫자를 “배정”하고 둘 중 어느 쪽이 더 큰 수를 가졌는지에 사전에 정해진 크기의 베팅을 하도록 요구하는 단순한 모델을 사용해 최적 전략을 이끌어냈다. 선수들은 자신의 숫자가 클 경우 최대로 베팅을 하고 반면 패가 나쁠 경우 일정 비율에 따라 블러핑을 하도록 했다. (블러핑 비율은 전체 판돈과 비교한 베팅액수의 크기에 따라 달라진다.) 폰 노이만은 블러핑과 수학적으로 정확한 빈도에 따른 콜을 통해 플레이어들이 최종적으로 게임을 시작할 때와 같은 금액을 갖게 된다는 것을 증명했다. 상대방에게 이쪽 선수의 전략을 노출시키는 경우도 같은 결과가 나왔다. 그러나 상대방이 폰 노이만이 제시한 완벽한 전략이 아닌 다른 전략을 펼치는 경우 궁극적으로 반드시 패배한다는 것을 입증했다.

“게임 이론”은 경매, 잠수함 전쟁, 특정 생명체가 자신의 유전자를 후손에 남기려는 경쟁까지 포함해 경쟁적 상호관계에 있는 모든 움직임을 수학적으로 모형화할 수 있음을 보여줬다. 폰 노이만의 증명이 포커케임에 적용된 것은 50년이 지난 앨버타대학교 컴퓨터과학과의 공이다. 조나단 셰퍼 교수가 18년 동안의 연구끝에 체스게임 풀이를 제시해 유명해진 곳이다. 앨버타대학교 교수들과 학생들은 또 바둑, 오델로, 스타크래프트, 캐나디언 컬링 등의 해법을 마련하는 데도 크게 기여했다. 그러나 포커게임은 가장 어려운 분야였다. 폰 노이만이 포커에 관심을 가졌던 바로 그 이유 때문이었다. 감춰진 정보가 게임에서 옳은 결정을 하는데 장애요인으로 작용한다는 점이 그것이다.

두 플레이어의 움직임이 전부 노출되는 체스나 주사위놀이와 달리 포커에서는 컴퓨터가 상대방의 패가 무엇인지 모른 채 베팅을 해석해야만 한다. 앨버타대에서 20년 넘게 포커 게임을 연구하다가 인공지능회사 딥마인드(DeepMind)에 입사한 닐 버치는 자신과 동료들의 연구가 성공적이지 못했다고 회상했다. “유명한 포커선수와 컴퓨터가 포커 대결을 하면 컴퓨터가 일방적으로 졌다”는 것이다.

게임 이론가들은 게임에서 나타날 수 있는 모든 경우의 수를 표시하는 도표를 이용한다. 가위바위보와 같은 단순한 게임의 경우 경우의 수가 적다. 그러나 텍사스홀덤처럼 복잡한 게임의 경우 두 사람이 플레이하는 경우에도 모든 경우의 수가 316,000,000,000,000,000 가지에 달한다. 참여자수에 제한이 없으면 우주에 있는 원자수보다 경우의 수가 많게 된다.

앨버타 대학교 연구진은 당초 게임의 경우의 수를 처리가능한 범위로 줄이려 시도했다. 9페어와 10페어를 같은 것으로 취급하는 등 비슷한 패들끼리 묶는 방식이었다. 이후 인공지능이 더 강력해지고 연구진의 알고리즘이 포커의 복잡성을 더 잘 반영할 수 있게 되면서 프로그램이 개선됐다. 이같은 발전에서 핵심은 조건적 후회 최소화(counterfactual regret minimization)이라는 알고리즘이었다. 컴퓨터 과학자들이 포커 플레이어와 수십억번 게임을 하는 과정에서 컴퓨터가 크게 진 게임을 표시해 둠으로써(‘후회’를 최소화함으로써) 그 플레이어에 맞는 최적 전략에 따라 게임을 하도록 하는 방식이다. 2015년 앨버타대학교 연구진은 “홀덤 포커 경우의 수 한계 문제 해결”이라는 논문을 사이언스지에 실었다. 포커 게임으로 생계를 꾸려가는 플레이어라면 앨버타 대학교의 연구 결과로 큰 타격을 받게 될 일이었다.

최적의 전략을 이끌어내는 데 관심을 가진 것은 학자들만이 아니었다. 익명을 요구한 전 앨버타 대학교 연구원은 온라인 포커 게임에서 인간 플레이어를 이기는 소프트웨어를 개발한 대가로 수백만달러를 받았다고 밝혔다. 이 소프트웨어는 곧 값이 내려갔다. 사이언스에 논문을 실은 연구원 중 한 사람인 폴란드 출신 프로그래머 피오트렉 로푸시에비치가 피오솔버 초기 버전을 249달러(약 29만7000원)에 팔기 시작한 것이다.

게임 이론을 가장 잘 활용한 포커 플레이어는 제이슨 쿤이다. 수퍼 하이 롤러 대회 두번째 날 골프장 옆에 들어선 제이슨의 대저택에서 그를 만났다. 웨스트 버지니아 웨슬리언 칼리지에서 달리기 선수로 활동하던 그가 2006년 재활치료를 받던 중에 처음 본격적으로 포커를 시작했다. 포커를 통해 돈을 잘 벌었으나 큰 판돈이 걸린 게임에선 잘 이기지 못했다. 그는 자기가 “별 볼일 없는 플레이어였지만 몰두한 끝에 매우 빠르게 발전했다”고 했다. 피오솔버 프로그램을 활용한 자기발전 노력이었다.

쿤은 약한 상대를 만났을 경우엔 이론적으로 최적화된 것보다 블러핑을 더 많이 함으로써 상대의 실수를 유도하기도 한다. 그러나 강한 상대를 만나면 피오솔버를 통해 배운 것을 그대로 재현하려고 최선을 다한다. 인간의 편견이 자신의 의사결정에 영향을 미친다는 것을 잘 아는 쿤은 한 판에서도 피오솔버가 제시하는 여러 전략을 수시로 바꿔서 선택하기도 한다. 물론 최적의 전략을 선택한다고 해서 항상 이길 수 있는 것은 아니다. 그렇지만 수학적 확률을 충실하게 따르면 최소한 잃지는 않을 수는 있는 것이다.

포커 대회 마지막날 데이비스는 클로버 에이스와 7의 패를 가지고 올인했다. 피오솔버가 제시하는 전략에 따른 것이었다. 상대방은 콜을 한 뒤 잭 페어를 내보였고 그가 이길 확률이 67%가 됐다. 이후 딜러가 돌린 카드 다섯장 모두 데이비스의 패에 도움이 되질 못해 결국 데이비스는 대회에서 4등으로 탈락했다. 테이블에서 일어나 N95 마스크를 끼고 현장을 떠났다. 데이비스는 집으로 돌아가 자신의 플레이가 얼마나 최적이었는지를 확인할 예정이다. 대회에서 4등을 한 대가로 93만791달러(약 11억960만원)을 받게 된 것이 위안이었다.

일부에선 피오솔버와 같은 인공지능 프로그램이 포커게임의 매력을 사라지게 만든다고 주장한다. 그러나 피오솔버를 개발한 사람 중 하나인 피오트렉 로푸시에비치는 피오솔버가 포커 게임의 핵심을 전혀 변화시키지 않았다고 강조했다. 포커 플레이어가 알든지 말든지 그 핵심은 존 폰 노이만이 제시한 문제의식을 극대화하는 일이라고 말이다. 그는 “오늘날 어느 정도라도 수학을 따르지 않고 살 수 있는 사람은 없다. 수학을 외면하기란 어려운 일”이라고 말했다.

[서울=뉴시스]
  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0
  • 추천해요

댓글 0

지금 뜨는 뉴스