여럿이 하는 포커 게임서도 인간 꺾은 AI

송경은 2019. 7. 12. 03:24
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

美카네기멜론대 개발 '플루리버스'
프로 도박사 48mbb/g 차로 이겨
"계산 효율도 획기적으로 높였다"
미국 카네기멜론대 등 공동 연구진이 개발한 멀티플레이어 포커 인공지능(AI) '플루리버스'가 5명의 프로 도박사와 1만 번의 수를 거치면서 얻은 성적을 나타낸 그래프. '게임당 밀리언 빅 블라인드(mbb/g)'는 플레이어가 평균적으로 게임당 따는 돈이 '빅 블라인드(칩 100개)'의 몇 배인지 천분율로 계산한 수치다. 플루리버스는 학습 후 평균 48mbb/g 차로 프로 도박사들을 이겼다.[자료 제공=사이언스]
변수가 많은 만큼 고도의 전략이 필요한 멀티플레이어 포커 게임에서 인간 프로 도박사들을 꺾을 수 있는 인공지능(AI)이 개발됐다. 기존 AI의 한계를 극복하고 활용 범위를 확대하는 데 도움이 될 것으로 기대를 모은다.

노암 브라운 페이스북 AI리서치 연구원과 투오마스 샌드홀름 미국 피츠버그 카네기멜론대 교수 연구진은 AI 스타트업 스트레티직 머신, 스트레티지 로봇 등과 함께 6인용 노리밋(무제한) 텍사스 홀덤 포커 게임에서 인간 프로 도박사를 능가하는 AI '플루리버스'를 개발했다고 국제학술지 '사이언스' 12일자에 발표했다.

텍사스 홀덤은 세계적으로 가장 인기 있는 포커 게임의 일종으로, 실전 도박과 포커 대회에서 널리 쓰인다. 그 중에서도 노리밋 게임은 자신이 플레이하는 칩을 한도 내에서 무제한으로 걸 수 있는 베팅 방식을 말한다.

연구진은 플루리버스 1개와 프로 도박사 5명, 플로리버스 5개와 프로 도박사 1명으로 6인용 노리밋 텍사스 홀덤 포커 게임을 진행했다. 플루리버스가 6명 선수들의 경우의 수를 미리 계산해 손에 들게 될 카드의 조합을 분석한 뒤 방대한 데이터베이스(DB)에서 가장 좋은 수를 골라내도록 학습시킨 것이다.

포커 게임에서 거둔 성적은 '게임당 밀리언 빅 블라인드(mbb/g)'로 따졌다. 이는 플레이어가 평균적으로 게임당 따는 돈이 '빅 블라인드(칩 100개)'의 몇 배인지 천분율로 계산한 수치다. 12일간 1만 번 이상의 수를 학습한 뒤 플루리버스는 평균 48mbb/g 차로 프로 도박사들보다 앞섰다. 일반적으로 프로 도박사들은 고객을 50mbb/g 차로 이기는 것을 목표로 한다.

고도의 심리전을 펼쳐야 하는 포커 게임은 AI에겐 바둑보다도 난이도가 높은 난제로 꼽혔다. 포커는 경우의 수 자체는 바둑보다 적지만 각 플레이어가 바닥에 펼쳐놓은 카드뿐만 아니라 모든 플레이어들이 각자만 볼 수 있는 카드를 쥐고 겨루는 '정보 불균형'이 존재하는 만큼 수학적으로 확률을 따지기가 더 까다롭기 때문이다.

이런 문제 탓에 그동안 포커 AI는 모두 2인용 게임에만 적용 가능했다. 2017년 미국 알버타대의 포커 AI '딥스택'은 17개국 33명의 프로 도박사를 처음으로 이겼지만 당시 게임은 1대 1로 진행됐다. 카네기멜론대 연구진이 앞서 개발한 포커 AI '리브라투스'도 4명의 프로 도박사를 꺾은 바 있지만 멀티플레이어 포커 게임엔 적용할 수 없었다.

연구진은 이런 문제를 극복하기 위해 '행동 추상화'와 '정보 추상화'를 몬테 카를로 트리 탐색 알고리즘에 적용했다. 모두 AI가 고려해야 하는 경우의 수를 줄여 주는 역할을 한다. 행동 추상화 알고리즘은 베팅 규모를 100달러, 150달러, 200달러 등으로 묶어서 수를 계산한다. 노리밋 텍사스 홀덤에서는 100~1만 달러 사이 어떤 금액이든 1달러 단위로 베팅을 할 수 있지만, 실제로는 200달러 베팅과 201달러 베팅 간에 차이가 없다는 점에 착안한 것이다. 정보 추상화 알고리즘은 보드 카드(공개 정보)를 토대로 플레이어가 들고 있는 카드(비공개 정보)를 예측해 유사한 의사결정 포인트를 하나로 묶어 계산한다.

이처럼 계산해야 하는 경우의 수가 줄어든 만큼 효율도 높아졌다. 플루리버스는 포커 게임을 할 때 인텔의 제온 프로세서(E5-2695 v3) 중앙처리장치(CPU) 2개와 128GB이하의 메모리를 사용했다. 앞서 2017년 리브라투스가 2인용 포커 게임에서 274TB(테라바이트) 수준의 메모리를 갖춘 슈퍼컴퓨터 '브리지스'로 100개의 CPU를 사용했었다. 이세돌과 대국했던 구글딥마인드의 바둑 AI '알파고'는 1920개의 CPU를 사용한 바 있다.

[송경은 기자]

[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?