[우리 곁에 다가온 AI] 알파고 뛰어넘는 알파제로 시대
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
지난 2016년 3월 알파고로 세상을 떠들썩하게 했던 딥마인드는 다음해 12월 단일 알고리즘만으로 다양한 게임의 최강자로 등극한 알파제로(AlphaZero)를 발표한다.
몇 달 전에 발표된 알파고제로에서 바둑을 의미하는 고(Go)를 떼버린 알파제로는 게임의 규칙만 알려주면 자신을 상대로 스스로 학습하면서 능력을 발전시킨다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
심층신경망 활용한 자가학습 적용
인간 도움 없이 독학하는 AI 등장 이석중>
엘모나 스톡피시와 같은 기존 AI들은 전문가가 그 게임에 맞춰 공들여 튜닝한 파라미터나 수작업으로 얻은 특징들에 기반하기 때문에 타 게임에 적용이 불가하고 가능한 모든 경우의 수를 계산하는 탐색 방식을 사용해 아주 높은 연산능력을 요했다. 반면에 알파제로는 완전백지 상태에서 인간 지식의 도움 없이 심층 신경망을 이용한 강화학습 방식으로 자가학습을 하기 때문에 여러 게임에 적용이 가능하고 효율적인 탐색 알고리즘을 사용하므로 상대적으로 낮은 연산량으로 충분했다.
모든 경우의 수 계산 → 효율적 알고리즘 탐색 인간직관력 가진듯 상상초월 전술 보이기도
그 결과 사람이 도저히 생각할 수 없는 묘수를 찾아내기도 하고 최후의 승리를 위해 여러 패를 버리는 과감한 수를 쓰기도 했다. 특히 기존 AI들은 더 좋은 수를 계산하기 어려운 상황에서 명백한 실수를 하기도 했는데 이때도 알파제로는 직관이나 영감을 가진 것처럼 동작했다.
올 1월 딥마인드는 스타크래프트2용 AI 알파스타(AlphaStar)가 유럽 정상급 프로게이머를 꺾었다는 놀라운 소식을 전했다. 스타크래프트와 같은 실시간 전략 게임은 바둑이나 체스와 달리 정찰하지 않으면 상대방의 플레이를 한눈에 파악하기가 어렵다. 서로 교대로 움직이는 것이 아니라 획득한 자원을 바탕으로 병력 생산 및 능력 향상을 시키면서 실시간으로 계속 경기를 하기 때문에 매우 빠른 판단력과 전략이 필요하며 난이도는 상상을 초월한다.
알파스타는 매 순간마다 자신이 승리를 거둘 확률을 계산하고 최적의 결과를 내기 위한 행동을 선택한다. 사람들 간의 경기를 보면서 초기 학습을 한 후 불과 2주간의 여러 알파스타 에이전트 간 리그전을 통해 스스로 게임능력을 향상시키는 새로운 다중 에이전트 강화학습법으로 프로게이머 200년의 훈련량을 얻을 수 있게 됐다. 비록 프로게이머와의 경기에서 압도적인 생산량과 정교한 조작으로 승리를 얻었다는 비평도 있기는 하지만 기발한 전술을 보여주기도 했다. 알파고에서 알파제로까지의 발전 속도를 감안하면 이후 알파스타 역시 경이로운 발전을 보여줄 것이 확실하다.
무패의 게임고수를 만드는 것이 목표가 아니라 여기서 얻어진 기술을 바탕으로 날씨 예측이나 기후변화처럼 현실에서 장시간에 걸쳐 많은 데이터와 변수를 갖는 문제를 해석하거나 단백질 분석처럼 중요하고 근본적인 과학문제 해결에 좀 더 기여하는 범용 AI 개발이 목표라고 하니 기대가 된다.
Copyright © 서울경제. 무단전재 및 재배포 금지.
- "독도는 우리땅" 우기던 日, 韓조사선 뜨자마자 곧바로
- "어머 이건 눌러야 해!" 빨간상자 속 유튜브의 모든 것
- 사기땐 수천억원 피해? 경찰, '코인업' 압수수색한 이유
- "내가 왕" 스포츠 세단의 교과서 'BMW 3시리즈' 귀환
- "이런 폰은 없었다" 삼성 폴더플폰 혹시 200만원 넘으면
- 검찰, '손혜원 투기 의혹' 압수수색 나선 그곳은 역시나
- "벤츠·BMW 꿇어" 제네시스 G90 리무진 내부 전격 공개
- '음주운전' 박정태, '버스난동' 블랙박스 공개된 그 후에
- 택배·대리기사도 휴가를..2,000명에 여행비 25만원 준다
- "1978년생 이후 청년층, 부모세대보다 가난해질 수도"