15개팀 AI의 우리말 대회.. 1등 94점, 사람보다 낫네

국내 첫 AI용 언어능력 시험, 주관식 3800개 10분만에 풀어

지문 : 해리 포터는 1997년부터 2007년까지 연재된 영국의 작가 J. K. 롤링의 판타지 소설 시리즈. 이모네 집 계단 밑 벽장에서 생활하던 열한 살 소년 해리 포터가 호그와트 마법학교에 가면서 겪게 되는 판타지 이야기를 그리고 있다.(이하 생략)

질문 : 해리는 호그와트에 들어가기 전에 어디서 살았나요?

AI(인공지능)가 보는 한국어 능력 시험 문제다. 정답은 '이모네 집'이다. 초등학생도 쉽게 풀 법한 난이도다. 그러나 AI 프로그램은 이런 문제 3800여 개를 약 10분 만에 다 풀어야 한다. 인간에게는 불가능한 미션이다. 여기에 중·고등학교 수준의 국어 문제도 다수 포함돼 있다. 91.2점(100점 만점)을 넘으면 언어 능력이 성인 수준이라는 뜻이다. LG CNS는 지난해 12월 국내 처음으로 '코쿼드(KorQuAD·The Korean Question Answering Dataset)'라는 AI용 시험을 내놨다. 3개월 동안 네이버·카카오·알앤비소프트·인라이플·광주과학기술원 등 15개 팀의 AI 프로그램이 시험을 봤다. 시험 보는 이유는 사람과 마찬가지다. 혼자만 공부하고 시험을 안 보면 자기 실력을 알 수 없듯이, 내부 개발자들도 자사의 AI 프로그램 능력을 객관적으로 평가하지 못하면 어느 수준에서 상품화할지 불안하다. 외부 평가를 의뢰하는 이유다. 해외에선 이미 3년 전부터 미국 스탠퍼드대학이 만든 AI 영어 능력 시험에 구글·페이스북·IBM 등 주요 기업이 참여하고 있다.

◇수능 언어 영역 평가와 같은 방식으로 시험 보는 AI

AI 프로그램은 사전에 출제자인 LG CNS가 제시한 수만 개 한국어 문장을 학습해야 한다. 단어수로는 약 170만개다. 문맥까지 제대로 파악하는 게 핵심이다. 시험을 대비해 교과서를 공부하는 셈이다. 이후 AI 프로그램을 홈페이지에 업로드하면 시험 접수가 끝난다. 테스트는 LG CNS가 담당한다. 수능 언어 평가와 비슷하다. 사전에 학습한 글과 다른 지문을 제시하고, 3~6개 질문을 던진다. 모두 주관식이다. AI는 약 10분 동안 3898개 질문에 답해야 한다. 예를 들어 "그루트는 애니메이션 TV 프로그램, 장난감, 그리고 트레이딩 카드 같은 마블과 관련된 다양한 상품에 등장했다. 빈 디젤은 2014년 개봉하는 가디언즈 오브 더 갤럭시의 영화에서 목소리 녹음과 모션 캡처를 통해 그루트의 성우를 맡았다"와 같은 지문을 주고, "그루트 목소리는 누가 연기했죠?"라고 물으면 AI가 "빈 디젤"이라고 대답하는 식이다.

커트라인은 82.99점이다. 이 점수도 못 넘으면 AI라고 할 수 없다는 것이다. 91.2점을 넘으면 성인 수준의 언어 능력을 갖췄다고 평가한다. LG CNS 관계자는 "커트라인은 가장 초보적인 수준의 심층학습(딥러닝) 기능을 갖춘 AI를 테스트한 점수"라며 "4년제 대학을 졸업한 성인 6명에게 한 문제당 30초 제한을 걸고 일주일(시험 시간은 33시간) 동안 시험을 봤더니 평균점수가 91.2점이었다"고 말했다.

시험에 참가한 15개 팀 가운데 1위(17일 현재)는 익명으로 참가한 AI 프로그램(94.08점)이다. 참가팀이 AI 프로그램을 업로드할 때 이름을 밝히지 않아, LG CNS도 1위가 누구인지 알 수 없다. 2위는 이달 중순 시험을 본 네이버(92.42점)였다. 3위는 카카오(92.1점)다. 유일한 대학 참가자인 광주과학기술원은 6위였다. ◇해외 AI 평가에서는 구글 프로그램이 1위 해외 테크 기업은 주로 미국 스탠퍼드대학이 주관하는 ‘스쿼드(SQuAD)’ 시험을 활용하고 있다. 스탠퍼드대학은 영문 위키피디아를 이용해 10만7785개 질문을 만들었다. AI가 89.4점을 맞으면 사람 수준의 독해 능력을 갖췄다고 평가한다. 현재 1·2위는 모두 구글의 AI(각 89.1점, 87.7점)다. 지난달 시험 본 마이크로소프트(MS) AI가 87.6점으로 3위다. 중국 알리바바 AI가 28위, IBM의 AI가 33위를 기록하고 있다. AI 스피커 분야의 선두 업체인 아마존은 순위에서 찾아볼 수 없었다. 다른 업체와 굳이 비교되지 않으려 참여를 안 한 것으로 보인다.

AI 시험 난이도는 앞으로 더 올라갈 것으로 보인다. AI 프로그램의 실력이 상향 평준화하면서 변별력을 갖추기 위해서다.

예컨대 인사 규정집을 학습한 뒤 “금요일에 자녀를 어린이집에서 일찍 데려와야 하는데 조금 일찍 퇴근할 수 있을까요?”라는 질문에 답을 내는 것이다.

조선비즈

IT

15개팀 AI의 우리말 대회.. 1등 94점, 사람보다 낫네