하루종일 띄어쓰기 교정만.. 난 AI 로봇의 비서인가[이슈&탐사]

[AI를 위해 일한다, 데이터 노동의 등장] ①데이터 구축 일자리 한 달 체험기

인공지능(AI)으로 과거에 존재하지 않던 일의 영역이 생기고 있습니다. AI가 학습할 데이터를 수집하고 가공하는 일입니다. 국민일보 취재팀은 이를 ‘데이터 노동’으로 부르기로 했습니다. 정부가 ‘한국형 뉴딜’의 핵심 사업으로 구축하겠다는 ‘데이터 댐’은 데이터 노동을 확대해 AI 학습용 데이터 자체와 일자리를 모두 늘리겠다는 취지입니다. 취재팀은 새롭게 열리고 있는 데이터 노동의 세계를 취재해 5회 기획기사로 준비했습니다. 첫 기사는 9월 한 달간 데이터 노동을 해본 기자의 체험기입니다.

한국과학기술정보연구원(KISTI)의 '과학기술 기계학습 데이터 구축 사업'에 참여한 기자가 10일 인공지능(AI) 학습용 데이터 구축 작업 과정을 바라보고 있다. 노트북 화면에는 AI를 위한 데이터를 구축하는 작업 과정이 순서대로 담겨있다. '데이터 노동' 과정을 단계별로 표현하기 위해 셔터를 1/15초씩 5회 개방하여 다중 노출 방식으로 촬영했다. 윤성호 기자

“협동로봇의 이 동 플랫폼을 차륜형 모바일 플랫폼으로 선정하여…”
‘이 동’→‘이동’

“초음파 센서는 과거부터 현재까지 측정 대상과의 거리를 계측하는데 활용된 센서로 초음파를 송신 하는…”
‘송신 하는’→‘송신하는’

낯선 과학 용어로 이뤄진 문장은 이가 빠진 것처럼 툭툭 끊어져 있었다. 기자에게 주어진 임무는 끊어진 단어를 이어붙이는 것이었다. 띄어쓰기가 잘못된 문장은 수백개였다. 마음은 급한데 손은 느렸다. 온종일 틀린 맞춤법을 찾아내기 위해 노트북 화면을 샅샅이 훑다보니 눈은 따갑고 뻐근했다.

기자는 9월 1일부터 한 달간 한국과학기술정보연구원(KISTI)의 데이터 구축 일자리에 ‘취업’해 일했다. 정부는 ‘디지털 뉴딜’ 사업의 일환으로 인공지능(AI)의 학습을 위한 데이터 댐 구축을 추진하고 있다. KISTI는 같은 목적으로 과학기술 기계학습 데이터 구축 사업을 진행하고 있다. 9월부터 12월까지 국내 과학기술 논문 및 연구·개발(R&D) 보고서를 정리해 기계학습 데이터 425만7000건(5종류)을 만드는 일이다. 사업비는 약 296억원으로 인건비에만 258억원이 책정됐다. KISTI는 이 사업에 필요한 단기 계약직 근무자 2000명을 선발했다.

기자는 지난 8월 온라인으로 진행된 AI 면접과 시험에 응시해 합격했다(나중에 들어보니 경쟁률이 2.4대 1이었다). 이후 한 달간 다른 근무자와 똑같이 교육 및 실습 훈련을 받고 ‘데이터 노동’에 참여했다. 동시에 동료 근무자 수백명이 모인 실명·익명의 오픈카카오톡방에 들어가 이들의 생각과 반응, 대화를 관찰했다.

근무자 2000명은 사무실 근무자 수십명을 제외하고 모두 재택근무를 했다. 교육과 실습 훈련도 온라인에서 비대면으로 받았다. 교육 6일째인 9월 8일 온라인 교육 영상에 나온 김재수 KISTI 국가과학기술데이터본부장은 “이번 구축 사업으로 만든 데이터가 과학기술 분야의 데이터 댐을 만드는 데 충분히 역할을 하리라 기대한다”고 말했다.

“젠장, 내가 로봇의 비서라니”

거창한 사업 소개와 달리 기자에게 주어진 일은 단순 반복 작업의 연속이었다. 실습 훈련 나흘째였던 9월 14일, 11장짜리 과학 논문을 데이터로 편집하는 동안 띄어쓰기 오류 194개를 발견했다. PDF 형태의 논문을 HTML 데이터로 바꾸는 과정에서 피할 수 없는 일이었다. 교육시간에 강사는 “데이터에 오탈자가 있으면 AI가 올바르게 학습할 수 없다”고 말했다. AI의 작동을 위해 잘못된 띄어쓰기를 일일이 이어붙이는 게 기자와 같은 ‘데이터 구축자’의 일이었다.

KISTI의 데이터 구축 직무는 난이도에 따라 고급(600명)과 초급(1400명)으로 나뉘었다. 초급 전형에 지원한 기자는 논문 전문을 데이터로 바꾸는 텍스트 구축 및 검토 업무에 배정됐다. ‘구축’은 논문을 입력기에 넣고 편집하는 일이다. ‘검토’는 다른 참여자가 구축한 데이터가 제대로 만들어졌는지 확인·수정하는 일이다.

AI용 데이터를 구축하는 데 고도의 컴퓨터 활용 능력은 필요없었다. 일의 순서는 이랬다. 먼저 할당받은 PDF 논문을 전체 복사해 편집기로 옮긴다. 논문 초록과 참고문헌 등 불필요한 내용 및 서식은 삭제한다. 제목과 문단, 캡션 등을 통일된 양식으로 정리하고, 깨진 각주나 첨자, 특수기호를 알맞게 수정한다. 다단별로 나눠진 본문을 편집하는 과정에서 필연적으로 생기는 수백 개의 띄어쓰기 오류는 수작업으로 일일이 잡아내야 한다. ‘복사, 붙여넣기, 편집’이 업무의 전부였다.

실습 훈련 첫날(9일) 이런 식으로 논문 하나를 주어진 형식에 맞게 편집하는 데 1시간30분이 넘게 걸렸다. 훈련이 끝나고 9월 15일 오후부터 본격적인 업무가 시작됐는데 이때에도 속도는 빨라지지 않았다. 기자를 비롯한 구축자에게 논문 20건이 하루 할당량으로 주어졌다. 이 속도로 작업하다가는 절반도 채우지 못할 게 뻔했다.

근무시간은 오전 9시부터 오후 6시까지였다. 인터넷만 되면 어디서든 로그인으로 출근하고, 로그아웃으로 퇴근할 수 있었다. 하루에 주어진 할당량인 논문 20건을 구축·검토하면 조기 퇴근도 가능했다. KISTI는 일일 할당량의 70%(14건)를 채우지 못하면 재계약 시 불이익을 받을 수 있다고 공지했다(계약은 사업이 끝나는 12월 31일까지 한 달 단위로 연장된다. 일부 근무자는 무단결근, 할당량 미달성 등 문제로 이번 달 계약이 해지됐다).

'과학기술 기계학습 데이터 구축 사업'에 참여한 기자가 지난달 29일 PDF 형태의 논문을 인공지능이 학습할 수 있는 HTML 형식의 데이터로 구축하는 작업을 하고 있다. 윤성호 기자

작업은 단순하지만 만만하지 않았다. 할당량을 채우기 위해서는 적어도 한 시간에 평균 10장 내외의 논문 두 편 이상을 처리해야 했다. 작업을 빠르고 정확히 수행하기 위해서는 논문을 읽을 시간도, 필요도 없었다. 노트북 화면을 빠르게 눈으로 훑으며 오탈자를 틀린 그림 찾기 하듯 기계적으로 찾아내고 수정해야 했다. 근무자들이 모인 오픈채팅방을 들여다봤더니 다른 사람들도 힘들어하는 것 같았다. 동료들은 “‘컴퓨터 노가다(막일)’ 같네요” “눈이 기계여야 업무를 할 수 있을 거 같은데요”라고 하소연했다.

띄어쓰기 오류를 찾기 위해 종일 컴퓨터 화면을 들여다봤더니 눈이 금세 피로해졌다. 구축 작업 5일 차였던 지난 17일 오후 기자의 양쪽 눈 실핏줄이 터졌다. 충혈된 눈에 인공눈물을 넣고 다시 작업에 들어갔다. 기자만 그런게 아니었다. “루테인(영양제)이 좋아요.” “블루라이트 차단 안경을 샀어요.” 동료들은 오픈채팅방에서 눈에 좋은 영양제나 보호구를 서로에게 추천했다.

일부 동료는 일찌감치 일의 본질을 알아차린 듯했다. AI가 수십만장의 논문 데이터를 학습해 똑똑해지기 위해서는 데이터를 수집·가공·구축하는 인간의 노동이 투입돼야 했다. 한 동료가 작업 첫날 오픈채팅방에서 탄식조로 말했다. “젠장, 내가 로봇의 비서라니….”

협업하니 속도가 빨라졌다

기자가 구축한 데이터는 다른 근무자들에게 ‘검토’를 받았다. 기자도 다른 사람의 데이터를 검토했다. 가이드라인에 따라 데이터가 올바르게 편집됐는지 교차 확인하는 것이다. 검토 후 문제가 없다고 판단하면 ‘완료’를 눌러 다음 단계로 넘길 수 있다. 정교한 데이터를 산출하기 위해 최종 검수 전까지 최소 4명 이상이 검토에 투입된다. 데이터에 오류가 10개 이상 발견되는 경우 작업물을 이전 단계로 돌려보내는 ‘반려’도 가능하다. 기자는 하루에 3건을 반려한 적도 있다. 작업자들의 참여로 품질을 향상하는 ‘크라우드소싱’이 이곳에서 이뤄졌다.

기자가 검토한 구축 데이터 간 질적 격차는 컸다. 작업물의 30%가량은 기본적인 오탈자 교정, 특수기호 표기 등이 안 된 상태였다. 아무런 편집도 하지 않은 채 원문을 그대로 복사해놓은 경우도 있었다. 하나씩 고치다가 도저히 손쓸 수 없을 정도로 오류가 많은 경우 ‘반려’ 처리했다. 무성의하게 데이터를 구축하는 근무자가 적지 않았다. 반면 복잡한 수식과 특수기호, 첨자를 꼼꼼하게 공들여 구현해놓은 작업물도 있었다.

비대면 근무였지만 참여자들은 시스템 바깥에서 협업했다. 한 번도 만난 적 없는 ‘동료’들은 소셜미디어나 온라인 커뮤니티에서 업무에 유용한 팁을 공유했다. 오픈채팅방에서는 끊임없이 업무 방법 관련 질문과 답이 오갔다. 직접 찍은 작업 과정 영상을 유튜브에 올려 공유하는 사람도 있었다.

실습 훈련 3일째인 11일 한 참여자가 프로그램 하나를 오픈채팅방에 올렸다. 띄어쓰기 오류와 오탈자를 자동으로 교정, 수정할 수 있는 프로그램이라고 했다. 비용은 무료였다. 프로그램을 내려받아 사용한 동료들이 작업시간이 크게 줄었다며 만족감을 나타냈다. 일일이 수작업으로 구축하던 기자도 며칠 후 다운로드해 사용해봤다. 정말로 작업시간이 절반 이하로 단축됐다. 오픈채팅방에서 프로그램을 개발하고 배포한 사람에 대한 찬사가 이어졌다. 동료들은 “(유료화가 되면) 10만원을 내고라도 프로그램을 쓰겠다” “월급 받으면 개발자를 후원하고 싶다”며 고마움을 나타냈다.

월 205만원…알바보다 ‘꿀’

편집 프로그램 덕택에 작업은 한결 수월해졌다. 복사, 붙여넣기, 편집의 단순 작업도 점차 손에 익으면서 업무에 속도가 붙었다. 본격적 업무 2주 차인 지난 23일에는 2시간 만에 논문 7건의 구축과 검토를 끝마쳤다. 다른 근무자도 대부분 하루 할당량을 무리 없이 채우는 것처럼 보였다.

처음에는 힘들어했던 근무자들이 점차 근무 환경과 보수에 만족감을 나타내기 시작했다. 기자와 같은 초급 전형 근무자는 한 달에 세금과 4대 보험료를 포함해 약 205만원을 급여로 받는다. 고급 근무자의 급여는 약 265만원이다. 10월 8일 첫달 월급이 나왔다. 실수령액이 초급 190여만원, 고급 240여만원이었다(기자는 취재가 목적이었으므로 급여를 받지 않았다). 한 근무자는 “식당 아르바이트로 이만큼 받으려면 주말에도 쉬지 않고 매일 8시간 정도 일해야 한다”고 말했다. 다른 참여자는 “쿠팡 배달이나 (택배) 상하차하는 것보다 데이터 구축 작업이 훨씬 낫다”고 했다.

근무자 가운데는 취업준비생이 많아 보였다. 재택근무를 하면서 취업 준비를 병행하겠다는 생각으로 사업에 지원한 것이다. 정부의 ‘디지털 뉴딜’ 관련 사업에서 일했다는 경력이 취업에 도움이 될 것이라는 기대도 컸다. 이들은 오픈채팅방에서 “KISTI 일자리는 인턴보다 상위 개념이고 이력을 포장하기도 좋다” “업무 경험을 매주 기록해서 자기소개서에 활용하자”며 서로를 독려했다.

지난 25일 대전 KISTI 사무실 작업장에서 만난 지창우(30)씨도 중소기업 퇴사 후 다시 취업을 준비하면서 데이터 구축 사업에 참여했다. 지씨는 “AI와 빅데이터에 대한 사회적 관심이 높아지면서 관련 분야 경험을 쌓기 위해 지원했다”며 “‘기계학습 데이터 구축’이라고 해서 새로운 지식을 배우길 기대했는데 생각보다 단순한 작업이 주어졌다”고 말했다. 이어 “보수나 처우 자체는 만족스럽지만 기간이 4개월로 짧아 아쉽다. 당장 일자리가 없어 생계가 어렵다면 지원해볼 만하다고 생각한다”고 말했다.

'과학기술 기계학습 데이터 구축 사업'에 사무실 근무자로 참여하고 있는 지창우(30)씨가 지난달 25일 대전 유성구 한국과학기술정보연구원 작업장에서 논문 데이터를 구축하고 있다. 대전=방극렬 기자

근무자 가운데는 일거리를 찾는 젊은 주부들도 있었다. 오픈채팅방에서 한 근무자는 집에서 13개월 된 아이를 키우고 있다고 말했다.

논문 학습한 AI는 ‘척척박사’ 된다

한 달간 일하면서 오픈채팅방을 들여다봤지만 왜 이 일을 하는지 이야기하는 사람은 거의 없었다. 기계가 읽기 좋게 편집한 과학 논문이 어떻게 AI를 작동시킨다는 건지, 이렇게 해서 만들어진 AI가 세상에 어떤 도움이 되는 건지, 가끔씩 궁금했지만 띄어쓰기 수정을 하는 작업이 더 시급했다. AI가 앞으로 하게 될 일에는 관심을 둘 겨를이 없었다.

기자는 근무 기간 막바지였던 9월 25일 대전 KISTI를 찾아가 이 사업을 설계하고 운영하는 사람들을 만났다. 문태경 기획실장, 윤화묵 콘텐츠큐레이션센터 책임연구원, 황혜경 콘텐츠큐레이션센터 센터장, 신진섭 콘텐츠큐레이션센터 선임연구원이다.

KISTI 연구원들은 “사업 참여자들이 구축하는 425만여건의 데이터는 AI에게 과학기술 분야의 언어와 지식을 가르치는 데 쓰인다”면서 “BERT라는 언어 이해 모델을 개발하는 데 쓰일 것”이라고 했다.

BERT는 구글이 2018년 공개한 자연어 처리 모델이다. 언어의 맥락과 뉘앙스까지 이해하는 것처럼 보이는 결과물을 내놓는다고 한다. KISTI 연구원들은 슈퍼컴퓨터로 BERT 모델을 구현했다. 이제 필요한 것은 BERT가 학습할 언어 데이터다. 연구원들은 구축된 논문 데이터를 기계가 읽을 수 있게 전처리 작업한 뒤 BERT에 입력할 예정이다. BERT는 입력된 데이터를 바탕으로 특정 단어나 문장 다음에 이어질 내용을 예측하게 된다. 만약 자신이 예측한 결과값이 실제 논문 내용과 다른 경우 다시 학습한다. 이 과정을 반복하며 예측의 정교함을 고도로 높인다. BERT가 논문 수백만편 분량의 텍스트 80기가바이트(GB)를 학습하는 데는 2주일밖에 걸리지 않는다고 한다.

막대한 양의 과학기술 논문 데이터를 학습한 AI는 지금과는 차원이 다른 검색 기능을 갖게 된다. 어떤 질문을 입력하더라도 핵심을 이해하고 정답에 가장 근접한 데이터를 보여준다. 예를 들어 BERT에 ‘A라는 질환을 치료할 방법을 찾고 있습니다’고 입력하면 치료 성분을 담은 화합물이 무엇인지, 근거가 되는 논문의 특정 문단까지 요약해 알려주는 식이다. 더 많은 데이터를 학습할수록 검색은 정확해진다. 단순히 키워드를 입력하면 해당 단어를 포함한 논문 파일을 나열하는 현재 검색 방식과는 크게 다르다. 특정 질환의 치료제를 개발하려는 연구자가 수백만편의 기존 논문에 어떤 내용이 담겨 있는지 일일이 찾아 읽는 과정을 크게 단축할 수 있다.

황혜경 센터장은 “연구자들이 사례를 분석하거나 선행연구를 조사할 때 시간이 크게 단축되며 생산성이 높아질 것”이라며 “국가적으로 과학기술 경쟁력이 올라 연구·개발 성과도 창출될 수 있다”고 말했다.

KISTI 연구원들은 띄어쓰기 오류 수정과 같은 ‘데이터 노동’이 미래 AI산업의 근간이 될 것이라고 전망했다. 신진섭 연구원은 “AI나 4차 산업혁명은 갑자기 눈앞에 나타난 도깨비방망이가 아니다. 이런 기술들은 옛날부터 사람이 한 땀 한 땀 데이터를 축적한 분야에서만 구현될 수 있다”며 “기술 발전에 기여하는 데이터 구축 작업을 단순 반복 작업이라고 깎아내려서는 안 된다”고 했다.

윤화묵 책임연구원은 “정제된 데이터를 얼마나 많이 보유하고 있는지에 따라 국가 경쟁력이 좌우된다. 데이터를 바탕으로 개발될 AI의 활용성·가치는 무궁하다”고 했다. KISTI는 근무자들에게 자부심을 심어주기 위해 향후 기계학습 데이터 서비스를 제공할 때 구축자의 이름을 함께 넣는 방안을 고려하고 있다.

이슈&탐사2팀 방극렬 기자 extreme@kmib.co.kr

국민일보에서 직접 확인하세요. 해당 언론사로 이동합니다.