[단독] 스캐터랩이 수집한 카톡 대화..'이루다'에만 쓰지 않았다

김남영 2021. 1. 12. 21:34
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

스캐터랩이 자사 서비스에서 수집한 메신저 대화를 기반으로 한 연구 결과물을 오픈소스 플랫폼에 올린 것으로 드러났다.

12일 관련 업계에 따르면 스캐터랩은 오픈소스 플랫폼 '깃허브'에 카카오톡 대화 데이터로 학습한 '인공신경망 모델 파일'을 올린 것으로 확인됐다.

AI 챗봇 서비스 이루다를 운영한 스캐터랩은 자사의 다른 서비스인 '연애의 과학' 이용자들의 대화 데이터 100억건을 사용해 AI를 학습시킨 것으로 알려졌다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

대화 기반 연구 결과물을 오픈소스 플랫폼에 올려
'연애의 과학' 이용자 불안 증폭
스캐터랩이 만든 인공지능(AI) 챗봇(채팅로봇) 이루다.

스캐터랩이 자사 서비스에서 수집한 메신저 대화를 기반으로 한 연구 결과물을 오픈소스 플랫폼에 올린 것으로 드러났다. 수집된 개인정보를 충분히 필터링하지 하지 않았을 것이라는 지적이 제기되고 있다.

오픈소스 플랫폼 깃허브 캡처.

12일 관련 업계에 따르면 스캐터랩은 오픈소스 플랫폼 ‘깃허브’에 카카오톡 대화 데이터로 학습한 ‘인공신경망 모델 파일’을 올린 것으로 확인됐다. 인공신경망은 인간 뇌세포를 모방한 머신러닝 기법으로, 이 파일을 활용하면 다른 사람도 ‘이루다’와 유사한 AI 챗봇(채팅로봇)을 만들 수 있다. 이 파일은 지난해 9월에 업로드돼 오픈소스 플랫폼 특성상 상당수 공유됐을 것으로 파악된다.

스캐터랩은 지난해 8월 자사 블로그를 통해 이 모델을 소개한 바 있다. 스캐터랩 측은 블로그에서 “저희 핑퐁팀은 '연애의 과학' 어플리케이션을 통해 수집한 대량의 대화 데이터를 학습 데이터로 이용했다”고 밝혔다.

정보기술(IT) 업계 관계자는 “이 파일 자체에서 개인정보를 탈취하긴 어렵다”며 “다만 파일이 개인정보가 필터링되지 않은 채로 학습됐을 가능성을 업체 측이 부정하긴 어려울 것”이라고 했다.

한편 이날 스캐터랩은 입장문을 통해 “이루다의 경우, 연애의 과학 텍스트 데이터를 기반으로 학습이 진행됐다”며 이용자 데이터 사용을 인정했다. AI 챗봇 서비스 이루다를 운영한 스캐터랩은 자사의 다른 서비스인 ‘연애의 과학’ 이용자들의 대화 데이터 100억건을 사용해 AI를 학습시킨 것으로 알려졌다.

김남영 기자 nykim@hankyung.com

경제지 네이버 구독 첫 400만, 한국경제 받아보세요
한경 고품격 뉴스레터, 원클릭으로 구독하세요
한국경제신문과 WSJ, 모바일한경으로 보세요

ⓒ 한국경제 & hankyung.com, 무단전재 및 재배포 금지

Copyright © 한국경제. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?