"제2의 이루다는 없다"..스마일게이트 AI 센터, 인공지능 혐오발언 데이터셋 공개
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
스마일게이트 AI(인공지능) 센터는 20일 악성댓글 및 혐오 발언 데이터셋을 공개한다고 밝혔다.
스마일게이트 AI센터에 따르면 이번 데이터셋 공개는 최근 혐오 표현이 온라인에서 광범위하고 증가하고, 사회적 문제로 이어질 가능성이 큰 데 따른 것이다.
스마일게이트 AI센터가 구축한 악성 댓글 및 혐오 발언 데이터셋은 향후 게임 커뮤니티 댓글, 고객 응대 상담 챗봇, 여론조사 등에서 활용할 수 있을 것으로 여겨진다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
스마일게이트 AI(인공지능) 센터는 20일 악성댓글 및 혐오 발언 데이터셋을 공개한다고 밝혔다.
스마일게이트 AI센터에 따르면 이번 데이터셋 공개는 최근 혐오 표현이 온라인에서 광범위하고 증가하고, 사회적 문제로 이어질 가능성이 큰 데 따른 것이다. 앞서 스마일게이트 AI센터는 지식 콘텐츠 스타트업 언더스코어와 협업을 통해 혐오 표현 등을 선제적으로 감지하고, 대응하도록 악성 댓글과 혐오 발언 데이터셋을 구축했다.
악성 댓글 및 혐오 발언 데이터는 지난 2019년 1월 1일부터 지난해 7월 1일까지 포털 사이트, 커뮤니티 등 다양한 웹사이트의 게시글을 대상으로 수집했다. 수집 과정에서 혐오 관련 데이터의 시의성과 편향성을 고려해 약 55만개 데이터 중 1만개를 추렸다.
데이터셋 구축 과정에서 ‘여성/가족’ ‘성소수자’ ‘남성’ ‘인종/국적’ ‘연령’ ‘지역’ ‘종교’ ‘기타혐오’ 등으로 크게 나누고, 혐오 발언 분류를 위한 기준 모델도 공개했다.
스마일게이트 AI센터가 구축한 악성 댓글 및 혐오 발언 데이터셋은 향후 게임 커뮤니티 댓글, 고객 응대 상담 챗봇, 여론조사 등에서 활용할 수 있을 것으로 여겨진다. 센터 측은 향후 지속적인 연구개발을 통해 기술을 고도화한다는 방침이다. 이번에 수집된 데이터는 스마일게이트 AI 센터 깃허브 페이지를 통해 이달 안에 공개될 예정이다.
한우진 스마일게이트 AI 센터장은 “AI 센터는 자연어 처리 및 분류 관련 연구 목적 외에도 윤리성이 결여된 인공지능이 사회에 미치는 문제에 대해서 연구하고 있는 기관으로 책임과 문제의식을 갖고 있다”라며 “이번에 공개한 데이터가 좀 더 안전하게 인공지능을 활용하는 데 밑거름이 되기를 바란다”고 했다.
- Copyright ⓒ 조선비즈 & Chosun.com -
Copyright © 조선비즈. 무단전재 및 재배포 금지.
- 매물로 나온 런던베이글뮤지엄, 몸값이 3000억대?… “식음료 회사 치고 과해”
- 사상 최고치 금값에 웃는 고려아연… 제련 과정서 年 9t 추출
- ‘한국형 화물창’ 잔혹사… 대한해운 LNG선 수리도 어려워
- 가파른 성장 뉴진스, 2년만에 하이브 영업익 9% 기여
- 민희진 ‘역대급 기자회견’에 패션도 화제… 민희진 룩 ‘완판’
- [단독] 테슬라, 모델Y 가격 200만원 내려… 올 들어 두번째
- ‘성심당·이성당’ 지역 명물 된 빵집...원가 상승에도 두자릿 수 이익률 비결은
- “경영권 갈등이 투자 기회네”… 하이브 주식 1200억원 사들인 개미들
- [인터뷰] “전고체 배터리 전해질 가격 확 낮출 새 공정 나올 것”
- “서울 아닌데?”… 청약자 몰리고 집값 유지하는 ‘이곳’