[단독] 한동훈 장녀의 '국제 콘퍼런스' 기고문, 카피킬러에서 안 잡히는 이유

한동훈 법무부 장관 후보자 장녀가 IEEE의 국제 콘퍼런스에 제출한 기고문은 에세이 판매 사이트에 올라온 글과 무척 비슷하다. 같은 의미의 문장을, 똑같은 뜻을 가진 다른 단어로 바꾸거나 문장구조를 변형했다. 이 때문에 표절 검사 전문사이트인 '카피킬러'에서도 표절로 판단하지 않았다. 하지만 IEEE는 이러한 형태로 작성된 기고문을 표절로 명시하고 있다. 기고문에 허위로 논문 및 문헌 출처를 인용한 정황도 발견됐다.

한동훈 법무부장관 후보자 장녀의 국제전기전자기술자학회(IEEE)의 국제 콘퍼런스 기고문이 에세이 판매 사이트에 올라온 글을 표절했다는 의혹이 제기됐다. 한 후보자 측은 표절 의혹에 대해 표절 검증 사이트인 ‘카피킬러’ 검증 결과를 인용해 반박했다. 25개의 논문과 문헌을 참고해 기고문을 썼다고도 해명했다. 하지만 〈시사IN〉이 기고문의 모든 문장을 직접 확인한 결과, 한 후보자의 장녀가 ‘바꿔 쓰기’ 방법을 사용했고, 이 때문에 카피킬러 검사 과정에서 걸러지지 않은 정황을 발견했다. 논문 및 문헌 출처를 인용한 대목에서도 석연치 않은 정황이 드러났다.

지난 5월7일, 법무부 인사검증팀은 한 후보자 장녀 기고문의 표절 의혹에 대한 〈시사IN〉의 질문에 “후보자 장녀의 에세이는 25개의 논문, 문헌을 참고하여 그 출처를 표기한 바 있고(주석 참조), 전체 논문과의 표절률은 4%, 언급하신 에세이와는 표절율이 1%(표절 검사 전문 사이트인 ‘카피킬러’ 기준)로 확인되는 등 표절의 문제는 아니고, 특히 후보자 장녀 에세이의 주제(헬쓰케어, Healthcare)와 결론은 (시사IN이) 언급한 에세이와는 전혀 상이한 것으로 보인다”라고 답했다. 카피킬러에선 통상 20%를 표절의 기준으로 삼는다. 카피킬러 검증 결과만 놓고 보면 이 기고문은 다른 문헌을 베껴쓴 게 아니라고 할 수 있다.

그러나 〈시사IN〉이 한 후보자 장녀의 기고문과 원문으로 의심되는 글의 모든 문장을 하나씩 뜯어 직접 비교해본 결과, 첨부된 표를 제외하고 본문 약 2/3 분량이 내용에 있어 다른 글과 같은 것으로 확인됐다. 카피킬러 검사 결과 나온 매우 낮은 표절율과는 상반된다.

이러한 차이가 발생하는 이유는 카피킬러의 검증 과정이 설정한 ‘표절 검증 기준’ 때문이다. 카피킬러의 경우, 기본 설정값은 6어절 이상 일치하거나 1문장 이상 일치할 때만 표절로 판정한다. 즉, 완전히 같은 뜻의 문장이라고 하더라도 ‘문장이 완전히 같거나, 6어절 이상 일치하지 않으면’ 표절로 검출되지 않는다는 뜻이다. 그런데 한 후보자의 장녀는 일부 단어를 같은 뜻을 갖는 다른 단어로 바꾸거나, 문장 구조를 변형하는 방법을 사용했다(IEEE는 공식 홈페이지를 통해 이러한 방식을 ‘표절’이라고 명시하고 있다).

아래 〈그림 1〉은 2021년에 발표된 한 후보자 장녀 기고문의 문장과 2019년에 게재된 에세이 판매 사이트 블로그에 올라온 글의 문장이다. 각각 ‘표절 의심 문장’과 ‘비교 문장’ 바로 뒤에 이어진 문장이다. 영어로 쓰인 두 문장을 한국어로 해석해보면 의미는 같다. 그러나 해당 문장은 ‘표절 의심 문장’으로 검출되지 않는다.

해당 문장이 ‘표절 의심’으로 판정되지 않은 이유는 ‘6어절 이상, 한 문장 이상 일치’라는 기준을 피해갔기 때문이다. 각 단어를 같은 의미를 가진 다른 단어로 대체하거나, 문장 구조를 바꾸는 방식을 통해서다. 〈그림 1〉의 문장 가운데 쌍점( : ) 뒷 부분을 보면, 에세이 판매 사이트 블로그에 올라온 문장은 “find out multiple levels of features that work jointly to define increasingly more abstract aspects of the data”이고, 한 후보자 장녀의 기고문 문장은 “identify many layers of characteristics that operate in concert to describe progressively abstract parts of the data”이다. 이 한 문장에서 한 후보자의 장녀는 같은 의미를 가진 다른 단어로 바꾸는 방식을 시도한 것처럼 보인다. 이를 비교해보면 아래 〈그림 2〉와 같다.

내용은 비슷한데 문장 구조에 변화를 준 흔적도 보인다. 쌍점( : ) 앞 문장을 보면, 에세이 판매 사이트 블로그에 올라온 문장은 “The idea of the deep learning is the same”이고, 한 후보자 장녀의 기고문 문장은 “Deep learning is based on the same principle”이다. 앞선 문장에서 ‘same’은 주어를 수식해주는 주격 보어다. 그러나 뒷 문장에서 ‘same’은 ‘priciple’이라는 단어를 수식한다. 기존 문장의 ‘idea’라는 단어를 유사한 의미인 ‘based on … principle’로 바뀌었다.

한 후보자 장녀의 기고문이 카피킬러에서 표절 의심을 피할 수 있었던 이유는 이 같은 두 가지 방법 때문이었다. “6어절 이상 일치, 1문장 이상 일치”라는 논문 표절 검사의 기준을 동의어 사용과 문장 구조 변화로 회피한 것이다. 한 후보자 장녀의 기고문은 ‘머신 러닝’ 부분과 ‘의료서비스’ 두 부분으로 나누어지는데, ‘머신 러닝’에 해당하는 모든 부분이 에세이 판매 사이트 블로그에 올라온 ‘딥 러닝의 개념과 적용’ 글과 그 내용이 유사했다. 기고문의 전체 분량으로 보면 2/3가량이 그렇다.

한 후보자 장녀의 기고문은 글 맨 앞에 붙는 ‘요약’도 비슷하다. 두 글을 비교해서 시각화하면 다음과 같은 그림이 나온다. 노란색은 완전히 같은 단어, 보라색은 동의/유의어인 단어, 하늘색은 문장/수식 구조 변경을 의미한다. 전체 논문의 중요 부분을 추려 해당 논문의 요지를 전달하는 ‘요약’ 부분까지 에세이 판매 사이트의 것과 비슷하다.

한 후보자 장녀의 기고문에는 25개 논문 등이 출처로 표시되어 있지만, 에세이 판매 사이트 블로그는 언급되어 있지 않다. 출처로 표시한 논문에서도 의심스러운 지점이 발견됐다. 예컨대 한 후보자의 장녀는 “Additionally, Facebook aims to use deep learning techniques to better understand its users (Dauphin & Bengio, 2013)”라며 문장 뒤 인용 출처를 명시했다. 하지만 인용된 논문을 〈시사IN〉이 직접 확인한 결과, 이 문장은 논문에 없었다. 특히 ‘facebook’이라는 단어는 논문에서 단 한 차례도 등장하지 않았다.

원문으로 의심되는 에세이에선 제대로 인용 표기를 해둔 것을 한 후보자 장녀의 기고문에선 오히려 잘못된 인용 표기로 바꾼 정황도 확인됐다. 한 후보자 장녀의 기고문 중 “For learning networks with more than a few hidden layers, back-propagation alone did not operate well at the time”라는 문장이 있다. 이 문장에서 핵심 키워드는 ‘back-propagation’이다.

원문으로 의심되는 에세이에는 ‘Unfortunately back-propagation alone did not work well in practice then for learning networks with more than a small number of hidden layers’라는 문장이 있다. 앞 문단에 제시된 한 후보자 장녀 기고문의 문장과 동일한 의미로 해석된다. 이 문장 역시 핵심 키워드는 ‘back-propagation’이다.

원문으로 의심되는 에세이에서는 해당 문장 뒤에 Glorot과 Bengio의 2010년, 2011년 논문 두 가지를 인용해 두었다. 두 논문 모두 키워드인 ‘back-propagation’이 등장한다. 그러나 한 후보자의 장녀가 바꿔놓은 인용인 Mishra의 문헌에서는 ‘back-propagation’이란 단어가 한 번도 등장하지 않는다.

〈시사IN〉은 학위 논문이나 저널에 실린 정식 논문이 아니더라도 표절 논란에서 자유로울 수 없다는 사실도 확인했다. IEEE는 전자 도서관에 게재되는 출판물의 종류를 매거진, 저널, 책, 콘퍼런스 4가지로 나누고 있다. 한 후보자 장녀의 기고문은 ‘콘퍼런스’에 해당한다. IEEE가 공식 운영하는 ‘저자 센터’ 홈페이지를 보면, 콘퍼런스 저자가 갖춰야 할 ‘윤리적 필요조건’을 명시해두고 있다. 그중 하나가 ‘어떤 종류의 표절도 용인되지 않는다’는 것이었다.

구체적으로 IEEE는 한 후보자 장녀의 기고문에서 사용한 ‘바꿔 쓰기’ 방법이 표절에 해당한다고 명시해두고 있다. IEEE의 출판 서비스 및 생산물 이사회 운영 매뉴얼(Publication Services and Products Board Operations Manual)은 표절을 5단계로 구분한다. 그중 4단계는 “원작을 표기하지 않은 페이지나 문장 단위의 부적절한 바꿔 쓰기(uncredited improper paraphrasing of pages and paragraphs)”다. IEEE는 이 유형의 예시가 “몇 단어나 문장을 바꾸거나 원 문장의 순서를 재배열하는 것”이라 설명한다. 한 후보자의 장녀가 쓴 글은 이 예시에 해당해 보인다.

IEEE는 운영 매뉴얼에서 이러한 유형의 표절이 발생할 경우 취해질 조치에 대해서도 규정하고 있다. 4단계의 표절이 발생했을 때, 표절 저자는 원작자에게 사과문을 제출해야 하며 IEEE 전자 데이터베이스에 위반 공지를 공개해야 한다. 만약 표절 저자가 이러한 조치를 취하지 않을 시, IEEE는 1년간 출판 또는 다음 콘퍼런스에 참가하는 것을 금지하며 표절 저자의 사과문을 공개한다.

지난 5월5일 〈시사IN〉은 한 후보자 장녀의 기고문이 실렸던 2021년 콘퍼런스의 좌장, 모하메드 리다 라우어 라비테베시대학 교수(컴퓨터과학 전공, 알제리)에 관련 질의 메일을 보냈다. 〈시사IN〉은 콘퍼런스의 성격, 콘퍼런스에 글을 기고하기 위해 필요한 자격, 콘퍼런스 기고를 하려면 비용을 지불해야 하는지 여부, 표절로 의심되는 글이 어떻게 IEEE와 같은 저명한 학회에 실릴 수 있었는지에 대해서 문의했다.

〈시사IN〉의 질의에 라우어 교수는 자세한 답을 하지 않았다. 라우어 교수는 답장에서 “한 아무개씨(한동훈 후보자의 장녀)는 2021년 ICISAT의 저자 중 한 명으로 참여했다. 자신의 기고문을 출판하기 위해 저작권에 책임을 지겠다고 서명했다”라고만 답했다. 라우어 교수는 “한 아무개씨에게 문의를 전달하겠다”라고 답했고, 〈시사IN〉을 참조자로 한 전자우편을 한 아무개씨에게 보냈다. 그 메일에는 “기고문에 대한 문의에 답을 해달라”고 적혀 있었다. 하지만 한 후보자의 장녀든 라우어 교수든 〈시사IN〉에 더 이상 추가 해명을 하지 않았다.

앞서의 해명에 더해 법무부 인사청문팀은 〈시사IN〉에 “그 외 사항은, 인사청문법의 취지, 미성년자녀 보호 필요성 등을 고려할 때, 후보자가 관여한 바 없는 미성년 자녀의 상세 활동에 대해서 일일이 답변드릴 수 없다는 점 양해해 주시기 바란다”고 덧붙였다.

문상현·주하은 기자 moon@sisain.co.kr

이 기사에 대해 어떻게 생각하시나요?

정치

[단독] 한동훈 장녀의 '국제 콘퍼런스' 기고문, 카피킬러에서 안 잡히는 이유