[신약개발 패러다임 시프트]④신약개발 빅데이터 핵심 '유전체'는?

30억쌍 유전체 염기서열 분석 후 관련 연구 폭증
4조원 들던 분석 60만원이면 가능해져
데이터 너무 많아 사람 힘으로는 분석 불가능
똑똑한 인공지능 알고리즘 구현이 핵심

신약개발에 인공지능(AI)을 활용하기 위해서는 빅데이터가 있어야 한다. 알파고는 프로 바둑기사의 기보 3000만건을 학습하면서 바둑 실력을 키웠다. 박종화 유니스트(UNITST) 생명과학부 교수는 “신약개발을 위한 가장 중요한 빅데이터는 결국 인간의 유전체 정보”라고 말했다.

인간의 유전체는 30억쌍의 DNA로 구성됐다. 2003년 처음 염기서열 정보가 공개됐는데 이를 위해 13년 간 총 38억달러(약 4조 2000억원)가 투입됐다. 한번에 하나의 DNA 조각을 읽어야 했기 때문이다. 이후 IT(정보기술)가 급격히 발달하면서 염기서열 정보를 분석하는데 2007년 4개월에 100만달러로, 2011년에는 48시간에 3000달러로 급격히 떨어졌다. 박 교수는 “2008년 한국인 유전체 전체 염기서열 분석에 4억원이 들었지만 이제는 60만원 정도면 가능하다”며 “염기서열 분석 비용이 줄어들면서 다양한 활용법이 나오게 됐다”고 말했다.

유전정보는 태어날 때 부모 양쪽에서 절반씩 받는데 이 때 7000여개의 단백질 구조가 변경된다. 박 교수는 “대부분 바뀌어도 큰 차이가 없지만 극히 일부 유전자는 유전질환을 일으킨다”고 말했다. 대부분 유전질환은 희귀질환이다. 그만큼 극소수에서만 돌연변이가 일어나기 때문이다. 제약사 입장에서는 환자 수가 너무 적으면 수지타산이 맞지 않는다. 이 때 쓸 수 있는 게 유전자 편집 기술이다.

이와 관련 바이오벤처인 툴젠은 이 돌연변이 유전자를 정상 유전자로 바꿔 끼우는 ‘편집 가위’ 기술을 보유했다. 김종문 툴젠 대표는 “혈우병과 황반변성, 유전성 실명 등 희귀질환을 비롯해 암이나 에이즈 같은 근본 치료법이 없는 다양한 질환 치료법을 연구하고 있다”고 말했다.

여러 사람에게 공통적으로 일어나는 돌연변이라면 제약사들이 약으로 개발한다. 인공지능이 활발히 이용되는 분야가 여기다. 고려해야 할 데이터가 많기 때문이다. 흔히 게놈이라고 하지만 유전체·전사체·단백질체·후성유전체 등을 관련된 모든 정보인 ‘오믹스’(OMICS)를 분석해야 한다. 여기에 질병과 관련된 통계정보·인종 별 다빈도 질병 정보·의약품 분자구조 정보 등이 필요하다.

박 교수는 “그야말로 자료가 너무 방대한 빅데이터이다 보니 사람의 힘으로 할 수 없어 컴퓨터에 맡기는 것이 인공지능”이라고 말했다. 따라서 인공지능을 이용한 신약개발에서 가장 중요한 것은 정확한 인공지능 알고리즘 개발이다. 유전체 정보를 비롯한 빅데이터는 얻을 수 있으면 얼마든지 얻을 수 있는 시대가 됐기 때문이다.

강경훈 (kwkang@edaily.co.kr)

이데일리

경제

[신약개발 패러다임 시프트]④신약개발 빅데이터 핵심 '유전체'는?