본문 바로가기
HOME> 동향 > 동향 검색상세

동향 상세정보

유전체학에 적용한 딥러닝
DeepVariant: Highly Accurate Genomes With Deep Neural Networks

해외과학기술동향

2018-01-16


많은 다른 과학 분야도 마찬가지지만 특히 유전체학(genomics)은 새로운 기술로 인한 주요 혁신이 종종 일어나는 분야다. 최초의 인간 염기서열 분석인 생어 시퀀싱(Sanger sequencing)에서 최초로 대규모 전체 게놈 실험을 가능하게 한 마이크로 어레이(microarray technologies)까지 기술의 진보에 따라 더 깊이 유전체를 관찰하게 되었고 그 결과를 보건, 농업, 생태학까지 광범위하게 적용할 수 있게 되었다.

유전체학에서 가장 혁신적인 신기술은 2000대 초에 사용화된 대량 시퀀싱(high-throughput sequencing, HTS)이다.  HTS를 이용해 과학자와 임상의는 더 빠르고 저렴하게 대규모 시퀀싱 데이터를 얻을 수 있다. 하지만 HTS는 분석 대상 전체 게놈 시퀀스를 대상으로 하지 않고 리즈(reads)라고 알려진 약 10억 개의 짧은 시퀀스를 얻을 수 있는데, 인간 게놈은 구아닌, 시토신, 아데닌, 티민 30억 개가 쌍을 이루어 23쌍의 염색체를 구성한다. 

각 리즈는 30억 개의 베이스 중에 100개만 나타낼 뿐이고 베이스당 에러율도 0.1~10%에 달한다. HST 결과를 하나의 정확하고 완전한 게놈 시퀀스로 처리하는 것은 주요 도전 과제다. 이 문제 해결이 중요한 것은 검증 및 벤치마크에 사용할 수 있을 정도의 높은 신뢰도를 가진 인간 게놈을 얻기 위한 게놈 보틀 컨소시엄(Genome in a Bottle Consortium, GIAB)과 HST 기반 게놈 테스트의 품질과 정확도를 개선하기 위한 혁신을 촉진하는데 중요한 정밀 FDA 커뮤니티 과제(precisionFDA community challenges) 때문이다.

구글은 기존 방법보다 훨씬 정확하게 게놈 시퀀스를 재구성하는 딥러닝 기술을 이용한 딥베리언트(DeepVariant)라는 오픈 소스 프로젝트를 공개했다. 구글 브레인 팀과 베릴리 라이프 사이언스가 협력하여 2년 동안 이 프로젝트를 수행했다. 딥베리언트는 유전체학에서 재구성 문제로 알려진 베리언트 호출 작업을 변경하여 구글의 잘 알려진 기술과 전문성을 적용한 이미지 분류 문제로 만든 것이다.

현재 정확한 값에 가장 근접한 근사치를 가진 GIAB 참조 게놈을 이용하여 여러 번 복제한 후 수백만 개의 훈련용 샘플을 만든 후 다채널 텐서의 형태로 예제를 만들어 HTS 측정 데이터를 인코딩한 후 텐서-플로를 기반으로 한 이미지 분류 훈련을 통해 측정을 통해 얻은 실험 데이터에서 실제 게놈 시퀀스를 식별하도록 한 것이다.

이 딥베리언트 모델은 유전체학이나 HTS에 대한 전문 지식이 없었지만 1년 만에 정밀 FDA 트루스 챌린지에서 가장 높은 단일염기다형성(SNP) 정확도 상을 받았으며 최첨단 방법을 능가했으며, 이후 그 에러율도 50% 이상 낮출 수 있었다.

구글은 실제 문제 해결에 이 기술 적용을 촉진하고 협력을 장려하기 위해 오픈 소스로서 딥베리언트를 공개하고 있다. 구글 클라우드 플랫폼(GCP)에 딥베리언트 워크플로를 공개하여 파이프라인 API와 같이 확장성 있는 GCP를 저렴하고 빠르게 구성할 수 있게 되었다. 사용자들은 현재 컴퓨팅 환경에서 딥베리언트의 기능을 탐색하고 평가할 수 있으며 최대 게놈 데이터 요구사항도 충족할 수 있는 확장 가능한 클라우드 솔루션을 보유하게 되었다.

딥베리언트는 게놈을 더 잘 이해하고 딥러닝 기반 유전체학을 보급하여 많이 활용하는 것을 목표로 하는 최초의 시도로 의료 및 기타 과학적 응용에 구글의 기술을 더 많이 적용하고 그 결과를 더 많이 사용할 수 있게 하는 목표의 일부이기도 하다.