수행 연구과제
다중오믹스 데이터로부터 네트워크 바이오마커를 발굴하기 위한 비음수 행렬 분해 기법에 관한 연구
다중오믹스 데이터로부터 네트워크 바이오마커를 발굴하기 위한 비음수 행렬 분해 기법에 관한 연구
Non-negative matrix factorization for network bio-markers from multi-omics data
연구필요성:
시스템 생물학 연구를 심도 있게 수행하려면 다중오믹스 데이터를 동시에 종합적으로 분석하여 그로부터 네트워크 바이오마커를 발굴할 수 있는 수리과학 기법이 필요하다. 그러나 현재까지 두 가지 이상의 오믹스 데이터를 동시에 분석할 수 있는 범용 데이터 분석기법은 찾아보기 어려운 실정이다. 이러한 상황에서 본 연구의 목표는 비음수행렬분해(Non-negative Matrix Factorization, NMF) 기법을 통해 멀티오믹스(multi-omics) 데이터로부터 네트워크 바이오마커(network bio-marker)를 발굴하는 기술을 개발하는 것이다. 특별히 본 연구는 NMF와 관련된 수리과학 이론 및 방법론을 유방암 환자, 헌팅턴병 유도 쥐, 가뭄 저항성 벼, 당뇨병 유도 원숭이 등으로부터 얻은 다양한 종류의 실제 차세대시퀀싱(Next Generation Sequencing, NGS) 데이터의 통합 분석에 적용함으로써 실제적이고 실용적인 다차원 NGS 데이터 분석 기법을 개발하고자 한다.
<연구목표>
수리과학에 기반을 둔 NMF 기법은 다양한 분야에서 클러스터링 및 특징변수 선택 문제에 활발하게 적용되어 왔다. NMF는 2차원 데이터 분석을 위한 기법으로서 유전자 발현 데이터에 성공적으로 적용된 사례들이 있지만 DNA-mRNA-miRNA과 같은 다차원 요인의 데이터 분석에 적용된 사례는 최근에 소수 발표되었을 뿐이다. 본 연구에서는 다중오믹스 데이터 분석을 위한 가장 일반화된 NMF 기법을 아래와 같이 개발한다.
다중오믹스 데이터 분석은 각 요소에 관한 NMF 모델을 동시에 풀어서 해결할 수 있다. 예를 들어 환자-mRNA-miRNA의 3차원 데이터 분석은 환자-mRNA, 환자-miRNA의 2차원 데이터에 관한 두 개의 NMF 모델을 동시에 풀어서 해결할 수 있다. 본 연구에서는 다중오믹스 데이터를 여러 개의 NMF 모델로 조합하는 방법들, 또한 각 조합들의 NMF 모델들을 효과적으로 풀 수 있는 방법들을 개발한다.
NMF의 특수한 형태인 BMF(Binary Matrix Factorization)에 관한 연구를 수행한다. BMF는 NMF에 비해 결과의 해석이 용이하며 문제 특성에 실수행렬을 이진행렬로 변환하고 BMF를 적용함으로써 더 좋은 결과를 얻는 경우도 있다. 또한 다중오믹스 데이터의 요소들 간에는 그 관계가 0-1으로 나타나는 경우가 있으므로 본 연구에서는 NGS 데이터의 효과적인 이진화 방법과 NMF와 BMF를 동시에 이용한 다중오믹스 데이터 분석에 관해 다룬다.
기존 NMF는 대부분 행렬을 두 개의 요소(factor)로 분해하는 방법이었으나 최근에는 세 개의 요소로 분해하는 NMtF(tri-Factorization)가 소개되었다. 본 연구에서는 NMF와 NMtF를 동시에 사용하여 다중오믹스 데이터를 분석하는 기법을 개발한다.
위의 세 가지 방법론을 결합하여 일반화된(generalized) 기법, GNMF를 개발한다.
위의 방법론들을 바탕으로 시간에 따라 여러 번 측정하여 얻은 다시점-다중오믹스 데이터를 분석할 수 있는 방법론을 개발한다.
Acknowledgement
(국문) 이 논문은 2013년도 정부(교육부)의 재원으로 한국연구재단의 기초연구사업 지원을 받아 수행된 것임(2013R1A1A2006592)
(영문) This research was supported by Basic Science Research Program through the National Research Foundation of Korea(NRF) funded by the Ministry of Education(2013R1A1A2006592)
<참여연구원>
분 야 | 직 위 (직명) |
성 명 | 소속부서 | 전공 및 학위 | |||
학위 | 년도 | 전공 | 학교 | ||||
Bioinformatics | 연수연구원(리서치펠로우) | 김광수 | 서울대 생물정보연구소/생명공학공동연구원 | 박사 | 2011 | 산업공학 | 고려대학교 |