Paleogenomics and Python

koji ishiya

Audience level:
Novice
Category:
Science / 科学

Description

Paleogenomicsとは古代ゲノム学と呼ばれる学問です。ここでいう「古代」とは、数十万年〜数千年(人によっては数百年)前に生存していた動植物の遺骸や遺物のことを指します。また、「ゲノム」とは、一般的にある生物が持つ全ての遺伝情報(DNA等)を指します。この2つを組み合わせた分野が古代ゲノム学という分野です。ここ数年、DNA解読機器の性能向上に伴い、1度に読まれるDNAデータがテラバイトサイズまで拡大し、生命科学分野においても、所謂「ビッグデータ」の波が押し寄せています。我々は、こうした大量に出力された巨大なゲノムデータや蓄積された大量のデータベース情報をテキストマイニングや機械学習といった情報処理技術を駆使しながら、過去を生きた生物の謎をゲノム情報から探る研究をしています。本セッションでは、古代ゲノム解析にPythonを使った研究例をご紹介したいと思っています。

Abstract

古代DNA配列を直接調べることは、絶滅してしまった生物種や過去の生物集団についての遺伝的系統関係や遺伝的多様性を解明する上で有効な方法である。昨今の第二世代DNAシーケンサ(NGS)の登場により、以前までは困難とされた古代DNA配列をゲノムレベルで復元することが可能となった。一方、こうした解析機器の躍進がありながらも、古代ゲノム研究においては、今後の研究を進めていく上で解決しなければならない幾つかの課題が存在する。その中で最も重要かつ困難な課題が、「現代DNAの混入(コンタミネーション)」である。特に、ヒト属を対象とした古代ゲノム研究において、発掘調査、試料の保管や実験等に関わった我々現代人のDNAが混入するケースが少なくない。こうしたケースでは、解析結果の解釈や信頼性に疑問が生じるのは言うまでもなく、上記の問題解決は急務である。我々は、機械学習アルゴリズムを用いてNGS出力データから現代DNAデータを分離するための新たなフィルタリング技術の開発を進めている。