>Abstract / CBRC WorkShopT 「Next Generation Sequencing」

■Back to Program

Talk1
Xeno-mapping DNA Reads from Extinct Organisms: Mapping Meets Alignment

 ○Martin C. Frith
Computational Biology Research Center,AIST
Sequence Analysis Team, Research Scientist



New sequencing technologies have revolutionized genomic science in the last few years. These technologies, however, produce short DNA reads with non-negligible error rates. It is commonly necessary to map these reads to a reference genome sequence: there are many software tools that do this, some of which gain accuracy by using the per-base error probabilities reported by the sequencer. For various reasons (e.g. polymorphism, mapping ancient DNA to a modern genome), DNA reads differ from the genome not only because of sequencer errors but also because of real sequence differences. By combining error probabilities with an alignment scoring matrix, we can model both sources of difference. This approach consistently improves mapping accuracy, even when the rate of real sequence difference is only 0.2%.Furthermore, when mapping Drosophila melanogaster reads to the Drosophila simulans genome, it increased the amount of correctly mapped reads from 49% to 66%. This approach can be added into existing mapping tools with little computational cost, so it offers a general improvement in mapping accuracy, especially for organisms that lack reference genomes, are extinct, or are highly polymorphic.



■Page Top

Talk2
大規模転写産物解析のためのギガシーケンサー対応自動アノテーションシステム

 ○光山 統泰
産総研 生命情報工学研究センター RNA情報工学チーム チーム長
 東京医科歯科大学大学院 生命情報科学教育部 客員教授



次世代シーケンサーの技術革新が目覚しい昨今、シーケンサーから出力される大量配列情報をいかに処理して解析するかが問題となっている。解析には計算機による情報処理が不可欠だが、一般的な実験系研究室では、情報解析を適切に実施できる研究者・技術者が皆無、あるいは不足していることが主な要因である。我々は、この問題への解説策を提供するため、次世代シーケンサーからの転写産物の配列情報を入力として受け取ると、個々の配列に自動的にアノテーション情報を付与するシステムを構築した。アノテーション情報は、入力配列がどの遺伝子由来のものかを同定するもので、次世代シーケンサーによる網羅的転写産物の解析には不可欠である。本システムの利用者は、このアノテーション情報に基づいて、より詳細に解析すべき配列と、それ以外の配列を区別することができるようになる。そのため、膨大な配列情報から重要な配列だけを抽出するのに役立つ。本システムは百万本規模の入力配列に対応し、トランスポゾンや繰返し配列を取り除いて、残った配列を分散処理によりゲノム配列にマッピング、転写の由来となった遺伝子を推定する。遺伝子の推定には、タンパク質遺伝子の情報だけでなく、機能性RNAデータベースで網羅的に収集した機能性RNAの情報も使用する。また、利用者がアノテーション処理の方法をいくつかの選択肢から選択することも可能で、利用者の目的に応じたアノテーションができるように工夫されている。現在対応済の次世代シーケンサーはイルミナ社のGAIIとRoche/454のFLXである。自動アノテーションシステムにはウェブサイト(http://www.ncrna.org/)にて公開され、誰でも無償で利用することができる。
 



■Page Top