PAPIA システムとは?


近年におけるタンパク質の構造解析や配列解析,DNAの配列解析は, 計算機を用いたアプローチの有用性に大きく依存しています. 「計算生物学」は,疾病のメカニズムの理解,医薬品や高分子材料の開発, そして農業資源の改良には欠かせない研究分野で, 現在多くの研究者によって活発な研究活動が行われております. 分子生物学データベースは,日増しにそのサイズが大きくなっており(GenBank DNAデータベースの場合,4年で10倍の増加), いくつかの生物のすべての遺伝子配列はあと数年で解読される予定です. 人間の遺伝子配列も,西暦2005年までにはほぼすべて解読されると予想されます. これらのデータベースを用いて解析作業を行うには莫大な量の計算が必要ですが, 幸いにもこれらの計算の中には多くの並列性が存在しています.

我々は,計算生物学の諸問題における並列計算技術の有用性を示すために, PAPIA (PArallel Protein Information Analysis)システムを構築しました.

PAPIAシステムは,以下の3つの主要な要素で構成されています.

[PAPIA文献へ] [PAPIAシステムフォトギャラリーへ] [PAPIAキャラクターへ]

PAPIAクラスタ


技術研究組合 新情報処理開発機構 つくば研究センタでは, 並列オペレーティングシステムや並列プログラミング言語の開発環境として, 1995年よりワークステーションクラスタやPCクラスタを建造してきました. これらのクラスタは,並列分散システムソフトウェアつくば研究室の手塚,堀,石川によって設計,実装されました.

1997年10月に開発されたRWC PC Cluster IIは, 高速なネットワークを用いて結合された,高性能の並列計算機です. PAPIAシステムは当初このRWC PC Cluster IIに実装され, SC97において展示されました.我々はその後,1998年2月に, アプリケーションプログラム実行の専用機であるRWC PC Cluster IIa ("a"は,"application"の頭文字), 別名"PAPIAクラスタ"を建造しました.

PAPIAクラスタ (RWC PC Cluster IIa)は, 64台の産業用PCをベースに構築されており,Myricom社のMyrinetによって結合されています. 各ノードは,200MHz Intel Pentium Proプロセッサ,256MBのメモリ, 4.1GBのハードディスク,Myrinetのネットワークインタフェースを搭載しています.

各ノードにはNetBSDオペレーティングシステムがそれぞれ動作し, それらをまたぐようにSCore-D グローバルオペレーティングシステムが走ります. すべてのユーザの並列プロセスはSCore-Dによって生成され, スケジューリング(ギャングスケジューリング)されます. 効果的な並列プログラミングを支援するための並列プログラミング言語MPC++ やMPI(MPICH-PM)通信ライブラリが利用可能です.

詳細は, 並列分散システムソフトウェアつくば研究室の「 クラスタリング技術のページ」を御覧下さい.

PAPIAクラスタの仕様
ノード数 64計算ノード + 1サーバノード + 2モニタノード
プロセッサ Intel Pentium Proプロセッサ (200MHz, 8KB L1キャッシュ, 512KB L2キャッシュ)
メモリ 256MB EDO DRAM (with ECC) / node
ハードディスク 4.1GB EIDE Disk / node
ネットワークハードウェア Myricom Myrinet (2.56Gbit/sec), 100Base-T Ethernet
ネットワークドライバ PM (技術研究組合 新情報処理開発機構によって開発) [詳細はこちら]
ローカルOS NetBSD 1.2
グローバルOS Score-D (技術研究組合 新情報処理開発機構によって開発)
プログラミング言語 MPC++ (技術研究組合 新情報処理開発機構によって開発された並列C++), C, C++
サイズ 幅80cm x 奥行80cm x 高さ160cm x 2筐体

PAPIAライブラリとアプリケーション


タンパク質情報解析のアプリケーション開発を迅速かつ効率良く行うためには, 共通のプログラムモジュールを集めてライブラリ化することは重要です. しかし,これまでにそのような共通ライブラリは存在しませんでした. その理由として,タンパク質立体構造の主要なデータベースであるPDB (Protein Data Bank)のデータのフォーマットが複雑であることと, PDBに誤ったフォーマットで記述されたデータが多く含まれていることがあげられます.

鬼塚らは,タンパク質解析のためのC++クラスライブラリである "PAPIAライブラリ"を開発しました.PAPIAライブラリでは, タンパク質の構造は,クラスの階層構造によって記述されます. PDBの読み込み,3次元空間での原子の回転,類似構造検索,配列アライメント, 多変量解析といったよく利用される計算は, 対応するクラスのメンバ関数として実装されています. 我々は,タンパク質情報解析における独創的な研究のために, PAPIAライブラリを利用しています.

さらに我々は,PAPIAライブラリを利用して, 典型的なタンパク質情報解析に有用なアプリケーション群 "PAPIAアプリケーション"を開発しました. これらは,PAPIAクラスタに実装されています.

現在のPAPIAシステムにおける重要な機能は,以下の3種類の計算です.

さらに我々は,アプリケーション実行のためのユーザインタフェースとして, WWWのブラウザを用いたジョブ投入の機能を作成しました.WWWのおかげで, インタネット上のどんな遠隔サイトからでも簡単にジョブの投入を行うことができます. この機能は,a)HTMLに基づいたフォーム(ユーザインタフェース), b)ジョブの投入および監視を行うCGIスクリプト群,c)各サービスにおけるFIFOキュー, d)JAVAやHTMLによるグラフィカルな出力,によって構成されています.


PAPIA文献


PAPIAシステムによって得られた結果を公表する際には, 次の文献を引用してください: その他の文献:
  1. 秋山泰, 鬼塚健太郎, 野口保, 安藤誠, 斎藤稔: "並列タンパク質情報解析(PAPIA)システムのPCクラスタ上での実現", 情報処理学会研究報告, 97-HPC-70-6, pp.31-36 (1998). [日本語]
  2. Kentaro Onizuka, Tamotsu Noguchi, and Yutaka Akiyama: "Parallel PDB Data Retriever 'PDB Diving Booster'" in High Performance Computing (Polychronopoulos, et.al Eds.), Lecture Notes in Computer Science 1336, Springer, pp.389-396 (1997).

PAPIAシステム, papia@m.aist.go.jp
Copyright (c) 1997-2000, 技術研究組合 新情報処理開発機構 並列応用つくば研究室
Copyright (c) 2001, 独立行政法人 産業技術総合研究所 生命情報科学研究センター