PoSSuM: a database of known and potential ligand-binding sites in proteins

We proposed an ultrafast alignment-free method that can compare over 1 million ligand-binding sites in the Protein Data Bank (PDB) [1]. In our method, ligand-binding sites are first encoded as feature vectors based on their physicochemical and geometric properties. Once ligand-binding sites are converted to bit strings, called structural sketches, which is obtained by random projections of feature vectors, a multiple sorting method is applied to the enumeration of all similar pairs in terms of the Hamming distance. We created our new database, called Pocket Similarity Search using Multiple-sketchsorts (PoSSuM) to compile all similar pairs detected using our method [2]. As the source dataset, we concatenated the following two sets: 226,630 small molecule-binding sites obtained from protein?ligand complexes in the PDB, and 3,134,413 potential ligand-binding sites identified using an existing pocket detection algorithm. We applied our method to all-pair similarity searches for the 3.4 million known and potential ligand-binding sites. Consequently, we discovered ca. 24 million similar binding sites, which is the largest-scale study of binding site comparison for the PDB entries ever reported. We provide those results as a relational database including all the discovered pairs with annotations of various types such as CATH, SCOP, EC numbers, and Gene Ontology (GO) terms. Therefore, users can easily scrutinize similar ligand-binding sites between proteins with different folds or similar sites between enzymes with different EC numbers. Users can also browse superpositions of similar sites with the Jmol viewer. Our database is expected to be useful for annotation of protein functions and rapid screening of target proteins in drug design. The PoSSuM database is available for use by researchers at http://possum.cbrc.jp/PoSSuM/.

タンパク質の基質結合部位を粗視化したデータと多次元空間における超高速近傍探索法を利用し、 数百万のオーダーのタンパク質の基質結合部位比較に適用可能な高速な局所構造比較法の開発を行いました。 具体的には、まず基質結合部位を、構成するアミノ酸残基の物理化学的性質や二次構造等に応じて 特徴空間上の点として配置します。そして、この特徴空間上で超高速近傍探索法: SketchSortを 適用することにより、性質の良く似た基質結合部位のペアを高速かつ効率的に検出する手法を開発しました。 実際にPDBに登録されている既知の基質結合部位と、予測により得られた潜在的な基質結合部位からなる 120万部位の比較に提案手法を適用した結果、一般的なデスクトップ計算機でも数十時間のオーダーで 類似結合部位ペアを網羅的に列挙できました。得られたペアには、相同タンパク質間の共通基質結合部位ペア に加えて、未知の活性部位候補等が見つかっています。   更なる調整の結果、我々の開発したタンパク質局所構造比較手法は、従来の比較手法よりも1000倍以上 の高速化を実現し、タンパク質立体構造データベースProtein Data Bank (PDB)中の数百万にのぼる 基質結合部位から類似部位を網羅的に列挙することが可能です。開発手法を300万を越す既知及び 潜在的な基質結合部位の比較に適用し、ファミリーやフォールドの異なるタンパク質間で共通した 機能部位の抽出に成功しました。また、この比較解析の結果をまとめたデータベースPoSSuMを構築し、 公開しています。( http://possum.cbrc.jp/PoSSuM/)

References:
[1]Ito et al., Proteins. (2012) 80 (3): 747-763.
[2]Ito et al., Nucl. Acids Res. (2012) 40 (D1): D541-D548.

 
 
 
 
 
 
 
 
 
(c) Computational Biology Research Center, AIST, 2001-2022 All Rights Reserved. Sitepolicy