450 likes | 637 Views
蛋白質立体構造データベースの高度化: PDBj ( Protein Data Bank japan ). 中村春木 1 、伊藤暢聡 2 、坂本久 2 、小林香織 2 、 (阪大・蛋白研 1 、科技団 2 、) http://www. pdbj.org/. 内容. 1.イントロダクション:中村春木(阪大蛋白研) 2. PDB データの XML 化:伊藤暢聡(JST) 3. PDBj-ML :坂本久(JST) 4. Computing GRID における送受信データ 記述の標準化:中村春木(阪大蛋白研).
E N D
蛋白質立体構造データベースの高度化:PDBj (Protein Data Bank japan) 中村春木1、伊藤暢聡2、坂本久2、小林香織2、(阪大・蛋白研1、科技団2、) http://www. pdbj.org/
内容 1.イントロダクション:中村春木(阪大蛋白研) 2.PDBデータのXML化:伊藤暢聡(JST) 3.PDBj-ML:坂本久(JST) 4.Computing GRIDにおける送受信データ 記述の標準化:中村春木(阪大蛋白研)
蛋白質:アミノ酸が分岐なく鎖状につながった生体高分子(分子量:数千~数千万)蛋白質:アミノ酸が分岐なく鎖状につながった生体高分子(分子量:数千~数千万) 蛋白質研究所で構造解析を行った350万原子からなる巨大な分子複合体(イネ萎縮ウィルス)の立体構造図 データベースには、これらの原子の種類、座標、その他のアナログおよびテキスト情報が含まれる。
蛋白質立体構造データベース (Protein Data Bank-PDB) 1万9千件 科学技術振興事業団 (JST) European Bioinformatics Institute (EBI) USA NSF Dept. of Energy NIH Rutgers Univ. UCSD NIST Research Collaboratory for Structural Bioinformatics グラント 支援 日本・ アジア EU 構造ゲノムPJ グラント 支援 阪大蛋白質研究所 附属プロテオミクス総合研究センター (PDBj) より国際的なPDB構想へ
PDBデータベースの高度化: • ・XML化等の最近のIT技術の導入(PDBj-ML) • ・蛋白質機能との関連情報の充実(文献情報を追加) • 2) 二次データベースの構築とリンク • ・Protein Molecular Surface Database, eF-site(木下・中村) • ・Protein Dynamics Database, ProMode(輪湖) PDBj (Protein Data Bank Japan) http://www.pdbj.org/ データ登録・編集・管理・公開業務 (アジア・オセアニア地区の世界中の約1割の登録)
ゲノムから立体構造へ ···AAGGTTTTCGGACGTTGT··· ···Lys-Val-Phe-Gly-Arg-Cys···
PDBファイルの具体例1 HEADER HYDROLASE 21-AUG-00 1FN8 TITLE FUSARIUM OXYSPORUM TRYPSIN AT ATOMIC RESOLUTION COMPND MOL_ID: 1; COMPND 2 MOLECULE: TRYPSIN; COMPND 3 CHAIN: A; COMPND 4 EC: 3.4.21.4; COMPND 5 MOL_ID: 2; COMPND 6 MOLECULE: GLY-ALA-ARG; COMPND 7 CHAIN: B; COMPND 8 ENGINEERED: YES SOURCE MOL_ID: 1; SOURCE 2 ORGANISM_SCIENTIFIC: FUSARIUM OXYSPORUM; SOURCE 3 ORGANISM_COMMON: FUNGUS; SOURCE 4 MOL_ID: 2; SOURCE 5 SYNTHETIC: YES KEYWDS BETA BARREL EXPDTA X-RAY DIFFRACTION AUTHOR W.R.RYPNIEWSKI,P.OESTERGAARD,M.NOERREGAARD-MADSEN,M.DAUTER, AUTHOR 2 K.S.WILSON REVDAT 1 07-FEB-01 1FN8 0 JRNL AUTH W.R.RYPNIEWSKI,P.OESTERGAARD,M.NOERREGAARD-MADSEN, JRNL AUTH 2 M.DAUTER,K.S.WILSON JRNL TITL FUSARIUM OXYSPORUM TRYPSIN AT ATOMIC RESOLUTION AT JRNL TITL 2 100 AND 283 K: A STUDY OF LIGAND BINDING JRNL REF ACTA CRYSTALLOGR., SECT.D V. 57 8 2001 JRNL REFN ASTM ABCRE6 DK ISSN 0907-4449
PDBファイルの具体例2 CRYST1 58.390 86.700 46.270 90.00 90.00 90.00 P 21 21 2 4 ORIGX1 0.017126 0.000000 0.000000 0.00000 ORIGX2 0.000000 0.011534 0.000000 0.00000 ORIGX3 0.000000 0.000000 0.021612 0.00000 SCALE1 0.017126 0.000000 0.000000 0.00000 SCALE2 0.000000 0.011534 0.000000 0.00000 SCALE3 0.000000 0.000000 0.021612 0.00000 ATOM 1 N PRO A 1 29.061 39.981 4.981 1.00 28.69 ATOM 2 CA PRO A 1 29.970 38.922 4.561 1.00 29.08 ATOM 3 C PRO A 1 29.325 38.106 3.429 1.00 29.19 ATOM 4 O PRO A 1 28.097 38.168 3.298 1.00 29.87 ATOM 5 CB PRO A 1 30.106 38.013 5.789 1.00 29.07 ATOM 6 CG PRO A 1 28.749 38.112 6.413 1.00 28.59 ATOM 7 CD PRO A 1 28.387 39.600 6.246 1.00 29.21 ATOM 8 N GLN A 2 30.153 37.412 2.681 1.00 28.13 ATOM 9 CA GLN A 2 29.636 36.572 1.593 1.00 27.95 ATOM 10 C GLN A 2 29.861 35.139 2.082 1.00 27.28 ATOM 11 O GLN A 2 31.038 34.773 2.266 1.00 27.61 ATOM 12 CB GLN A 2 30.373 36.787 0.305 1.00 28.43 ATOM 13 CG GLN A 2 30.346 35.501 -0.539 1.00 29.40 ATOM 14 CD GLN A 2 30.921 35.844 -1.899 1.00 29.51 ATOM 15 OE1 GLN A 2 31.894 35.283 -2.340 1.00 30.56 ATOM 16 NE2 GLN A 2 30.288 36.839 -2.518 1.00 30.01
PDBファイルの問題点1 1. Fixed format の限界 2. Mixed formats の混乱 Headerの追加 FTNOTE 1 CIS PROLINE - PRO A 7 CISPEP 1 SER A 6 PRO A 7 0 -0.71 Formatの変更 ATOM 1 N ALA A 138.840 0.236 1.012 1.00 34.65 1GOF 219 ATOM 1 N GLN A 1 81.540 63.203 82.187 1.00 52.88 N
PDBファイルの問題点2 3. Author definition の不透明性 例えば、残基番号 -90-91-91A-91B-92-93- (insertsion) -90-91-92-96-97-98- (deletion) -90-91-92·····96-97-98- (disorder) あるいは、生物種 × Homo sapiens Human
XML化のメリット • 異なるマシン/プラットホーム間で共通 • 汎用性がある = 取り扱うアプリケーションも多くなる = データ追加/変更が容易 • XML検証の優位性 データ構造/型を定義→検証ツール • 属性の利用(book-keeping等)
基本的な考え方 PDBj-ML の設計にあたっての基本的な考え方は: • Macromolecular Crystallographic Information Format (mmCIF) をテンプレートにする • 互換性の為に、可能な限り mmCIF の名称や構造を継承する • スキーマ言語には、DTDではなく、より厳密・高機能の XML Schema を用いる
mmCIF を基本テンプレートに使用 mmCIF は国際結晶学会(IUCr)主導のもとで開発されたフォーマットで、低分子で広く用いられている Crystallographic Information Format (CIF) を生体高分子用に拡張したものである。 mmCIF は nameと value ,の対である data itemsから構成されており、 tagと content の対である elementsからなる XMLへの変更が比較的に容易である。 _name value <tag> content </tag>
PDBj-MLの基本構造 現在 PDB に含まれているすべての情報は <main>タグ以下に入り、<head>タグは内部の管理情報等が入る。 mmCIFのカテゴリの階層をそのままXMLの階層として引き継ぐ。 _struct_conn.ptnr1_label_seq_id <struct> <conn> <ptnr1> <label_seq_id>
XML化のデメリット • ファイルサイズの増加 処理に多量のディスク領域/メモリ領域を要する
座標等の原子データの外部ファイル化 <atom_site><ext_file> ftp://pdbj.protein.osakau.ac.jp/pdbj_ml/ all/1crn_atoms.pdbj.gz </ext_file> <model nid="1"mmCIF_id="1"> <chain nid="1"mmCIF_id="A"> <residuenid="1"AorH="ATOM"> <label_comp_id>THR</label_comp_id> : : </atom_site>
<?xmlversion="1.0"encoding="UTF-8" ?> <PDBj_extensionentry="1crn" xmlns=http://pdbj.protein.osakau.ac.jp/ns/PDBj-ML-ext xmlns:xsi=http://www.w3.org/2001/XMLSchema-instance xsi:schemaLocation="http://pdbj.protein.osaka-u.ac.jp/ns/PDBj-ML-ext http://pdbj.protein.osaka-u.ac.jp/schemas/PDBj-ML-ext/ext_00.xsd"> <compul_block> <!--[items of atom_record] <atom_record> LabelMdlID LabelAsymID LabelSeqID LabelAltID LabelCompID TypeSymbol LabelAtomID AuthAtomID CartnX CartnY CartnZ Occupancy Bfactor</atom_record>--> <atom_recordid="1"mmCIF_id="1">1 1 1 ## THR N N N 17.047 14.099 3.625 1.00 13.79</atom_record> <atom_recordid="2"mmCIF_id="2">1 1 1 ## THR C CA CA 16.967 12.784 4.338 1.00 10.80</atom_record> <atom_recordid="3"mmCIF_id="3">1 1 1 ## THR C C C 15.685 12.755 5.133 1.00 9.19</atom_record> <atom_recordid="4" mmCIF_id="4">1 1 1 ## THR O O O 15.268 13.825 5.594 1.00 9.85</atom_record> <atom_recordid="5"mmCIF_id="5">1 1 1 ## THR C CB CB 18.170 12.703 5.337 1.00 13.02</atom_record> : : : <compul_block>
機能情報等の付加 現在のPDBには、残基・原子レベルでの機能情報がほとんど含まれていない。他にも、欠落した実験データも多い。そこで、文献・他データベースからそうした情報を付加する。
mmCIFからPDBj-MLの生成 • mmCIFパースライブラリを独自で開発 • mmCIF→PDBj-MLコンバータ開発 mmCIFパースライブラリ+XMLライブラリ (XMLライブラリ: Apache XML project XERCES C++ 1.6.0) • PDBj-ML→mmCIFコンバータ開発 PDBj-MLを元のmmCIFに戻せるように開発 mmCIF→PDBj-MLコンバータ動作検証に有効
mmCIF→PDBj-MLコンバータ ②mmCIF解析 ①読み込み mmCIFパース ライブラリ mmCIF入力部 mmCIF ③解析データを元に変換指示 XML生成部 ⑤出力 Xercesライブラリ (DOMパーサ) ④XML構造を作成 PDBj-ML
PDBj-ML→mmCIFコンバータ ②XMLパース ①読み込み Xercesライブラリ (DOMパーサ) XML入力部 PDBj-ML ③パース結果(DOMツリー) を元に変換指示 mmCIF生成部 ⑤出力 mmCIFパース ライブラリ ④mmCIF構造を作成 mmCIF
PDBj-MLデータベースシステムサーバマシン SGI Origin 3200 CPU: R14000(500MHz) × 2 Memory: 1024MB DISK: system 18GBytes xlv volume 730GBytes OS: IRIX 6.5.14m
PDBj-MLデータベースシステム使用ソフトウェアPDBj-MLデータベースシステム使用ソフトウェア • RDBMS MySQL 3.23.49 • WWW Server apache 2.0.39+ mod_jk(tomcat連携) • Application Server( Servlet engine ) jakarta tomcat 4.0.4 • XSLT Processor Apache XML Project XALAN-j 2.3.1 • FTP Server ProFTPD 1.2.6rc2
RDBMS XML tag keyword Internet RCSB download (FTP) FTP server Web server downloader XSLT processor Application Server pdbj2cif PDBj-ML mmCIF Loader cif2pdbj PDBj-MLデータベースシステム
PDBj-MLデータベースの更新(1) • 更新は毎週土曜日~日曜日 • RCSBからのダウンロード • ダウンロードコマンドによりRCSB FTPサイトより更新されたファイルのみ取得 ダウンロードコマンド: GNU wget v 1.8 • PDBID追加・更新情報抽出 • ダウンロードコマンドのログから更新されたファイルと削除されているファイルを抽出する。
PDBj-MLデータベースの更新(2) • mmCIFからPDBj-MLへコンバート • XMLSchemaに沿ってタグをソート • PDBj-ML内部検証(XML検証) • PDBj-ML外部検証 • PDBj-ML→mmCIFコンバート(逆コンバート) • 逆コンバート後のファイルとオリジナルのmmCIFのdiffを出力 • PDBj-MLファイルにValidation結果を追加
PDBj-MLデータベースのバックアップ • 更新作業の前にバックアップを実行 • 以下のファイルをDLTにバックアップ • mmCIF全ファイル(13.2GB) • PDBj-ML全ファイル(25.7GB) • 以下のファイルも順次バックアップ予定 • PDBj-MLxp全ファイル • RDBMSrestoreファイル ※ DLT : チェンジャ―タイプ (40GB × 7slot)
バックアップ用DLT mmCIF ファイル PDBj-ML ファイル PDBj-ML 検索用DB PDBj-MLxp 検索用DB Annotation Data 追加 ID 削除 ID SWISS-PROT 追加情報 CATRES 追加情報 PDBj-MLデータベースシステム運用図 RCSB FTPサイト データの流れ ダウンロード データの流れ(予定) 追加・更新情報抽出 処理の流れ 処理概要 各種DBからの削除 ゲノムネット SWISS-PROT PDBj-MLへコンバート PDBj-ML内部検証 バリデーションログ PDBj-ML外部検証 情報取得 EBI CATRES DBへの登録 PDBj-ML xpファイル 外部データ追加 情報取得 PDBj-ML内部検証 DBへの登録
PDBj-MLの検索 • PDB互換検索 PDBのsearch field検索ページと同等の機能 • フリーワード検索 • XPath検索 XMLの特徴を生かした検索
XPathの指定例 • 例えば 分子量が2000以上の2種類以上のペプチドからなる蛋白質のPDBIDを取得したい… こんなときは以下のXPathで検索 /PDBj [ count( /PDBj/main/entity/entity_item [ formula_weight >= 2000 and poly_type = “polypeptide(L)”])> 2 ] /@entry_ID
Webサービスの提供 • SOAPによるPDBj-ML XPath検索 • ユーザプログラムからPDBj-MLデータベースに対するXPath検索の実行が可能に • SOAPによってファイアフォール外からのアクセスも可能 • Apache SOAP 2.3.1を使用 SOAP: Simple Object Access Protocol
より高度なXMLデータベース構築 • フリーXMLデータベースシステムの試用 • postgreSQL+XMLPGSQL • Apache xindice-1.0 • eXist 0.8 容量的、速度的に実用レベルでなく採用を断念 • 商用XMLデータベースシステムの試用
PDBjホームページ • PDBj Top page http://www.pdbj.org • PDBj-ML Top page http://www.pdbj.prg/PDBj-ML • PDBj FTP Server ftp://ftp.pdbj.org
Computing GRIDにおける送受信データ記述の標準化(大阪大学蛋白質研究所・中村春木) QM/MMの実行を練成プログラムで実施する。 QM(Quantum mechanics:分子軌道法計算) MM(Molecular mechanics: 分子力場・分子動力学計算) この両者を異なる計算機上でそれぞれ走らせ、高速ネットワークを介してデータの送受信を行ないながら実行するプログラムを開発中(平成15年3月予定)。 QMMMのデータ送受信についての標準書式。 UDS-XMLとそのツール(CおよびFORTRAN からの呼び出しが可能)の設計と試作
UDS-XML (Universal Data Set-XML) [関数] udsput_xml, udsget_xml [機能] UDSデータをXML形式のファイルに書き込む、 読み込む(1次元化された配列の読み書き) [フォーム] Text: テキストデータ HexDec: バイナリデータを1データ単位で16進表記 Base64: Base64方式でエンコードされたバイナリーデータ [特徴] データの内容、書式、長さ、単位、コメントがXMLで記述。
Examples of UDS-XML UDS-XML(form = text) (x4~10) <?xml version=“1.0” encoding=“UTF-8”?> <uds_data size=“4” count=“200” unit=“AU“form="text”> <uds_content> sample_text.xml </uds_content> <uds_comment> Sample of UDS-XML (text) </uds_comment> <uds_array_count>20</uds_array_count> <uds_array seq="1" element="number" length="10"> 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 </uds_array> <uds_array seq="2" element="number" length="10"> 0.1 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 </uds_array> : : <uds_array seq="20" element="number" length="10"> 1.9 1.91 1.92 1.93 1.94 1.95 1.96 1.97 1.98 1.99 </uds_array> </uds_data>
UDS-XML(form = HexDec) (x2) <?xml version=“1.0” encoding=“UTF-8”?> <uds_data size="4" count="200" unit="AU"form="hex”> <uds_content> sample_hxd.xml </uds_content> <uds_comment> Sample of UDS-XML (hexdec) </uds_comment> <uds_array_count>22</uds_array_count> <uds_array seq="1" element="character" length="76"> 000000003c23d70a3ca3d70a3cf5c28f3d23d70a3d4ccccd3d75c28f3d8f5c293da3d70 a3db8</uds_array> <uds_array seq="2" element="character" length="76"> 51ec3dcccccd3de147ae3df5c28f3e051eb83e0f5c293e19999a3e23d70a3e2e147b3e3 851ec</uds_array> : <uds_array seq="21" element="character" length="76"> 3ff333333ff47ae13ff5c28f3ff70a3d3ff851ec3ff9999a3ffae1483ffc28f63ffd70a43ffe </uds_array> <uds_array seq="22" element="character" length="4">b852</uds_array> </uds_data>
UDS-XML(form = Base64) (x4/3) <?xml version=“1.0” encoding=“UTF-8”?> <uds_data size="1" count="200" unit="AU"form="b64”> <uds_content> sample_hxd.xml </uds_content> <uds_comment> Sample of UDS-XML (hexdec) </uds_comment> <uds_array_count>4</uds_array_count> <uds_array seq="1" element="character" length="76"> pLWkq6TipMik0qS1pLekzrrupMOkv6XQpaSlyqXqpcehvKW/pPKlqKXzpbOhvKXJp LekxqS9pM6l</uds_array> <uds_array seq="2" element="character" length="76"> x6G8pb+k8qPYo82jzLfBvLCkx6XVpaGlpKXrpMvK3cK4pLmk66XXpe2lsKXppeCkz qXGpbmlyKTH</uds_array> <uds_array seq="3" element="character" length="76"> pLmho6XXpe2lsKXppeCkrMC1vu+ky8awpKSkxqSkpOu+7LnnpM+ks6TOyrikrMC1 pLekr8bJpOGk</uds_array> <uds_array seq="4" element="character" length="40">xqSkpOukz6S6pMekuaG jpMmkpqTHpLek56Smoak=</uds_array> </uds_data>