大学出版部協会

 

バイオインフォマティクス

オープンソースで学ぶ
バイオインフォマティクス

B5判 264ページ 並製
価格:4,290円 (消費税:390円)
ISBN978-4-501-62260-2 C3045
奥付の初版発行年月:2008年02月 / 発売日:2008年03月上旬

前書きなど

はじめに
 この本を手にとっているあなたは,バイオインフォマティクス(生物情報学)が情報技術を使って生物の謎に迫る研究分野である,ということはすでにご存知のことでしょう。その代表的な成果のひとつであるBLASTなどの配列類似性検索ソフトウェア程度であれば,インターネット上で提供されているものをすでに利用しているかもしれません。しかし,ここ数年で配列決定のスピードはこれまでと比べものにならないほど速くなっていますし,トランスクリプトーム,プロテオーム,メタボロームなど大規模なデータがどんどん得られるようになっています。
 これらのデータを活用して本格的に解析を行なおうという場合には,大量のデータを1つずつウェブを使って解析していては間に合いません。自分や研究室のコンピュータを利用してコマンドやちょっとしたプログラムを活用できれば,数千から数万の遺伝子を対象とした大規模な解析や,自分の研究目的にカスタマイズした解析が簡単に行なえるようになります。
 でも,コマンドの実行やプログラミングは勉強する機会もなかったし自分には無理だ,と半ばあきらめてしまっていないでしょうか?もしくは,まだバイオインフォマティクスを学習しはじめたところで,どうすれば何ができるのかよくわからない,という状況かもしれません。そんなあなた,つまり「進んだバイオインフォマティクス解析に興味はあるけれど,実際どうやって進めたらいいのかよくわからない」という方々がステップアップし,具体的なプロセスや手順を身につけられること,それが本書のおもな目的です。 そのために,本書ではユニークな試みをいくつか取り入れています。まず,とりあげるツールとして「オープンバイオ」のソフトウェアに焦点をあてています。オープンバイオは,Linuxをはじめとする近年のオープンソースの潮流にならって,ソースコードを公開し,自由に利用することのできるバイオインフォマティクス用のソフトウェアを開発していこうというムーブメントです。詳細については第1章を参照いただきたいと思いますが,すでに多くのバイオインフォマティクス用ソフトウェアがオープンソースの形で公開されており,信頼され広く研究に利用されているものも数多くあります。こういったツールを使いこなす術を身につけておくことは,今後の研究を進めるにあたってとても有意義なはずです。
 また,オープンソースである,つまり自由に利用できることのメリットを活かして,本書には付録DVDとしてKNOB(ノブと読む)をバンドルしています。これは,Windowsが動作するコンピュータで動作する1 DVD Linuxで,広く利用されているオープンバイオのさまざまなソフトウェアがすでに用意されている環境です。これによって,コンピュータにDVDを挿入して起動するだけで,本書で解説されているプロセスや手順を,セットアップなしですべて試すことができるのです。本書とコンピュータさえあれば,進んだバイオインフォマティクス解析を,すぐに実際に手を動かしながら学習することが可能です。
 本書でとりあげている内容は,基本的な配列解析をはじめ,ゲノム解析や遺伝子発現解析,遺伝子ネットワーク解析,さらには薬剤や環境ホルモンなどの解析を含めたケモインフォマティクス(化学情報学)までと,多岐にわたっています。各トピックについてすべてが網羅されているわけではありませんが,そこで意識されている問題と,それを解決するための具体的な手順を身につけることができるでしょう。これらの解説の多くが,紹介されているオープンバイオソフトウェアの開発者によっておこなわれている点も,本書のユニークな点のひとつです。
 さらに,本書でとりあげるツール群の適用対象として,架空の例ではなく,生物学的な観点からとても興味深い遺伝子(とくに核内受容体PPAR-γ)とその関連遺伝子)をできるかぎり用いています。実践的かつ具体的な解釈を行ないながら解析手順を提示していきますので,1つの遺伝子がもつ多様な側面が露わになっていくようすを垣間見ることができるでしょう。


目次

第1章 オープンバイオ概要
 1.1 バイオインフォマティクスの歴史
  1.1.1 フリーソフトウェアの文化
  1.1.2 プログラミング言語
  1.1.3 ライブラリ開発とオープンバイオの誕生
 1.2 オープンソースのバイオインフォマティクスツール
  1.2.1 BioPerl,BioPython,BioJava
  1.2.2 EMBOSS
  1.2.3 Bioconductor
  1.2.4 BioMOBY
  1.2.5 myGrid,Taverna
 1.3 日本でのオープンバイオの取り組み
  1.3.1 BioRuby,ChemRuby
  1.3.2 ゲノム解析環境:G-language
  1.3.3 細胞シミュレーション環境:E-Cell
  1.3.4 KNOB
 1.4 オープンバイオを支えるコミュニティ
  1.4.1 O|B|F
  1.4.2 BOSC
  1.4.3 BioHackathon
  1.4.4 オープンバイオ研究会
 1.5 今後の方向性
  1.5.1 Bio*プロジェクトの状況
  1.5.2 ウェブサービス
  1.5.3 統合環境
  1.5.4 ポストゲノムへ
 1.6 オープンであることの意義
  1.6.1 なぜ「オープン」か
  1.6.2 オープンアクセスジャーナルなどの動き
 1.7 バイオインフォマティクス環境:KNOB
  1.7.1 バイオインフォマティクスのツールがすぐに使える
  1.7.2 既存の環境を変更することなくLinuxが利用できる
  1.7.3 さまざまなデータベースを扱うことができる
  1.7.4 オープンソースプロジェクトである

第2章 配列解析
 2.1 公共データベースから配列データを取得する
  2.1.1 EMBOSSを活用する
  2.1.2 配列の情報を得る
 2.2 RT-PCRのプライマーを設計する
 2.3 siRNAを設計する
 2.4 ドットプロットをつくる
 2.5 ペアワイズで配列整列させる
  2.5.1 スコアリング
  2.5.2 大域的整列をさせる
  2.5.3 局所的整列をさせる
 2.6 類似した配列をもつ遺伝子を検索する
  2.6.1 BLAST(Basic Local Alignment Search Tool)
  2.6.2 類似度の評価
  2.6.3 BLASTのデータベースを用意する
  2.6.4 BLASTで相同性検索を実行する
  2.6.5 BLASTの出力結果をプログラムで処理する
 2.7 マルチプルアラインメントし保存配列を同定する
  2.7.1 ClustalWはどのような計算をしているのか
  2.7.2 マルチプルアラインメントする配列を用意する
  2.7.3 ClustalWでマルチプルアラインメントを実行する
  2.7.4 マルチプルアラインメントの結果を表示する
 2.8 配列中のモチーフを検索する
  2.8.1 HMMERはどのような計算をしているのか
  2.8.2 モチーフ検索する配列を用意する
  2.8.3 検索するモチーフの隠れマルコフモデルを用意する
  2.8.4 HMMERでモチーフ検索を実行する
  2.8.5 隠れマルコフモデルを構築する
 2.9 mRNAのゲノムへのマッピング
  2.9.1 SpideyやBLATはどのような計算をしているのか
  2.9.2 mRNAとゲノムの配列を用意する
  2.9.3 Spideyでゲノムにマッピングする
  2.9.4 BLATでゲノムにマッピングする
 2.10 標的候補遺伝子を検索する
  2.10.1 DBTSSで転写上流配列を取得する
  2.10.2 TRANSFACのデータを取得する
  2.10.3 tfscanで転写因子結合部位を検索する
  2.10.4 転写因子結合部位をEnsemblで表示する
  2.10.5 転写因子結合部位をUCSC Genome Browserで表示する

第3章 バクテリアゲノム解析
 3.1 はじめに
  3.1.1 G-language GAEとは
 3.2 G-language GAEの基本的な使い方
  3.2.1 グラフィカルユーザーインタフェースによる解析
  3.2.2 G-languageシェル
 3.3 G-languageによるバクテリアゲノム解析
  3.3.1 GC skewと複製開始・終結点の関係
  3.3.2 シグナルオリゴ配列の傾向
  3.3.3 全オリゴの複製方向バイアス
  3.3.4 遺伝子の複製方向バイアス
  3.3.5 遺伝子発現量と複製方向バイアス
 3.4 おわりに

第4章 マイクロアレイ解析
 4.1 はじめに
  4.1.1 RとBioconductorとは
  4.1.2 マイクロアレイとは
 4.2 Bioconductorの使い方
  4.2.1 マイクロアレイデータの入手と読み込み
  4.2.2 バックグラウンド補正と正規化
  4.2.3 データの可視化
  4.2.4 データ解析
  4.2.5 遺伝子オントロジーを使った解析
  4.2.6 ファイルへの出力
  4.2.7 ヘルプの閲覧
 4.3 おわりに

第5章 遺伝子ネットワーク解析
 5.1 パスウェイデータベース
 5.2 KEGGにおけるパスウェイ表現
  5.2.1 KGMLとBioPAX
  5.2.2 KEGG API
 5.3 パスウェイの遺伝子探索
  5.3.1 PPAR-γの載っているパスウェイ
  5.3.2 PPAR-γの標的遺伝子を探す
  5.3.3 PPAR-γの遺伝子ファミリーを検索する
 5.4 パスウェイ上の遺伝子をリストアップする
  5.4.1 遺伝子発現データの視覚化
  5.4.2 細胞内局在予測の視覚化

第6章 リガンド解析
 6.1 はじめに
 6.2 グラフアルゴリズム
  6.2.1 化合物の同一性
  6.2.2 化合物の部分構造
  6.2.3 化合物に共通の骨格
 6.3 化合物の表現方法
  6.3.1 結合表
  6.3.2 線形表現
  6.3.3 ビット列表現
 6.4 化合物の物性・活性推定
  6.4.1 構造活性相関
  6.4.2 原子団寄与法
 6.5 公共データベース
  6.5.1 PubChem
  6.5.2 KEGG
 6.6 プログラミングによる解析
  6.6.1 ChemRuby
  6.6.2 設計
  6.6.3 PubChemの検索
  6.6.4 IUPAC名からの化合物構造の取り出し
  6.6.5 2次元構造の描画
  6.6.6 部分構造検索
  6.6.7 KEGG LIGAND Compoundの検索
  6.6.8 経路指紋の生成
  6.6.9 PubChem SubsKey
  6.6.10 類似度の計算
  6.6.11 最大共通部分グラフの計算
  6.6.12 化合物の性質推定
 6.7 おわりに

付録
 A. KNOBの操作方法
  A.1 KNOBの起動と終了
  A.2 簡単なKNOBの使い方
   A.2.1 エディタの起動
   A.2.2 データを保存する
   A.2.3 保存したデータを次回起動時に利用する
   A.2.4 その他のブートオプション
 B. シェル入門
  B.1 シェルの起動
  B.2 ディレクトリの移動と操作
  B.3 ファイルの操作
  B.4 テキストファイルの操作
 C. BioRubyシェル
  C.1 BioRubyシェルの使い方
  C.2 Ruby on Railsを使ったウェブインタフェース
 D. プログラミング・クックブック
  D.1 塩基配列を読み込んでアミノ酸配列に翻訳
  D.2 EMBOSSを利用した解析データの取得と操作
  D.3 フラットファイルを利用したデータ取得
  D.4 ウェブサービスを利用したデータ取得
  D.5 ゲノム配列処理
 E. UNIX必須30コマンド

●付録DVDの操作方法

 準備するもの:
  本書(本とDVD)
  Windowsが動作するコンピュータ

 オプション:
  インターネット接続環境(公的データのダウンロードのため)
  USBフラッシュメモリ(データ保存のため)

 操作方法:
  DVDをコンピュータに挿入して起動するだけで,KNOB(バイオ用にカスタマイズされたDebianベースのLinux環境)が利用できます。付録DVDのKNOBには,本書でとりあげるプログラムやデータが収録されており,解説されている手順をすべて試すことができます。また,コンピュータのハードディスクには何もインストールしませんので,再起動するだけで完全に元の状態に戻ります。

●付録DVDに収録されている主なソフトウェア(全部で150以上を一挙収録)

BioPerl    Perlの生物情報学用ライブラリ
BioRuby    Rubyの生物情報学用ライブラリ
ChemRuby    Rubyの化学情報学用ライブラリ
BioConductor 統計解析環境Rの生物情報学用ライブラリ(マイクロアレイ解析,配列解析,画像解析など)
G-language   ゲノム配列解析パッケージ
NCBI toolbox NCBIで開発された生物情報学用コマンドラインソフトウェア集(BLASTを含む)
EMBOSS 配列解析ソフトウェア集(200を超えるコマンドラインソフトウェアから構成)
ClustalW マルチプルアラインメントの定番ソフトウェア(系統樹も作成できる)
HMMER 隠れマルコフモデルを利用したモチーフ検索ソフト
Primer3 PCRプライマー設計のソフト
eXpanda ネットワーク解析と可視化のためのPerlモジュール
Pymol タンパク質立体構造ビューア
Taverna Javaで書かれたワークフロー解析ソフト
JalView Javaで書かれたアラインメントソフトウェア
ImageJ Javaで書かれた顕微鏡画像解析ソフトウェア
CellProfiler 顕微鏡画像解析ソフトウェア(High content analysis対応)

●編者・執筆者・執筆協力者

編者:
 オープンバイオ研究会(Japan Open Bioinformatics Research Group)
 通称:Open Bio Japan (O|B|J)
 http://www.open-bio.jp/

執筆者:
 片山俊明 東京大学医科学研究所ヒトゲノム解析センター(第1,5章, 付録C,D,E)
 荒川和晴 慶應義塾大学先端生命科学研究所(第1,3章, 付録D)
 二階堂愛 理化学研究所CDB(第1,2,4章, 付録A,B)
 荻島創一 東京医科歯科大学難治疾患研究所(第2章)
 田中伸也 京都大学科学研究所バイオインフォマティクスセンター(第6章)
 中尾光輝 かずさDNA研究所(第1章)

執筆協力者:
 川路英哉 理化学研究所フロンティア研究システムRNA新機能研究プログラム
 八木 研 コロンビア大学
 河野 信 ライフサイエンス統合データベースセンター
 岡本 忍 かずさDNA研究所
 後藤直久 大阪大学微生物病研究所遺伝情報実験センター
 坊農秀雅 ライフサイエンス統合データベースセンター
 仲里 猛 ライフサイエンス統合データベースセンター
 市瀬夏洋 京都大学情報学研究科知能情報学専攻生命情報学講座

●サポートサイト

 http://open-bio.jp/book/ にて本書の更新情報をお伝えします。


一般社団法人 大学出版部協会 Phone 03-3511-2091 〒102-0073 東京都千代田区九段北1丁目14番13号 メゾン萬六403号室
このサイトにはどなたでも自由にリンクできます。掲載さ>れている文章・写真・イラストの著作権は、それぞれの著作者にあります。
当協会 スタッフによるもの、上記以外のものの著作権は一般社団法人大学出版部協会にあります 。