Genomic Data Commons
学生時代、その解析に躍起になっていたThe Cancer Genome Atlas Networkのデータが全て新しいプラットフォームである
Genomic Data Commons Home | NCI Genomic Data Commons
へ移行した。あれこれやってみて使い方が見えてきたので備忘録として残しておく。
まずデータのダウンロード。ぼくはRNA-seqのデータを使います。今回のデータベース移行は、よくよく考えてみれば合理的で、各症例のシークエンスデータが一つのファイルとしてまとめられている。これを非常にわかりやすいブラウザ上のユーザーインターフェイスを使って使いたいデータを選ぶ。
ぼくは乳がんのRNA-seqで自由に使えるデータ、3,666症例のシークエンスデータをダウンロードしました。それぞれ、FPKMで格納されています。ダウンロードは一つ一つ手作業で3,666はさすがにヤバイので、専用のコマンドが用意されています。
gdc-client
という実行ファイル。Windows, Mac OSX, Linux対応。
./gdc-client download -m [manifest]
を実行。ここの[manifest]はポータルサイトで症例を指定すると自動で作成されるテキストファイルです。実行を開始すると延々とダウンロードが開始されます。ホームディレクトリでやると死亡するので注意しましょう。
今回は大きな一つのデータフレームではまとめてくれていません。一症例につき一つのディレクトリです。マジか。これを処理するために一つpythonでプログラム書かなきゃだめか。
内容は単純で、遺伝子のensenbl IDとFPKMの二行。なるほど、これなら新しい症例が増えるたびにデータフレームを編集しなくても良い。合理的ではありますね。