PLoS Comput Biol. 2015 May 7;11(5):e1004226.
微生物の相関ネットワークを構築する方法について読んだ(完全な理解は出来てないので、メモ書き程度に・・・)。
微生物の存在度はそれぞれに従属的なものである。また、16S rRNAから算出するOTUの存在度はcompositional(相対的存在度)であり、例えば一方が増えると他方が減る。そのためピアソンの相関係数といった従来の統計学的手法を基にネットワークを作成するとエラーが起こる可能性がある。SPIEC-EASIは、これらの問題を克服し16S rRNAデータから微生物の生態系ネットワークを推測する手法である。
QIIMEやmothurなどで作成したOTU tableからとりあえず動かしたいのであれば、コードはここに書かれているし簡単に導入できる。
今までの菌間の関係推定の問題点として、下記を挙げている。
1) 今までの菌間のcorrelationを推定するのには、SparCC(同じ著者らの手法)やCCREPEが挙げられていたが、どちらも相関関係を前提としている。まず相関関係自体が菌間の因果関係を推定するのによい方法であるのかは分からないのではないか。
2) OTUはだいたい数百から数千あるのに対し、サンプル数は大体何十から何百である。OTU>サンプル数である。
この問題に、Centered log ratio変換した細菌叢の存在度データと、疎な生態ネットワークを推定することで生態ネットワークを予測する。
どういう臨床論文に応用が効くかというと、例えばがん患者とコントロールそれぞれのネットワークを推定し、それぞれ有意に発現している菌と発現していない菌の繋がりを比較することが出来る。compositional dataの関係を推定するのは、他にgCoda (J Comput Biol. 2017 Jul;24(7):699-708.)があるらしい。
メソッド
OTU matrix において、
]
番目のサンプルにおけるOTUカウントの次元ベクトルを表す。この和は自然数である。さて、Sampling biasがあるためを正規化する必要がある。通常はrelative abundanceを用いるが、これではOTU存在度はそれぞれ従属的となり、ユークリッド距離ではなく次元のunit simplexとなる。
この存在度の対数をとることで元の存在度に相当する計算が可能である。さらに、centered-log ratio変換を行うことでunit simplexのデータを次元ユークリッド空間にマッピングすることができる。
さて、clr-transformed OTU matrix において、
ネットワークを無向性で、重み付きのグラフと表す。(で、 taxaを表すvertex, がOTUのpossible relationを示すEdge)
さて、このアプローチは観測されたデータと、そのtaxa間の従属構造を規定する(不明な)グラフを表す確率グラフィカルモデルを用いている。これが(両taxaの相関関係を前提とした)SparCCやCCREPEとの明確な違いの部分である。
この場合、有限なサンプルの存在で、グラフ構造を推測するのは困難である。ただ2つの統計学的アプローチが高次元の統計において有効であることが知られている。1つ目はneighborhood selectionである。もうひとつがpenalized maximum likelihood methodである。