Interest in microbiology

microbiologyに興味のあるMDです。面白そうな論文を紹介していくつもりです。

RNA-Seqなどのカウントデータの問題点

記事を読んだ。

Should you transform RNA-seq data: Log, VST, voom?seqqc.wordpress.com

RNA-Seqなどのカウントデータを扱う時の問題点は、外れ値の存在と、heteroscedasticity(不等分散性)である。edgeRやDESeq2を使ってdifferential expression analysisをする時は、内部でそれら問題点に対処してくれるので、raw count tableを投げてやればいい。他の用途に使いたい時、どのような変換を行うのが適切か。このページでは主に2つ手法が紹介されている。

  • Log変換

ハズレ値をhandleできるが、pseudocountを入れる必要がある。また不等分散性は排除できない。

  • VST (Variance Stabilizing Transformation)

DESeqにimplementされている。per-gene standard deviationは一定になるが、分散は全遺伝子で等しくはない。