記事を読んだ。
Should you transform RNA-seq data: Log, VST, voom?seqqc.wordpress.com
RNA-Seqなどのカウントデータを扱う時の問題点は、外れ値の存在と、heteroscedasticity(不等分散性)である。edgeRやDESeq2を使ってdifferential expression analysisをする時は、内部でそれら問題点に対処してくれるので、raw count tableを投げてやればいい。他の用途に使いたい時、どのような変換を行うのが適切か。このページでは主に2つ手法が紹介されている。
- Log変換
ハズレ値をhandleできるが、pseudocountを入れる必要がある。また不等分散性は排除できない。
- VST (Variance Stabilizing Transformation)
DESeqにimplementされている。per-gene standard deviationは一定になるが、分散は全遺伝子で等しくはない。