最近、学生がLog変換したデータから計算したBray-Curtis (BC) dissimilarityのNMDS Plotを見せてきたんだ。私はBCの前のlog変換は意味がわからないと思った、なぜなら「2サンプル間の差異の合計と、Speciesの合計の割合」という本来のBC dissimilarityの意味合いが失われてしまうからだ。
彼女は確かにそれは正しいと思うと言ったが、同時に彼女はこの手法をとった多くの論文があると言ってきた。検索をしてみるとこのアプローチをとる論文の多さに驚いた。
私には何故log変換やsqrt、sqrt(sqrt)変換をBC計算する前に行うのか分からない。なぜならBCは相対的な変化を見るものであり、定量的な変化を捉えるものではないからだ。私は人々がデータ分布を正規化が必要のない時に正規化しようとしているのではないかと思っている。この不必要な正規化の結果は、distance/dissimilaritiesの解釈をより真っ直ぐで無いものにしていると思う。
[ORDNEWS:1593] log, sqrt and other transformation with Bray-Curtis dissimilarity
この議論に対する一つの解答が、
Log変換は凸変換を行ってくれ、しばしばすごく便利です。smaller valueの差異を強調し、larger valuesの大きな差異をde-emphasizeしてくれる。(1%, 2% coverの差異と、50%, 51% coverの差異の違い)BCはspecies relative abundanceを平均するのでなく、divisionの前にsumを行っており、もともとのスケールが広かった場合、log変換はdominantの重みを下げ、lesser speciesの発現を評価できる点で非常に便利だと思う。