Interest in microbiology

microbiologyに興味のあるMDです。面白そうな論文を紹介していくつもりです。

微生物の存在度差異の解析 (DAA)手法の総合評価についてのレビュー

DAA手法のレビューは幾つかあるが、Microbiome誌に新しい論文が出版されていた。

microbiomejournal.biomedcentral.com

Compositional effectを考えたDAAツールであるANCOM-BC, Aldex2, metagenomeSeqとDACOMP、LDMを比較し、これらはFalse-positiveのコントロールに有用であるが、強いcompositional effectがある場合にはコントロールしきれない可能性が示唆された。

そのため著者らはZicoseqというPermutation-baseの手法を提案している。

(本文内に直リンクは無いがおそらく下記)

github.com

 

Nature CommunicationsにもDAA手法を比較した論文が出ており、興味深い。

www.nature.com

 

複数のメタゲノムサンプル由来のアセンブリをMetaBATを使ってビニングするには?


 

複数のサンプルからアセンブルするのに、どのような考え方があるのか。最近下記のような論文がMicrobiomeから出版されており、これは(1) individual assembly: 各サンプル毎のアセンブリ -> それぞれの遺伝子についてクラスタリング、(2) co-assembly、(3)individualとco-assemblyをどちらも行うmix-assemblyでアセンブル結果を比較したところ、(3) mix-assemblyでより多くの遺伝子において機能的なアノテーションが可能だったことから(3) mix-assemblyが有用だとしている。

 

microbiomejournal.biomedcentral.com

 

 

MetaBATのフォーラムにもアセンブリについて質問が挙がっていた。

ここではco-assembly -> MetaBATを使ったBinningを推奨している。

bitbucket.org

 

So a primary assumption that MetaBAT makes is that the assembly which is provided consists of unique contigs and that the duplication ratio of the assembly is low. Simply concatenating contigs from multiple assemblies together does not achieve the desired starting point and will amount to the garbage-in yields garbage out paradigm.

Our current recommendation is to perform a single co-assembly of all the samples together and use that single result to then perform binning. If you have sufficient computing hardware, MHM2 or metaspades will be your best bets to perform a co-assembly of all the data.

An alternative possibility which provides lesser quality results is to apply dedup to your many single assemblies and try metabat with that. Deduplication is far from perfect and generally yields chimeric sequences across strains & species. I do not know if it will work well across 128 different single sample assemblies. This is our recommended tool to pursue that strategy: https://jgi.doe.gov/data-and-tools/bbtools/bb-tools-user-guide/dedupe-guide/

 

‌そのため、MetaBATは、提供されたアセンブリがユニークなコンティグで構成されており、アセンブリの重複率が低いことを第一の前提としています。複数のアセンブリのコンティグを単純に連結することは、望ましい出発点を達成せず、garbage-in, garbage outのパラダイムに相当します。

私たちが現在推奨しているのは、すべてのサンプルのco-assemblyを1度だけ実行し、その1つの結果を用いてビニングを行うことです。十分な計算機ハードウェアがあれば、MHM2やmetaspadesが全データの共集合を実行するのに最適な方法です。

別の方法として、多くのシングルアセンブリに重複排除を適用し、それを使ってメタバッ トを実行することもできるが、これはあまり質の高い結果とは言えないと考えられます。重複排除は完璧とは言えず、一般に株や種をまたいだキメラ配列が生成されます。128の異なるシングルサンプルアセンブリでうまく機能するかどうかはわかりません。そのような戦略をとるには、こちらのツールをお勧めします: https://jgi.doe.gov/data-and-tools/bbtools/bb-tools-user-guide/dedupe-guide/

RNA-SeqかRNA-seqか

RNA-Seqの表記ですが、RNA-SeqとRNA-seqのどちらかが正しいんでしょうか。Sを大文字にするかどうかの微妙な部分ですが、正式な表記をしたいですね。

Google検索では下記のSEQanswers(フォーラム)のポストが挙がってきます。

seqanswers.com

これによると"RNA-seq"が66.67%(全部で9票ですが)。

Twitter検索では下記のドンピシャなポールが2020年に行われています。

こちらでは37票投票があり、やはり56.8%が"RNA-seq"。

RNA-seqが正しい表記かと思われましたが、

最初にメソッドとしてのRNA-Seqを用いたペーパーの内1つは"RNA-Seq"とされているとのことで、現状コンセンサスは無いようです。日本人著者の論文でどのような割合で使用されているかも気になるところですね。

 

 

iMeta

iMetaというジャーナルがWileyから発刊され、記事がpublishされ始めているようです。Editorial Boardも高名な先生ばかりですね。メタゲノムに関連したバイオインフォマティクスツールなどもpublishされるようで、伸びそうな気がして記事にしました。下記のような原稿を受け付けているようです。直近では2017年から公開されているWebベースの可視化ツールであるImageGPが出版されているようです。

1) Microbiome in humans, animals, plants, and environment
2) Meta-omics methods/protocols development and application
3) Bioinformatics tools, pipelines, databases, and packages
4) Systematic review in metagenomics, bioinformatics, and microbiome

1) ヒト、動物、植物、環境におけるマイクロバイオーム
2) メタオミクス手法・プロトコルの開発・応用
3) バイオインフォマティクスツール、パイプライン、データベース、パッケージ
4) メタゲノム、バイオインフォマティクス、マイクロバイオームにおけるシステマティックレビュー

yfinanceで"AttributeError: 'Index' object has no attribute 'tz_localize'"が出る時

github.com

全くmicrobiologyと関係ありませんが・・・

pandas 1.4.0を使っていると表題のエラーがでるようです。

pandas 1.3.5にダウングレードしましょう。

pip install pandas==1.3.5

 

属や種内の16S rRNAの違いを評価できるRibDifを使ってみた

RibDifというアプリケーションがBioinformatics Advancesで公開されていた。属や種内の16SリボソームRNA遺伝子の違いを評価することが可能で、アンプリコンシークエンスを行った際にSpecies resolutionが可能かどうかを検討評価できる。特定の属について議論するときにこのようなツールの評価結果をサプリメンタルに載せることとかができれば、より議論が深まる可能性がある。インストールはGitHub内に記載されておりcondaを使って非常に簡単。Ubuntu 20.04で試しています。今回はNeisseriaを評価。

~/RibDif/RibDif.sh -g Neisseria

V3-V4領域のサマリを表示。

cat ~/Neisseria/amplicons/Neisseria-v3v4-overlap-summary.txt
Summary:

Genomes: 238
	Named: 235
	Non-named: 3

Named species: 24

45 of 238 (18.91%) genomes have multiple alleles.

6 of 24 (25%) species have at least one overlap.

The following species overlap:
	 meningitidis/polysaccharea
	mucosa/subflava
	perflava/sicca
	mucosa/sicca

pheatmapを使ってヒートマップを出力してくれる。MakeHeatmap.Rというスクリプトでデフォルトで実行される。

f:id:tokumeinow:20211025134955p:plain
RibDif_Results_Neisseria

Paper内でも指摘されているようにV3-V4領域のみだとSpecies overlapを認める。V1-V9ではNeisseriaではzero species overlapという結果だった。
さらに、特定のSpecies内の詳細もヒートマップで可視化できる(MakeSpeciesHeatmap.R)。今回はmucosa, perflavaとオーバーラップのあるsiccaを指定。

f:id:tokumeinow:20211025143933p:plain
Neisseria_sicca