So a primary assumption that MetaBAT makes is that the assembly which is provided consists of unique contigs and that the duplication ratio of the assembly is low. Simply concatenating contigs from multiple assemblies together does not achieve the desired starting point and will amount to the garbage-in yields garbage out paradigm.
Our current recommendation is to perform a single co-assembly of all the samples together and use that single result to then perform binning. If you have sufficient computing hardware, MHM2 or metaspades will be your best bets to perform a co-assembly of all the data.
An alternativepossibility which provides lesser quality results is to apply dedup to your many single assemblies and try metabat with that. Deduplication is far from perfect and generally yields chimeric sequences across strains & species. I do not know if it will work well across 128 different single sample assemblies. This is our recommended tool to pursue that strategy: https://jgi.doe.gov/data-and-tools/bbtools/bb-tools-user-guide/dedupe-guide/
複数のサンプルからアセンブルするのに、どのような考え方があるのか。最近下記のような論文がMicrobiomeから出版されており、これは(1) individual assembly: 各サンプル毎のアセンブリ -> それぞれの遺伝子についてクラスタリング、(2) co-assembly、(3)individualとco-assemblyをどちらも行うmix-assemblyでアセンブル結果を比較したところ、(3) mix-assemblyでより多くの遺伝子において機能的なアノテーションが可能だったことから(3) mix-assemblyが有用だとしている。
microbiomejournal.biomedcentral.com
MetaBATのフォーラムにもアセンブリについて質問が挙がっていた。
ここではco-assembly -> MetaBATを使ったBinningを推奨している。
bitbucket.org
そのため、MetaBATは、提供されたアセンブリがユニークなコンティグで構成されており、アセンブリの重複率が低いことを第一の前提としています。複数のアセンブリのコンティグを単純に連結することは、望ましい出発点を達成せず、garbage-in, garbage outのパラダイムに相当します。
私たちが現在推奨しているのは、すべてのサンプルのco-assemblyを1度だけ実行し、その1つの結果を用いてビニングを行うことです。十分な計算機ハードウェアがあれば、MHM2やmetaspadesが全データの共集合を実行するのに最適な方法です。
別の方法として、多くのシングルアセンブリに重複排除を適用し、それを使ってメタバッ トを実行することもできるが、これはあまり質の高い結果とは言えないと考えられます。重複排除は完璧とは言えず、一般に株や種をまたいだキメラ配列が生成されます。128の異なるシングルサンプルアセンブリでうまく機能するかどうかはわかりません。そのような戦略をとるには、こちらのツールをお勧めします: https://jgi.doe.gov/data-and-tools/bbtools/bb-tools-user-guide/dedupe-guide/