Workflow module for metagenome assembly

public 1yr ago 0 bookmarks

View Workflow

A Snakemake workflow for metagenome assembly using metaspades and metahit. It does pre-assembly merging and read-correction in order to improve the assembly and reduce memory foot print.

It is part of metagenome-atlas . For citation see the atlas repository

Usage

The usage of this workflow is described in the Snakemake Workflow Catalog .

If you use this workflow in a paper, don't forget to give credits to the authors by citing the URL of this (original) metagenome-assembly repository and its DOI (see above).

Code Snippets

shell:
    """
    prodigal -i {input} -o {output.gff} -d {output.fna} \
        -a {output.faa} -p meta -f gff 2> {log}
    """

SnakeMake prodigal From line 20 of rules/annotations.smk

run:
    header = [
        "gene_id",
        "Contig",
        "Gene_nr",
        "Start",
        "Stop",
        "Strand",
        "Annotation",
    ]
    with open(output.tsv, "w") as tsv:
        tsv.write("\t".join(header) + "\n")
        with open(input.faa) as fin:
            gene_idx = 0
            for line in fin:
                if line[0] == ">":
                    text = line[1:].strip().split(" # ")
                    old_gene_name = text[0]
                    text.remove(old_gene_name)
                    old_gene_name_split = old_gene_name.split("_")
                    gene_nr = old_gene_name_split[-1]
                    contig_nr = old_gene_name_split[-2]
                    sample = "_".join(
                        old_gene_name_split[: len(old_gene_name_split) - 2]
                    )
                    tsv.write(
                        "{gene_id}\t{sample}_{contig_nr}\t{gene_nr}\t{text}\n".format(
                            text="\t".join(text),
                            gene_id=old_gene_name,
                            i=gene_idx,
                            sample=sample,
                            gene_nr=gene_nr,
                            contig_nr=contig_nr,
                        )
                    )
                    gene_idx += 1
                    #

SnakeMake From line 36 of rules/annotations.smk

shell:
    "cat {input} > {output}"

SnakeMake From line 32 of rules/megahit.smk

shell:
    "rm -r {params.outdir} 2> {log} "
    " ;\n "
    " megahit "
    " {params.inputs} "
    " --tmp-dir {resources.tmpdir} "
    " --num-cpu-threads {threads} "
    " --k-min {params.k_min} "
    " --k-max {params.k_max} "
    " --k-step {params.k_step} "
    " --out-dir {params.outdir} "
    " --out-prefix {wildcards.sample}_prefilter "
    " --min-contig-len {params.min_contig_len} "
    " --min-count {params.min_count} "
    " --merge-level {params.merge_level} "
    " --prune-level {params.prune_level} "
    " --low-local-ratio {params.low_local_ratio} "
    " --memory {resources.mem}000000000  "
    " {params.preset} &>> {log} "

SnakeMake MEGAHIT From line 80 of rules/megahit.smk

wrapper:
    "v1.19.0/bio/minimap2/aligner"

SnakeMake From line 23 of rules/post_assembly.smk

shell:
    "pileup.sh ref={input.fasta} in={input.bam} "
    " threads={threads} "
    " -Xmx{resources.java_mem}G "
    " covstats={output.covstats} "
    " concise=t "
    " secondary={params.pileup_secondary} "
    " 2> {log}"

SnakeMake From line 42 of rules/post_assembly.smk

shell:
    "filterbycoverage.sh "
    " in={input.fasta} "
    " cov={input.covstats} "
    " out={output.fasta} "
    " minc={params.minc} "
    " minp={params.minp} "
    " minr={params.minr} "
    " minl={params.minl} "
    " trim={params.trim} "
    " -Xmx{resources.java_mem}G "
    " 2> {log}"

SnakeMake From line 71 of rules/post_assembly.smk

shell:
    "rename.sh "
    " in={input} out={output} ow=t "
    " prefix={wildcards.sample} "
    " minscaf={params.minlength} &> {log} "

SnakeMake From line 103 of rules/post_assembly.smk

shell:
    "stats.sh in={input} format=3 out={output} &> {log}"

SnakeMake From line 130 of rules/post_assembly.smk

run:
    import os
    import pandas as pd

    c = pd.DataFrame()
    for f in input:
        df = pd.read_csv(f, sep="\t")
        assembly_step = (
            os.path.basename(f)
            .replace("_contig_stats.txt", "")
            .replace(wildcards.sample + "_", "")
        )
        c.loc[assembly_step]

    c.to_csv(output[0], sep="\t")

SnakeMake Pandas From line 143 of rules/post_assembly.smk

wrapper:
    "v1.19.0/bio/minimap2/aligner"

SnakeMake From line 179 of rules/post_assembly.smk

shell:
    "pileup.sh "
    " ref={input.fasta} "
    " in={input.bam} "
    " threads={threads} "
    " -Xmx{resources.java_mem}G "
    " covstats={output.covstats} "
    " hist={output.covhist} "
    " concise=t "
    " secondary={params.pileup_secondary} "
    " bincov={output.bincov} "
    " 2> {log} "

SnakeMake From line 203 of rules/post_assembly.smk

shell:
    "samtools index {input}"

SnakeMake SAMtools From line 227 of rules/post_assembly.smk

    script:
        "../scripts/combine_contig_stats.py"


"""
localrules:
    build_assembly_report,

rule build_assembly_report:
    input:
        combined_contig_stats="stats/combined_contig_stats.tsv",
    output:
        report="reports/assembly_report.html",
    conda:
        "../envs/report.yaml"
    log:
        "logs/assembly/report.log",
    script:
        "../report/assembly_report.py"
"""

SnakeMake From line 257 of rules/post_assembly.smk

shell:
    " reformat.sh "
    " {params.inputs} "
    " interleaved={params.interleaved} "
    " {params.outputs} "
    " iupacToN=t "
    " touppercase=t "
    " qout=33 "
    " overwrite=true "
    " verifypaired={params.verifypaired} "
    " addslash=t "
    " trimreaddescription=t "
    " threads={threads} "
    " pigz=t unpigz=t "
    " -Xmx{resources.java_mem}G "
    " 2> {log} "

SnakeMake From line 27 of rules/pre_assembly.smk

shell:
    "tadpole.sh -Xmx{resources.java_mem}G "
    " prefilter={params.prefilter} "
    " prealloc=1 "
    " {params.inputs} "
    " {params.outputs} "
    " mode=correct "
    " aggressive={params.aggressive} "
    " tossjunk={params.tossjunk} "
    " lowdepthfraction={params.lowdepthfraction}"
    " tossdepth={params.tossdepth} "
    " merge=t "
    " shave={params.shave} rinse={params.shave} "
    " threads={threads} "
    " pigz=t unpigz=t "
    " ecc=t ecco=t "
    "&> {log} "

SnakeMake TADpole From line 78 of rules/pre_assembly.smk

shell:
    " bbmerge.sh "
    " -Xmx{resources.java_mem}G threads={threads} "
    " in1={input.R1} in2={input.R2} "
    " outmerged={output[2]} "
    " outu={output[0]} outu2={output[1]} "
    " {params.flags} k={params.kmer} "
    " pigz=t unpigz=t "
    " extend2={params.extend2} 2> {log} "

SnakeMake From line 130 of rules/pre_assembly.smk

import os, sys
import logging, traceback

logging.basicConfig(
    filename=snakemake.log[0],
    level=logging.INFO,
    format="%(asctime)s %(message)s",
    datefmt="%Y-%m-%d %H:%M:%S",
)


def handle_exception(exc_type, exc_value, exc_traceback):
    if issubclass(exc_type, KeyboardInterrupt):
        sys.__excepthook__(exc_type, exc_value, exc_traceback)
        return

    logging.error(
        "".join(
            [
                "Uncaught exception: ",
                *traceback.format_exception(exc_type, exc_value, exc_traceback),
            ]
        )
    )


# Install exception handler
sys.excepthook = handle_exception


import pandas as pd
from utils.parsers_bbmap import parse_pileup_log_file


def parse_map_stats(sample_data, out_tsv):
    stats_df = pd.DataFrame()
    for sample in sample_data.keys():
        df = pd.read_csv(sample_data[sample]["contig_stats"], sep="\t")
        assert df.shape[0] == 1, "Assumed only one row in file {}; found {}".format(
            sample_data[sample]["contig_stats"], df.iloc[0]
        )
        df = df.iloc[0]
        df.name = sample
        genes_df = pd.read_csv(sample_data[sample]["gene_table"], index_col=0, sep="\t")
        df["N_Predicted_Genes"] = genes_df.shape[0]

        mapping_stats = parse_pileup_log_file(sample_data[sample]["mapping_log"])

        df["Assembled_Reads"] = mapping_stats["Mapped reads"]
        df["Percent_Assembled_Reads"] = mapping_stats["Percent mapped"]

        stats_df = stats_df.append(df)
    stats_df = stats_df.loc[:, ~stats_df.columns.str.startswith("scaf_")]
    stats_df.columns = stats_df.columns.str.replace("ctg_", "")
    stats_df.to_csv(out_tsv, sep="\t")
    return stats_df


def main(samples, contig_stats, gene_tables, mapping_logs, combined_stats):
    sample_data = {}
    for sample in samples:
        sample_data[sample] = {}
        for c_stat in contig_stats:
            # underscore version was for simplified local testing
            # if "%s_" % sample in c_stat:
            if "%s/" % sample in c_stat:
                sample_data[sample]["contig_stats"] = c_stat
        for g_table in gene_tables:
            # if "%s_" % sample in g_table:
            if "%s/" % sample in g_table:
                sample_data[sample]["gene_table"] = g_table
        for mapping_log in mapping_logs:
            # if "%s_" % sample in mapping_log:
            if "%s/" % sample in mapping_log:
                sample_data[sample]["mapping_log"] = mapping_log

    parse_map_stats(sample_data, combined_stats)


if __name__ == "__main__":
    main(
        samples=snakemake.params.samples,
        contig_stats=snakemake.input.contig_stats,
        gene_tables=snakemake.input.gene_tables,
        mapping_logs=snakemake.input.mapping_logs,
        combined_stats=snakemake.output.combined_contig_stats,
    )

Python Pandas utils From line 1 of scripts/combine_contig_stats.py

__author__ = "Tom Poorten"
__copyright__ = "Copyright 2017, Tom Poorten"
__email__ = "[email protected]"
__license__ = "MIT"


from os import path
from snakemake.shell import shell
from snakemake_wrapper_utils.samtools import infer_out_format
from snakemake_wrapper_utils.samtools import get_samtools_opts


samtools_opts = get_samtools_opts(snakemake, parse_output=False)
extra = snakemake.params.get("extra", "")
log = snakemake.log_fmt_shell(stdout=False, stderr=True)
sort = snakemake.params.get("sorting", "none")
sort_extra = snakemake.params.get("sort_extra", "")

out_ext = infer_out_format(snakemake.output[0])

pipe_cmd = ""
if out_ext != "PAF":
    # Add option for SAM output
    extra += " -a"

    # Determine which pipe command to use for converting to bam or sorting.
    if sort == "none":

        if out_ext != "SAM":
            # Simply convert to output format using samtools view.
            pipe_cmd = f"| samtools view -h {samtools_opts}"

    elif sort in ["coordinate", "queryname"]:

        # Add name flag if needed.
        if sort == "queryname":
            sort_extra += " -n"

        # Sort alignments.
        pipe_cmd = f"| samtools sort {sort_extra} {samtools_opts}"

    else:
        raise ValueError(f"Unexpected value for params.sort: {sort}")


shell(
    "(minimap2"
    " -t {snakemake.threads}"
    " {extra} "
    " {snakemake.input.target}"
    " {snakemake.input.query}"
    " {pipe_cmd}"
    " > {snakemake.output[0]}"
    ") {log}"
)