Endogenous Retrovirus Expression Pipeline for Human and Mouse for use with bulk RNA

public 1yr ago 0 bookmarks

View Workflow

ervx 🔬

Endogenous Retrovirus Expression Pipeline for Human and Mouse

This is t

Code Snippets

shell: """
rsem-prepare-reference -p {threads} --gtf {input.gtf} {input.fa} {params.prefix}
rsem-generate-ngvector {params.prefix}.transcripts.fa {params.prefix}.transcripts
"""

SnakeMake RSEM From line 175 of rules/build.smk

shell: """
python3 {params.get_gene} {input.gtf} > annotate.genes.txt
python3 {params.get_isoform} {input.gtf} > annotate.isoforms.txt
gtfToGenePred -ignoreGroupsWithoutExons {input.gtf} genes.genepred
genePredToBed genes.genepred genes.bed12
sort -k1,1 -k2,2n genes.bed12 > genes.ref.bed
python3 {params.make_refFlat} > refFlat.txt
python3 {params.make_geneinfo} {input.gtf} > geneinfo.bed
"""

SnakeMake gtftogenepred From line 208 of rules/build.smk

shell: """
# Setups temporary directory for
# intermediate files with built-in 
# mechanism for deletion on exit
if [ ! -d "{params.tmpdir}" ]; then mkdir -p "{params.tmpdir}"; fi
tmp=$(mktemp -d -p "{params.tmpdir}")
trap 'rm -rf "${{tmp}}"' EXIT

# Create Index for read length
rl=$(({wildcards.readlength}-1))

STAR \\
    --runThreadN {threads} \\
    --runMode genomeGenerate \\
    --genomeDir STAR/2.7.6a/genes-{wildcards.readlength} \\
    --genomeFastaFiles {input.fa} \\
    --sjdbGTFfile {input.gtf} \\
    --sjdbOverhang $rl \\
    --outFileNamePrefix STAR/2.7.6a/build_{wildcards.readlength}_ \\
    --outTmpDir ${{tmp}}/tmp_{wildcards.readlength}
"""

SnakeMake STAR From line 245 of rules/build.smk

shell: """
# Setups temporary directory for
# intermediate files with built-in 
# mechanism for deletion on exit
if [ ! -d "{params.tmpdir}" ]; then mkdir -p "{params.tmpdir}"; fi
tmp=$(mktemp -d -p "{params.tmpdir}")
trap 'rm -rf "${{tmp}}"' EXIT

# Build an index optimized
# for small reference genomes
genomeSize=$(grep -v '^>' {input.fa} | awk '{{sum+=length($0)}}; END {{print sum}}')
# Calculate min(14, log2(GenomeSize)/2 - 1)
genomeSAindexNbases=$(python -c "import math; print(min(14,int((math.log($genomeSize,2)/2)-1)))")
echo "Building index with --genomeSAindexNbases $genomeSAindexNbases"
STAR \\
    --runThreadN {threads} \\
    --runMode genomeGenerate \\
    --genomeSAindexNbases ${{genomeSAindexNbases}} \\
    --genomeDir STAR/2.7.6a/genome \\
    --genomeFastaFiles {input.fa} \\
    --outFileNamePrefix STAR/2.7.6a/build_genome_ \\
    --outTmpDir ${{tmp}}/tmp_genome
"""

SnakeMake STAR From line 310 of rules/build.smk

shell: """
# Setups temporary directory for
# intermediate files with built-in 
# mechanism for deletion on exit
if [ ! -d "{params.tmpdir}" ]; then mkdir -p "{params.tmpdir}"; fi
tmp=$(mktemp -d -p "{params.tmpdir}")
trap 'rm -rf "${{tmp}}"' EXIT

STAR \\
    --runThreadN {threads} \\
    --runMode genomeGenerate \\
    --genomeDir STAR/2.7.6a/genome \\
    --genomeFastaFiles {input.fa} \\
    --outFileNamePrefix STAR/2.7.6a/build_genome_ \\
    --outTmpDir ${{tmp}}/tmp_genome
"""

SnakeMake STAR From line 366 of rules/build.smk

shell: """
python3 {params.create_rRNA} \\
    {input.fa} \\
    {input.gtf} \\
    {params.genome} > {params.genome}.rRNA_interval_list
"""

SnakeMake From line 407 of rules/build.smk

shell: """
python3 {params.get_karyoplot} {input.gtf} > karyoplot_gene_coordinates.txt
"""

SnakeMake From line 431 of rules/build.smk

shell: """
mkdir -p karyobeds && cd karyobeds
python3 {params.get_karyoplot} {input.gtf}
"""

SnakeMake From line 452 of rules/build.smk

shell: """
python {params.gtf2protein} {input.gtf} > protein_coding_genes.lst
gtfToGenePred -ignoreGroupsWithoutExons -genePredExt {input.gtf} genes.gtf.genePred
genePredToBed genes.gtf.genePred genes.gtf.genePred.bed

awk -F '\\t' -v OFS='\\t' '{{print $12,$1}}' genes.gtf.genePred \\
    | sort -k1,1n > gene2transcripts

while read gene; do
    grep "${{gene}}" gene2transcripts;
done < protein_coding_genes.lst > gene2transcripts.protein_coding_only

python {params.gene2transcripts} \\
    gene2transcripts.protein_coding_only \\
    genes.gtf.genePred.bed \\
    > gene2transcripts.protein_coding_only.with_len

sort -k1,1 -k3,3nr gene2transcripts.protein_coding_only.with_len | \\
    awk -F '\\t' '{{if (!seen[$1]) {{seen[$1]++; print $2}}}}' > protein_coding_only.txt

while read transcript; do
    grep -m1 "${{transcript}}" genes.gtf.genePred.bed;
done < <(awk -F '.' '{{print $1}}' protein_coding_only.txt) > transcripts.protein_coding_only.bed12

rm -f "protein_coding_genes.lst" "genes.gtf.genePred" "genes.gtf.genePred.bed" \\
    "gene2transcripts" "gene2transcripts.protein_coding_only" "protein_coding_only.txt" \\
    "gene2transcripts.protein_coding_only.with_len" "protein_coding_only.txt"
"""

SnakeMake gtftogenepred From line 475 of rules/build.smk

shell: """
python3 {params.generate_qualimap} \\
    -g {input.gtf} \\
    -f {input.fa} \\
    -o {output} \\
    --ignore-strange-chrom 2> qualimap_error.log
"""

SnakeMake From line 526 of rules/build.smk

shell: """
wget https://hpc.nih.gov/~OpenOmics/common/{params.tarname} -O {params.tarfile}
tar vxf {params.tarfile} -C {params.outdir} && rm {params.tarfile}
"""

SnakeMake From line 565 of rules/build.smk

shell: """
wget https://hpc.nih.gov/~OpenOmics/common/{params.tarname} -O {params.tarfile}
tar vxf {params.tarfile} -C {params.outdir} && rm {params.tarfile}
"""

SnakeMake From line 601 of rules/build.smk

shell: """
mkdir -p "{params.outdir}"
wget https://hpc.nih.gov/~OpenOmics/common/{params.conf1} -O {output.conf1}
wget https://hpc.nih.gov/~OpenOmics/common/{params.conf2} -O {output.conf2}
sed -i 's@/data/OpenOmics/references/common@{params.new}@g' {output.conf1}
sed -i 's@/data/OpenOmics/references/common@{params.new}@g' {output.conf2}
"""

SnakeMake From line 629 of rules/build.smk

shell: """
wget https://hpc.nih.gov/~OpenOmics/common/{params.tarfile} -O {params.outfh}
tar vxf {params.outfh} -C {params.outdir} && rm {params.outfh}
"""

SnakeMake From line 658 of rules/build.smk

run:
    import json
    outdir=params.workdir
    if not outdir.endswith("/"):
        outdir+="/"
    refdict = {}
    refdict["references"] = {}
    refdict["references"]["rnaseq"] = {}
    refdict["references"]["rnaseq"]["GENOMEFILE"] = input.fa
    refdict["references"]["rnaseq"]["GENOME"] = input.fa
    refdict["references"]["rnaseq"]["GTFFILE"] = input.gtf
    refdict["references"]["rnaseq"]["GENOME_STARDIR"] = outdir+"STAR/2.7.6a/genome"
    refdict["references"]["rnaseq"]["ANNOTATE"] = outdir+"annotate.genes.txt"
    refdict["references"]["rnaseq"]["ANNOTATEISOFORMS"] = outdir+"annotate.isoforms.txt"
    refdict["references"]["rnaseq"]["REFFLAT"] = outdir+"refFlat.txt"
    refdict["references"]["rnaseq"]["BEDREF"] = outdir+"genes.ref.bed"
    refdict["references"]["rnaseq"]["GENEINFO"] = outdir+"geneinfo.bed"
    refdict["references"]["rnaseq"]["QUALIMAP_INFO"] = outdir+"qualimap_info.txt"
    refdict["references"]["rnaseq"]["KARYOBEDS"] = outdir+"karyobeds/"
    refdict["references"]["rnaseq"]["KARYOPLOTER"] = outdir+"karyoplot_gene_coordinates.txt"
    refdict["references"]["rnaseq"]["RSEMREF"] = outdir+"rsemref/"+params.genome
    refdict["references"]["rnaseq"]["RRNALIST"] = outdir+params.genome+".rRNA_interval_list"
    refdict["references"]["rnaseq"]["ORGANISM"] = wildcards.genome
    refdict["references"]["rnaseq"]["TINREF"] = outdir+"transcripts.protein_coding_only.bed12"
    refdict["references"]["rnaseq"]["TELESCOPE_ERVS_GTF"] = input.ervs_gtf
    refdict["references"]["rnaseq"]["ERVS_FAMILY_ANNOTATION_TABLE"]=input.ervs_fam_table

    # Try to infer which Arriba reference files to add a user defined reference genome
    if 'hg19' in params.genome.lower() or \
    'hs37d' in params.genome.lower() or \
    'grch37' in params.genome.lower():
        refdict["references"]["rnaseq"]["FUSIONBLACKLIST"] = \
        "s3://nciccbr/Resources/RNA-seq/arriba/blacklist_hg19_hs37d5_GRCh37_v2.0.0.tsv.gz"
        refdict["references"]["rnaseq"]["FUSIONCYTOBAND"] = \
        "s3://nciccbr/Resources/RNA-seq/arriba/cytobands_hg19_hs37d5_GRCh37_v2.0.0.tsv"
        refdict["references"]["rnaseq"]["FUSIONPROTDOMAIN"] = \
        "s3://nciccbr/Resources/RNA-seq/arriba/protein_domains_hg19_hs37d5_GRCh37_v2.0.0.gff3"
    elif 'hg38' in params.genome.lower() or \
    'hs38d' in params.genome.lower() or \
    'grch38' in params.genome.lower():
        refdict["references"]["rnaseq"]["FUSIONBLACKLIST"] = \
        "s3://nciccbr/Resources/RNA-seq/arriba/blacklist_hg38_GRCh38_v2.0.0.tsv.gz"
        refdict["references"]["rnaseq"]["FUSIONCYTOBAND"] = \
        "s3://nciccbr/Resources/RNA-seq/arriba/cytobands_hg38_GRCh38_v2.0.0.tsv"
        refdict["references"]["rnaseq"]["FUSIONPROTDOMAIN"] = \
        "s3://nciccbr/Resources/RNA-seq/arriba/protein_domains_hg38_GRCh38_v2.0.0.gff3"
    elif 'mm10' in params.genome.lower() or \
    'grcm38' in params.genome.lower():
        refdict["references"]["rnaseq"]["FUSIONBLACKLIST"] = \
        "s3://nciccbr/Resources/RNA-seq/arriba/blacklist_mm10_GRCm38_v2.0.0.tsv.gz"
        refdict["references"]["rnaseq"]["FUSIONCYTOBAND"] = \
        "s3://nciccbr/Resources/RNA-seq/arriba/cytobands_mm10_GRCm38_v2.0.0.tsv"
        refdict["references"]["rnaseq"]["FUSIONPROTDOMAIN"] = \
        "s3://nciccbr/Resources/RNA-seq/arriba/protein_domains_mm10_GRCm38_v2.0.0.gff3"

    with open(output.json, 'w') as fp:
        json.dump(refdict, fp, indent=4)

SnakeMake JSON From line 685 of rules/build.smk

shell: """
python {params.get_flowcell_lanes} {input.R1} {wildcards.name} > {output.fqinfo}
"""

SnakeMake From line 36 of rules/common.smk

shell: """
# Setups temporary directory for
# intermediate files with built-in 
# mechanism for deletion on exit
if [ ! -d "{params.tmpdir}" ]; then mkdir -p "{params.tmpdir}"; fi
tmp=$(mktemp -d -p "{params.tmpdir}")
trap 'rm -rf "${{tmp}}"' EXIT

java -Xmx{params.memory}g  -XX:ParallelGCThreads={threads} -jar ${{PICARDJARPATH}}/picard.jar AddOrReplaceReadGroups \
    I={input.file1} O=${{tmp}}/{params.sampleName}.star_rg_added.sorted.bam \
    TMP_DIR=${{tmp}} RGID=id RGLB=library RGPL=illumina RGPU=machine RGSM=sample VALIDATION_STRINGENCY=SILENT;
java -Xmx{params.memory}g -XX:ParallelGCThreads={threads} -jar ${{PICARDJARPATH}}/picard.jar MarkDuplicates \
    I=${{tmp}}/{params.sampleName}.star_rg_added.sorted.bam \
    O=${{tmp}}/{params.sampleName}.star_rg_added.sorted.dmark.bam \
    TMP_DIR=${{tmp}} CREATE_INDEX=true VALIDATION_STRINGENCY=SILENT METRICS_FILE={output.metrics};

mv ${{tmp}}/{params.sampleName}.star_rg_added.sorted.dmark.bam {output.bam};
mv ${{tmp}}/{params.sampleName}.star_rg_added.sorted.dmark.bai {output.bai};
sed -i 's/MarkDuplicates/picard.sam.MarkDuplicates/g' {output.metrics};
"""

SnakeMake Picard From line 63 of rules/common.smk

shell:"""
preseq c_curve -B -o {output.ccurve} {input.bam}
"""

SnakeMake preseq From line 103 of rules/common.smk

shell: """
unset DISPLAY;
qualimap bamqc -bam {input.bamfile} --feature-file {params.gtfFile} \
    -outdir {params.outdir} -nt {threads} --java-mem-size={params.memory}G
"""

SnakeMake QualiMap From line 130 of rules/common.smk

shell: """
# Setups temporary directory for
# intermediate files with built-in 
# mechanism for deletion on exit
if [ ! -d "{params.tmpdir}" ]; then mkdir -p "{params.tmpdir}"; fi
tmp=$(mktemp -d -p "{params.tmpdir}")
trap 'rm -rf "${{tmp}}"' EXIT

java -Xmx{params.memory}g -jar ${{PICARDJARPATH}}/picard.jar CollectRnaSeqMetrics \
    REF_FLAT={params.refflat} I={input.file1} O={output.outstar1} \
    RIBOSOMAL_INTERVALS={params.rrnalist} \
    STRAND_SPECIFICITY=SECOND_READ_TRANSCRIPTION_STRAND \
    TMP_DIR=${{tmp}}  VALIDATION_STRINGENCY=SILENT;
sed -i 's/CollectRnaSeqMetrics/picard.analysis.CollectRnaSeqMetrics/g' {output.outstar1}
samtools flagstat {input.file1} > {output.outstar2};
python3 {params.statscript} {input.file1} >> {output.outstar2}
"""

SnakeMake SAMtools Picard From line 168 of rules/common.smk

shell: """
python {params.pythonscript} {params.annotate} {params.inputdir} {params.inputdir}
sed 's/\\t/|/1' {output.gene_counts_matrix} | \
    sed '1 s/^gene_id|GeneName/symbol/' > {output.reformatted}
"""

SnakeMake From line 210 of rules/common.smk

shell: """
infer_experiment.py -r {params.bedref} -i {input.file1} -s 1000000 > {output.out1}
read_distribution.py -i {input.file1} -r {params.bedref} > {output.out2}
"""

SnakeMake From line 236 of rules/common.smk

shell: """
# tin.py writes to current working directory
cd {params.outdir}
tin.py -i {input.bam} -r {params.bedref}
"""

SnakeMake From line 266 of rules/common.smk

shell: """
python {params.create_matrix} {input.tins} > {output.matrix}
"""

SnakeMake From line 291 of rules/common.smk

run:
    with open(output.out1, "w") as out:
        out.write("sampleName\tfileName\tcondition\tlabel\n")
        i=0
        for f in input.files:
            out.write("{}\t".format(params.allsamples[i]))
            out.write("{}/{}.star.count.txt\t".format(params.pathprefix, params.allsamples[i]))
            out.write("{}\t".format(params.groups[i]))
            out.write("{}\n".format(params.labels[i]))
            i=i+1
        out.close()

SnakeMake From line 16 of rules/group-info.smk

shell: """
cd {params.outdir}
module load {params.rver}
Rscript {params.rscript} '{params.outdir}' '{input.files}' '{params.annotate}' '{input.sampletable}'
"""

SnakeMake From line 41 of rules/group-info.smk

shell: """
cd {params.outdir}
module load {params.rver}
Rscript {params.rscript1} '{params.outdir}' '{output.outhtml}' \
'{input.file1}' '{input.file2}' '{params.projectId}' '{params.projDesc}' '{params.rscript2}'
"""

SnakeMake From line 64 of rules/group-info.smk

shell: """
mkdir -p {params.outdir}
fastQValidator --noeof --file {input.R1} > {output.out1}
fastQValidator --noeof --file {input.R2} > {output.out2}
"""

SnakeMake From line 30 of rules/paired-end.smk

shell: """
fastqc {input.R1} {input.R2} -t {threads} -o {params.outdir};
"""

SnakeMake FastQC From line 60 of rules/paired-end.smk

shell: """
cutadapt --pair-filter=any --nextseq-trim=2 --trim-n \
    -n 5 -O 5 -q {params.leadingquality},{params.trailingquality} \
    -m {params.minlen}:{params.minlen} \
    -b file:{params.fastawithadaptersetd} -B file:{params.fastawithadaptersetd} \
    -j {threads} -o {output.out1} -p {output.out2} {input.file1} {input.file2}
"""

SnakeMake Cutadapt From line 93 of rules/paired-end.smk

shell: """
fastqc {input.R1} {input.R2} -t {threads} -o {params.outdir};
"""

SnakeMake FastQC From line 126 of rules/paired-end.smk

shell: """
# Get encoding of Phred Quality Scores
encoding=$(python {params.encoding} {input.R1})
echo "Detected Phred+${{encoding}} ASCII encoding"

bbtools bbmerge-auto in1={input.R1} in2={input.R2} qin=${{encoding}} \
    ihist={output} k=62 extend2=200 rem ecct -Xmx{params.memory}G
"""

SnakeMake From line 155 of rules/paired-end.smk

shell: """
fastq_screen --conf {params.fastq_screen_config} --outdir {params.outdir} \
    --threads {threads} --subset 1000000 \
    --aligner bowtie2 --force {input.file1} {input.file2}

fastq_screen --conf {params.fastq_screen_config2} --outdir {params.outdir2} \
    --threads {threads} --subset 1000000 \
    --aligner bowtie2 --force {input.file1} {input.file2}
"""

SnakeMake Bowtie 2 From line 202 of rules/paired-end.smk

shell: """
# Setups temporary directory for
# intermediate files with built-in 
# mechanism for deletion on exit
if [ ! -d "{params.tmpdir}" ]; then mkdir -p "{params.tmpdir}"; fi
tmp=$(mktemp -d -p "{params.tmpdir}")
trap 'rm -rf "${{tmp}}"' EXIT

# Copy kraken2 db to /lscratch or temp 
# location to reduce filesystem strain
cp -rv {params.bacdb} ${{tmp}}/;
kdb_base=$(basename {params.bacdb})
kraken2 --db ${{tmp}}/${{kdb_base}} \
    --threads {threads} --report {output.krakentaxa} \
    --output {output.krakenout} \
    --gzip-compressed \
    --paired {input.fq1} {input.fq2}
# Generate Krona Report
cut -f2,3 {output.krakenout} | \
    ktImportTaxonomy - -o {output.kronahtml}
"""

SnakeMake kraken2 Krona From line 241 of rules/paired-end.smk

shell: """
# Setups temporary directory for
# intermediate files with built-in 
# mechanism for deletion on exit
if [ ! -d "{params.tmpdir}" ]; then mkdir -p "{params.tmpdir}"; fi
tmp=$(mktemp -d -p "{params.tmpdir}")
trap 'rm -rf "${{tmp}}"' EXIT

# Optimal readlength for sjdbOverhang = max(ReadLength) - 1 [Default: 100]
readlength=$(
    zcat {input.file1} | \
    awk -v maxlen=100 'NR%4==2 {{if (length($1) > maxlen+0) maxlen=length($1)}}; \
    END {{print maxlen-1}}'
)

echo "sjdbOverhang for STAR: ${{readlength}}"

STAR --genomeDir {params.stardir} \
    --outFilterIntronMotifs {params.filterintronmotifs} \
    --outSAMstrandField {params.samstrandfield}  \
    --outFilterType {params.filtertype} \
    --outFilterMultimapNmax {params.filtermultimapnmax} \
    --alignSJoverhangMin {params.alignsjoverhangmin} \
    --alignSJDBoverhangMin {params.alignsjdboverhangmin} \
    --outFilterMismatchNmax {params.filtermismatchnmax} \
    --outFilterMismatchNoverLmax {params.filtermismatchnoverlmax} \
    --alignIntronMin {params.alignintronmin} \
    --alignIntronMax {params.alignintronmax} \
    --alignMatesGapMax {params.alignmatesgapmax} \
    --clip3pAdapterSeq {params.adapter1} {params.adapter2} \
    --readFilesIn {input.file1} {input.file2} \
    --readFilesCommand zcat \
    --runThreadN {threads} \
    --outFileNamePrefix {params.prefix}. \
    --outSAMunmapped {params.outsamunmapped} \
    --outWigType {params.wigtype} \
    --outWigStrand {params.wigstrand} \
    --twopassMode Basic \
    --sjdbGTFfile {params.gtffile} \
    --limitSjdbInsertNsj {params.nbjuncs} \
    --quantMode TranscriptomeSAM GeneCounts \
    --outSAMtype BAM Unsorted \
    --alignEndsProtrude 10 ConcordantPair \
    --peOverlapNbasesMin 10 \
    --outTmpDir=${{tmp}}/STARtmp_{wildcards.name} \
    --sjdbOverhang ${{readlength}}

# SAMtools sort (uses less memory than STAR SortedByCoordinate)
samtools sort -@ {threads} \
    -m 2G -T ${{tmp}}/SORTtmp_{wildcards.name} \
    -O bam {params.prefix}.Aligned.out.bam \
    > {output.out1}

rm {params.prefix}.Aligned.out.bam
mv {params.prefix}.Aligned.toTranscriptome.out.bam {workpath}/{bams_dir};
mv {params.prefix}.Log.final.out {workpath}/{log_dir}
"""

SnakeMake SAMtools STAR From line 332 of rules/paired-end.smk

shell: """
# Setups temporary directory for
# intermediate files with built-in 
# mechanism for deletion on exit
if [ ! -d "{params.tmpdir}" ]; then mkdir -p "{params.tmpdir}"; fi
tmp=$(mktemp -d -p "{params.tmpdir}")
trap 'rm -rf "${{tmp}}"' EXIT

# Optimal readlength for sjdbOverhang = max(ReadLength) - 1 [Default: 100]
readlength=$(
    zcat {input.file1} | \
    awk -v maxlen=100 'NR%4==2 {{if (length($1) > maxlen+0) maxlen=length($1)}}; \
    END {{print maxlen-1}}'
)

echo "sjdbOverhang for STAR: ${{readlength}}"

STAR --genomeDir {params.stardir} \
    --outFilterIntronMotifs {params.filterintronmotifs} \
    --outSAMstrandField {params.samstrandfield} \
    --outFilterType {params.filtertype} \
    --outFilterMultimapNmax {params.filtermultimapnmax} \
    --alignSJoverhangMin {params.alignsjoverhangmin} \
    --alignSJDBoverhangMin {params.alignsjdboverhangmin} \
    --outFilterMismatchNmax {params.filtermismatchnmax} \
    --outFilterMismatchNoverLmax {params.filtermismatchnoverlmax} \
    --alignIntronMin {params.alignintronmin} \
    --alignIntronMax {params.alignintronmax} \
    --alignMatesGapMax {params.alignmatesgapmax} \
    --clip3pAdapterSeq {params.adapter1} {params.adapter2} \
    --readFilesIn {input.file1} {input.file2} \
    --readFilesCommand zcat \
    --runThreadN {threads} \
    --outFileNamePrefix {params.prefix}. \
    --outSAMtype BAM Unsorted \
    --alignEndsProtrude 10 ConcordantPair \
    --peOverlapNbasesMin 10 \
    --sjdbGTFfile {params.gtffile} \
    --outTmpDir=${{tmp}}/STARtmp_{wildcards.name} \
    --sjdbOverhang ${{readlength}}
"""

SnakeMake STAR From line 434 of rules/paired-end.smk

shell: """
cat {input.files} | \
    sort | \
    uniq | \
    awk -F \"\\t\" '{{if ($5>0 && $6==1) {{print}}}}'| \
    cut -f1-4 | sort | uniq | \
grep \"^chr\" | grep -v \"^chrM\" > {output.out1}
"""

SnakeMake From line 493 of rules/paired-end.smk

shell: """
# Setups temporary directory for
# intermediate files with built-in 
# mechanism for deletion on exit
if [ ! -d "{params.tmpdir}" ]; then mkdir -p "{params.tmpdir}"; fi
tmp=$(mktemp -d -p "{params.tmpdir}")
trap 'rm -rf "${{tmp}}"' EXIT

# Optimal readlength for sjdbOverhang = max(ReadLength) - 1 [Default: 100]
readlength=$(
    zcat {input.file1} | \
    awk -v maxlen=100 'NR%4==2 {{if (length($1) > maxlen+0) maxlen=length($1)}}; \
    END {{print maxlen-1}}'
)

echo "sjdbOverhang for STAR: ${{readlength}}"

STAR --genomeDir {params.stardir} \
    --outFilterIntronMotifs {params.filterintronmotifs} \
    --outSAMstrandField {params.samstrandfield}  \
    --outFilterType {params.filtertype} \
    --outFilterMultimapNmax {params.filtermultimapnmax} \
    --alignSJoverhangMin {params.alignsjoverhangmin} \
    --alignSJDBoverhangMin {params.alignsjdboverhangmin} \
    --outFilterMismatchNmax {params.filtermismatchnmax} \
    --outFilterMismatchNoverLmax {params.filtermismatchnoverlmax} \
    --alignIntronMin {params.alignintronmin} \
    --alignIntronMax {params.alignintronmax} \
    --alignMatesGapMax {params.alignmatesgapmax} \
    --clip3pAdapterSeq {params.adapter1} {params.adapter2} \
    --readFilesIn {input.file1} {input.file2} \
    --readFilesCommand zcat \
    --runThreadN {threads} \
    --outFileNamePrefix {params.prefix}. \
    --outSAMunmapped {params.outsamunmapped} \
    --outWigType {params.wigtype} \
    --outWigStrand {params.wigstrand} \
    --sjdbFileChrStartEnd {input.tab} \
    --sjdbGTFfile {params.gtffile} \
    --limitSjdbInsertNsj {params.nbjuncs} \
    --quantMode TranscriptomeSAM GeneCounts \
    --outSAMtype BAM Unsorted \
    --alignEndsProtrude 10 ConcordantPair \
    --peOverlapNbasesMin 10 \
    --outTmpDir=${{tmp}}/STARtmp_{wildcards.name} \
    --sjdbOverhang ${{readlength}}

# SAMtools sort (uses less memory than STAR SortedByCoordinate)
samtools sort -@ {threads} \
    -m 2G -T ${{tmp}}/SORTtmp_{wildcards.name} \
    -O bam {params.prefix}.Aligned.out.bam \
    > {output.out1}

rm {params.prefix}.Aligned.out.bam
mv {params.prefix}.Aligned.toTranscriptome.out.bam {workpath}/{bams_dir};
mv {params.prefix}.Log.final.out {workpath}/{log_dir}
"""

SnakeMake SAMtools STAR From line 555 of rules/paired-end.smk

shell: """
# Setups temporary directory for
# intermediate files with built-in 
# mechanism for deletion on exit
if [ ! -d "{params.tmpdir}" ]; then mkdir -p "{params.tmpdir}"; fi
tmp=$(mktemp -d -p "{params.tmpdir}")
trap 'rm -rf "${{tmp}}"' EXIT

# Optimal readlength for sjdbOverhang = max(ReadLength) - 1 [Default: 100]
readlength=$(
    zcat {input.R1} | \
    awk -v maxlen=100 'NR%4==2 {{if (length($1) > maxlen+0) maxlen=length($1)}}; \
    END {{print maxlen-1}}'
)

# Avoids inheriting $R_LIBS_SITE
# from local env variables
R_LIBS_SITE=/usr/local/lib/R/site-library

STAR --runThreadN {threads} \
    --sjdbGTFfile {params.gtffile} \
    --sjdbOverhang ${{readlength}} \
    --genomeDir {params.stardir} \
    --genomeLoad NoSharedMemory \
    --readFilesIn {input.R1} {input.R2} \
    --readFilesCommand zcat \
    --outStd BAM_Unsorted \
    --outSAMtype BAM Unsorted \
    --outSAMunmapped Within \
    --outFilterMultimapNmax 50 \
    --peOverlapNbasesMin 10 \
    --alignSplicedMateMapLminOverLmate 0.5 \
    --alignSJstitchMismatchNmax 5 -1 5 5 \
    --chimSegmentMin 10 \
    --chimOutType WithinBAM HardClip \
    --chimJunctionOverhangMin 10 \
    --chimScoreDropMax 30 \
    --chimScoreJunctionNonGTAG 0 \
    --chimScoreSeparation 1 \
    --chimSegmentReadGapMax 3 \
    --chimMultimapNmax 50 \
    --twopassMode Basic \
    --outTmpDir=${{tmp}}/STARtmp_{wildcards.name} \
    --outFileNamePrefix {params.prefix}. \
| tee ${{tmp}}/{params.chimericbam} | \
arriba -x /dev/stdin \
    -o {output.fusions} \
    -O {output.discarded} \
    -a {params.reffa} \
    -g {params.gtffile} \
    -b {input.blacklist} \

# Sorting and Indexing BAM files is required for Arriba's Visualization
samtools sort -@ {threads} \
    -m 2G -T ${{tmp}}/SORTtmp_{wildcards.name} \
    -O bam ${{tmp}}/{params.chimericbam} \
    > {output.bam}

samtools index {output.bam} {output.bai}
rm ${{tmp}}/{params.chimericbam}

# Generate Gene Fusions Visualization
draw_fusions.R \
    --fusions={output.fusions} \
    --alignments={output.bam} \
    --output={output.figure} \
    --annotation={params.gtffile} \
    --cytobands={input.cytoband} \
    --proteinDomains={input.protdomain}
"""

SnakeMake SAMtools STAR Arriba From line 653 of rules/paired-end.smk

shell: """
# Setups temporary directory for
# intermediate files with built-in 
# mechanism for deletion on exit
if [ ! -d "{params.tmpdir}" ]; then mkdir -p "{params.tmpdir}"; fi
tmp=$(mktemp -d -p "{params.tmpdir}")
trap 'rm -rf "${{tmp}}"' EXIT

# Get strandedness to calculate Forward Probability
fp=$(tail -n1 {input.file2} | awk '{{if($NF > 0.75) print "0.0"; else if ($NF<0.25) print "1.0"; else print "0.5";}}')

echo "Forward Probability Passed to RSEM: $fp"
rsem-calculate-expression --no-bam-output --calc-ci --seed 12345  \
    --bam --paired-end -p {threads}  {input.file1} {params.rsemref} {params.prefix} --time \
    --temporary-folder ${{tmp}} --keep-intermediate-files --forward-prob=${{fp}} --estimate-rspd
"""

SnakeMake RSEM From line 751 of rules/paired-end.smk

shell: """
inner_distance.py -i {input.bam} -r {params.genemodel} \
    -k 10000000 -o {params.prefix}
"""

SnakeMake From line 787 of rules/paired-end.smk

shell: """
bash {params.bashscript} {input.bam} {params.outprefix}

# reverse files if method is not dUTP/NSR/NNSR ... ie, R1 in the direction of RNA strand.
strandinfo=`tail -n1 {input.strandinfo} | awk '{{print $NF}}'`
if [ `echo "$strandinfo < 0.25"|bc` -eq 1 ];then
    mv {output.fbw} {output.fbw}.tmp
    mv {output.rbw} {output.fbw}
    mv {output.fbw}.tmp {output.rbw}
fi
"""

SnakeMake From line 819 of rules/paired-end.smk

shell: """
multiqc --ignore '*/.singularity/*' -f -c {params.qcconfig} --interactive --outdir {params.outdir} {params.workdir}

# Parse RSeQC Inner Distance Maximas
echo -e "Sample\\tInner_Dist_Maxima" > {output.maximas}
for f in $(find {params.workdir} -iname '*.inner_distance_freq.txt'); do
    sample=$(basename "${{f}}");
    inner_dist_maxima=$(sort -k3,3nr "${{f}}" | awk -F '\\t' 'NR==1{{print $1}}');
    echo -e "${{sample}}\\t${{inner_dist_maxima}}";
done >> {output.maximas}

# Parse RSeQC Median TINs
echo -e "Sample\\tmedian_tin" > {output.medtins}
find {params.workdir} -name '*.star_rg_added.sorted.dmark.summary.txt' -exec cut -f1,3 {{}} \\; | \
    grep -v '^Bam_file' | \
    awk -F '\\t' '{{printf "%s\\t%.3f\\n", $1,$2}}' >> {output.medtins}

# Parse Flowcell and Lane information
echo -e "Sample\\tflowcell_lanes" > {output.fclanes}
find {params.workdir} -name '*.fastq.info.txt' -exec awk -F '\\t' -v OFS='\\t' 'NR==2 {{print $1,$5}}' {{}} \\; \
    >> {output.fclanes}

python3 {params.pyparser} {params.logfiles} {params.outdir}
"""

SnakeMake MultiQC From line 872 of rules/paired-end.smk

shell: """
# Generate RNA QC Dashboard
{params.rwrapper} \
    -m {params.rmarkdown} \
    -r {input.counts} \
    -t {input.tins} \
    -q {input.qc} \
    -o {params.odir} \
    -f RNA_Report.html
"""

SnakeMake From line 926 of rules/paired-end.smk

shell: """
mkdir -p {params.outdir}
cd {params.outdir}
samtools sort -n -O bam -@ 10 {input.bam} > {output.sorted}
telescope assign {output.sorted} \
    --attribute transcript_id {params.gtf_file} \
    --exp_tag {params.name}
"""

SnakeMake SAMtools Telescope From line 949 of rules/paired-end.smk

shell:"""
set +u
if [ "{params.mode}" == "uge" ]; then 
    module load R
else
    module load R/4.1.3
fi
Rscript {params.rmerger} -tsvs {input} {params.ervs_fam_table} -dir {params.outdir}
"""