RNA sequencing data obtained from organisms with a reference genome and annotation followed by a prediction step of editing sites using RDDpred

public 1yr ago Version: Version 1 0 bookmarks

View Workflow

rna-sequencing-data-obtained-from-organisms-with-a — View Workflow

Introduction

vibbits/rnaseq-editing is a bioinformatics pipeline that can be used to analyse RNA sequencing data obtained from organisms with a reference genome and annotation followed by a prediction step of editing sites using RDDpred.

The pipeline is largely based on the nf-core RNAseq pipeline .

The initial nf-core pipeline is built using Nextflow , a workflow tool to run tasks across multiple compute infrastructures in a very portable manner. It uses Docker/Singularity containers making installation trivial and results highly reproducible. The Nextflow DSL2 implementation of this pipeline uses one container per process which makes it much easier to maintain and update software dependencies. Where possible, these processes have been submitted to and installed from nf-core/modules in order to make them available to all nf-core pipelines, and to everyone within the Nextflow community!

Code Snippets

"""
bedtools \\
    genomecov \\
    -ibam $bam \\
    -bg \\
    -strand + \\
    $options.args \\
    | bedtools sort > ${prefix_forward}.bedGraph

bedtools \\
    genomecov \\
    -ibam $bam \\
    -bg \\
    -strand - \\
    $options.args \\
    | bedtools sort > ${prefix_reverse}.bedGraph

bedtools --version | sed -e "s/bedtools v//g" > ${software}.version.txt
"""

NextFlow BEDTools From line 39 of local/bedtools_genomecov.nf

"""
fasta2gtf.py -o ${add_fasta.baseName}.gtf $biotype_name $add_fasta
cat $fasta $add_fasta > ${name}.fasta
cat $gtf ${add_fasta.baseName}.gtf > ${name}.gtf
"""

NextFlow From line 34 of local/cat_additional_fasta.nf

"""
deseq2_qc.r \\
    --count_file $counts \\
    --outdir ./ \\
    --cores $task.cpus \\
    $options.args

if [ -f "R_sessionInfo.log" ]; then
    sed "s/deseq2_pca/${label_lower}_deseq2_pca/g" <$pca_header_multiqc >tmp.txt
    sed -i -e "s/DESeq2 PCA/${label_upper} DESeq2 PCA/g" tmp.txt
    cat tmp.txt *.pca.vals.txt > ${label_lower}.pca.vals_mqc.tsv

    sed "s/deseq2_clustering/${label_lower}_deseq2_clustering/g" <$clustering_header_multiqc >tmp.txt
    sed -i -e "s/DESeq2 sample/${label_upper} DESeq2 sample/g" tmp.txt
    cat tmp.txt *.sample.dists.txt > ${label_lower}.sample.dists_mqc.tsv
fi

Rscript -e "library(DESeq2); write(x=as.character(packageVersion('DESeq2')), file='${software}.version.txt')"
"""

NextFlow DESeq2 From line 43 of local/deseq2_qc.nf

"""
dupradar.r $bam $prefix $gtf $strandedness $paired_end $task.cpus
Rscript -e "library(dupRadar); write(x=as.character(packageVersion('dupRadar')), file='${software}.version.txt')"
"""

NextFlow bioconductor-dupradar From line 47 of local/dupradar.nf

"""
samtools faidx $fasta
cut -f 1,2 ${fasta}.fai > ${fasta}.sizes
echo \$(samtools --version 2>&1) | sed 's/^.*samtools //; s/Using.*\$//' > ${software}.version.txt
"""

NextFlow SAMtools From line 34 of local/get_chrom_sizes.nf

"""
echo $workflow.manifest.version > pipeline.version.txt
echo $workflow.nextflow.version > nextflow.version.txt
scrape_software_versions.py &> software_versions_mqc.yaml
"""

NextFlow From line 32 of local/get_software_versions.nf

"""
gtf2bed $gtf > ${gtf.baseName}.bed
"""

NextFlow GFFutils From line 27 of local/gtf2bed.nf

"""
filter_gtf_for_genes_in_genome.py --gtf $gtf --fasta $fasta -o ${fasta.baseName}_genes.gtf
"""

NextFlow From line 32 of local/gtf_gene_filter.nf

"""
cut -f 1,7 $count | tail -n +3 | cat $header - >> ${prefix}.biotype_counts_mqc.tsv
mqc_features_stat.py ${prefix}.biotype_counts_mqc.tsv -s $meta.id -f rRNA -o ${prefix}.biotype_counts_rrna_mqc.tsv
"""

NextFlow From line 35 of local/multiqc_custom_biotype.nf

"""
echo "Sample\tSTAR uniquely mapped reads (%)" > fail_mapped_samples_mqc.tsv
echo "${fail_mapped.join('\n')}" >> fail_mapped_samples_mqc.tsv
"""

NextFlow From line 30 of local/multiqc_custom_fail_mapped.nf

"""
touch fail_mapped_samples_mqc.tsv
"""

NextFlow From line 35 of local/multiqc_custom_fail_mapped.nf

"""
echo "Sample\tProvided strandedness\tInferred strandedness\tSense (%)\tAntisense (%)\tUndetermined (%)" > fail_strand_check_mqc.tsv
echo "${fail_strand.join('\n')}" >> fail_strand_check_mqc.tsv
"""

NextFlow From line 30 of local/multiqc_custom_strand_check.nf

"""
touch fail_strand_check_mqc.tsv
"""

NextFlow From line 35 of local/multiqc_custom_strand_check.nf

"""
multiqc -f $options.args $custom_config .
"""

NextFlow MultiQC From line 52 of local/multiqc.nf

"""
mkdir -p tmp/genes
cut -f 1,2 `ls ./genes/* | head -n 1` > gene_ids.txt
for fileid in `ls ./genes/*`; do
    samplename=`basename \$fileid | sed s/\\.genes.results\$//g`
    echo \$samplename > tmp/genes/\${samplename}.counts.txt
    cut -f 5 \${fileid} | tail -n+2 >> tmp/genes/\${samplename}.counts.txt
    echo \$samplename > tmp/genes/\${samplename}.tpm.txt
    cut -f 6 \${fileid} | tail -n+2 >> tmp/genes/\${samplename}.tpm.txt
done

mkdir -p tmp/isoforms
cut -f 1,2 `ls ./isoforms/* | head -n 1` > transcript_ids.txt
for fileid in `ls ./isoforms/*`; do
    samplename=`basename \$fileid | sed s/\\.isoforms.results\$//g`
    echo \$samplename > tmp/isoforms/\${samplename}.counts.txt
    cut -f 5 \${fileid} | tail -n+2 >> tmp/isoforms/\${samplename}.counts.txt
    echo \$samplename > tmp/isoforms/\${samplename}.tpm.txt
    cut -f 6 \${fileid} | tail -n+2 >> tmp/isoforms/\${samplename}.tpm.txt
done

paste gene_ids.txt tmp/genes/*.counts.txt > rsem.merged.gene_counts.tsv
paste gene_ids.txt tmp/genes/*.tpm.txt > rsem.merged.gene_tpm.tsv
paste transcript_ids.txt tmp/isoforms/*.counts.txt > rsem.merged.transcript_counts.tsv
paste transcript_ids.txt tmp/isoforms/*.tpm.txt > rsem.merged.transcript_tpm.tsv
"""

NextFlow From line 30 of local/rsem_merge_counts.nf

"""
mkdir -p tmp/genes_counts
echo "${params.gtf_group_features}" > gene_ids.txt
cut -f 1 `ls ./genes_counts/* | head -n 1` | tail -n +2 >> gene_ids.txt
for fileid in `ls ./genes_counts/*`; do
    filename=`basename \$fileid`
    cut -f 2 \${fileid} > tmp/genes_counts/\${filename}
done

mkdir -p tmp/genes_tpm
for fileid in `ls ./genes_tpm/*`; do
    filename=`basename \$fileid`
    cut -f 2 \${fileid} > tmp/genes_tpm/\${filename}
done

mkdir -p tmp/genes_counts_length_scaled
for fileid in `ls ./genes_counts_length_scaled/*`; do
    filename=`basename \$fileid`
    cut -f 2 \${fileid} > tmp/genes_counts_length_scaled/\${filename}
done

mkdir -p tmp/genes_tpm_length_scaled
for fileid in `ls ./genes_tpm_length_scaled/*`; do
    filename=`basename \$fileid`
    cut -f 2 \${fileid} > tmp/genes_tpm_length_scaled/\${filename}
done

mkdir -p tmp/genes_counts_scaled
for fileid in `ls ./genes_counts_scaled/*`; do
    filename=`basename \$fileid`
    cut -f 2 \${fileid} > tmp/genes_counts_scaled/\${filename}
done

mkdir -p tmp/genes_tpm_scaled
for fileid in `ls ./genes_tpm_scaled/*`; do
    filename=`basename \$fileid`
    cut -f 2 \${fileid} > tmp/genes_tpm_scaled/\${filename}
done

mkdir -p tmp/isoforms_counts
echo "transcript_id" > transcript_ids.txt
cut -f 1 `ls ./isoforms_counts/* | head -n 1` | tail -n +2 >> transcript_ids.txt
for fileid in `ls ./isoforms_counts/*`; do
    filename=`basename \$fileid`
    cut -f 2 \${fileid} > tmp/isoforms_counts/\${filename}
done

mkdir -p tmp/isoforms_tpm
for fileid in `ls ./isoforms_tpm/*`; do
    filename=`basename \$fileid`
    cut -f 2 \${fileid} > tmp/isoforms_tpm/\${filename}
done

paste gene_ids.txt tmp/genes_counts/* > salmon.merged.gene_counts.tsv
paste gene_ids.txt tmp/genes_tpm/* > salmon.merged.gene_tpm.tsv
paste gene_ids.txt tmp/genes_counts_length_scaled/* > salmon.merged.gene_counts_length_scaled.tsv
paste gene_ids.txt tmp/genes_counts_scaled/* > salmon.merged.gene_counts_scaled.tsv
paste transcript_ids.txt tmp/isoforms_counts/* > salmon.merged.transcript_counts.tsv
paste transcript_ids.txt tmp/isoforms_tpm/* > salmon.merged.transcript_tpm.tsv
"""

NextFlow From line 36 of local/salmon_merge_counts.nf

"""
salmon_tx2gene.py \\
    --gtf $gtf \\
    --salmon salmon \\
    --id $params.gtf_group_features \\
    --extra $params.gtf_extra_attributes \\
    -o salmon_tx2gene.tsv
"""

NextFlow Salmon From line 28 of local/salmon_tx2gene.nf

"""
salmon_tximport.r NULL salmon salmon.merged
Rscript -e "library(tximeta); write(x=as.character(packageVersion('tximeta')), file='bioconductor-tximeta.version.txt')"
"""

NextFlow Salmon From line 33 of local/salmon_tximport.nf

"""
check_samplesheet.py \\
    $samplesheet \\
    samplesheet.valid.csv
"""

NextFlow From line 31 of local/samplesheet_check.nf

"""
cat ${readList.sort().join(' ')} > ${prefix}.merged.fastq.gz
"""

NextFlow From line 32 of fastq/main.nf

"""
cat ${read1.sort().join(' ')} > ${prefix}_1.merged.fastq.gz
cat ${read2.sort().join(' ')} > ${prefix}_2.merged.fastq.gz
"""

NextFlow From line 41 of fastq/main.nf

"""
[ ! -f  ${prefix}.fastq.gz ] && ln -s $reads ${prefix}.fastq.gz
fastqc $options.args --threads $task.cpus ${prefix}.fastq.gz
fastqc --version | sed -e "s/FastQC v//g" > ${software}.version.txt
"""

NextFlow FastQC From line 38 of fastqc/main.nf

"""
[ ! -f  ${prefix}_1.fastq.gz ] && ln -s ${reads[0]} ${prefix}_1.fastq.gz
[ ! -f  ${prefix}_2.fastq.gz ] && ln -s ${reads[1]} ${prefix}_2.fastq.gz
fastqc $options.args --threads $task.cpus ${prefix}_1.fastq.gz ${prefix}_2.fastq.gz
fastqc --version | sed -e "s/FastQC v//g" > ${software}.version.txt
"""

NextFlow FastQC From line 44 of fastqc/main.nf

"""
gffread $gff $options.args -o ${gff.baseName}.gtf
echo \$(gffread --version 2>&1) > ${software}.version.txt
"""

NextFlow gffread From line 30 of gffread/main.nf

"""
INDEX=`find -L ./ -name "*.1.ht2" | sed 's/.1.ht2//'`
hisat2 \\
    -x \$INDEX \\
    -U $reads \\
    $strandedness \\
    --known-splicesite-infile $splicesites \\
    --summary-file ${prefix}.hisat2.summary.log \\
    --threads $task.cpus \\
    $seq_center \\
    $unaligned \\
    $options.args \\
    | samtools view -bS -F 4 -F 256 - > ${prefix}.bam

echo $VERSION > ${software}.version.txt
"""

NextFlow SAMtools HISAT2 From line 48 of align/main.nf

"""
INDEX=`find -L ./ -name "*.1.ht2" | sed 's/.1.ht2//'`
hisat2 \\
    -x \$INDEX \\
    -1 ${reads[0]} \\
    -2 ${reads[1]} \\
    $strandedness \\
    --known-splicesite-infile $splicesites \\
    --summary-file ${prefix}.hisat2.summary.log \\
    --threads $task.cpus \\
    $seq_center \\
    $unaligned \\
    --no-mixed \\
    --no-discordant \\
    $options.args \\
    | samtools view -bS -F 4 -F 8 -F 256 - > ${prefix}.bam

if [ -f ${prefix}.unmapped.fastq.1.gz ]; then
    mv ${prefix}.unmapped.fastq.1.gz ${prefix}.unmapped_1.fastq.gz
fi
if [ -f ${prefix}.unmapped.fastq.2.gz ]; then
    mv ${prefix}.unmapped.fastq.2.gz ${prefix}.unmapped_2.fastq.gz
fi

echo $VERSION > ${software}.version.txt
"""

NextFlow SAMtools HISAT2 From line 66 of align/main.nf

"""
mkdir hisat2
$extract_exons
hisat2-build \\
    -p $task.cpus \\
    $ss \\
    $exon \\
    $options.args \\
    $fasta \\
    hisat2/${fasta.baseName}

echo $VERSION > ${software}.version.txt
"""

NextFlow HISAT2 From line 57 of build/main.nf

"""
hisat2_extract_splice_sites.py $gtf > ${gtf.baseName}.splice_sites.txt
echo $VERSION > ${software}.version.txt
"""

NextFlow From line 32 of extractsplicesites/main.nf

"""
picard \\
    -Xmx${avail_mem}g \\
    MarkDuplicates \\
    $options.args \\
    INPUT=$bam \\
    OUTPUT=${prefix}.bam \\
    METRICS_FILE=${prefix}.MarkDuplicates.metrics.txt

echo \$(picard MarkDuplicates --version 2>&1) | grep -o 'Version:.*' | cut -f2- -d: > ${software}.version.txt
"""

NextFlow Picard From line 38 of markduplicates/main.nf

"""
preseq \\
    lc_extrap \\
    $options.args \\
    $paired_end \\
    -output ${prefix}.ccurve.txt \\
    $bam
cp .command.err ${prefix}.command.log

echo \$(preseq 2>&1) | sed 's/^.*Version: //; s/Usage:.*\$//' > ${software}.version.txt
"""

NextFlow preseq From line 34 of lcextrap/main.nf

"""
unset DISPLAY
mkdir tmp
export _JAVA_OPTIONS=-Djava.io.tmpdir=./tmp
qualimap \\
    --java-mem-size=$memory \\
    rnaseq \\
    $options.args \\
    -bam $bam \\
    -gtf $gtf \\
    -p $strandedness \\
    $paired_end \\
    -outdir $prefix

echo \$(qualimap 2>&1) | sed 's/^.*QualiMap v.//; s/Built.*\$//' > ${software}.version.txt
"""

NextFlow QualiMap From line 45 of rnaseq/main.nf

"""
[ ! -f $negative ] && ln -s $negative ${params.neg_site_list}
[ ! -f $positive ] && ln -s $positive ${params.pos_site_list}
python /code/RDDpred.py \\
    -rsf ${params.fasta} \\
    -rbl $groupfile  \\
    -pni $cores \\
    -ops $groups \\
    -psl $positive \\
    -nsl $negative \\
    $options.args

echo '1.1.4' > ${software}.version.txt
rm $groupfile
"""

NextFlow RDDpred From line 54 of predictrdds/main.nf

"""
INDEX=`find -L ./ -name "*.grp" | sed 's/.grp//'`
rsem-calculate-expression \\
    --num-threads $task.cpus \\
    --temporary-folder ./tmp/ \\
    $strandedness \\
    $paired_end \\
    $options.args \\
    $reads \\
    \$INDEX \\
    $prefix

rsem-calculate-expression --version | sed -e "s/Current version: RSEM v//g" > ${software}.version.txt
"""

NextFlow RSEM From line 47 of calculateexpression/main.nf

"""
STAR \\
    --runMode genomeGenerate \\
    --genomeDir rsem/ \\
    --genomeFastaFiles $fasta \\
    --sjdbGTFfile $gtf \\
    --runThreadN $task.cpus \\
    $memory \\
    $options.args2

rsem-prepare-reference \\
    --gtf $gtf \\
    --num-threads $task.cpus \\
    ${args.join(' ')} \\
    $fasta \\
    rsem/genome

rsem-calculate-expression --version | sed -e "s/Current version: RSEM v//g" > ${software}.version.txt
"""

NextFlow STAR RSEM From line 39 of preparereference/main.nf

"""
rsem-prepare-reference \\
    --gtf $gtf \\
    --num-threads $task.cpus \\
    $options.args \\
    $fasta \\
    rsem/genome

rsem-calculate-expression --version | sed -e "s/Current version: RSEM v//g" > ${software}.version.txt
"""

NextFlow RSEM From line 59 of preparereference/main.nf

"""
bam_stat.py \\
    -i $bam \\
    $options.args \\
    > ${prefix}.bam_stat.txt

bam_stat.py --version | sed -e "s/bam_stat.py //g" > ${software}.version.txt
"""

NextFlow From line 36 of bamstat/main.nf

"""
infer_experiment.py \\
    -i $bam \\
    -r $bed \\
    $options.args \\
    > ${prefix}.infer_experiment.txt

infer_experiment.py --version | sed -e "s/infer_experiment.py //g" > ${software}.version.txt
"""

NextFlow From line 36 of inferexperiment/main.nf

"""
inner_distance.py \\
    -i $bam \\
    -r $bed \\
    -o $prefix \\
    $options.args \\
    > stdout.txt
head -n 2 stdout.txt > ${prefix}.inner_distance_mean.txt

inner_distance.py --version | sed -e "s/inner_distance.py //g" > ${software}.version.txt
"""

NextFlow From line 43 of innerdistance/main.nf

"""
inner_distance.py --version | sed -e "s/inner_distance.py //g" > ${software}.version.txt
"""

NextFlow From line 55 of innerdistance/main.nf

"""
junction_annotation.py \\
    -i $bam \\
    -r $bed \\
    -o $prefix \\
    $options.args \\
    2> ${prefix}.junction_annotation.log

junction_annotation.py --version | sed -e "s/junction_annotation.py //g" > ${software}.version.txt
"""

NextFlow From line 42 of junctionannotation/main.nf

"""
junction_saturation.py \\
    -i $bam \\
    -r $bed \\
    -o $prefix \\
    $options.args

junction_saturation.py --version | sed -e "s/junction_saturation.py //g" > ${software}.version.txt
"""

NextFlow From line 39 of junctionsaturation/main.nf

"""
read_distribution.py \\
    -i $bam \\
    -r $bed \\
    > ${prefix}.read_distribution.txt

read_distribution.py --version | sed -e "s/read_distribution.py //g" > ${software}.version.txt
"""

NextFlow From line 37 of readdistribution/main.nf

"""
read_duplication.py \\
    -i $bam \\
    -o $prefix \\
    $options.args

read_duplication.py --version | sed -e "s/read_duplication.py //g" > ${software}.version.txt
"""

NextFlow From line 38 of readduplication/main.nf

"""
$get_decoy_ids
sed -i.bak -e 's/>//g' decoys.txt
cat $transcript_fasta $genome_fasta > $gentrome

salmon \\
    index \\
    --threads $task.cpus \\
    -t $gentrome \\
    -d decoys.txt \\
    $options.args \\
    -i salmon
salmon --version | sed -e "s/salmon //g" > ${software}.version.txt
"""

NextFlow Salmon From line 37 of index/main.nf

"""
salmon quant \\
    --geneMap $gtf \\
    --threads $task.cpus \\
    --libType=$strandedness \\
    $reference \\
    $input_reads \\
    $options.args \\
    -o $prefix

salmon --version | sed -e "s/salmon //g" > ${software}.version.txt
"""

NextFlow Quant Salmon From line 65 of quant/main.nf

"""
samtools flagstat $bam > ${bam}.flagstat
echo \$(samtools --version 2>&1) | sed 's/^.*samtools //; s/Using.*\$//' > ${software}.version.txt
"""

NextFlow SAMtools From line 38 of flagstat/main.nf

"""
samtools idxstats $bam > ${bam}.idxstats
echo \$(samtools --version 2>&1) | sed 's/^.*samtools //; s/Using.*\$//' > ${software}.version.txt
"""

NextFlow SAMtools From line 39 of idxstats/main.nf

"""
samtools index $options.args $bam
echo \$(samtools --version 2>&1) | sed 's/^.*samtools //; s/Using.*\$//' > ${software}.version.txt
"""

NextFlow SAMtools From line 35 of index/main.nf

"""
samtools sort $options.args -@ $task.cpus -o ${prefix}.bam -T $prefix $bam
echo \$(samtools --version 2>&1) | sed 's/^.*samtools //; s/Using.*\$//' > ${software}.version.txt
"""

NextFlow SAMtools From line 35 of sort/main.nf

"""
samtools stats $bam > ${bam}.stats
echo \$(samtools --version 2>&1) | sed 's/^.*samtools //; s/Using.*\$//' > ${software}.version.txt
"""

NextFlow SAMtools From line 34 of stats/main.nf

"""
sortmerna \\
    $Refs \\
    --reads $reads \\
    --threads $task.cpus \\
    --workdir . \\
    --aligned rRNA_reads \\
    --other non_rRNA_reads \\
    $options.args

gzip -f < non_rRNA_reads.fq > ${prefix}.fastq.gz
mv rRNA_reads.log ${prefix}.sortmerna.log

echo \$(sortmerna --version 2>&1) | sed 's/^.*SortMeRNA version //; s/ Build Date.*\$//' > ${software}.version.txt
"""

NextFlow From line 37 of sortmerna/main.nf

"""
sortmerna \\
    $Refs \\
    --reads ${reads[0]} \\
    --reads ${reads[1]} \\
    --threads $task.cpus \\
    --workdir . \\
    --aligned rRNA_reads \\
    --other non_rRNA_reads \\
    --paired_in \\
    --out2 \\
    $options.args

gzip -f < non_rRNA_reads_fwd.fq > ${prefix}_1.fastq.gz
gzip -f < non_rRNA_reads_rev.fq > ${prefix}_2.fastq.gz
mv rRNA_reads.log ${prefix}.sortmerna.log

echo \$(sortmerna --version 2>&1) | sed 's/^.*SortMeRNA version //; s/ Build Date.*\$//' > ${software}.version.txt
"""

NextFlow From line 53 of sortmerna/main.nf

"""
STAR \\
    --genomeDir $index \\
    --readFilesIn $reads  \\
    --runThreadN $task.cpus \\
    --outFileNamePrefix $prefix. \\
    $out_sam_type \\
    $ignore_gtf \\
    $seq_center \\
    $options.args

$mv_unsorted_bam

if [ -f ${prefix}.Unmapped.out.mate1 ]; then
    mv ${prefix}.Unmapped.out.mate1 ${prefix}.unmapped_1.fastq
    gzip ${prefix}.unmapped_1.fastq
fi
if [ -f ${prefix}.Unmapped.out.mate2 ]; then
    mv ${prefix}.Unmapped.out.mate2 ${prefix}.unmapped_2.fastq
    gzip ${prefix}.unmapped_2.fastq
fi

STAR --version | sed -e "s/STAR_//g" > ${software}.version.txt
"""

NextFlow STAR From line 52 of align/main.nf

"""
mkdir star
STAR \\
    --runMode genomeGenerate \\
    --genomeDir star/ \\
    --genomeFastaFiles $fasta \\
    --sjdbGTFfile $gtf \\
    --runThreadN $task.cpus \\
    $memory \\
    $options.args

STAR --version | sed -e "s/STAR_//g" > ${software}.version.txt
"""

NextFlow STAR From line 35 of genomegenerate/main.nf

"""
samtools faidx $fasta
NUM_BASES=`gawk '{sum = sum + \$2}END{if ((log(sum)/log(2))/2 - 1 > 14) {printf "%.0f", 14} else {printf "%.0f", (log(sum)/log(2))/2 - 1}}' ${fasta}.fai`

mkdir star
STAR \\
    --runMode genomeGenerate \\
    --genomeDir star/ \\
    --genomeFastaFiles $fasta \\
    --sjdbGTFfile $gtf \\
    --runThreadN $task.cpus \\
    --genomeSAindexNbases \$NUM_BASES \\
    $memory \\
    $options.args

STAR --version | sed -e "s/STAR_//g" > ${software}.version.txt
"""

NextFlow SAMtools STAR From line 49 of genomegenerate/main.nf

"""
stringtie \\
    $bam \\
    $strandedness \\
    -G $gtf \\
    -o ${prefix}.transcripts.gtf \\
    -A ${prefix}.gene.abundance.txt \\
    -C ${prefix}.coverage.gtf \\
    -b ${prefix}.ballgown \\
    -p $task.cpus \\
    $options.args

echo \$(stringtie --version 2>&1) > ${software}.version.txt
"""

NextFlow StringTie From line 42 of stringtie/main.nf

"""
featureCounts \\
    $options.args \\
    $paired_end \\
    -T $task.cpus \\
    -a $annotation \\
    -s $strandedness \\
    -o ${prefix}.featureCounts.txt \\
    ${bams.join(' ')}

echo \$(featureCounts -v 2>&1) | sed -e "s/featureCounts v//g" > ${software}.version.txt
"""

NextFlow FeatureCounts From line 40 of featurecounts/main.nf

"""
[ ! -f  ${prefix}.fastq.gz ] && ln -s $reads ${prefix}.fastq.gz
trim_galore \\
    $options.args \\
    --cores $cores \\
    --gzip \\
    $c_r1 \\
    $tpc_r1 \\
    ${prefix}.fastq.gz
echo \$(trim_galore --version 2>&1) | sed 's/^.*version //; s/Last.*\$//' > ${software}.version.txt
"""

NextFlow Trim_Galore From line 54 of trimgalore/main.nf

"""
[ ! -f  ${prefix}_1.fastq.gz ] && ln -s ${reads[0]} ${prefix}_1.fastq.gz
[ ! -f  ${prefix}_2.fastq.gz ] && ln -s ${reads[1]} ${prefix}_2.fastq.gz
trim_galore \\
    $options.args \\
    --cores $cores \\
    --paired \\
    --gzip \\
    $c_r1 \\
    $c_r2 \\
    $tpc_r1 \\
    $tpc_r2 \\
    ${prefix}_1.fastq.gz \\
    ${prefix}_2.fastq.gz
echo \$(trim_galore --version 2>&1) | sed 's/^.*version //; s/Last.*\$//' > ${software}.version.txt
"""

NextFlow Trim_Galore From line 66 of trimgalore/main.nf

"""
[ ! -f  ${prefix}.fastq.gz ] && ln -s $reads ${prefix}.fastq.gz
[ ! -f $c_adapter ] && ln -s ${params.adapter_file} $c_adapter 
trimmomatic SE\\
    $options.args \\
    -threads $cores \\
    ${prefix}_1.fastq.gz \\
    ${prefix}_1.fq.gz \\
    ILLUMINACLIP:${params.adapter_file}:2:30:10:1:true \\
    $c_lead \\
    $c_trail \\
    $c_extra

echo '0.39' > ${software}.version.txt
"""

NextFlow Trimmomatic From line 55 of trimmomatic/main.nf

"""
[ ! -f  ${prefix}_1.fastq.gz ] && ln -s ${reads[0]} ${prefix}_1.fastq.gz
[ ! -f  ${prefix}_2.fastq.gz ] && ln -s ${reads[1]} ${prefix}_2.fastq.gz
[ ! -f $c_adapter ] && ln -s ${params.adapter_file} $c_adapter 
trimmomatic PE\\
    $options.args \\
    -threads $cores \\
    ${prefix}_1.fastq.gz \\
    ${prefix}_2.fastq.gz \\
    ${prefix}_1.fq.gz \\
    ${prefix}_U_1.fastq.gz \\
    ${prefix}_2.fq.gz \\
    ${prefix}_U_2.fastq.gz \\
    ILLUMINACLIP:${params.adapter_file}:2:30:10:1:true \\
    $c_lead \\
    $c_trail \\
    $c_extra
echo '0.39' > ${software}.version.txt
"""

NextFlow Trimmomatic From line 71 of trimmomatic/main.nf

"""
bedClip \\
    $bedgraph \\
    $sizes \\
    ${prefix}.bedGraph

echo $VERSION > ${software}.version.txt
"""

NextFlow ucsc-bedclip From line 34 of bedclip/main.nf

"""
bedGraphToBigWig $bedgraph $sizes ${prefix}.bigWig
echo $VERSION > ${software}.version.txt
"""

NextFlow bedGraphToBigWig From line 34 of bedgraphtobigwig/main.nf

"""
umi_tools dedup \\
    -I $bam \\
    -S ${prefix}.bam \\
    $paired \\
    $options.args

echo \$(umi_tools --version 2>&1) | sed 's/^.*UMI-tools version://; s/ *\$//' > ${software}.version.txt
"""

NextFlow umi_tools From line 32 of dedup/main.nf

"""
umi_tools \\
    extract \\
    -I $reads \\
    -S ${prefix}.umi_extract.fastq.gz \\
    $options.args \\
    > ${prefix}.umi_extract.log

echo \$(umi_tools --version 2>&1) | sed 's/^.*UMI-tools version://; s/ *\$//' > ${software}.version.txt
"""

NextFlow umi_tools From line 33 of extract/main.nf

"""
umi_tools \\
    extract \\
    -I ${reads[0]} \\
    --read2-in=${reads[1]} \\
    -S ${prefix}.umi_extract_1.fastq.gz \\
    --read2-out=${prefix}.umi_extract_2.fastq.gz \\
    $options.args \\
    > ${prefix}.umi_extract.log

echo \$(umi_tools --version 2>&1) | sed 's/^.*UMI-tools version://; s/ *\$//' > ${software}.version.txt
"""

NextFlow umi_tools From line 44 of extract/main.nf

"""
tar -xzvf $options.args $archive
echo \$(tar --version 2>&1) | sed 's/^.*(GNU tar) //; s/ Copyright.*\$//' > ${software}.version.txt
"""

NextFlow From line 31 of untar/main.nf

ShowHide 43 more snippets with no or duplicated tags.

Comments

Support

Do you know this workflow well? If so, you can request seller status , and start supporting this workflow.

Created: 1yr ago

Updated: 1yr ago

Maitainers: public

URL: https://github.com/vibbits/rnaseq-editing.git

Name: rna-sequencing-data-obtained-from-organisms-with-a

Version: Version 1

Badge:

Insert copied code into your website to add a link to this workflow.

License: MIT License

Keywords:

FASTQ RNA sequence Quantification RNA family report bioconductor-dupradar preseq ucsc-bedclip umi_tools bedGraphToBigWig BEDTools DESeq2 FastQC FeatureCounts gffread GFFutils HISAT2 MultiQC Nextflow Picard QualiMap Quant RSEM Salmon SAMtools SortMeRNA STAR StringTie Trimmomatic RDDpred Trim_Galore RNA-Seq

Refs:

https://workflowhub.eu/workflows/264

Future updates

Related Workflows

psychip_snakemake — Show Details View Workflow

ENCODE pipeline for histone marks developed for the psychENCODE project

public

psychip pipeline is an improved version of the ENCODE pipeline for histone marks developed for the psychENCODE project. The o...

raw sequence reads Alignment Sequence alignment report macs2 ucsc-bedclip bedGraphToBigWig BEDTools BWA Picard SAMtools Snakemake

Free

Near-real time tracking of SARS-CoV-2 in Connecticut

public

Repository containing scripts to perform near-real time tracking of SARS-CoV-2 in Connecticut using genomic data. This pipeli...

JSON nextclade Augur Biopython FOCUS Pandas Snakemake bs4 epiweeks geopy matplotlib numpy pycountry pycountry-convert uszipcode

Free

cellranger-snakemake-gke — Show Details View Workflow

snakemake workflow to run cellranger on a given bucket using gke.

public

A Snakemake workflow for running cellranger on a given bucket using Google Kubernetes Engine. The usage of this workflow ...

macs2 ucsc-bedclip bedGraphToBigWig BEDTools BWA Picard SAMtools Snakemake

Free

ATLAS - Three commands to start analyzing your metagenome data

public

Metagenome-atlas is a easy-to-use metagenomic pipeline based on snakemake. It handles all steps from QC, Assembly, Binning, t...

raw sequence reads Genome assembly Annotation track checkm2 gunc prodigal snakemake-wrapper-utils MEGAHIT Atlas BBMap Biopython BioRuby Bwa-mem2 cd-hit CheckM DAS Diamond eggNOG-mapper v2 MetaBAT 2 Minimap2 MMseqs MultiQC Pandas Picard pyfastx SAMtools SemiBin Snakemake SPAdes SqueezeMeta TADpole VAMB CONCOCT ete3 gtdbtk h5py networkx numpy plotly psutil utils metagenomics

Free

175

rna-seq-star-deseq2 — Show Details View Workflow

RNA-seq workflow using STAR and DESeq2

public

This workflow performs a differential gene expression analysis with STAR and Deseq2. The usage of this workflow is described ...

Free

dna-seq-gatk-variant-calling — Show Details View Workflow

This Snakemake pipeline implements the GATK best-practices workflow

public

This Snakemake pipeline implements the GATK best-practices workflow for calling small germline variants. The usage of thi...

VCF raw sequence reads Variant calling genetic variants gatk rust-bio-tools snakemake-wrapper-utils tabix BCFtools BWA FastQC MultiQC Pandas Picard SAMtools Snakemake Trimmomatic Variant Effect Predictor (VEP) common matplotlib numpy seaborn DNA

Free