added kraken2

replikation · replikation · commit 45f7476001da · 2022-10-25T14:14:13.000+02:00
diff --git a/analysis.nf b/analysis.nf
@@ -200,6 +200,7 @@ workflow centrifuge_database_wf {
     include { bakta_wf } from './workflows/bakta_wf'
     include { checkm_wf } from './workflows/checkm_wf'
     include { transposon_compare_wf } from './workflows/transposon_compare_wf'
+    include { read_classification_illumina_pe_wf } from './workflows/taxonomic_read_class_wf'
 
 /************************** 
 * SUB WORKFLOWS
@@ -472,6 +473,7 @@ workflow {
     if (params.bakta && params.fasta) { bakta_wf(fasta_input_ch) }
     if (params.checkm && params.dir) { checkm_wf(dir_input_ch) }
     if (params.searchterm && params.fasta) { transposon_compare_wf(fasta_input_ch)}
+    if (params.kraken2 && params.fastqPair) { read_classification_illumina_pe_wf(fastqPair_input_ch) }
 
     // live workflows
     if (params.watchFast5 && params.samplename && params.fasta) { live_analysis_wf(sample_name_ch, fast5_live_input_ch, fasta_input_ch) }
@@ -531,6 +533,8 @@ def helpMSG() {
     ${c_dim}  ..option flags:            [--centrifuge_db] path to your own DB instead, either .tar or .tar.gz ${c_reset}
     ${c_blue} --metamaps ${c_reset}          metagenomic class. of long reads    ${c_green}[--fastq]${c_reset}
     ${c_dim}  ..mandatory flags:         [--memory] [--tax_db] e.g. --memory 100 --tax_db /databases/miniSeq+H 
+    ${c_blue} --kraken2 ${c_reset}        metagenomic classification of reads ${c_green}[--fastqPair]${c_reset}
+    ${c_dim}  ..option flags:            [--krakendb] path to your own DB instead. Format: .tar.gz ${c_reset}
 
     ${c_yellow}Nanopore specific Workflows:${c_reset}
     ${c_blue} --guppygpu ${c_reset}          basecalling via guppy-gpu-nvidia   ${c_green} [--dir]${c_reset}
diff --git a/configs/docker.config b/configs/docker.config
@@ -3,6 +3,7 @@ process {
     withLabel: artic        { container = 'nanozoo/artic-ncov2019:0.0--44566ac' }
     withLabel: bakta        { container = 'nanozoo/bakta:1.2.1--bf38720' } 
     withLabel: baloonplot   { container = 'nanozoo/r_ggpubr:0.2.5--4b52011' }
+    withLabel: bracken      { container = 'nanozoo/bracken:2.8--dcb3e47' }    
     withLabel: bedtools     { container = 'quay.io/biocontainers/bedtools:2.29.2--hc088bd4_0' }
     withLabel: blast        { container = 'nanozoo/blast:2.9.0--ded80ad' }
     withLabel: bokeh        { container = 'quay.io/biocontainers/cami-opal:1.0.5--py_2' } 
@@ -19,7 +20,9 @@ process {
     withLabel: flye         { container = 'nanozoo/flye:2.8.3--2769e9b' } 
     withLabel: ggplot2      { container = 'nanozoo/ggplot2:3.3.1--303f617' }
     withLabel: gtdbtk       { container = 'nanozoo/gtdb:1.6.0--5383545' }     
-    withLabel: krona        { container = 'nanozoo/krona:2.7.1--658845d' }
+    withLabel: kraken2      { container = 'nanozoo/kraken2:2.1.1--d5ded30'}
+    withLabel: krakentools  { container = 'nanozoo/krakentools:1.2--13d5ba5'}
+    withLabel: krona        { container = 'nanozoo/krona:2.7.1--e7615f7'}
     withLabel: mafft        { container = 'nanozoo/mafft:7.455--a988e44'}
     withLabel: medaka       { container = 'nanozoo/medaka:1.5.0--853c9aa' } 
     withLabel: metamaps     { container = 'nanozoo/metamaps:latest' }
diff --git a/configs/gcloud.config b/configs/gcloud.config
@@ -2,6 +2,7 @@
 process {             
     withLabel: abricate         { cpus = 6 ; memory = '14 GB' }  
     withLabel: bakta            { cpus = 34 ; memory = '150 GB' }
+    withLabel: bracken          { cpus = 24; memory = '48 GB' }
     withLabel: baloonplot       { cpus = 2 ; memory = '6 GB' }
     withLabel: bedtools         { cpus = 8 ; memory = '16 GB' }
     withLabel: blast            { cpus = 8 ; memory = '16 GB' }
@@ -19,6 +20,7 @@ process {
     withLabel: flye             { cpus = 20 ; memory = '40 GB' }
     withLabel: ggplot2          { cpus = 2 ; memory = '6 GB' }
     withLabel: gtdbtk           { cpus = 36 ; memory = '226 GB' } 
+    withLabel: kraken2          { cpus = 24; memory = '64 GB' }
     withLabel: krona            { cpus = 2 ; memory = '6 GB' }
     withLabel: mafft            { cpus = 16 ; memory = '20 GB' } 
     withLabel: medaka           { cpus = 16 ; memory = '20 GB' } 
diff --git a/configs/local.config b/configs/local.config
@@ -4,6 +4,7 @@ process {
     withLabel: abricate { cpus = 1 }  
     withLabel: blast { cpus = params.cores }
     withLabel: bokeh { cpus = 1 } 
+    withLabel: bracken { cpus = params.cores }
     withLabel: bwa { cpus = params.cores }
     withLabel: cd_hit { cpus = params.cores }
     withLabel: centrifuge { cpus = params.cores } 
@@ -14,6 +15,7 @@ process {
     withLabel: flye { cpus = params.cores }
     withLabel: ggplot2 { cpus = 1 }
     withLabel: gtdbtk { cpus = params.cores }     
+    withLabel: kraken2 { cpus = params.cores }
     withLabel: krona { cpus = params.cores }
     withLabel: medaka { cpus = params.cores }
     withLabel: metamaps { cpus = params.cores }
diff --git a/modules/centrifuge_illumina.nf b/modules/centrifuge_illumina.nf
@@ -3,11 +3,6 @@ process centrifuge_illumina {
       publishDir "${params.output}/${name}/centrifuge", mode: 'copy', pattern: "${name}.out"
       label 'centrifuge'
 
-      //errorStrategy { task.exitStatus in 137..140 ? 'retry' : 'terminate' }
-      //errorStrategy { task.exitStatus == 14 ? 1 : task.attempt }
-      //cpus { 12 * task.attempt }
-      //memory { 70.GB * task.attempt }
-      //maxRetries 2  
 
     input:
       tuple val(name), file(fastq) 
diff --git a/nextflow.config b/nextflow.config
@@ -20,13 +20,15 @@ params {
     list = false
     searchterm = ''
     range = '5000'
+    readlength = '150'
     
     // databases
     centrifuge_db = false
     gtdbtk_db = false
     sour_db = false
     tax_db = false
     bakta_db = false
+    krakendb = false
 
     // tools
     abricate = false
@@ -50,6 +52,7 @@ params {
     tree_aa = false
     bakta = false
     checkm = false
+    kraken2 = false
     
     // settings
     update = false
diff --git a/workflows/process/bracken.nf b/workflows/process/bracken.nf
@@ -0,0 +1,24 @@
+process bracken {
+        label 'bracken'
+        publishDir "${params.output}/${name}/Read_classification", mode: 'copy'
+    input:
+        tuple val(name), path(krakenout), path(kreport)
+        path(database)
+  	output:
+    	tuple val(name), path("${name}.bracken"), path("${name}.breport")
+  	script:
+    """
+    mkdir -p kraken_db && tar xzf ${database} -C kraken_db
+
+    bracken -d kraken_db -i ${name}.kreport -r ${params.readlength} -l S -t ${task.cpus} \
+     -o ${name}.bracken -w ${name}.breport
+
+
+    # cleanup to reduce footprint
+    rm -rf kraken_db/
+    """
+    stub:
+    """
+    touch ${name}.bracken ${name}.breport
+    """
+  }
diff --git a/workflows/process/download_database_kraken2.nf b/workflows/process/download_database_kraken2.nf
@@ -0,0 +1,32 @@
+process download_database_kraken2 {
+        label "ubuntu"
+        storeDir "${params.databases}/kraken2_k2standard_20220926"
+        errorStrategy 'retry'
+        maxRetries 1
+    output:
+        path("kraken.tar.gz")
+    script:
+    if (task.attempt.toInteger() == 1)
+        """
+        echo ${task.attempt}
+        wget --no-check-certificate https://genome-idx.s3.amazonaws.com/kraken/k2_standard_20220926.tar.gz -O kraken.tar.gz
+        """
+    else if (task.attempt.toInteger() > 1)
+        """
+        echo ${task.attempt}
+        wget --no-check-certificate https://genome-idx.s3.amazonaws.com/kraken/k2_standard_20220926.tar.gz -O kraken.tar.gz
+        """
+    stub:
+        """
+        touch kraken.tar.gz
+        """
+}
+
+
+/* 
+
+DATABASES
+
+https://benlangmead.github.io/aws-indexes/k2
+
+*/
diff --git a/workflows/process/kraken2.nf b/workflows/process/kraken2.nf
@@ -0,0 +1,26 @@
+process kraken2_illumina_pe {
+        label 'kraken2'
+        publishDir "${params.output}/${name}/Read_classification", mode: 'copy'
+    input:
+        tuple val(name), path(reads)
+        path(database)
+  	output:
+    	tuple val(name), path("${name}.kraken.out"), path("${name}.kreport")
+  	script:
+    """
+    mkdir -p kraken_db && tar xzf ${database} -C kraken_db 
+
+
+    kraken2 --db kraken_db --threads ${task.cpus} --paired --output ${name}.kraken.out --report ${name}.kreport ${reads}
+
+    #  kraken has the opertunity to emit also unclassified reads!
+    #  kraken2 --paired --classified-out cseqs#.fq seqs_1.fq seqs_2.fq
+
+    # cleanup to reduce footprint
+    rm -rf kraken_db/
+    """
+    stub:
+    """
+    touch ${name}.kraken.out ${name}.kreport
+    """
+  }
diff --git a/workflows/process/krakentools.nf b/workflows/process/krakentools.nf
@@ -0,0 +1,25 @@
+process krakentools {
+        label 'krakentools'
+        publishDir "${params.output}/${name}/Read_classification/alpha_diversity", mode: 'copy', pattern: "${name}_alpha-diversity.txt"
+        publishDir "${params.output}/${name}/Read_classification", mode: 'copy', pattern: "${name}.b.krona.txt"
+    input:
+        tuple val(name), path(brackenout), path(breport)
+  	output:
+    	tuple val(name), path("${name}_alpha-diversity.txt"), path("${name}.b.krona.txt")
+  	script:
+    """
+    alpha_diversity.py -f ${brackenout} -a BP > ${name}_alpha-diversity.txt
+    alpha_diversity.py -f ${brackenout} -a Sh >> ${name}_alpha-diversity.txt
+    alpha_diversity.py -f ${brackenout} -a F  >> ${name}_alpha-diversity.txt
+    alpha_diversity.py -f ${brackenout} -a Si  >> ${name}_alpha-diversity.txt
+    alpha_diversity.py -f ${brackenout} -a ISi >> ${name}_alpha-diversity.txt
+
+    # krona report
+    kreport2krona.py -r ${breport} -o ${name}.b.krona.txt --no-intermediate-ranks 
+
+    """
+    stub:
+    """
+    touch ${name}_alpha-diversity.txt ${name}.b.krona.txt
+    """
+  }
diff --git a/workflows/process/krona.nf b/workflows/process/krona.nf
@@ -0,0 +1,44 @@
+process krona {
+        label 'krona'
+        publishDir "${params.output}/${params.readqcdir}/${name}/", mode: 'copy'
+    input:
+        tuple val(name), path(kraken2), path(kreport)
+  	output:
+    	tuple val(name), file("${name}_krona.html")
+  	script:
+    """
+    cat ${kreport} | cut -f 3,5 > file.krona
+    ktImportTaxonomy file.krona -m 1
+    mv *.html ${name}_krona.html
+    """
+    stub:
+    """
+    touch ${name}_krona.html
+    """
+}
+
+process krona_from_bracken {
+        label 'krona'
+        publishDir "${params.output}/${name}/Read_classification/", mode: 'copy'
+    input:
+        tuple val(name), path(alphadiversity), path(kronatextinput)
+  	output:
+    	tuple val(name), file("${name}.krona.html")
+  	script:
+    """
+    ktImportText ${kronatextinput} -o ${name}.krona.html
+    """
+    stub:
+    """
+    touch ${name}_krona.html
+    """
+}
+
+
+/*
+
+python KrakenTools/kreport2krona.py -r breports/SRR14143424.breport -o b_krona_txt/SRR14143424.b.krona.txt --no-intermediate-ranks 
+KronaScripts/ktImportText b_krona_txt/SRR14143424.b.krona.txt \ -o krona_html/SRR14143424.krona.html
+
+
+*/
diff --git a/workflows/taxonomic_read_class_wf.nf b/workflows/taxonomic_read_class_wf.nf
@@ -0,0 +1,39 @@
+include { kraken2_illumina_pe } from './process/kraken2.nf' 
+include { krona; krona_from_bracken } from './process/krona.nf' 
+include { download_database_kraken2 } from './process/download_database_kraken2.nf'
+include { bracken } from './process/bracken.nf'
+include { krakentools } from './process/krakentools.nf'
+
+workflow read_classification_illumina_pe_wf {
+    take:   
+        fastq
+    main: 
+
+        // database download
+        if (params.krakendb) { kraken_db = file("${params.krakendb}") }
+        else  { download_database_kraken2(); kraken_db = download_database_kraken2.out } 
+
+        // classification
+        kraken2_illumina_pe(fastq, kraken_db)
+
+        // alpha diversity, abundance and korna plots
+        krona_from_bracken(krakentools(bracken(kraken2_illumina_pe.out, kraken_db)))
+
+    emit:   
+        kraken = kraken2_illumina_pe.out
+}
+
+
+
+
+
+/*
+Protocoll here
+
+
+you might want to add the option to calculate beta diversity here?
+
+
+https://www.nature.com/articles/s41596-022-00738-y
+
+*/