Canu

作者: 维凡生物 | 来源:发表于2021-12-23 08:59 被阅读0次

Canu

Canu是基于OLC算法,具有长reads的自纠错和组装功能,是应用最为广泛的三代组装软件(速度相对较慢)。

Canu相关使用方法来啦!!!

一、Canu的安装

方法一:conda安装

conda install -c bioconda canu

方法二:GitHub上去下载逐步安装
https://github.com/marbl/canu/releases

image

二、****运行流程

Canu分三个阶段进行组装运作:
· 修正 (Corret)
· 修剪 (Trim)
· 组装 (Assemble)

修正阶段将会提高reads中碱基的准确性。修剪阶段将reads修剪到,看起来像高质量序列,并删除可疑的区域,例如剩余的SMRTbell的adpaters。组装阶段将reads排序为contigs,生成对应的共有序列(consensus suquences) 并创建可能的共有序列互相相连的路径。

三、Canu参数说明

Canu对pacbio和nanopore原始数据的组装分为三个步骤:纠错,修整和组装。每一步经历以下几个步骤:
1.加载read到read数据库(seqStore)
2.进行k-mer计数
3.计算overlap,加载到数据库(OvlStore)
4.根据overlap进行纠错/修剪/组装

image

常用参数说明:
-pacbio-raw pacbio CLR 原始数据
-nanopore-raw nanopore 原始数据
-pacbio-hifi pacbio-hifi reads进行组装
rawErrorRate:未纠错read之间允许的最大差异碱基数,默认 PacBio reads为0.300, Nanopore reads为0.500
correctedErrorRate:纠错后read之间允许的最大差异碱基数,默认PacBio reads为0.045, Nanopore reads为0.144
corOutCoverage:用于纠错的数据最小coverage,默认是40xmin
ReadLength:使用长度大于该阈值的reads,默认为1000min
OverlapLength:最小overlap的长度,默认为500
maxThreads:设置运行的最大线程数

四、使用

来源不同的数据使用不同代码:

#For PacBio:
canu -p ecoli -d ecoli-pacbio genome Size=4.8m -pacbio-raw pacbio.fastq
#For Nanopore:
canu -p ecoli -d ecoli-oxford genome Size=4.8m -nanopore-raw oxford.fasta
#Assembling PacBio HiFi with HiCanu:
canu -p asm -d ecoli_hifi genome Size=4.8m -pacbio-hifi ecoli.fastq
#Trio Binning Assembly:
canu -p asm -d ecoliTrio genomeSize=5m \
 -haplotype K12 K12.parental.fasta \
 -haplotype O157 O157.parental.fasta \
 -pacbio-raw F1.fasta

END

相关文章

网友评论

      本文标题:Canu

      本文链接:https://www.haomeiwen.com/subject/qtchqrtx.html