美文网首页
被子植物·分子系统发育分析·实用命令

被子植物·分子系统发育分析·实用命令

作者: Yizhe_Lin | 来源:发表于2023-10-20 23:47 被阅读0次
(1) 序列比对:MAFFT

  主要设置分析模式:精度优先(3种)、速度优先(7种)、组对组对齐(Group-to-group alignments,1种)。其余默认。
     组对组对齐:两个分别进行过序列比对的数据集利用该模式进行合并对齐。
     依数据判断选择何种模式。
  Manual: https://mafft.cbrc.jp/alignment/software/manual/manual.html#lbAG

(2) 序列修剪:Trimal

  例:trimal -in input.fasta -out output.fasta -automated1(足够使用);-nogaps参数能将所有含有gap的对齐位点剔除。

(3) 模型预测:PartitionFinder2

  例:Python PartitionFinder.py <Input.cfg> -p 6 #-p限制用于计算的处理器数目,Python可省,其余默认
    运行脚本(Input.cfg)示例:

## ALIGNMENT FILE ##
alignment = input.phy;   # input.phy需与本脚本文件放在同一文件夹
## BRANCHLENGTHS: linked | unlinked ##
branchlengths = unlinked; # 取决于后续系统分析软件
## MODELS OF EVOLUTION: all | allx | mrbayes | beast | gamma | gammai | <list> ##
models = mrbayes; # 取决于后续系统分析软件与希望达到的预测精度
# MODEL SELECCTION: AIC | AICc | BIC #
model_selection = aicc; # Manual建议选aicc
## DATA BLOCKS: **see manual for how to define** ##
[data_blocks]
ITS = 1-201; # 关键,可针对多基因联合的数据集
## SCHEMES, search: all | user | greedy | rcluster | rclusterf | kmeans ##
[schemes]
search = greedy; # 根据数据集决定使用何种算法
(4) 构建基因树、蛋白树

  ① 极大似然法:iqtree
  例:iqtree -s input_file -m MFP -bb 1000 -nt 16 -pre its.ml1 -quiet # 模型预测、树构建一起干,1000次超快自举检验,16个线程,输出文件前缀设置its.ml1,运行过程不打印
  对于包含外类群的矩阵,iqtree无需指定外类群。运行结果得到无根树,只需将所得结果在Figtree之类的软件中打开,使用“reroot”将已知的外类群拉出即可。
  ② 贝叶斯推断:MrBayes
  例:mpirun -np 4 mb input.nexus #四线程版本并行MrBayes,mb只能绝对路径或相对路径
    运行脚本(input.nexus)示例:

#NEXUS 
BEGIN TAXA;
       DIMENSIONS NTAX=n;    #NTAX数目等于n
       TAXLABELS
          [taxa_list]    #与character.block的物种顺序相同
;
END;

BEGIN TREES;
    tree mytree = [tree.newick];   #如果有根树,在[tree.newick]前加[&R]代号示意。
END;
# tree_block必须在taxa_block之后。且不能在data_block之前,data_block会重新定义taxa与data,
# 因此当要使用引导树时,只能用character_block装矩阵,不能用data_block。

BEGIN CHARACTERS;
    Dimensions nchar=n;    #nchar: character numble, towards DNA, i.e. base number
    Format datatype=dna missing=N interleave=yes gap=-;
    Matrix
[interleave matrix]
;
End

BEGIN MRBAYES;
Outgroup name1;
Outgroup name2;
    [partition info] or such as below;
Lset nst=2 rates=gamma; #Lset设置核苷酸替代模型,nst设置核苷酸转换与颠换的模式,rates设置核苷酸替换速率模式。
Prset statefreqpr=dirichlet(1,1,1,1); #Prset设置核苷酸替代的先验概率,尽管核苷酸替代模型的估计往往表明样本核苷酸拥有不同的替代速率,然而一般的分析保守地假定核苷酸频率是1:1:1:1(如同说明书中表述)。

mcmcp nperts=3 ngen=2000000 printfreq=1000 samplefreq=100 nchains=4 savebrlens=yes filename=output_name; 
# 马尔可夫链蒙特卡罗链运行命令,ngen代数,printfreq屏幕打印频率,
# samplefreq样本取样频率,nchains链数目,savebrlens说明书没记载但许多网络教程都有该项。
# nperts 略微改变引导树,避免不同运行难以检测收敛。
startvals tau=mytree;    #设置引导树,必须在mcmcp之后
mcmc;
sumt relburnin=yes burninfrac=0.25 filename= output_name Contype=Allcompat;
#输出树结果与参数值,relburnin=yes burninfrac=0.25与mcmcp设置的一致,
#此处即默认值,说明书解释了该处不能默认不写的原因。
sump burninfrac=0.25 filename= output_name; #输出样本参数值(样本即碱基)
END;

## burnin=5000,burnin/(ngen/samplefreq)=burninfrac:表示样本前burninfrac的数据被去掉,
## 因为这部分数据统计是不可靠的。默认为前25%的样本被去掉。该比例可以控制在10~25%。
## mcmc命令burnin缺失时,默认去掉25%的样品统计结果信息。
## 默认设置是精良的,一般不用变。需要改变的即前面脚本中的数值。

  运行MrBayes时,有时候会中途断掉,或者跑完迭代数(generation number)后出现了错误,为了避免重新从头开始跑,可以使用Mrbaye的checkpoint文件(.ckp,默认中断运行后输出),只需要在mcmcp命令后增加append=yes,到原目录重新启动程序即可接续分析。
  有教程提到MrBayes分析的线程要设置≤Nruns(独立搜索次数,默认2)×nchains(马尔科夫链数,默认4),因此可以设置-np 4或8。ps. 多线程经测试相当不稳定,分析经常中断,且四线程的速度远没有单线程的四倍,对于大数据集不推荐多线程运行。
  未设置的参数默认,具体参考manual。
  如果用来建树的序列太长,建议将序列改成interleave形式(交错排列式)的连续.nex文件。此时只需在.nex文件BEGIN CHARACTERS; FORMAT增加interleave=yes即可。
  将non-interleave nexus转换成interleave nenux可通过paup实现,在paup中进入待转换的nexus文件目录,输入命令export file=waiting_conversion.nexus format=nexus interleaved=yes;运行,建议使用原文件的备份件,因为该操作将覆盖原始的文件(我不太清楚paup如何进行重定向)。

(5) ……(待续)

参考文献:

[1] Partitionfinder-Manual
[2] MrBayes-Manual
[3] MrBayes建树的关键命令脚本与注意事项
[4] 基于PartitionFinder做基因分区、模型选择,并用MrBayes建树案例与参数解析(详细流程)
[5] 多线程MrBayes安装教程及使用(Mpi_MrBayes)
[6] Mrbayes构建贝叶斯树复习
[7] LD_LIBRARY_PATH详解

相关文章

  • 被子植物系统发育位置 杂记

    被子植物中,无油樟目(Amborellales)、睡莲目(Nymphaeales)和木兰藤目(Austrobail...

  • Consel教程

    介绍Consel系统发育检测软件的使用教程。 1. 简介 系统发育是一种历史过程,任何基于分子数据集得到的发育树都...

  • 系统发育(Phylogeny)简介

    重建系统发育关系=分子数据建树? 一提到phylogeny,我们的第一反应就是分子数据建树。这种理解是片面的,但也...

  • 构建系统发育树

    系统发育树的构建 现有的方法 系统发育树构建方法的优劣 link 选择:一般情况下,若有合适的分子进化模型可供选择...

  • GWAS理论 1-3 群体结构与亲缘关系评估

    一. 群体结构评估 1.群体结构 群体结构评估内容构建系统发育树群体结构分析PCA(主成分分析) a.系统发育树 ...

  • 科学问题

    微生物多样性原因(单细胞测序,单菌的进化)生长繁殖快,突变速率高,分子进化水平揭示,多样化的微生物世界系统发育分析...

  • 分子进化与系统发育

    作者:Masatoshi Nei, Sudhir Kumar简介: 前言:统计学是一门用途极为广泛的学科,但有效的...

  • 使用MrBayes构建贝叶斯系统发育树

    建树是分子系统发育与进化研究中绕不过去的一道坎,本文就本人实际经验介绍贝叶斯树的实际操作: 基于不同原理的系统发育...

  • FFmpeg命令行工具-实用命令

    目录 参考 FFmpeg参数说明 实用视频处理命令 实用音频处理命令 实用字幕处理命令 使用图片处理命令 ffpl...

  • 被子植物花器官发育的分子机制

    花发育是被子植物生命周期中一个重要的综合发育过程,涉及无限生长向有限生长及不同发育方式的转换,包括开花诱导、信号传...

网友评论

      本文标题:被子植物·分子系统发育分析·实用命令

      本文链接:https://www.haomeiwen.com/subject/gmklidtx.html