美文网首页
2023-07-06关于植物群体分析的几点反思

2023-07-06关于植物群体分析的几点反思

作者: AsuraPrince | 来源:发表于2023-07-05 14:17 被阅读0次

1.到手的vcf文件,一定要首先拆分成snp和indel分别进行过滤和统计,不能直接用总的vcf直接过滤,胡子眉毛一块抓进行进化树构建,structure分析等。

2.对过滤后的vcf文件一定要统计一下,snp(vcftools --vcf snp.vcf. --missing-site )和样本所包含snps缺失率(vcftools --vcf snp.vcf. --missing-indv),分析样本缺失率太高的具体原因(远亲物种,比如外群;还是合并的vcf文件有一个是处理过的,vcf之间snp数量差异悬殊?)。及时剔除异常样本(如污染导致的比对率和覆盖率低,以及过多的外群,及时安排问题vcf文件的重新calling)。根据实际情况,确定后续分析maf,geno,mind参数!一定要过滤高缺失的样本(会导致进化树和structure结果不稳定),当然外群除外。

3.得到过滤好的vcf后,同时用4碱基位点(用snpEff产出的vcf提取4DTv位点,构建进化树,引用:https://www.jianshu.com/p/38b1aa8000ff   ;「生信练习题」从SnpEff注释得到的VCF中过滤4DTV位点  https://www.jianshu.com/p/f0108b868961/)、LD过滤后的位点、屏蔽基因组重复序列后的高保证snps、三种方法同时进行建树。互相参考,看分类是否稳定,根据实际情况择优录取。

4.bcftools (bcftools view -S Keep1117.list All.Rename.filtered.indel.vcf > indeltest.vcf)提取vcf子集,比vcftools(vcftools --vcf All.Rename.filtered.indel.vcf --recode --recode-INFO-all --stdout --keep Keep1117.list > Keep1117.indel.vcf)速度快了一直一星半点!而且,这个vcftools提取是如果有样本名不匹配导致不能提取,这个软件不提示错误。但是bcftools会给你说具体是那个id有问题。

3.优先用vcftools进行vcf过滤(https://www.jianshu.com/p/61c32651afaf),因为默认情况下plink会改动ref,还有自动过滤多等位等问题。特别是改动ref会导致很多后续软件报错。且misiing这项,同等过滤参数下,vcftools过滤结果剩的比plink多。

vcf用法参考:

vcf文件与vcftools(一):https://www.jianshu.com/p/1726696e54e5

vcf文件与vcftools(二):https://www.jianshu.com/p/d46d3682637d

群体变异数据vcf文件过滤概念及使用方法: https://www.jianshu.com/p/61c32651afaf

4. 关于vcf中变异排序(0710)

利用vcftools中的vcf-sort (vcf-sort 1117.Chr15.all.vcf > 1117.Chr15.all.vcf.sort),几乎是超内存闪崩;

利用tassel软件包中的run_pipeline.pl,即使设置内存上下限(-Xmx140g -Xms1G),也会超内存闪崩,命令为perl /public/home/agis_kongweilong/BioSofts/tassel-5-standalone/run_pipeline.pl -Xmx140g -Xms1G -SortGenotypeFilePlugin -inputFile 1117.Chr03.all.vcf -outputFile 1117.Chr03.all.sort.new.vcf -fileType VCF;

利用bcftools

bcftools sort 1117.Chr04.all.vcf -o 1117.Chr04.all.sort.vcf -O v -m 120G -T 1117.Chr04.allTem 完美运行,-T 临时文件,文件夹;-m 内存上限

相关文章

  • 关于复盘怎么写

    关于【复盘】怎么写❓ 可以从以下几点入手:记录重点、分析总结、反思并制定行动计划。 001 记录重点 记录重点指的...

  • 使用CNVnator分析动植物群体拷贝数变异CNV

    知名的拷贝数变异分析工具几乎都是为人类变异检测开发,对于动植物重测序分析有些尴尬。不过好在植物群体研究不必那么精细...

  • 黄学辉老师报告记录

    全基因组关联分析在植物中面临的挑战:1、在自然群体中对复等位基因控制的性状进行分析有些困难2、难以定位群体中的稀有...

  • 关于FCoin的几点反思

    最近FCoin的挖矿即交易模式很火爆,这实际上非常适合我们搬砖的选手的,但我们却参与的很晚,而且连交易策略都是我们...

  • 几点关于“读”的反思

    今天邢老师重新思考了美读,而一句“不应为美读而读”,引发了我自己的一点反思。 1、为何而读? 文本字里行间的表达情...

  • 关于孝顺的几点反思

    敬老爱幼一直是中华民族的传统美德,关于孝顺的话题也层出不穷,众说纷纭。而关于新农村形式下的孝顺,正好我也有几点自己...

  • 群体心理学

    接下来将会分享一些关于群体的分析!

  • 7.多关联双亲染色体片段代换系(CSSL)群体的代谢组分析

    Abstract 代谢组学分析结合高级遗传群体是研究植物代谢组学的有力工具。然而,水稻(Oryza sativa)...

  • “一份板书 一份收获”

    学而不思则罔,思而不学则殆。绿洲课堂学习关于板书的相关设计后,我反思自己的教学,故而反思如下几点:

  • 一、绪论

    1.什么是群体遗传学? 植物群体遗传学是研究植物群体中等位基因分布、分布的维持和变化的科学,由此探讨植物进化的机制...

网友评论

      本文标题:2023-07-06关于植物群体分析的几点反思

      本文链接:https://www.haomeiwen.com/subject/emdkudtx.html