美文网首页Biostar Handbook学习小组
Biostar 第七课01 模式识别

Biostar 第七课01 模式识别

作者: bingli | 来源:发表于2017-11-22 04:35 被阅读40次

模式识别的bash工具 grep egrep dreg 和 fuzznuc

dreg -filter -pattern  AAAAAA
fuzznuc -filter -pattern 'AANAA'

通配符
{m,n} 前面的字母出现次数在m和n之间

#找ATG开头的额
egrep "^ATG" --color=always
# ATG结尾的
egrep "ATG\$" --color=always
#找两个TA间有A或者T的
egrep "TA[A,T]TA" --color=always 
#找两个TA间夹着AA或者CC的
egrep "TA(AA|CC)TA" --color=always
#找两个TA见可能有零个或者多个连续的A的
egrep "TA(A*)TA" --color=always
#两个TA间有至少一个连续的A的
egrep "TA(A+)TA" --color=always
#两个TA间有2到5个连续的A的
egrep "TAA{2,5}TA" --color=always
#找一下illumina的通用引物
egrep "AGATCGG.*" --color=always

寻找基因组中的端粒序列,这个比较有趣,看作者是怎样一步步的优化自己的程序的

#因为会wrap,所以不能很有效工作
egrep -i '(TTAGGG)' --color=always
#稍微改一下,出现3到10次的端粒片段的
egrep -i '(TTAGGG){3,10}' --color=always
#把\n去掉就可以搞定wrap这个问题了,这个还真是可以试试
tr -d '\n' | egrep -o -i '(TTAGGG){20,30}' --color=always

还有一个工具就是dreg,这个不用自己去掉wrap

dreg -filter -pattern '(TTAGGG){20,30}' 

Kmer用途
1 矫正测序错误,一般来说罕见低频的Kmer可能是由于测序错误产生的
2 分类,有一些k mer可以用来作为基因组的标志,我的理解是区分不同物种的基因组,这个不太确定
3 Pseudo-alignment 不知道怎么翻译这个,基于共同的kmer就可以将reads正确的基因组坐标搞定,貌似用这个原理的aligner速度都很快,不论是构建索引还是align,几分钟就可以搞定

k-mer的搜寻工具 jellyfish

#把十个以内的k mer都搜出来
jellyfish count -C -m 10 -s10M KU182908.fa 
# 然后用结果画个hist图
jellyfish histo mer_counts.jf 
#根据结果寻找至少出现7次的k mer
jellyfish dump -L 7  mer_counts.jf
#找一个 TTAAGAAAAA 的kmer
cat KU182908.fa | dreg -filter -pattern TTAAGAAAAA

fastqc的kmer就别太当真了,因为如果长的kmer出现的话,还会有衍生出的短kmer被反复统计,结果偏差太大

相关文章

  • biostar handbook: 第六周笔记汇总

    我突然发现我自己忘了整理第六周的笔记,好尴尬,趁现在补上。。 Biostar 第七课01 模式识别 Biostar...

  • Biostar 第七课01 模式识别

    模式识别的bash工具 grep egrep dreg 和 fuzznuc 通配符{m,n} 前面的字母出现次数在...

  • bed文件转换为gtf文件

    参考自 https://www.biostars.org/p/64346/[https://www.biostar...

  • Biostar第七课02 align到基因组

    这个是重点中的重点,虽然是最基础的,但是这个的结果将直接影响下游的多种分析,可以说是核心文件。 怎样去选择参数,这...

  • 第1课 Python学习资料收集整理

    生信宝典廖雪峰的Python教程biostar numerical python -> numpydata sci...

  • 认知方法论笔记(十四)

    第十四天 直觉与数据主义 认知中的模式识别与机器学习: “模式识别”是演绎,“机器学习”是归纳。 模式识别——锤子...

  • Biostar(2)

    SET UP A MACos COMPUTER 一、首先分享几个在跟随书进行设置时出现的错误和解决办法: 1、xc...

  • Biostar(3)

    NCBI数据库 NCBI编号的解释 AC:一些可供选择的注释的基因组序列,主要用来标记病毒和原核生物。 A...

  • Biostar(1)

    浅谈生物信息学 伴随着互联网、大数据和人工智能的日益发展,计算机科学正成为当今世界上最重要的学科之一,与其...

  • (避坑)samtools bedcov 和 bedtools c

    今天在Biostar上看到了这个关于samtools bedcov vs. bedtools coverage ...

网友评论

  • fc3c8075f75d:enen 现在的排版比第一次发文好多了😂😂
    bingli:@想当厨子的生物学家是个好黑客 :stuck_out_tongue_winking_eye:

本文标题:Biostar 第七课01 模式识别

本文链接:https://www.haomeiwen.com/subject/vmhuvxtx.html