美文网首页
linux视频-P11\P12

linux视频-P11\P12

作者: 小梦游仙境 | 来源:发表于2019-06-14 21:47 被阅读0次

P11-10个题目的答案讲解

image-20190614142106984 image-20190614141400608

提示: sort -u test和sort test|uniq 效果是一样的

sort的-u 选项它的作用很简单,就是在输出行中去除重复行

image-20190614134619455 image-20190614134732997 image-20190614135618600 image-20190614143625037 题目外-按uniq-c后的数排序 题目外-按uniq-c后的数反向排序 同题4 image-20190614140133472 image-20190614140230182 image-20190614140648804

用tee,可以既显示在屏幕上,又保存下来了

image-20190614145058751 image-20190614145112164 ls -d参数 image-20190614152537701 image-20190614152632582 定向1(正确) 和 2(错误)

不把报错显示出来,但是会存在log日志里

image-20190614155123452 image-20190614155137750 image-20190614160445051 image-20190614160512635

可以查看ubuntu系统配置命令https://blog.csdn.net/kinglyjn/article/details/53584652?utm_source=itdadao&utm_medium=referral

image-20190614161011482 image-20190614161216958 image-20190614161409451 image-20190614161425375 image-20190614161455472

P12-数据格式

fa/fq:测序数据比对

sam/bam:压缩成二进制文件

gff/gtf:描述基因组上的结构

bigwig/wiggle:看测序深度

bed:描述坐标 类型

vcf:记录突变信息

image-20190614162152782
grep '>' 文件名.fa #>是都不会变的,但是2是可能会变的
image-20190614174923067

gz.结尾,用zless查看

可以复制序列在ucsc上查看染色体坐标

image-20190614175234273

对这条fq进行检验,用fastqc

image-20190614175323766 image-20190614175502743
cat tmp.fq|paste - - - - # paset 把四行合并为一行显示
image-20190614175741950
cat tmp.fq|paste - - - -|less -S 
image 接上一张图片
cut -c1 #取出第1个字符(即第一个碱基)
image-20190614181753794

下面这幅图就是统计了每条序列的百分比

image-20190614182220524
接下来看GC含量,但上面指截取了100行,也就是25条序列,下面改成截取250条序列 image-20190614183153853

再跑一遍fastqc

image-20190614183524950 image-20190614183557257

-c 查看碱基A\T\C\G的数量,可看到A和T均比例高于C和G,下面这张图也可看出,绿色A和红色T的比例均高于蓝色C和黑色G

image-20190614183709373 image-20190614190431397

小写字母非常多,如图19630个'g',就是illamina 1.5,'g'地标什么呢?

image-20190614190553505 image-20190614191341899 image-20190614190850098 image-20190614190954213

103-64=29,如上图所示,第一个碱基的质量就是不到40左右

看最后一个碱基

image-20190614191750008 image-20190614191842807

g、f、e、d、c都有

image-20190614191859143
boxplot(rep(39,19000),ylim=c(0,40))#即第一个碱基的boxplot图,如下图
image-20190614192044041
dat=c(rep(35,1524),rep(36,1939),rep(37,3360),rep(38,1230),rep(39,9748))
boxplot(dat,ylim=c(0,40))
image-20190614192401273

当样本多时,可以用multiqc整合成一个报告

sam和bam文件

image-20190614192840002 image-20190614200558259 image-20190614200848836

sam是比对后的fq文件,接下来比对 hg38为构建好的索引

image-20190614202909768 image-20190614203336979

可以用ucsc看是否比对在了2号染色体

image-20190614203839517 image-20190614203937837 image-20190614204037517

sam格式

4I:中间有4个insertion image-20190614204338197

如何查看bam文件,用samtools查看,就是一种压缩规则,用samtools就可以读取它

image-20190614204726134

gff和gtf文件

gff主要用了注释基因组

Gtf主要用来注释基因

关注:基因名和转录本名还有gene type 如何对应上

image-20190614205501105 image-20190614205519180 image-20190614205636875

bigwig/wiggle文件:看测序深度

用sort bam排序,排序后是按染色体顺序排序的

image-20190614210222045 image-20190614210301890

看下面这两幅图区别,只要加上-h就可以查看头文件,可以看到参考

image-20190614210531006 image-20190614210510195 image-20190614213848653

一个vcf文件的变异是咩有意义的

vcf文件导入到IGV

相关文章

网友评论

      本文标题:linux视频-P11\P12

      本文链接:https://www.haomeiwen.com/subject/wcpmfctx.html