P11-10个题目的答案讲解

image-20190614142106984

image-20190614141400608
提示: sort -u test和sort test|uniq 效果是一样的
sort的-u 选项它的作用很简单,就是在输出行中去除重复行

image-20190614134619455

image-20190614134732997

image-20190614135618600

image-20190614143625037

题目外-按uniq-c后的数排序

题目外-按uniq-c后的数反向排序

同题4

image-20190614140133472

image-20190614140230182

image-20190614140648804
用tee,可以既显示在屏幕上,又保存下来了

image-20190614145058751

image-20190614145112164

ls -d参数

image-20190614152537701

image-20190614152632582

定向1(正确) 和 2(错误)
不把报错显示出来,但是会存在log日志里

image-20190614155123452

image-20190614155137750

image-20190614160445051

image-20190614160512635
可以查看ubuntu系统配置命令https://blog.csdn.net/kinglyjn/article/details/53584652?utm_source=itdadao&utm_medium=referral

image-20190614161011482

image-20190614161216958

image-20190614161409451

image-20190614161425375

image-20190614161455472
P12-数据格式
fa/fq:测序数据比对
sam/bam:压缩成二进制文件
gff/gtf:描述基因组上的结构
bigwig/wiggle:看测序深度
bed:描述坐标 类型
vcf:记录突变信息

image-20190614162152782
grep '>' 文件名.fa #>是都不会变的,但是2是可能会变的

image-20190614174923067
gz.结尾,用zless查看
可以复制序列在ucsc上查看染色体坐标

image-20190614175234273
对这条fq进行检验,用fastqc

image-20190614175323766

image-20190614175502743
cat tmp.fq|paste - - - - # paset 把四行合并为一行显示

image-20190614175741950
cat tmp.fq|paste - - - -|less -S

image

接上一张图片
cut -c1 #取出第1个字符(即第一个碱基)

image-20190614181753794
下面这幅图就是统计了每条序列的百分比

image-20190614182220524
接下来看GC含量,但上面指截取了100行,也就是25条序列,下面改成截取250条序列
image-20190614183153853
再跑一遍fastqc

image-20190614183524950

image-20190614183557257
-c 查看碱基A\T\C\G的数量,可看到A和T均比例高于C和G,下面这张图也可看出,绿色A和红色T的比例均高于蓝色C和黑色G

image-20190614183709373

image-20190614190431397
小写字母非常多,如图19630个'g',就是illamina 1.5,'g'地标什么呢?

image-20190614190553505

image-20190614191341899

image-20190614190850098

image-20190614190954213
103-64=29,如上图所示,第一个碱基的质量就是不到40左右
看最后一个碱基

image-20190614191750008

image-20190614191842807
g、f、e、d、c都有

image-20190614191859143
boxplot(rep(39,19000),ylim=c(0,40))#即第一个碱基的boxplot图,如下图

image-20190614192044041
dat=c(rep(35,1524),rep(36,1939),rep(37,3360),rep(38,1230),rep(39,9748))
boxplot(dat,ylim=c(0,40))

image-20190614192401273
当样本多时,可以用multiqc整合成一个报告
sam和bam文件

image-20190614192840002

image-20190614200558259

image-20190614200848836
sam是比对后的fq文件,接下来比对 hg38为构建好的索引

image-20190614202909768

image-20190614203336979
可以用ucsc看是否比对在了2号染色体

image-20190614203839517

image-20190614203937837

image-20190614204037517
sam格式

4I:中间有4个insertion

image-20190614204338197
如何查看bam文件,用samtools查看,就是一种压缩规则,用samtools就可以读取它

image-20190614204726134
gff和gtf文件
gff主要用了注释基因组
Gtf主要用来注释基因
关注:基因名和转录本名还有gene type 如何对应上

image-20190614205501105

image-20190614205519180

image-20190614205636875
bigwig/wiggle文件:看测序深度
用sort bam排序,排序后是按染色体顺序排序的

image-20190614210222045

image-20190614210301890
看下面这两幅图区别,只要加上-h
就可以查看头文件,可以看到参考

image-20190614210531006

image-20190614210510195

image-20190614213848653
一个vcf文件的变异是咩有意义的

vcf文件导入到IGV
网友评论