美文网首页工具
如何获得基因名与基因类型的对应关系——下载GTF文件

如何获得基因名与基因类型的对应关系——下载GTF文件

作者: Forest_Lee | 来源:发表于2019-04-09 19:42 被阅读46次

GTF文件是用于保存基因结构信息的文件格式。它是基于通用特征格式(GFF)的制表符分隔文本格式,但包含一些特定的附加基因信息。
1.打开GENECODE网站 ,下载GTF文件

https://www.gencodegenes.org/human/release_29.html

image.png
image.png

2.传入Linux(以shell为例)


image.png
3.解压
gunzip gencode.v29.annotation.gtf.gz 
image.png
image.png

4.less 查看

less -S gencode.v29.annotation.gtf
image.png

观察得第14列为基因类型,第18列为基因名,取。
重导向为gencode.v25.annotation.gtf.gene3type

awk '{if(!NF || /^#/){next}}1' gencode.v25.annotation.gtf|sed 's/"//g'| sed 's/;//g'|awk '{print $14,$18}' > gencode.v25.annotation.gtf.gene3type

5.less 一下新文件

image.png
1.存在以K开头 2.存在重复
故去K,去重复
uniq gencode.v25.annotation.gtf.gene3type |grep '^[^K]' |less -S
image.png

可在R打开使用
更方便的方法是直接在Linux下载

wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_29/gencode.v29.annotation.gtf.gz
image.png

参考来源:生信技能树

友情链接:

课程分享
生信技能树全球公益巡讲
https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g
B站公益74小时生信工程师教学视频合辑
https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw
招学徒:
https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw

欢迎关注公众号:青岛生信菜鸟团

相关文章

网友评论

    本文标题:如何获得基因名与基因类型的对应关系——下载GTF文件

    本文链接:https://www.haomeiwen.com/subject/vggiiqtx.html