如何通过supplyment表格中的蛋白质编号在NCBI 上寻找序列信息
首先我们拿到的序列信息是这样的:
1:
但其实有用的是竖杠前面的ID号,我们利用EditPlus提取所有的ID号
2:复制粘贴后利用搜索替换
使用正则表达:
替换完了之后就只剩下序列号,记得把最前面的名称给删掉。保存文件。
3:打开NCBI上的 Batch Entrez,网页链接:https://www.ncbi.nlm.nih.gov/sites/batchentrez
选择protein,上传刚才保存的文件,点击retrieve就能搜索到ID对应的序列文件啦~(tip:如果一次导入太多ID的话搜索的时间可能会很慢,以至于很长时间都没办法得到序列信息的网页,我自己导入ID的时候是以千为单位分的,这样网页得到信息比较快)
4:会得到这样一个告诉你搜索到了多少个蛋白序列信息:
5:之后把文件保存就行了:
6:最后选择你要的格式就可以啦












网友评论