1. SRA数据库: Sequence Read Archive
隶属NCBI (National Center for Biotechnology Information),它是一个保存高通量测序原始数据以及比对信息和元数据 (metadata) 的数据库,所有已发表的文献中高通量测序数据基本都上传至此,方便其他研究者下载及再研究。其中的数据则是通过压缩后以.sra文件格式来保存的。
2. ENA数据库:European Nucleotide Archive
隶属EBI (European Bioinformatics Institute),功能同SRA,并且对数据做了注释,界面更友好,当然对于我们来说,最诱人的当属可直接下载fastq (.gz)文件这一项了。(NCBI的SRA中就不能下载到fq文件,至少目前我还没发现,也不知今后是否会添加此功能。当然,.sra文件转fq也是很简单的,这里不说)
更多信息、方法,网站上搜一搜,颇多。此处,我也是查找和整理,方便我自己。
https://blog.csdn.net/herokoking/article/details/78890567
3. ascp的安装和使用介绍
【ascp/aspera对于生信中较大数据的下载上传是非常友好的,谁用谁知道!国外著名数据库NCBI(GEO/sra)在用,国内也有数据库在用,一个字:香!】
首先,我也给你们贴一个aspera下载的链接:Aspera - Connect | IBM
实际上,有可能是网址变动或者ip等的问题,这个链接会打不开,不要紧,自己去查,不要搜aspera,应该搜aspera connect,搜过就懂!!!
Microsoft Edge浏览器安装下载
按步骤即可完成下载!(傻瓜式安装,waiting...)
因为是傻瓜安装,那这个软件会藏在哪儿呢,熟悉的人呢,可能会去C盘找找,去local目录翻一下就找到了。如果不熟悉,请下载神器everything查找一下:
接下来,添加到系统环境或者直接根目录运行。
4. ascp常用/重要参数
【先给出一个我在win10下用过的一个下载数据的命令】
ascp.exe -i 'C:\Users\MyComputer\AppData\Local\Programs\Aspera\Aspera Connect\etc\asperaweb_id_dsa.openssh' -k 1 -QT -l200m -P33001 era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR129/003/SRR1296133/SRR1296133_1.fastq.gz ./
其中:
-i 提供私钥文件的地址
-k 断点续传,一般设置为值1(win10下似乎无用,mac和linux上确实能实现续传,其他值还有1,2,3,我都试过,还是不知道有啥区别)
-l 设置最大传输速度(可连写l200m可分开l 200m)
-QT 一般同时使用,我也不知道干嘛的,help里面说的(T:禁用加密,Q:不知道)
-P(port,端口)一般就是33001
# PS:注意powershell中运行以上命令完全没有问题,如果是CMD打开的terminal中,则需要把单引号替换成双引号才行:
ascp.exe -i “C:\Users\MyComputer\AppData\Local\Programs\Aspera\Aspera Connect\etc\asperaweb_id_dsa.openssh” -k 1 -QT -l200m -P33001 era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR129/003/SRR1296133/SRR1296133_1.fastq.gz ./
# 再赠送一个非常实用的技巧:把代码写成dos下的bat脚本双击运行,默认以CMD模式运行的,如果SRR号很多,可写成循环或者并列多个,最后加一个pause(避免运行完之后一闪而退,看不到过程)命令。
ascp.exe -i “...\asperaweb_id_dsa.openssh” -k 1 -QT -l200m -P33001 era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR129/003/SRR1296133/SRR1296133_1.fastq.gz ./
ascp.exe -i “...\asperaweb_id_dsa.openssh” -k 1 -QT -l200m -P33001 era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR129/003/SRR1296133/SRR1296133_1.fastq.gz ./
ascp.exe -i “...\asperaweb_id_dsa.openssh” -k 1 -QT -l200m -P33001 era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR129/003/SRR1296133/SRR1296133_1.fastq.gz ./
...
pause
5. ascp使用举例
5.1 SRA(from NCBI)数据库下载
首先了解一下,打开网址,https://ftp.ncbi.nlm.nih.gov/可见下图,geo和sra目录存放数据的地方,熟悉否。要够聪明,层层寻找,直至找到,然后记下链接地址,就可以开始下载。
其次,ascp命令中“X1@X2:/dir”,X1用户名一般是anonftp,@后的ip地址private.ncbi.nlm.nih.gov,dir对应与你层层找到的地址。
# 放一个网站上的命令:这里多了-v参数,我看原作者说是开启唠叨模式(方便观察进度等),试了一下,会产生冗长的log文件,不建议添加(也同样可以看到下载进度)
ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra ~/biostar/aspera/
image.png
5.2 ENA数据库下载
首先,ENA网址:https://www.ebi.ac.uk/,如果我搜一个SRR1296133,见下图:
image.png
熟悉链接,你就会下载到关于要下载数据的ftp站点:
study_accession sample_accession experiment_accession run_accession tax_id scientific_name fastq_ftp submitted_ftp sra_ftp
PRJNA248376 SAMN02798072 SRX550564 SRR1296133 9606 Homo sapiens ftp.sra.ebi.ac.uk/vol1/fastq/SRR129/003/SRR1296133/SRR1296133_1.fastq.gz;ftp.sra.ebi.ac.uk/vol1/fastq/SRR129/003/SRR1296133/SRR1296133_2.fastq.gz ftp.sra.ebi.ac.uk/vol1/srr/SRR129/003/SRR1296133
其次,相对于NCBI的sra,这里的用户名:era-fasp,ip地址:fasp.sra.ebi.ac.uk
上面介绍参数的命令举例就是在下载此数据。







网友评论