ascp下载数据

作者: MYS_bio_man | 来源:发表于2021-02-19 19:58 被阅读0次

1. SRA数据库: Sequence Read Archive

隶属NCBI (National Center for Biotechnology Information),它是一个保存高通量测序原始数据以及比对信息和元数据 (metadata) 的数据库,所有已发表的文献中高通量测序数据基本都上传至此,方便其他研究者下载及再研究。其中的数据则是通过压缩后以.sra文件格式来保存的。

2. ENA数据库:European Nucleotide Archive

隶属EBI (European Bioinformatics Institute),功能同SRA,并且对数据做了注释,界面更友好,当然对于我们来说,最诱人的当属可直接下载fastq (.gz)文件这一项了。(NCBI的SRA中就不能下载到fq文件,至少目前我还没发现,也不知今后是否会添加此功能。当然,.sra文件转fq也是很简单的,这里不说)

更多信息、方法,网站上搜一搜,颇多。此处,我也是查找和整理,方便我自己。
https://blog.csdn.net/herokoking/article/details/78890567

3. ascp的安装和使用介绍

【ascp/aspera对于生信中较大数据的下载上传是非常友好的,谁用谁知道!国外著名数据库NCBI(GEO/sra)在用,国内也有数据库在用,一个字:香!】
首先,我也给你们贴一个aspera下载的链接:Aspera - Connect | IBM
实际上,有可能是网址变动或者ip等的问题,这个链接会打不开,不要紧,自己去查,不要搜aspera,应该搜aspera connect,搜过就懂!!!

Microsoft Edge浏览器安装下载

按步骤即可完成下载!(傻瓜式安装,waiting...)

因为是傻瓜安装,那这个软件会藏在哪儿呢,熟悉的人呢,可能会去C盘找找,去local目录翻一下就找到了。如果不熟悉,请下载神器everything查找一下:

接下来,添加到系统环境或者直接根目录运行。

4. ascp常用/重要参数

【先给出一个我在win10下用过的一个下载数据的命令】
ascp.exe -i 'C:\Users\MyComputer\AppData\Local\Programs\Aspera\Aspera Connect\etc\asperaweb_id_dsa.openssh' -k 1 -QT -l200m -P33001 era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR129/003/SRR1296133/SRR1296133_1.fastq.gz ./
其中:
-i 提供私钥文件的地址
-k 断点续传,一般设置为值1(win10下似乎无用,mac和linux上确实能实现续传,其他值还有1,2,3,我都试过,还是不知道有啥区别)
-l 设置最大传输速度(可连写l200m可分开l 200m)
-QT 一般同时使用,我也不知道干嘛的,help里面说的(T:禁用加密,Q:不知道)
-P(port,端口)一般就是33001
# PS:注意powershell中运行以上命令完全没有问题,如果是CMD打开的terminal中,则需要把单引号替换成双引号才行:
ascp.exe -i “C:\Users\MyComputer\AppData\Local\Programs\Aspera\Aspera Connect\etc\asperaweb_id_dsa.openssh” -k 1 -QT -l200m -P33001 era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR129/003/SRR1296133/SRR1296133_1.fastq.gz ./
# 再赠送一个非常实用的技巧:把代码写成dos下的bat脚本双击运行,默认以CMD模式运行的,如果SRR号很多,可写成循环或者并列多个,最后加一个pause(避免运行完之后一闪而退,看不到过程)命令。
ascp.exe -i “...\asperaweb_id_dsa.openssh” -k 1 -QT -l200m -P33001 era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR129/003/SRR1296133/SRR1296133_1.fastq.gz ./
ascp.exe -i “...\asperaweb_id_dsa.openssh” -k 1 -QT -l200m -P33001 era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR129/003/SRR1296133/SRR1296133_1.fastq.gz ./
ascp.exe -i “...\asperaweb_id_dsa.openssh” -k 1 -QT -l200m -P33001 era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR129/003/SRR1296133/SRR1296133_1.fastq.gz ./
...
pause

5. ascp使用举例

5.1 SRA(from NCBI)数据库下载

首先了解一下,打开网址,https://ftp.ncbi.nlm.nih.gov/可见下图,geo和sra目录存放数据的地方,熟悉否。要够聪明,层层寻找,直至找到,然后记下链接地址,就可以开始下载。
其次,ascp命令中“X1@X2:/dir”,X1用户名一般是anonftp,@后的ip地址private.ncbi.nlm.nih.gov,dir对应与你层层找到的地址。

# 放一个网站上的命令:这里多了-v参数,我看原作者说是开启唠叨模式(方便观察进度等),试了一下,会产生冗长的log文件,不建议添加(也同样可以看到下载进度)
ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra ~/biostar/aspera/
image.png
5.2 ENA数据库下载

首先,ENA网址:https://www.ebi.ac.uk/,如果我搜一个SRR1296133,见下图:

image.png
熟悉链接,你就会下载到关于要下载数据的ftp站点:
study_accession sample_accession    experiment_accession    run_accession   tax_id  scientific_name fastq_ftp   submitted_ftp   sra_ftp
PRJNA248376 SAMN02798072    SRX550564   SRR1296133  9606    Homo sapiens    ftp.sra.ebi.ac.uk/vol1/fastq/SRR129/003/SRR1296133/SRR1296133_1.fastq.gz;ftp.sra.ebi.ac.uk/vol1/fastq/SRR129/003/SRR1296133/SRR1296133_2.fastq.gz       ftp.sra.ebi.ac.uk/vol1/srr/SRR129/003/SRR1296133

其次,相对于NCBI的sra,这里的用户名:era-fasp,ip地址:fasp.sra.ebi.ac.uk
上面介绍参数的命令举例就是在下载此数据。

The End!(自己试试去吧)

相关文章

网友评论

    本文标题:ascp下载数据

    本文链接:https://www.haomeiwen.com/subject/spaaxltx.html