美文网首页
scATAC联合scRNA之signac分析(一):cellra

scATAC联合scRNA之signac分析(一):cellra

作者: KS科研分享与服务 | 来源:发表于2025-01-03 11:24 被阅读0次

这是一个新的系列,关于signac分析scATAC数据,我们从上游开始。我们之前在介绍ArchR的时候,介绍过cellranger-atac分析scATAC上游数据(ArchR包单细胞ATAC分析(1): 上游分析)。这里我们从公共数据库挖掘的角度,从上游分析开始,完成这个系列,关于ATAC的基本知识,请参考10X官网介绍或者其他!

1、ATAC简介:

ATAC染色质可及性。染色质可及性是一个生物学概念,学过生物学我们都知道,细胞里面的遗传物质是以染色体的紧密形式呈现的,染色体有DNA、组蛋白等等组成,是一个整体的结构,并不是我们想象中的那样,一条长长的DNA双螺旋。那么在基因转录的时候,或者说需要那些基因转录的时候,这时候这部分区域的染色质就得打开,调控因子结合打开的DNA,从而进行转录过程。打开的部分称为开放的染色质,开放的染色质允许转录调控因子结合的这个特征称之为染色质可及性。

2、ATAC-seq简单原理介绍

既然存在染色质可及性,即转录过程中染色体会开放区域,那么就可以利用这个特性。在ATAC-seq中,收集好组织或者细胞的细胞核之后,使用Tn5 DNA转座酶特异性的结合到染色体开放区域,而那些紧密连接的区域不会受到影响,这样开放区域的染色质DNA会被转座酶随机插入并打断,而转座酶插入时携带测序接头,最后将打断后的DNA收集,建库测序,即ATAC-seq。

3、公共数据库数据下载

实际上,我很不建议自己跑上游,因为很耗费时间,对设备也有要求,请用服务器(共享的价格、独享的体验---有root权限、可解决问题 (注册领取200优惠券)!)。如果你的数据是公司测的,那么不用但系上游处理的问题,直接用他处理好的进行下游分析即可。但是很多时候,存在我们需要挖掘的情况,如果别人提供了完整的数据可供下游分析还好,倒霉的就是他们不提供,而你又很需要,那就只能自己跑上游了。我们这里演示也是为了让大家了解一下基本流程。

我选取的数据是这篇文章的:https://doi.org/10.1038/s41588-023-01445-4,这篇《nature genetics》文章很友好的公开了自己的数据,我选取了每个组一个样本,也就是总共三个样本用于演示,处理太多对我来说没什么意义。因为我的服务器空间并不大,而scATAC上游有很耗费磁盘空间,所以三个样本分开跑的。和其他挖掘SRR数据库一样,首先利用prefetch下载sra文件,然后利用fastq-dump将sra文件分为FASTQ文件,用cat将分割的文件合并,并按照cellranger要求进行命名:请注意,即使我提供了数据,也不要当作生物学样本去使用,仅仅是演示数据,意义不大!


 1525  cat SRR_HC.txt 
 1526  cat SRR_HC.txt |  while  read id; do ( prefetch $id & ); done
 1528  cd SRR21377796/
 1529  fastq-dump -O ./ --gzip --split-files SRR21377796.sra 
 1530  cd ..
 1531  cd SRR21377797/
 1532  fastq-dump -O ./ --gzip --split-files SRR21377797.sra 
 1534  cd new_ATAC/SRR21377812/
 1536  fastq-dump -O ./ --gzip --split-files SRR21377812.sra 
 1537  cd ..
 1538  cd SRR21377813
 1539  ls
 1540  fastq-dump -O ./ --gzip --split-files SRR21377813.sra 
 1541  cd ..
 1543  cat ./SRR21377796/SRR21377796_1.fastq.gz ./SRR21377797/SRR21377797_1.fastq.gz ./SRR21377812/SRR21377812_1.fastq.gz ./SRR21377813/SRR21377813_1.fastq.gz >  AA_S1_L001_I1_001.fastq.gz
 1544  cat ./SRR21377796/SRR21377796_2.fastq.gz ./SRR21377797/SRR21377797_2.fastq.gz ./SRR21377812/SRR21377812_2.fastq.gz ./SRR21377813/SRR21377813_2.fastq.gz >  AA_S1_L001_R1_001.fastq.gz
 1548  cat ./SRR21377796/SRR21377796_3.fastq.gz ./SRR21377797/SRR21377797_3.fastq.gz ./SRR21377812/SRR21377812_3.fastq.gz ./SRR21377813/SRR21377813_3.fastq.gz >  AA_S1_L001_R2_001.fastq.gz
 1549  cat ./SRR21377796/SRR21377796_4.fastq.gz ./SRR21377797/SRR21377797_4.fastq.gz ./SRR21377812/SRR21377812_4.fastq.gz ./SRR21377813/SRR21377813_4.fastq.gz >  AA_S1_L001_R3_001.fastq.gz
 1575  cat SRR_HC.txt | while  read id; do ( prefetch $id & ); done 
 1576  cd new_ATAC/
 1578  cd SRR213777880
 1579  cd SRR21377780/
 1580  cd new_ATAC/SRR21377780
 1581  ls
 1582  nohup fastq-dump -O ./ --gzip --split-files SRR21377780.sra &
 1583  cd ..
 1584  cd SRR21377781
 1585  ls
 1586  nohup fastq-dump -O ./ --gzip --split-files SRR21377781.sra &
 1587  cd ..
 1588  cd SRR21377782
 1589  ls
 1590  nohup fastq-dump -O ./ --gzip --split-files SRR21377782.sra &
 1591  cd ..
 1592  cd SRR21377783/
 1593  nohup fastq-dump -O ./ --gzip --split-files SRR21377783.sra &
 1594  cd ..
 1595  cat ./SRR21377783/SRR21377783_1.fastq.gz ./SRR21377782/SRR21377782_1.fastq.gz ./SRR21377781/SRR21377781_1.fastq.gz ./SRR21377780/SRR21377780_1.fastq.gz >  HC_S1_L001_I1_001.fastq.gz
 1596  cat ./SRR21377783/SRR21377783_2.fastq.gz ./SRR21377782/SRR21377782_2.fastq.gz ./SRR21377781/SRR21377781_2.fastq.gz ./SRR21377780/SRR21377780_2.fastq.gz >  HC_S1_L001_R1_001.fastq.gz
 1597  cat ./SRR21377783/SRR21377783_3.fastq.gz ./SRR21377782/SRR21377782_3.fastq.gz ./SRR21377781/SRR21377781_3.fastq.gz ./SRR21377780/SRR21377780_3.fastq.gz >  HC_S1_L001_R2_001.fastq.gz
 1598  cat ./SRR21377783/SRR21377783_4.fastq.gz ./SRR21377782/SRR21377782_4.fastq.gz ./SRR21377781/SRR21377781_4.fastq.gz ./SRR21377780/SRR21377780_4.fastq.gz >  HC_S1_L001_R3_001.fastq.gz
 1602  cd new_ATAC/
 1603  tail -f nohup.out 
 1604  cat SRR_SD.txt |  while  read id; do ( prefetch $id & ); done
 1605  conda activate cellranger
 1606  cd SRR21377814
 1607  nohup fastq-dump -O ./ --gzip --split-files SRR21377814.sra  &
 1608  cd ..
 1609  cd SRR21377815/
 1610  nohup fastq-dump -O ./ --gzip --split-files SRR21377815.sra  &
 1611  cd ..
 1612  cd SRR21377816/
 1613  nohup fastq-dump -O ./ --gzip --split-files SRR21377816.sra  &
 1614  cd ..
 1615  cd SRR21377817/
 1616  nohup fastq-dump -O ./ --gzip --split-files SRR21377817.sra &
 1617  cd ..
 1618  ls
 1619  cat ./SRR21377814/SRR21377814_1.fastq.gz ./SRR21377815/SRR21377815_1.fastq.gz ./SRR21377816/SRR21377816_1.fastq.gz ./SRR21377817/SRR21377817_1.fastq.gz >  SD_S1_L001_I1_001.fastq.gz
 1620  cat ./SRR21377814/SRR21377814_2.fastq.gz ./SRR21377815/SRR21377815_2.fastq.gz ./SRR21377816/SRR21377816_2.fastq.gz ./SRR21377817/SRR21377817_2.fastq.gz >  SD_S1_L001_R1_001.fastq.gz
 1621  cat ./SRR21377814/SRR21377814_3.fastq.gz ./SRR21377815/SRR21377815_3.fastq.gz ./SRR21377816/SRR21377816_3.fastq.gz ./SRR21377817/SRR21377817_3.fastq.gz >  SD_S1_L001_R2_001.fastq.gz
 1622  cat ./SRR21377814/SRR21377814_4.fastq.gz ./SRR21377815/SRR21377815_4.fastq.

4、安装cellranger-atac,下载参考基因组:
参考10X官网,按照需求下载相应的版本;参考基因组也是提供了人和小鼠的,一定要对应哦:
https://support.10xgenomics.com/single-cell-atac/software/downloads/latest

wget -O cellranger-atac-2.1.0.tar.gz \
"https://cf.10xgenomics.com/releases/cell-atac/cellranger-atac-2.1.0.tar.gz?Expires=1676294517&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1hdGFjL2NlbGxyYW5nZXItYXRhYy0yLjEuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2NzYyOTQ1MTd9fX1dfQ__&Signature=CX4JhovsMLEXYDYPY2GEVv0SaLg3X-KOUBQ-S52aciWgpd996iHomsnN7gulQaws59GywBLaCjwf7mrxGit8Fs6kKJ1IkTbdxVmDKAg9DMFfJ5BwRIck9NX8eeLyBEpDAS6t~WGbfkCViforbugd1tNbBgJRcRN8pIrCnai9GmqZQzzKTbkllArlj3AxKDkPgNin9g6H5cg8D8PcZfFfeu7jdm5rKFdBNtVn1Et45QDQmNoJxuXRngyC5cBKbICUlOmhqE6tOMjuJEBqijVqaLnTSrRRzvyu-rEEuNIdGuIYPwWZQ5RoDh4g0X-ZO60h4RZu3ZoRlEDlsQOlSrJ68w__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"  
#安装软件
#首先解压 
tar -xzvf cellranger-atac-2.1.0.tar.gz 
#添加到环境变量  
echo  'export PATH=/home/biosoft/cellranger-atac-2.1.0:$PATH' >>~/.bashrc source ~/.bashrc 
#查看下帮助文档,是不是安装好了 
#ATAC参考基因组下载 
wget https://cf.10xgenomics.com/supp/cell-atac/refdata-cellranger-arc-GRCh38-2020-A-2.0.0.tar.gz 
tar -zxvf refdata-cellranger-arc-GRCh38-2020-A-2.0.0.tar.gz

5、run cellranger-atac count
我是一个一个样本跑的。建议跑的时候nohup挂后台,然后就可以干别的事情了,我这里的样本12h也跑完了,因为时间比较久,万一服务器被你误操作终止了那不得心疼死。不放心中间可检查日志文件,看看是否有报错。


nohup cellranger-atac count --id=SRR_AA --reference=/home/aaa/biosoft/refdata-cellranger-arc-GRCh38-2020-A-2.0.0 --fastqs=./  &
nohup cellranger-atac count --id=SRR_HC --reference=/home/aaa/biosoft/refdata-cellranger-arc-GRCh38-2020-A-2.0.0 --fastqs=./  &
nohup cellranger-atac count --id=SRR_SD --reference=/home/aaa/biosoft/refdata-cellranger-arc-GRCh38-2020-A-2.0.0 --fastqs=./  &

6、output
最终得到的文件在outs文件夹,有这些,就可以进行下游分析了:web_summary文件可以查看样本数据质量和基本情况!



相关文章

网友评论

      本文标题:scATAC联合scRNA之signac分析(一):cellra

      本文链接:https://www.haomeiwen.com/subject/ltblejtx.html