美文网首页
2019-08-06 RNAseq workflow (cas

2019-08-06 RNAseq workflow (cas

作者: __一蓑烟雨__ | 来源:发表于2021-09-03 10:21 被阅读0次

# 1. miniconda下载

# 用uname -a查看linux系统是x86_64,即下载conda的x86_64版

wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-4.7.10-Linux-x86_64.sh

# 2. miniconda安装(严格按照安装步骤来做)

# 运行.sh文件都用bash,安装步骤:遇到yes/no,输入yes,否则enter

bash Miniconda3-4.7.10-Linux-x86_64.sh

source ~/.bashrc

# 安装时最后yes/no初学者务必输yes,运行source ~/.bashrc才有效

# 3. 确认安装成功(如果报错,查看报错解决方法) conda --help

# 4. 配置镜像(安装一次,只配置一次,注意语句复制正确,一行一行复制在命令行上按enter键运行,不会出现任何提示即为正确) 

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free 

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge 

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda 

conda config --set show_channel_urls yes


#建立小环境并安装软件

# 强烈建议创建conda小环境来安装软件,可建立多个

 # 避免污染个人的大环境配置

# !创建名为rna的软件安装环境,取名随意 

conda create -n rna python=2

# 查看当前conda环境 

conda info --envs

#!激活/进入conda的rna环境,左上角出现(rna)

source activate rna

# 查看软件在conda镜像内所有版本及确认其存在

 conda search sra-tools

# !安装 sra-tools软件

# 出现三个done,且prefetch --help不报错,即安装正确

# 退出当前环境 # (不退也没关系,环境激活只是为了装和调取软件使用,不影响其他操作) 

source deactivate 

# 结果:左上角(rna)消失


#软件安装

# 第一步别忘了激活环境source activate rna# 安装sra-tools

# 从ncbi下载sra,转化sra文件为fq# conda安装sra-tools

conda install -y sra-tools

# 调取该软件的命令的帮助文档,下面两句是重点

prefetch --help

fastq-dump --help

which prefetch

# 运行结果示例如下

# /home/qmcui/miniconda2/envs/rna/bin/prefetch

# 可以看到这个命令确实你刚装的,而且存在于rna的小环境内bin的目录下#也可以不运行which这个命令~,但是当你软件报错的时候,你就要知道这个命令到底是装在哪里的~,就可以which一下!

# 后面格式同上

链接:https://www.jianshu.com/p/369f6caae865

source activate rna

conda install -y sra-tools

prefetch --help

fastq-dump --help

which prefetch

conda install -y bwa

bwa

conda install -y gatk4

gatk

conda install -y fastqc

fastqc --help

conda install -y trim-galore (包括cutadapt)

trim_galore --help

conda install -y star

STAR --help

conda install -y hisat2

hisat2 -h#等同于hisat2 --help

conda install -y bowtie2

bowtie2 --help

conda install -y subread

featureCounts

conda install -y htseq

htseq-count --help

conda install -y multiqc

multiqc --help

conda install -y samtools

samtools

which samtools



#数据下载

#下载数据前务必安装aspera,以加速下载

wget -c https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz

tar zxvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz

bash ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh

# 有如下所示内容生成Installing IBM Aspera Connect

Deploying IBM Aspera Connect (/home/cxt/.aspera/connect) for the current user only.

Unable to update desktop database, IBM Aspera Connect may not be able to auto-launch

Install complete.

cd /home/cxt/.aspera/connect/bin

./ascp --help

# 结果如下图所示

# 永久添加环境变量

echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc

# 最好写绝对路径:echo 'export PATH=/home/cxt/.aspera/connect/bin:$PATH' >> ~/.bashrc

source ~/.bashrc

# 查看帮助文档ascp --help

# GSEID https://www.ncbi.nlm.nih.gov//geo/query/acc.cgi?acc=GSE52778 [可修改GSE号] 

# 找到SRR_Acc_List.txt

#将SRR_Acc_List.txt下载到本地,并上传至服务器的当前文件夹中/home/cxt/rnaseq/airway

# 获得fastq三步骤 

## 1. 激活环境 source activate rna

## 2. 下载数据 或 获得SRR_Acc_List.txt 或 观察数据编号的规律下载 ## 下载前务必提前安装aspera软件,学习:https://www.jianshu.com/p/112412b8883c,加快下载速度

 prefetch  SRR1039510 -O ~ prefetch  SRR1039511 -O ~ prefetch  SRR1039512 -O ~ 下载结束后的结果示例:/teach/project/1.rna/1.sra_data ... # 因此需要循环:

cat SRR_Acc_List.txt | while read id; do (prefetch ${id} -O /home/cxt/rnaseq/airway );done

#cat SRR_Acc_List.txt | while read id; do (prefetch  ${id} -O ~);done

## 3. SRA数据转成fastq.gz格式(这里sra文件提供的是下载好的测试输入文件) fastq-dump  --gzip  --split-3  -O  ~/ /teach/project/1.rna/1.sra_data/SRR1039510.sra 循环方法:

cat SRR_Acc_List.txt | while read id; do (fastq-dump  --gzip  --split-3  -O  ~/  #${id}.sra);done 结果示例:/teach/project/1.rna/2.raw_f

#/~/rnaseq/airway    

cat SRR_Acc_List.txt | while read id; do (fastq-dump --gzip --split-3 -O /home/cxt/rnaseq/airway ${id}.sra);done

#data statistics

 source activate rna 

fastqc -t 2 -o ~/ /teach/project/1.rna/3.raw_fq_ 25000reads/*.rawfq.gz multiqc ./*zip

# 质控 整合结果 

#质控目的:了解数据质量 大小

fastqc -t 5 -o /home/cxt/rnaseq/airway /home/cxt/rnaseq/airway/SRR10395*.fastq.gz

# 整合结果

multiqc ./*zip 

###2.filter data

dir='/home/cxt/rnaseq/airway'

trim_galore --phred33 -q 25 -e 0.1  --length 36 --stringency 3 --paired -o /home/cxt/rnaseq/airway $dir/SRR1039509_1.fastq.gz \ 

$dir/SRR1039509_2.fastq.gz

_1_val_1.fq.gz

dr="/home/cxt/rnaseq/airway"


cat SRR_Acc_List.txt | while read id ; do (hisat2 -p 1 -x \

>  ~/rnaseq/index_hisat_hg38/genome -1 ~/rnaseq/4_trimming/${id}_1_val_1.fq.gz -2 ~/rnaseq/4_trimming/${id}_2_val_2.fq.gz \

> |  samtools sort -@ 1 -o ~/rnaseq/5_hisat2/${id}.sort.bam - ); done

hisat2 -p 1 -x /home/cxt/rnaseq/index/hisat/hg38/genome -1 ~/rnaseq/4_trimming/SRR1039508.1_1_val_1.fq.gz  -2  ~/rnaseq/4_trimming/SRR1039508.1_2_val_2.fq.gz | samtools sort -@ 1 -o /home/cxt/rnaseq/airway/SRR1039509.sort.bam -

# IGV可视化前,对bam建立索引,没有索引 IGV软件报错

# 通常几分钟结束,结束后会生成.bai文件,运行ls ~/*bai 

samtools index ~/SRR1039510-chr1_10M_20M-chr17.sort.bam 

# ftp传输到本地


#下载该bam和bai文件到本地电脑,放入同一目录/文件夹内


#打开IGV,左上角设置hg38,首次设置需要下载约6000多K文件 只拖拽bam文件到IGV内,通过右上角的方法缩小放大、或搜索位置、或输入基因名等可视化自己感兴趣位置


#IGV 示例

chr17:38,720,958-38,727,824

#获得差异表达矩阵
featureCounts -T 5 -p -t exon -g gene_id -a /home/cxt/rnaseq/airway/gencode.v29.annotation.gtf.gz -o   /home/cxt/rnaseq/airway/all.id.txt /home/cxt/rnaseq/airway/*sort.bam

#R语言可视化分析

require(corrplot)

install.packages("corrplot")

library(corrplot)

options(stringsAsFactors = FALSE)

exprSet=read.table('all.id.txt',header=TRUE,sep='\t')

data_cor=cor(log2(exprSet+1))

data_cor

corrplot(data_cor)

corrplot(data_cor, method = "pie")

corrplot(data_cor, method = "number", cl.pos = F, addCoef.col = "grey")

require(pheatmap)

install.packages("pheatmap")

library(pheatmap)

png('heatmap.png')

pheatmap(scale(cor(log2(exprSet+1))))

dev.off()



#test


options(stringsAsFactors = FALSE)

exprSet=read.table('all.id1.txt',header=TRUE,sep='\t')

data_cor=cor(log2(exprSet+1))

data_cor

library('corrplot')

png('corr1.png')

corrplot(data_cor)

dev.off()

png('corr2.png')

corrplot(data_cor, method = "pie")

dev.off()

png('corr3.png')

corrplot(data_cor, method = "number", cl.pos = F, addCoef.col = "grey")

dev.off()

require(pheatmap)

#install.packages("pheatmap")

library(pheatmap)

png('heatmap1.png')

pheatmap(scale(cor(log2(exprSet+1))))

dev.off()





rnaseq_py3环境中装有python3 fastqc和multiqc

相关文章

网友评论

      本文标题:2019-08-06 RNAseq workflow (cas

      本文链接:https://www.haomeiwen.com/subject/osnwdctx.html