2019-08-06 RNAseq workflow (cas

作者: __一蓑烟雨__ | 来源:发表于2021-09-03 10:21 被阅读0次

Brief workflow of RNAseq analysi
RNA-seq摸索：3.基因表达水平分析→featureCoun
Microarray vs RNAseq
Workflow
RNAseq纯测序分析文章整理说明
AWS SWF
比特币地址查询
GATK Best Practices — step4 转录组S
J2EE VS Spring website workflow
2020-11-10 Workflow can't be tri

# 1. miniconda下载

# 用uname -a查看linux系统是x86_64，即下载conda的x86_64版

wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-4.7.10-Linux-x86_64.sh

# 2. miniconda安装(严格按照安装步骤来做)

# 运行.sh文件都用bash，安装步骤：遇到yes/no，输入yes，否则enter

bash Miniconda3-4.7.10-Linux-x86_64.sh

source ~/.bashrc

# 安装时最后yes/no初学者务必输yes，运行source ~/.bashrc才有效

# 3. 确认安装成功(如果报错，查看报错解决方法) conda --help

# 4. 配置镜像(安装一次，只配置一次，注意语句复制正确，一行一行复制在命令行上按enter键运行，不会出现任何提示即为正确)

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda

conda config --set show_channel_urls yes

#建立小环境并安装软件

# 强烈建议创建conda小环境来安装软件，可建立多个

# 避免污染个人的大环境配置

# ！创建名为rna的软件安装环境，取名随意

conda create -n rna python=2

# 查看当前conda环境

conda info --envs

#！激活/进入conda的rna环境，左上角出现(rna)

source activate rna

# 查看软件在conda镜像内所有版本及确认其存在

conda search sra-tools

# ！安装 sra-tools软件

# 出现三个done，且prefetch --help不报错，即安装正确

# 退出当前环境 # (不退也没关系，环境激活只是为了装和调取软件使用，不影响其他操作)

source deactivate

# 结果：左上角(rna)消失

#软件安装

# 第一步别忘了激活环境source activate rna# 安装sra-tools

# 从ncbi下载sra，转化sra文件为fq# conda安装sra-tools

conda install -y sra-tools

# 调取该软件的命令的帮助文档，下面两句是重点

prefetch --help

fastq-dump --help

which prefetch

# 运行结果示例如下

# /home/qmcui/miniconda2/envs/rna/bin/prefetch

# 可以看到这个命令确实你刚装的，而且存在于rna的小环境内bin的目录下#也可以不运行which这个命令~，但是当你软件报错的时候，你就要知道这个命令到底是装在哪里的~，就可以which一下！

# 后面格式同上

链接：https://www.jianshu.com/p/369f6caae865

source activate rna

conda install -y sra-tools

prefetch --help

fastq-dump --help

which prefetch

conda install -y bwa

bwa

conda install -y gatk4

gatk

conda install -y fastqc

fastqc --help

conda install -y trim-galore (包括cutadapt）

trim_galore --help

conda install -y star

STAR --help

conda install -y hisat2

hisat2 -h#等同于hisat2 --help

conda install -y bowtie2

bowtie2 --help

conda install -y subread

featureCounts

conda install -y htseq

htseq-count --help

conda install -y multiqc

multiqc --help

conda install -y samtools

samtools

which samtools

#数据下载

#下载数据前务必安装aspera，以加速下载

wget -c https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz

tar zxvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz

bash ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh

# 有如下所示内容生成Installing IBM Aspera Connect

Deploying IBM Aspera Connect (/home/cxt/.aspera/connect) for the current user only.

Unable to update desktop database, IBM Aspera Connect may not be able to auto-launch

Install complete.

cd /home/cxt/.aspera/connect/bin

./ascp --help

# 结果如下图所示

# 永久添加环境变量

echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc

# 最好写绝对路径：echo 'export PATH=/home/cxt/.aspera/connect/bin:$PATH' >> ~/.bashrc

source ~/.bashrc

# 查看帮助文档ascp --help

# GSEID https://www.ncbi.nlm.nih.gov//geo/query/acc.cgi?acc=GSE52778 [可修改GSE号]

# 找到SRR_Acc_List.txt

#将SRR_Acc_List.txt下载到本地，并上传至服务器的当前文件夹中/home/cxt/rnaseq/airway

# 获得fastq三步骤

## 1. 激活环境 source activate rna

## 2. 下载数据或获得SRR_Acc_List.txt 或观察数据编号的规律下载 ## 下载前务必提前安装aspera软件，学习：https://www.jianshu.com/p/112412b8883c，加快下载速度

prefetch SRR1039510 -O ~ prefetch SRR1039511 -O ~ prefetch SRR1039512 -O ~ 下载结束后的结果示例：/teach/project/1.rna/1.sra_data ... # 因此需要循环：

cat SRR_Acc_List.txt | while read id; do (prefetch ${id} -O /home/cxt/rnaseq/airway );done

#cat SRR_Acc_List.txt | while read id; do (prefetch ${id} -O ~);done

## 3. SRA数据转成fastq.gz格式(这里sra文件提供的是下载好的测试输入文件) fastq-dump --gzip --split-3 -O ~/ /teach/project/1.rna/1.sra_data/SRR1039510.sra 循环方法：

cat SRR_Acc_List.txt | while read id; do (fastq-dump --gzip --split-3 -O ~/ #${id}.sra);done 结果示例：/teach/project/1.rna/2.raw_f

#/~/rnaseq/airway

cat SRR_Acc_List.txt | while read id; do (fastq-dump --gzip --split-3 -O /home/cxt/rnaseq/airway ${id}.sra);done

#data statistics

source activate rna

fastqc -t 2 -o ~/ /teach/project/1.rna/3.raw_fq_ 25000reads/.rawfq.gz multiqc ./zip

# 质控整合结果

#质控目的：了解数据质量大小

**fastqc -t 5 -o /home/cxt/rnaseq/airway /home/cxt/rnaseq/airway/SRR10395*.fastq.gz**

# 整合结果

**multiqc ./*zip**

###2.filter data

dir='/home/cxt/rnaseq/airway'

trim_galore --phred33 -q 25 -e 0.1 --length 36 --stringency 3 --paired -o /home/cxt/rnaseq/airway $dir/SRR1039509_1.fastq.gz \

$dir/SRR1039509_2.fastq.gz

_1_val_1.fq.gz

dr="/home/cxt/rnaseq/airway"

cat SRR_Acc_List.txt | while read id ; do (hisat2 -p 1 -x \

> ~/rnaseq/index_hisat_hg38/genome -1 ~/rnaseq/4_trimming/${id}_1_val_1.fq.gz -2 ~/rnaseq/4_trimming/${id}_2_val_2.fq.gz \

> | samtools sort -@ 1 -o ~/rnaseq/5_hisat2/${id}.sort.bam - ); done

hisat2 -p 1 -x /home/cxt/rnaseq/index/hisat/hg38/genome -1 ~/rnaseq/4_trimming/SRR1039508.1_1_val_1.fq.gz -2 ~/rnaseq/4_trimming/SRR1039508.1_2_val_2.fq.gz | samtools sort -@ 1 -o /home/cxt/rnaseq/airway/SRR1039509.sort.bam -

.

# IGV可视化前，对bam建立索引，没有索引 IGV软件报错

# 通常几分钟结束，结束后会生成.bai文件，运行ls ~/*bai

samtools index ~/SRR1039510-chr1_10M_20M-chr17.sort.bam

# ftp传输到本地

#下载该bam和bai文件到本地电脑，放入同一目录/文件夹内

#打开IGV，左上角设置hg38，首次设置需要下载约6000多K文件只拖拽bam文件到IGV内，通过右上角的方法缩小放大、或搜索位置、或输入基因名等可视化自己感兴趣位置

#IGV 示例

chr17:38,720,958-38,727,824

#获得差异表达矩阵
featureCounts -T 5 -p -t exon -g gene_id -a /home/cxt/rnaseq/airway/gencode.v29.annotation.gtf.gz -o /home/cxt/rnaseq/airway/all.id.txt /home/cxt/rnaseq/airway/*sort.bam

#R语言可视化分析

require(corrplot)

install.packages("corrplot")

library(corrplot)

options(stringsAsFactors = FALSE)

exprSet=read.table('all.id.txt',header=TRUE,sep='\t')

data_cor=cor(log2(exprSet+1))

data_cor

corrplot(data_cor)

corrplot(data_cor, method = "pie")

corrplot(data_cor, method = "number", cl.pos = F, addCoef.col = "grey")

require(pheatmap)

install.packages("pheatmap")

library(pheatmap)

png('heatmap.png')

pheatmap(scale(cor(log2(exprSet+1))))

dev.off()

#test

options(stringsAsFactors = FALSE)

exprSet=read.table('all.id1.txt',header=TRUE,sep='\t')

data_cor=cor(log2(exprSet+1))

data_cor

library('corrplot')

png('corr1.png')

corrplot(data_cor)

dev.off()

png('corr2.png')

corrplot(data_cor, method = "pie")

dev.off()

png('corr3.png')

corrplot(data_cor, method = "number", cl.pos = F, addCoef.col = "grey")

dev.off()

require(pheatmap)

#install.packages("pheatmap")

library(pheatmap)

png('heatmap1.png')

pheatmap(scale(cor(log2(exprSet+1))))

dev.off()

rnaseq_py3环境中装有python3 fastqc和multiqc

网友评论

本文标题：2019-08-06 RNAseq workflow (cas

本文链接：https://www.haomeiwen.com/subject/osnwdctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！