# 1. miniconda下载
# 用uname -a查看linux系统是x86_64,即下载conda的x86_64版
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-4.7.10-Linux-x86_64.sh
# 2. miniconda安装(严格按照安装步骤来做)
# 运行.sh文件都用bash,安装步骤:遇到yes/no,输入yes,否则enter
bash Miniconda3-4.7.10-Linux-x86_64.sh
source ~/.bashrc
# 安装时最后yes/no初学者务必输yes,运行source ~/.bashrc才有效
# 3. 确认安装成功(如果报错,查看报错解决方法) conda --help
# 4. 配置镜像(安装一次,只配置一次,注意语句复制正确,一行一行复制在命令行上按enter键运行,不会出现任何提示即为正确)
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda config --set show_channel_urls yes
#建立小环境并安装软件
# 强烈建议创建conda小环境来安装软件,可建立多个
# 避免污染个人的大环境配置
# !创建名为rna的软件安装环境,取名随意
conda create -n rna python=2
# 查看当前conda环境
conda info --envs
#!激活/进入conda的rna环境,左上角出现(rna)
source activate rna
# 查看软件在conda镜像内所有版本及确认其存在
conda search sra-tools
# !安装 sra-tools软件
# 出现三个done,且prefetch --help不报错,即安装正确
# 退出当前环境 # (不退也没关系,环境激活只是为了装和调取软件使用,不影响其他操作)
source deactivate
# 结果:左上角(rna)消失
#软件安装
# 第一步别忘了激活环境source activate rna# 安装sra-tools
# 从ncbi下载sra,转化sra文件为fq# conda安装sra-tools
conda install -y sra-tools
# 调取该软件的命令的帮助文档,下面两句是重点
prefetch --help
fastq-dump --help
which prefetch
# 运行结果示例如下
# /home/qmcui/miniconda2/envs/rna/bin/prefetch
# 可以看到这个命令确实你刚装的,而且存在于rna的小环境内bin的目录下#也可以不运行which这个命令~,但是当你软件报错的时候,你就要知道这个命令到底是装在哪里的~,就可以which一下!
# 后面格式同上
链接:https://www.jianshu.com/p/369f6caae865
source activate rna
conda install -y sra-tools
prefetch --help
fastq-dump --help
which prefetch
conda install -y bwa
bwa
conda install -y gatk4
gatk
conda install -y fastqc
fastqc --help
conda install -y trim-galore (包括cutadapt)
trim_galore --help
conda install -y star
STAR --help
conda install -y hisat2
hisat2 -h#等同于hisat2 --help
conda install -y bowtie2
bowtie2 --help
conda install -y subread
featureCounts
conda install -y htseq
htseq-count --help
conda install -y multiqc
multiqc --help
conda install -y samtools
samtools
which samtools
#数据下载
#下载数据前务必安装aspera,以加速下载
wget -c https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
tar zxvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
bash ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
# 有如下所示内容生成Installing IBM Aspera Connect
Deploying IBM Aspera Connect (/home/cxt/.aspera/connect) for the current user only.
Unable to update desktop database, IBM Aspera Connect may not be able to auto-launch
Install complete.
cd /home/cxt/.aspera/connect/bin
./ascp --help
# 结果如下图所示
# 永久添加环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
# 最好写绝对路径:echo 'export PATH=/home/cxt/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
# 查看帮助文档ascp --help
# GSEID https://www.ncbi.nlm.nih.gov//geo/query/acc.cgi?acc=GSE52778 [可修改GSE号]
# 找到SRR_Acc_List.txt
#将SRR_Acc_List.txt下载到本地,并上传至服务器的当前文件夹中/home/cxt/rnaseq/airway
# 获得fastq三步骤
## 1. 激活环境 source activate rna
## 2. 下载数据 或 获得SRR_Acc_List.txt 或 观察数据编号的规律下载 ## 下载前务必提前安装aspera软件,学习:https://www.jianshu.com/p/112412b8883c,加快下载速度
prefetch SRR1039510 -O ~ prefetch SRR1039511 -O ~ prefetch SRR1039512 -O ~ 下载结束后的结果示例:/teach/project/1.rna/1.sra_data ... # 因此需要循环:
cat SRR_Acc_List.txt | while read id; do (prefetch ${id} -O /home/cxt/rnaseq/airway );done
#cat SRR_Acc_List.txt | while read id; do (prefetch ${id} -O ~);done
## 3. SRA数据转成fastq.gz格式(这里sra文件提供的是下载好的测试输入文件) fastq-dump --gzip --split-3 -O ~/ /teach/project/1.rna/1.sra_data/SRR1039510.sra 循环方法:
cat SRR_Acc_List.txt | while read id; do (fastq-dump --gzip --split-3 -O ~/ #${id}.sra);done 结果示例:/teach/project/1.rna/2.raw_f
#/~/rnaseq/airway
cat SRR_Acc_List.txt | while read id; do (fastq-dump --gzip --split-3 -O /home/cxt/rnaseq/airway ${id}.sra);done
#data statistics
source activate rna
fastqc -t 2 -o ~/ /teach/project/1.rna/3.raw_fq_ 25000reads/*.rawfq.gz multiqc ./*zip
# 质控 整合结果
#质控目的:了解数据质量 大小
fastqc -t 5 -o /home/cxt/rnaseq/airway /home/cxt/rnaseq/airway/SRR10395*.fastq.gz
# 整合结果
multiqc ./*zip
###2.filter data
dir='/home/cxt/rnaseq/airway'
trim_galore --phred33 -q 25 -e 0.1 --length 36 --stringency 3 --paired -o /home/cxt/rnaseq/airway $dir/SRR1039509_1.fastq.gz \
$dir/SRR1039509_2.fastq.gz

_1_val_1.fq.gz
dr="/home/cxt/rnaseq/airway"
cat SRR_Acc_List.txt | while read id ; do (hisat2 -p 1 -x \
> ~/rnaseq/index_hisat_hg38/genome -1 ~/rnaseq/4_trimming/${id}_1_val_1.fq.gz -2 ~/rnaseq/4_trimming/${id}_2_val_2.fq.gz \
> | samtools sort -@ 1 -o ~/rnaseq/5_hisat2/${id}.sort.bam - ); done
hisat2 -p 1 -x /home/cxt/rnaseq/index/hisat/hg38/genome -1 ~/rnaseq/4_trimming/SRR1039508.1_1_val_1.fq.gz -2 ~/rnaseq/4_trimming/SRR1039508.1_2_val_2.fq.gz | samtools sort -@ 1 -o /home/cxt/rnaseq/airway/SRR1039509.sort.bam -


# IGV可视化前,对bam建立索引,没有索引 IGV软件报错
# 通常几分钟结束,结束后会生成.bai文件,运行ls ~/*bai
samtools index ~/SRR1039510-chr1_10M_20M-chr17.sort.bam
# ftp传输到本地
#下载该bam和bai文件到本地电脑,放入同一目录/文件夹内
#打开IGV,左上角设置hg38,首次设置需要下载约6000多K文件 只拖拽bam文件到IGV内,通过右上角的方法缩小放大、或搜索位置、或输入基因名等可视化自己感兴趣位置
#IGV 示例
chr17:38,720,958-38,727,824
#获得差异表达矩阵
featureCounts -T 5 -p -t exon -g gene_id -a /home/cxt/rnaseq/airway/gencode.v29.annotation.gtf.gz -o /home/cxt/rnaseq/airway/all.id.txt /home/cxt/rnaseq/airway/*sort.bam
#R语言可视化分析
require(corrplot)
install.packages("corrplot")
library(corrplot)
options(stringsAsFactors = FALSE)
exprSet=read.table('all.id.txt',header=TRUE,sep='\t')
data_cor=cor(log2(exprSet+1))
data_cor
corrplot(data_cor)
corrplot(data_cor, method = "pie")
corrplot(data_cor, method = "number", cl.pos = F, addCoef.col = "grey")
require(pheatmap)
install.packages("pheatmap")
library(pheatmap)
png('heatmap.png')
pheatmap(scale(cor(log2(exprSet+1))))
dev.off()
#test
options(stringsAsFactors = FALSE)
exprSet=read.table('all.id1.txt',header=TRUE,sep='\t')
data_cor=cor(log2(exprSet+1))
data_cor
library('corrplot')
png('corr1.png')
corrplot(data_cor)
dev.off()
png('corr2.png')
corrplot(data_cor, method = "pie")
dev.off()
png('corr3.png')
corrplot(data_cor, method = "number", cl.pos = F, addCoef.col = "grey")
dev.off()
require(pheatmap)
#install.packages("pheatmap")
library(pheatmap)
png('heatmap1.png')
pheatmap(scale(cor(log2(exprSet+1))))
dev.off()


rnaseq_py3环境中装有python3 fastqc和multiqc
网友评论