美文网首页
day19ChIP-seq 数据清洗

day19ChIP-seq 数据清洗

作者: meraner | 来源:发表于2022-06-02 11:19 被阅读0次

一、trim_galore

用来对fastq的raw数据进行清洗过滤,即过滤掉低质量数据,留下的就是clean数据啦。
cutadapt 软件可以对NGS数据进行质量过滤
FastQC 软件可以查看NGS数据的质量分布
trim_galore将这两个软件封装到一起,使用起来更加方便。

1.下载安装

先确定一下这两个的版本

zds209 14:22:34 ~$cutadapt --version
1.18
zds209 14:27:18 ~$fastqc -v
FastQC v0.11.3
wget -c https://github.com/FelixKrueger/TrimGalore/archive/0.6.0.tar.gz

tar -vxzf TrimGalore-0.6.0.tar.gz 

添加到环境变量就行啦。注意:用wincsp软件,在window环境下进行.bashrc的操作,添加变量最方便稳妥。

2. 单端测序数据

trim_galore --quality 20 -a AGATCGGAAGAGC --length 20 -o out_dir input.fq
--quality 20 相当于常用的Q20过滤(详见day18)切除质量得分低于设定值的序列
-a输入adapter序列。也可以不输入
-o/--output_dir:输入目录 [需要提前建立目录,否则运行会报错]。
--length 20 小于20bp的被去除。注意,在pe150下,可以50或36(默认20)。
--fastqc #当分析结束后,使用默认选项对结果文件进行fastqc分析
--gzip和--dont_gzip:清洗后的数据zip打包或者不打包。

批量处理单端数据

project=/data/zds209/ChIP-seqtest
ls project/rawdata | grep "fastq.gz" > config_file cat config_file | while read id do output_dir="project/clean"
trim_galore -q 25 --phred33 --length 36 -e 0.1 --stringency 3 -o output_dirproject/rawdata/$id
done

处理双端数据

project=~/ssresult
trim_galore -q 25 --phred33 --stringency 3 --length 36  --paired $project/rawdata/B8D_L3_1005230.R1.fq.gz  $project/rawdata/B8D_L3_1005230.R2.fq.gz --gzip -o $project
```

#批量处理双端数据

project is the dir on the home with rawdata

project=/data/zds209/ssresult
ls project/rawdata | grep "R1" > gz1 lsproject/rawdata | grep "R2" > gz2
paste gz1 gz2>config_file
cat config_file | while read id
do
sample_dir="project/rawdata" output_dir="project/clean"
arr=(id) fq1={arr[0]}
fq2={arr[1]} sample_dir1="sample_dir/fq1" sample_dir2="sample_dir/fq2" trim_galore -q 25 --phred33 --length 36 -e 0.1 --stringency 3 --paired -ooutput_dir sample_dir1sample_dir2
done

#二、conda 安装multiqc没成功
通过环境配置,把网管的anaconda配置到自己的环境中了。conda list成功了。
##1. 问题:开始`conda install multiqc`不成功。
可能是没配置镜像,但是配置过程中一直跳出来y/n这样奇怪的选项,而且conda info没有显示。
解决办法:
把home目录下.condarc删除,再输入

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --set show_channel_urls yes

就成功了。conda info也有显示具体信息了。conda list也显示了很多已经有的包。但是没有multiqc。
##2. 安装multiqc
输入 conda install multiqc,下载了一些文件,随后说没有安装权限。应该是conda目录是在data/software下,我是非root账户,没有权限啊。

#三、pip安装multiqc
`pip install multiqc` 安装成功了。到底pip和conda啥关系,为何会有不同呢?有待日后想明白。反正现在看是能用了。multiqc -help成功。注:现在已经通过pip安装了cutadapt和multiqc两个软件了。

![image.png](https://img.haomeiwen.com/i27995477/82236cec9b910125.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

#四、multiqc怎么用
到fastqc的输出文件夹下,直接输入:`multiqc  ./`运行的很快。分分钟就有结果了。估计就是调用fastqc的现有数据,组一下结构。
这个命令应该也可以整合到fastqc的脚本中去。

![image.png](https://img.haomeiwen.com/i27995477/2fe39c0702d70e2e.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
画面挺精美的啊。
![image.png](https://img.haomeiwen.com/i27995477/5b2a69d6fa1774a1.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

相关文章

  • day19ChIP-seq 数据清洗

    一、trim_galore 用来对fastq的raw数据进行清洗过滤,即过滤掉低质量数据,留下的就是clean数据...

  • 第三章-数据预处理

    数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。 3.1数据清洗 数据清洗主要是删除原始数据集中的...

  • 2019-09-14 分析lianjia数据(四)——Power

    分析lianjia房源数据(一)——Python数据清洗 分析lianjia房源数据(二)——SPSS数据清洗 分...

  • 2019-10-03 分析lianjia数据(五)——生成词云图

    分析lianjia房源数据(一)——Python数据清洗 分析lianjia房源数据(二)——SPSS数据清洗 分...

  • 2019-08-19 分析lianjia数据(三)——SPSS数

    前置内容——lianjia数据清洗 分析lianjia房源数据(一)——Python数据清洗 分析lianjia房...

  • 数据清洗的步骤是什么(上)

    数据清洗工作是数据分析工作中不可缺少的步骤,这是因为数据清洗能够处理掉肮脏数据,如果不清洗数据的话,那么数据分析的...

  • 机器学习-数据清洗

    本文由brzhang发表 数据清洗 首先,为何需要对数据进行清洗 数据清洗的工作绝壁是非常枯燥的,做数据研究的的人...

  • 数据清洗

    从两个角度上看,数据清洗一是为了解决数据质量问题,二是让数据更适合做挖掘。不同的目的下分不同的情况,也都有相应的解...

  • 数据清洗

    数据清洗 重复数据处理(推荐使用顺序) 数据透视表可统计数据重复次数和重复数据 选中A、B两列,点击插入选项卡-数...

  • 数据清洗

网友评论

      本文标题:day19ChIP-seq 数据清洗

      本文链接:https://www.haomeiwen.com/subject/fofaprtx.html