EDTA-重复序列注释

作者: 斩毛毛 | 来源:发表于2021-04-07 10:28 被阅读0次

EDTA (Extensive de novo TE Annotator), TE注释工具

整合了几款TE注释工具与一体,具体如下

详情请看: https://github.com/oushujun/EDTA

安装

conda create -n EDTA
conda activate EDTA
python2 -m pip install --user numpy==1.14.3 biopython==1.74 pp
conda config --env --add channels anaconda --add channels conda-forge --add channels biocore --add channels bioconda --add channels cyclus
conda install -n EDTA -y cd-hit repeatmodeler muscle mdust repeatmasker=4.0.9_p2 blast-legacy java-jdk perl perl-text-soundex multiprocess regex tensorflow=1.14.0 keras=2.2.4 scikit-learn=0.19.0 biopython pandas glob2 python=3.6 trf
git clone https://github.com/oushujun/EDTA
./EDTA/EDTA.pl

发现没有安装GRF,继续安装
点击下载, 后

tar zxf grf.XXX.tar.gz
cd  grf.XXX.tar/src
make

测试数据使用

*EDTA/test

nohup /usr/bin/time -v perl \
  ../EDTA.pl --genome genome.fa --cds genome.cds.fa \
--curatedlib ../database/rice6.9.5.liban \
--exclude genome.exclude.bed --overwrite 1 \
--sensitive 1 --anno 1 --evaluate 1 --threads 10 > EDTA.test &

参数说明:
--genome: 基因组序列
--species: 物种名,默认others
-step: all|filter|final|anno: 默认all
-t:线程
-cds:提供已有滴cds序列,过滤作用
-sensitive:是否用repeatmodeler分析剩下的TE,默认为0
-anno:是否对全基因组进行TE注释

xxx.EDTA.TElib.fa 就是最后的TE库

运行遇到的问题

  • rmBLAST 找不到
    将conda安装的删除,重新安装了rmbalst v2.6.0就👌了,可能是版本不匹配。

  • No module named 'numpy.testing.nosetester
    将numpy 删除,重新安装numpy 1.17.0

pip uninstall numpy
pip install numpy==1.17.0
  • 'str' object has no attribute 'decode'
    用的是python3.6 所以把对应decode都删除即可

相关文章

  • EDTA-重复序列注释

    EDTA (Extensive de novo TE Annotator), TE注释工具 整合了几款TE注释工具...

  • 重复序列注释

    基因组注释第一步:重复序列注释 串联重复序列(卫星序列) :特定的单元首尾相连特定的单元散落:散在重复序列(转座子...

  • 重复序列注释

    重复序列广泛存在于真核生物基因组中, 这些重复序列或集中成簇, 或分散在基因之间。根据分布把重复序列分为散在重复序...

  • 基因组注释--重复序列注释(一):Trf软件安装与使用

    前言 动植物基因组注释包括重复序列注释以及基因结构注释,重复序列注释是注释中非常重要的环节,主要包括的软件有T...

  • RepeatMasker基于同源相似性实现重复序列注释

    重复序列注释有两种常用策略,基于同源序列相似性和基于重复序列结构特征。其中基于同源序列相似性注释序列的常用工具就是...

  • 基因组注释①:LTR_Finder的安装与使用

    重复序列注释 “由于物种间重复序列的保守性相对较低,针对特定的物种进行重复序列的预测时需要构建特定的重复序列数据库...

  • TRF--Tandem Repeat Finder

    TRF软件是基因组注释中常用于检测序列中串联重复序列的软件,无需安装,使用简单方便。 1. 重复序列分为串联重复序...

  • 基因组注释理论基础

    基因组注释主要包括四个方面: 重复序列识别 序列比对方法 RepeatScout、LTR-finder、T...

  • REPuter注释叶绿体重复序列

    REPuter可注释叶绿体重复序列,包括4种类型,Forward(F), Reverse (R), Complem...

  • RepeatModeler + RepeatMasker

    在基因组注释中第一步就是重复序列的屏蔽,目前常用的从头注释pipeline就是RepeatModeler + Re...

网友评论

    本文标题:EDTA-重复序列注释

    本文链接:https://www.haomeiwen.com/subject/ixrekltx.html