美文网首页
fastx_toolkit

fastx_toolkit

作者: 超级无敌大蜗牛 | 来源:发表于2024-05-05 11:58 被阅读0次

fastx_toolkit由一系列的命令组成,每个命令提供一个实用的小功能。在使用时需要注意以下几点

  • 不支持压缩格式的输入文件
  • 不允许序列中存在N碱基,这样的序列会自动去除
  • 可视化命令依赖gunplot软件和perl的GD模块
  • 默认情况下认为fastq文件的碱基编码格式为phred64,对于phred33编码的fastq文件,需要添加参数-Q 33

可以利用以下代码判断fastq文件编码是phred33还是64
fastq格式文件及phred33的判断

#!/bin/bash
# phed.sh
# Usage: ./phed.sh <fastq_file>

# 确保有一个文件名作为输入
if [ -z "$1" ]
then
    echo "Usage: $0 <fastq_file>"
    exit 1
fi

# 分析前1000行中的质量得分
zless "$1" | head -n 1000 | awk '{if(NR%4==0) printf("%s",$0);}' \
| od -A n -t u1 -v \
| awk 'BEGIN{min=100;max=0;} \
{for(i=1;i<=NF;i++) {if($i>max) max=$i; if($i<min) min=$i;}}END \
{if(max<=126 && min<59) print "Phred33"; \
else if(max>73 && min>=64) print "Phred64"; \
else if(min>=59 && min<64 && max>73) print "Solexa64"; \
else print "Unknown score encoding"}'

相关文章

网友评论

      本文标题:fastx_toolkit

      本文链接:https://www.haomeiwen.com/subject/kaskfjtx.html