美文网首页
在Linux系统中使用Shell实现多线程运行任务(多任务并发执

在Linux系统中使用Shell实现多线程运行任务(多任务并发执

作者: 黄甫一 | 来源:发表于2022-05-30 15:36 被阅读0次

适用背景

最近,有一批任务需要把两批的fastq合并到一起并压缩成一个fastq文件才能继续往下做,由于存储空间有限又不能直接全部跑上,只能按样本逐个分批跑。众所周知,一般fastq是成对存在的,所需要对read1和read2分别合并一次,然而这次任务的fastq文件比较大,合并然后压缩一次需要1天左右,那对于一组fastq就要2-3天,这也太耗时间了,所以我在想能不能read1和read2 同时跑上,这就可以节省一半的时间了。

平时也能遇到很多类似的任务,特别是在进程数有限的情况下,如果这些小任务单独占用一个进程,而任务很多就很耗时间,如果能在一个进程下实现多个线程并行执行,就能大大提高运行效率。关于进程和线程的知识可以参考知乎的这篇文章【Shell“ 多线程”,提高工作效率】,整理的也比较有条理,能比较容易读懂。

当然,某些博主也写过类似的文章,例如这篇【shell后台限制多并发控制后台任务强度进行文件拷贝】但是实在是太高深莫测了,看不懂,一时半会儿也学不会。本文将示例Shell实现多线程的简单版本,其实不用太复杂。

快速使用版

其实只需要两个步骤,第一步是给需要并行运行的命令行在结尾加上"&",代表放到后台运行,第二步是在在所有并行任务的后面加上一句“wait”,意思是等所有通过“&”放到后台运行的任务跑完后再继续执行后面的任务,这些就能实现所有带有“&”的行并行执行了。

##并行合并fastq文件,带有&的行都会并行运行
zcat L01_527_1.fq.gz L01_528_1.fq.gz |gzip > test_1.fq.gz &
zcat L01_527_2.fq.gz L01_528_2.fq.gz |gzip > test_2.fq.gz &
#wait代表等上面的任务跑完了才会接着跑后面的脚本
wait
echo “Merged!”
#对上面合并好的fastq计算MD5值,也是并行执行
md5sum test_1.fq.gz &
md5sum test_2.fq.gz &
wait
echo "Done!"

看完脚本是不是觉得很简单?

大批量循环版

上面的脚本适合并行任务少的,可以手动加&和wait,但是如果有几十个甚至上百个的小任务就比较麻烦了。但不用担心,可以写个循环,批量运行。

  • for

循环的结果也是跟上面类似的,只是多了个循环结构。

#创建数组
arr=(test_1.fq.gz test_2.fq.gz)
#使用for循环批量放到后台执行,用大括号"{}"括起需要并行执行的脚本
for line in ${arr[@]}
do
{
md5sum ${line} 
}&
done
wait

如果需要执行的任务只有一行,可以把大括号去掉。

arr=(test_1.fq.gz test_2.fq.gz)
#使用for循环批量放到后台执行,用大括号"{}"括起需要并行执行的脚本
for line in ${arr[@]}
do
md5sum ${line} &
done
wait
  • while
    while循环也是类似的,可以逐行读入文件进行操作。
echo test_1.fq.gz >> fq.list
echo test_2.fq.gz >> fq.list
while read line
do
{
md5sum ${line} &
}&
done <  fq.list

关于for和while的循环可以查看之前的文章【Shell常用循环示例(for和while批量处理)2022-05-25

总结与小结

需要注意的是多线程并行还是需要有限制的,毕竟都是在一个进程里运行,如果线程太多了会卡顿的,建议控制在100个以内,当然还有毕竟高级和复杂的方法可以实现限制。因为上面的脚本已经够我用了,没继续往下学,以后可以再补充。

相关文章

  • 在Linux系统中使用Shell实现多线程运行任务(多任务并发执

    适用背景 最近,有一批任务需要把两批的fastq合并到一起并压缩成一个fastq文件才能继续往下做,由于存储空间有...

  • 12-Python之路-进阶-多任务

    多任务:线程 多任务:简介 操作系统可以同时运行多个任务。操作系统轮流让各个任务交替执行,实现的多任务效果 并发:...

  • 14-多线程与多进程

    多线程 目前市面上常见的系统,如windows、mac os、Linux都支持多线程 什么是多任务 操作系统同时执...

  • 线程知识点

    操作系统中线程和进程的概念 现在的操作系统是多任务操作系统。多线程是实现多任务的一种方式。 进程是指一个内存中运行...

  • Java中多线程与创建方式

    现在的操作系统是多任务操作系统。多线程是实现多任务的一种方式。 进程与线程 进程是指一个内存中运行的应用程序,每个...

  • Python 学习笔记10 - 进程 Process 和线程 T

    多任务的实现有3种方式: 多进程模式; 多线程模式; 多进程+多线程模式。 多进程 Unix/Linux操作系统提...

  • Python线程

    多任务 概念:操作系统可以同时运行多个任务 并发:指的是任务数多余cpu核数,通过操作系统的各种任务调度算法,实现...

  • Java基础知识复习笔记(3)--线程基础

    一、线程概念 1. 操作系统中的线程现在的操作系统是多任务操作系统,多线程是实现多任务的一种方式,在操作系统中,每...

  • Linux知识看着这篇文章就够了

    1、Linux系统简单介绍 Linux是一套免费使用, 支持多用户、多任务、支持多线程和多个核心CPU的操作系统;...

  • 03-web服务器v3.1--03

    多进程、多线程实现Http服务器 使用gevent实现Http服务器开启多任务 单进程、线程、非堵塞实现并发 长链...

网友评论

      本文标题:在Linux系统中使用Shell实现多线程运行任务(多任务并发执

      本文链接:https://www.haomeiwen.com/subject/bfpoprtx.html