美文网首页
awk 实现同组数据求和&&求均值

awk 实现同组数据求和&&求均值

作者: 吃吃吃_就知道吃 | 来源:发表于2022-03-21 00:09 被阅读0次

说明

需要样本分组文件f1和数据矩阵文件f2,分隔符都为 \t;f1的第一列为f2的列名,第二列为分组组名(会根据f1文件做计算,只做f1中有的样本与分组,支持无重复样本的分组)

f1示例

f2示例

脚本

awk 'BEGIN{FS=OFS="\t"}NR==FNR{a[$1]=$2;gnum[$2]=strtonum(gnum[$2])+1;guni[$2]}NR>FNR&&FNR==1{for(i=2;i<NF+1;i++){g[i]=a[$i]};printf $0;for(k in guni){printf "\tsum_"k};for(k in guni){printf "\tmean_"k};print ""}NR>FNR&&FNR>1{for(k in guni){s[k]=0};for(i=2;i<NF+1;i++){s[g[i]]=strtonum(s[g[i]])+$i};printf $0;for(k in guni){printf "\t"s[k]};for(k in guni){printf "\t"s[k]/gnum[k]}print ""}' pheno.file matrix.02 

转换后的脚本:

awk 'BEGIN{
 FS=OFS="\t"
}NR==FNR{
 a[$1]=$2
 gnum[$2]=strtonum(gnum[$2])+1
 guni[$2]
}NR>FNR&&FNR==1{
 for(i=2;i<NF+1;i++){
  g[i]=a[$i]
 }
 printf $0
 for(k in guni){
  printf "\tsum_"k
 }
  for(k in guni){
   printf "\tmean_"k
  }
  print ""
}NR>FNR&&FNR>1{
 for(k in guni){
  s[k]=0}
  for(i=2;i<NF+1;i++){
   s[g[i]]=strtonum(s[g[i]])+$i
  }
  printf $0
  for(k in guni){
   printf "\t"s[k]
  }
  for(k in guni){
   printf "\t"s[k]/gnum[k]
  }
  print ""
}'

输出文件:


执行时间

测试数据为55827行,13列。结果:


这个时间是很快的,比R的aggregate快很多;使用python的group_by 函数也可以实现,就不做比较了

相关文章

  • awk 实现同组数据求和&&求均值

    说明 需要样本分组文件f1和数据矩阵文件f2,分隔符都为 \t;f1的第一列为f2的列名,第二列为分组组名(会根据...

  • 2019-05-14

    日志文本筛选-sort awk 求最大值: 求最小值: 求和: 求平均值: 求最大值 求最大值 求最小值 中位数

  • awk统计示例

    (1)awk求和 (2)平均值 (3)求最大值 (4)求最小值(min的初始值设置一个超大数即可) (5)统计文件...

  • awk集锦

    摘要 整理awk命令常用的知识点,这里会整理现成demo实例 第一列相同,第二列相加 求和 求平均值 求最大最小值...

  • python:numpy数组常用的统计函数

    数据准备: 求和 求均值 求中值 求最大值和最小值 求极值(最大值和最小值之差)、 6、标准差

  • T1.4 Excel Data Computing

    数据计算 1. 简单计算 a. 单元格直接输入 b. 【自动求和】下拉菜单可以求和、求平均值、极值、计数 2. 函...

  • Excel119 | 这些“S”结尾的多条件计算函数,你一定要会

    EXCEL数据处理中,经常会用到对多条件数据进行统计的情况,比如:多条件计数、多条件求和、多条件求平均值、多条件求...

  • Excel119 | 这些“IFS”结尾的多条件计算函数,你一定

    EXCEL数据处理中,经常会用到对多条件数据进行统计的情况,比如:多条件计数、多条件求和、多条件求平均值、多条件求...

  • Excel必学技术——分类汇总

    一、函数求和 常用方法:“开始”选卡 =》“求和/求平均值”命令 =》框选需要求和的区域image.pngimag...

  • mongoDB之聚合(aggregate)简单示例

    简述 有的时候我们需要对数据进行一些聚合操作,例如:求和,求平均值,分组等等操作.如下数据: 基本语法如下: 示例...

网友评论

      本文标题:awk 实现同组数据求和&&求均值

      本文链接:https://www.haomeiwen.com/subject/ynlzdrtx.html