美文网首页大数据
Impala--合并小文件

Impala--合并小文件

作者: 撸码小丑 | 来源:发表于2018-11-29 23:14 被阅读28次

合并小文件

insert overwrite table ods_user_256_temp select * from ods_user_256;
set NUM_NODES=1;
insert overwrite table ods_user_256 select * from ods_user_256_temp;

总结

1.在设置了NUM_NODES=1后,如果合并的数据量超过Impala默认的Parquet Block Size(256MB)大小时会生成多个文件,每个文件的大小在256MB左右,如果合并的数据量小于256MB则最终只会生成一个文件。
2.通过设置NUM_NODES=1强制Impala使用一个节点Daemon来处理整个Query,因此最终只会输出一个文件到HDFS。
3.在使用该配置项时会引起单个主机的资源利用率增加,导致SQL运行缓慢,超出内存限制或查询挂起等。
4.该参数没办法设置超过1,即无论你有多少台机器,多大数据量,想使用该方法,也只能设置为1,让一台机器来慢慢帮你合并文件,所以该方法不是太实用,仅供参考。

备注:NUM_NODES参数说明

该参数用来限制执行查询作业的节点数,常见的场景是用于调试/debug查询的时候。它是一个数值类型,但只有两个值,默认是0即使用所有节点来执行查询,也可以设置为1即所有的查询子任务都会在coordinator节点上个执行。

如果你在调试某个查询作业,怀疑是因为分布式计算才导致的执行时间较长,可以将NUM_NODES设置为1,从而可以校验同样的作业在单个节点上执行时是否问题依旧存在。当然也可以在执行INSERT或者CREATE TABLE AS SELECT加上这个参数的设置来解决小文件的问题

相关文章

  • Impala--合并小文件

    合并小文件 总结 1.在设置了NUM_NODES=1后,如果合并的数据量超过Impala默认的Parquet Bl...

  • Hadoop优化

    1.数据输入小文件处理a.合并小文件:对小文件进行归档、自定义inputFormat将小文件存储成sequence...

  • 大数据面试 | 07 从这5个方面入手,回答好Hadoop 优

    Hadoop 优化 (记住6条-10条即可) 1)数据输入小文件处理: 合并小文件:对小文件进行归档(har)、自...

  • MapReduce源码分析——ReduceTask流程分析

    前言 Reduce会从Mapper任务中拉取很多小文件,小文件内部有序,但是整体是没序的,Reduce会合并小文件...

  • Spark 处理小文件

    1. 小文件合并综述 1.1 小文件表现 不论是Hive还是Spark SQL在使用过程中都可能会遇到小文件过多的...

  • hadoop调优

    数据输入: 合并小文件 使用CombineTextInputFormat来作为输入 Map阶段 (spill)次数...

  • HIVE:小文件合并

    HDFS非常容易存储大数据文件,如果Hive中存在过多的小文件会给namecode带来巨大的性能压力。同时小文件过...

  • hive合并小文件

    参考资料:https://blog.csdn.net/lalaguozhe/article/details/905...

  • Impala合并小文件

    set compression_codec=snappy;set parquet_file_size=512M; ...

  • hive优化(2020-03-10)

    合理的分区分桶来达到优化 如果小文件太多,建议开启小文件合并的配置项,可以有效减少maptask的数量 shuff...

网友评论

    本文标题:Impala--合并小文件

    本文链接:https://www.haomeiwen.com/subject/wyscqqtx.html