美文网首页
Impala合并小文件

Impala合并小文件

作者: 无量儿 | 来源:发表于2021-11-26 17:37 被阅读0次

set compression_codec=snappy;
set parquet_file_size=512M;

create table if not exists xx.xxx_tmp like xx.xxx;

insert overwrite xx.xxx_tmp partition(etl_dt)
select * from xx.xxx where substring(etl_dt,1,7)='2020-02';

--删除指定月的分区数
alter table xx.xxx drop partition(substring(etl_dt,1,7)='2020-02');

--将备份分区数据重新插入
insert into xx.xxx partition(etl_dt)
select * from xx.xxx_tmp;

drop table if exists xx.xxx_tmp;

set parquet_file_size=256M;

https://www.pianshen.com/article/466643134/

相关文章

  • Impala合并小文件

    set compression_codec=snappy;set parquet_file_size=512M; ...

  • Impala--合并小文件

    合并小文件 总结 1.在设置了NUM_NODES=1后,如果合并的数据量超过Impala默认的Parquet Bl...

  • Hadoop优化

    1.数据输入小文件处理a.合并小文件:对小文件进行归档、自定义inputFormat将小文件存储成sequence...

  • 大数据面试 | 07 从这5个方面入手,回答好Hadoop 优

    Hadoop 优化 (记住6条-10条即可) 1)数据输入小文件处理: 合并小文件:对小文件进行归档(har)、自...

  • MapReduce源码分析——ReduceTask流程分析

    前言 Reduce会从Mapper任务中拉取很多小文件,小文件内部有序,但是整体是没序的,Reduce会合并小文件...

  • Spark 处理小文件

    1. 小文件合并综述 1.1 小文件表现 不论是Hive还是Spark SQL在使用过程中都可能会遇到小文件过多的...

  • hadoop调优

    数据输入: 合并小文件 使用CombineTextInputFormat来作为输入 Map阶段 (spill)次数...

  • HIVE:小文件合并

    HDFS非常容易存储大数据文件,如果Hive中存在过多的小文件会给namecode带来巨大的性能压力。同时小文件过...

  • hive合并小文件

    参考资料:https://blog.csdn.net/lalaguozhe/article/details/905...

  • hive优化(2020-03-10)

    合理的分区分桶来达到优化 如果小文件太多,建议开启小文件合并的配置项,可以有效减少maptask的数量 shuff...

网友评论

      本文标题:Impala合并小文件

      本文链接:https://www.haomeiwen.com/subject/jrqtrktx.html