Hive-Spark-Flink 大表join小表处理方式

Hive-Spark-Flink 大表join小表处理方式

作者: Eqo | 来源:发表于2022-09-04 09:54 被阅读0次

Hive-Spark-Flink 大表join小表处理方式
【Hive】Join的优化
hive解决数据倾斜应知应会（2020-03-10）
Hive优化(九)-表优化
Hive优化实践2-大表join小表优化
Hive-Spark-Flink 大小表join
spark dataframe join造成数据倾斜
inner join怎么join比较快
好程序员大数据学习路线之hive表的查询
Hive-3.1.2（五）解决数据倾斜问题和优化

在大数据离线批处理中，需求【大表（事实表）与小表（维度表）】关联字段，进行分析

Hive 默认开启Map端Join

将小表数据加载到 Hash table file中分布式缓存,每个task 都有一份
将小表数据放到文件中
过程:

先加载小表数据存储到Hash table文件中
2.将文件中的数据存放到分布式缓存中
3.大表中的每个task从分布式缓存中拉取数据
MapJoin只有maptask 没有reduceTask 没有shuffle 提高了性能

Spark Broadcast Join

spark采用广播join 将小表数据放到hash集合中, 广播到executor内存中,被该executor中的task共享,该小表只能读不能写
将小表数据放到变量中
开启

image.png

spark.sql.autoBroadcastJoinThreshold 值为-1

那么该小表是多大呢, 默认是10M 实际开发中要修改
Performance Tuning - Spark 3.3.0 Documentation (apache.org)
那么怎样查看一个表的大小
ANALYZE TABLE <tableName> COMPUTE STATISTICS noscan
分析表表名计算统计信息不开启全局扫描

Flink

两种方式广播变量和分布式缓存

广播变量 :==将数据（封装到DataSet）广播到TaskManager==上就可以==供TaskManager中的SubTask/task==去使用,数据在内存中
分布式缓存：缓存数据文件数据，数据放在文件中；

相关文章

Hive-Spark-Flink 大表join小表处理方式
在大数据离线批处理中，需求【大表（事实表）与小表（维度表）】关联字段，进行分析 Hive 默认开启Map端Join...
【Hive】Join的优化
小表Join大表：Map Join小表缓存并发送到各个节点，没有Shuffle的过程大表Join大表：Reduc...
hive解决数据倾斜应知应会（2020-03-10）
解决数据倾斜问题 join 小表join大表使用mapjoin 大表join大表使用skewinjoin null...
Hive优化(九)-表优化
Join原则：1）小表Join大表，2）大表Join大表3)MapJoin4)Group by5)Count(Di...
Hive优化实践2-大表join小表优化
4、大表join小表优化和join相关的优化主要分为mapjoin可以解决的优化（即大表join小表）和mapjo...
Hive-Spark-Flink 大小表join
在大数据离线批处理中，需求【大表（事实表）与小表（维度表）】关联字段，进行分析 Hive 默认开启Map端Join...
spark dataframe join造成数据倾斜
大表join小表，并且是left join ,出现大量的null key 导致并行度减小，并且task数据有些较大...
inner join怎么join比较快
在使用inner join的时候，感觉应该是小表join大表是比较快的，所以做了个试验，用公司的电商网站访问数据表...
好程序员大数据学习路线之hive表的查询
好程序员大数据学习路线分享hive表的查询 1.join 查询 1、永远是小结果集驱动大结果集(小表驱动大表，小表...
Hive-3.1.2（五）解决数据倾斜问题和优化
关键词情形group by当某一个表分区重复数据较多，会导致数据倾斜，非常耗时join当小表连接大表，处理大表的M...

网友评论

本文标题：Hive-Spark-Flink 大表join小表处理方式

本文链接：https://www.haomeiwen.com/subject/oitpgrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Hive-Spark-Flink 大表join小表处理方式|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！