美文网首页
Hudi系列18:Hudi全量接增量

Hudi系列18:Hudi全量接增量

作者: 只是甲 | 来源:发表于2023-02-14 11:13 被阅读0次

一. 全量接增量概述

如果已经有了全量的离线 Hoodie 表,需要接上实时写入,并且保证数据不重复,可以开启 index bootstrap 功能。

如果觉得流程冗长,可以在写入全量数据的时候资源调大直接走流模式写,全量走完接新数据再将资源调小(或者开启限流功能)。

WITH参数:

名称 Required 默认值 说明
index.bootstrap.enabled true false 开启索引加载,会将已存表
index.partition.regex false * 设置正则表达式进行分区筛选,默认为加载全部分区

使用流程:

  1. create table 创建和 Hoodie 表对应的语句,注意 table type要正确
  2. 设置 index.bootstrap.enabled = true 开启批量加载功能
  3. 重启任务将 index.bootstarp.enabled 关闭, 参数配置到合适大小,如果RowDataToHoodieFunction 和 BootstrapFunction 并发不同,可以重启避免shuffle

相关文章

网友评论

      本文标题:Hudi系列18:Hudi全量接增量

      本文链接:https://www.haomeiwen.com/subject/suoefdtx.html