美文网首页
温故知新:DataX使用记录

温故知新:DataX使用记录

作者: 灿烂的GL | 来源:发表于2024-09-18 10:22 被阅读0次

本文为学习笔记,会随着学习深入持续更新,仅供参考
场景:mysql到hdfs;hdfs到doris
1、mysql到hdfs参考配置文件

{
  "job": {
    "setting": {
      "speed": {
        "channel": 3
      }
    },
    "content": [
      {
        "reader": {
          "name": "mysqlreader",
          "parameter": {
            "username": "${username}",
            "password": "${password}",
            "column": [
              "id"
            ],
            "connection": [
              {
                "table": [
                  "${table}"
                ],
                "jdbcUrl": [
                  "jdbc:MySQL://${host}:3306/${database}?useSSL=false&allowPublicKeyRetrieval=true"
                ]
              }
            ]
          }
        },
        "writer": {
          "name": "hdfswriter",
          "parameter": {
            "defaultFS": "hdfs://${hdfs_host}:${hdfs_port}",
            "fileType": "text",
            "path": "${path}",
            "fileName": "${table}",
            "column": [
              {"name": "id", "type": "bigint"}
            ],
            "writeMode":"append",
            "fieldDelimiter": "\t",
            "compress": "gzip",
            "hadoopConfig": {
              "dfs.replication": "1"
            }
          }
        }
      }
    ]
  }
}

2、hdfs到doris参考配置文件

{
  "job": {
    "setting": {
      "speed": {
        "channel": 3
      }
    },
    "content": [
      {
        "reader": {
          "name": "hdfsreader",
          "parameter": {
            "path": "${hive_path}/${hive_table}/dt=${day}",
            "defaultFS": "hdfs://${hdfs_host}:${hdfs_port}",
            "fileType": "orc",
            "column": [
              {
                "index": 0,
                "name": "agg_time",
                "type": "string"
              },
              {
                "name": "dt",
                "type": "string",
                "value": "${day}"
              }
            ],
            "fieldDelimiter": "\t",
            "encoding": "UTF-8",
            "nullFormat": "\\N"
          }
        },
        "writer": {
          "name": "doriswriter",
          "parameter": {
            "loadUrl": [
              "${doris_host}:8030"
            ],
            "column": [
              "agg_time",
              "time_day"
            ],
            "username": "${doris_user}",
            "password": "${doris_password}",
            "postSql": [],
            "preSql": [],
            "flushInterval": 30000,
            "connection": [
              {
                "jdbcUrl": "jdbc:mysql://${doris_host}:9030/${doris_db}",
                "table": [
                  "${doris_table}"
                ],
                "selectedDatabase": "${doris_db}"
              }
            ]
          }
        }
      }
    ]
  }
}

注意:
1、这里需要提取hive的分区时间(dt)作为doris的一个时间字段(time_day),处理方式为传入指定日期的时间,比如今天处理昨天的数据,这个时间就是昨天
2、doris的loadUrl的端口是fe的端口,下边的jdbcUrl的端口才是数据库的端口
3、这里的数据采用的追加的方式
4、json的格式要正确否则会报错
5、如果官方给的jar包,缺少一些reader或writer就需要改为源码安装


参考文件
1、DataX源码
2、Dolphinscheduler调度Datax任务读取Hive分区表案例
3、Dorsi官网
4、Doris写入时报Content-Length header already present异常处理

相关文章

  • 导入MySQL方法对比

    使用datax导入 1、使用自增id 记录数耗时(秒)TPS424888234712244334048134038...

  • DataX 快速入门

    1. DataX 概述及安装 DataX 是被广泛使用的数据同步工具,由阿里巴巴集团使用 Java 和 Pytho...

  • DataX使用

    参考:阿里云开源离线同步工具DataX3.0介绍https://github.com/alibaba/DataX/...

  • DataX调优及常见问题

    jvm参数 在datax 中导数据使用过程中往往会因为,目标数据过大导致datax oom,那么可以调大datax...

  • DataX原理及安装

    DataX简介 DataX是什么?它是干什么用的?下面是官方给的介绍。 DataX 是阿里巴巴集团内被广泛使用的离...

  • dataX是阿里开源的离线数据库同步工具的使用

    dataX是阿里开源的离线数据库同步工具的使用 DataX介绍: DataX 是阿里开源的一个异构数据源离线同步工...

  • 分区表后使用dataX迁移数据问题

    1.新建分区表后使用dataX迁移数据报错 com.alibaba.datax.common.exception....

  • 使用datax的RDBMSReader抽取hive表

    datax简介 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle...

  • DataX及DataX-Web使用教程

    DataX介绍 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle...

  • datax使用说明

    datax介绍 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle...

网友评论

      本文标题:温故知新:DataX使用记录

      本文链接:https://www.haomeiwen.com/subject/mpcdljtx.html