DolphinScheduler使用Datax同步Hive结果到MYSQL_dolphinscheduler datax-程序员宅基地

技术标签: hive  mysql  hadoop  大数据  

1、安装DolphinScheduler
2、创建租户信息
注意:租户名称就是Linux的执行命令的用户名称,所以不能出错
在这里插入图片描述
3、根据实际情况确定是否需要创建工作组,存在一个default默认工作组,是当前的所有机器,可以通过组信息来确定定特定的机器执行某个任务,比如DataX插件执行同步任务,可以只在某个机器上安装DataX,之后通过组信息来确定某个安装了同步插件的机器执行同步任务,这样可以降低每台机子上安装的插件个数,但可能会存在,某个机子宕机,任务不能执行的风险
在这里插入图片描述
4、环境管理
默认使用 ./dolphinscheduler/conf/env/dolphinscheduler_env.sh文件配置的环境变量信息,可以通过此处指定某个命令使用特定的环境配置信息
5、告警信息(需要在群里面设置告警机器人)
在这里插入图片描述
6、创建数据源(可以通过测试连接判断是否设置正确)
在这里插入图片描述
在这里插入图片描述

#添加超时时间,HIVE执行时间过长,容易报Read time out
{
    "hive.metastore.client.socket.timeout":"1800","hive.server.write.socket.timeout":"1800","hive.server.thrift.socket.timeout":"1800","hive.client.thrift.socket.timeou":"1800"}

7、新建项目
在这里插入图片描述
8、点击新建项目,进入流程配置
9、同步Mysql表数据到Hive
注意:
1、Hive语句不需要分号结尾,换行就是一句
2、Mysql需要分号结尾
3、sql类型,SELECT为查询,其余的为费查询
4、租户选择能执行hive语句的租户
5、选择的执行任务组的服务器需要安装DataX

(一)、新增Hive表
在这里插入图片描述

#创建普通表
CREATE TABLE IF NOT EXISTS veh_can_signal_mapping
(
    id              STRING COMMENT '记录唯一标识id',
    code            STRING COMMENT '原始信号code',
    target_code     STRING COMMENT '展示信号code',
    version_id      STRING COMMENT '协议版本id',
    model_id        STRING,
    effective_value STRING COMMENT '生效有效值'
)
row format delimited
fields terminated by '\t' #列分割符,跟写入文件时的分割符一致
lines terminated by '\n' #行分割符,跟写入文件时的分割符一致
stored as textfile

#创建分区表
CREATE TABLE IF NOT EXISTS t_veh_data_distinct_unzip
(
    company_id STRING,
    vehicle_id STRING,
    timestamp  BIGINT,
    value      STRING,
    bucket_id  STRING COMMENT '为数据迁移准备,正常情况下可以为空'
) 
PARTITIONED BY(dt         STRING COMMENT '日期-yyyyMMdd')
row format delimited
fields terminated by '\t' #列分割符,跟写入文件时的分割符一致
lines terminated by '\n' #行分割符,跟写入文件时的分割符一致
stored as textfile

在这里插入图片描述
10、执行
在这里插入图片描述
通过甘特图查看执行进度
在这里插入图片描述
查看状态和日志
在这里插入图片描述
11、新增同步任务,清除历史数据(建表也可以在这个流水线上,加上IF NOT EXISTS就可以)
选择SQL
在这里插入图片描述

TRUNCATE TABLE veh_can_signal_mapping
INSERT OVERWRITE TABLE	t_veh_data_daily;
#分区表覆盖可以使用${bdp.system.bizdate}参数可以换成具体的值
INSERT OVERWRITE TABLE	t_veh_data_daily PARTITION(dt='${bdp.system.bizdate}')

选择DataX
没有Hive数据源,所以需要使用自定义模板
在这里插入图片描述

可以参看阿里云的最佳实践编写JSON,DataX是阿里云开源的数据同步工具,阿里云使用的是商业版,但语法很多类似

{
    
	"job": {
    
		"content": [{
    
			"reader": {
    
				"name": "mysqlreader",
				"parameter": {
    
					"connection": [{
    
						"jdbcUrl": ["jdbc:mysql://${ip}:${port}/${sid}?useSSL=false"],
						"querySql": ["select id,code,target_code,version_id,model_id,CASE WHEN effective_value IS NULL OR effective_value = '' THEN 'null' ELSE effective_value END effective_value from veh_can_signal_mapping WHERE del_flag = '0' AND target_code IS NOT NULL AND target_code!=''"]
					}],
					"password": "${password}",
					"username": "${username}"
				}
			},
			"writer": {
    
				"name": "hdfswriter",
				"parameter": {
    
					"defaultFS": "hdfs://${hdfs_ip}:${hdfs_port}",
					"fileType": "text",
					"path": "/data/hadoop/dfs/vehicle_hive.db/veh_can_signal_mapping",
					"fileName": "veh_can_signal_mapping",
					"column": [{
    
						"name": "id",
						"type": "STRING"
					}, {
    
						"name": "code",
						"type": "STRING"
					}, {
    
						"name": "traget_code",
						"type": "STRING"
					},{
    
						"name": "version_id",
						"type": "STRING"
					}, {
    
						"name": "model_id",
						"type": "STRING"
					}, {
    
						"name": "effective_value",
						"type": "STRING"
					}],
					"writeMode": "append",
					"fieldDelimiter": "\t",
					"encoding": "utf-8"
				}
			}
		}],
		"setting": {
    
			"speed": {
    
				"channel": "1"
			}
		}
	}
}

在这里插入图片描述
在这里插入图片描述
12、多种工作流模板

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/xionglangs/article/details/125272945

智能推荐

【Linux】Bonding配置,管理-程序员宅基地

文章浏览阅读217次。1 通过Ifenslave手动配置Bonding该方法适用于某些发行包,它们的网络初始化脚本(sysconfig或initscripts包)没有bonding相关的知识。SuSE Linux Enterprise Server 版本8就是这样的一个发行包。对于这些系统一般的方法是,把bonding模块的参数放进/etc/modules.conf或..._echo "all" > /sys/class/net/bond0/bonding/arp_validate echo "100" > /sys

pip更新或安装包的时候出现错误:拒绝访问_pip23.3.2安装包时拒绝访问-程序员宅基地

文章浏览阅读4.7k次,点赞3次,收藏8次。pip更新安装包的时候出现错误,如下图所示:解决方法是:pip install --user [要安装的包] #加上一个–user就好了_pip23.3.2安装包时拒绝访问

计蒜客(39341):腾讯益智小游戏—矩形面积交(简单)_游戏两矩形相交计算-程序员宅基地

文章浏览阅读331次。题目链接:题目腾讯游戏开发了一款全新的编程类益智小游戏,最新推出的一个小游戏题目是关于矩形面积交的。聪明的你能解出来吗?看下面的题目接招吧。给定二维平面上 nnn 个与坐标轴平行的矩形,每个矩形是形如 {(x,y)∣x,y∈R,x1≤x≤x2,y1≤y≤y2}\lbrace (x,y) | x,y \in R, x_1 \le x \le x_2, y_1 \le y \le y_2 \rbrace{(x,y)∣x,y∈R,x1​≤x≤x2​,y1​≤y≤y2​} 的点集,你的任务是对于每个矩形,计算它与_游戏两矩形相交计算

计算机毕业设计项目:宠物店管理系统19849(开题答辩+程序定制+全套文案 )上万套实战教程手把手教学JAVA、PHP,node.js,C++、python、大屏数据可视化等-程序员宅基地

文章浏览阅读733次,点赞16次,收藏16次。免费领取项目源码,请关注●点赞收藏并私信博主,谢谢~宠物店管理系统主要功能模块包括宠物类型、宠物医生、普通挂号、会员挂号、宠物护理、护理订单、提醒信息、会员提醒、护理订单(会员)等信息维护,采取面对对象的开发模式进行软件的开发和硬体的架设,能很好的满足实际使用的需求,完善了对应的软体架设以及程序编码的工作,采取MySQL作为后台数据的主要存储单元,采用Java技术、Ajax技术进行业务系统的编码及其开发,实现了本系统的全部功能。本次报告,首先分析了研究的背景、作用、意义,为研究工作的合理性打下了基础。针对

用R语言为柱状图指定填充色_如果对柱状图进行颜色润色的话,需要用到下面 哪一个参数?-程序员宅基地

文章浏览阅读271次。在R语言中,我们可以使用ggplot2包来创建漂亮的柱状图,并且可以自定义每个柱子的填充颜色。在本例中,我们将使用mtcars数据集,该数据集包含了不同汽车型号的性能指标。通过使用fill参数,我们可以轻松地为柱状图指定填充颜色,以增强数据可视化效果。你可以根据自己的需要选择不同的颜色方案,或者根据数据的特点来选择合适的填充颜色。现在我们可以使用ggplot函数创建柱状图,并使用fill参数指定填充颜色。每个柱子将使用不同的颜色进行填充,颜色的顺序与数据中汽车品牌的顺序相对应。在这个例子中,我们使用了。_如果对柱状图进行颜色润色的话,需要用到下面 哪一个参数?

随便推点

Android音视频开发 -> fdk-aac解码eld-aac为pcm_android aac音频解码-程序员宅基地

文章浏览阅读1.1k次。大体实例fdk-aac 解码初始化fdk-aac 开始解码公共变量//解码器对象实例HANDLE_AACDECODER aacDecoder;fdk-aac解码初始化int FdkAacDecode::fdkAacDecodeInit(JNIEnv *env) { //Java方法初始化 aacDecodeClass = env->FindClass("com/zkzj/aaclib/AacUtil"); aacDecodeId = env->GetM_android aac音频解码

基于Sphinx+MySQL的千万级数据全文检索(搜索引擎)架构设计-程序员宅基地

文章浏览阅读3.6k次。来自:http://blog.zyan.cc/post/360/前言:本文阐述的是一款经过生产环境检验的千万级数据全文检索(搜索引擎)架构。本文只列出前几章的内容节选,不提供全文内容。  在DELL PowerEdge 6850服务器(四颗64 位Inter Xeon MP 7110N处理器 / 8GB内存)、RedHat AS4 Linux操作系统、MySQL 5.1.26、MyIS

HTML嵌入JavaScript代码的三种方式_24、在html中,可以引入javascrint代码方式(3分)是()。a、a、行内式b、b、内嵌-程序员宅基地

文章浏览阅读5.4k次,点赞2次,收藏11次。HTML嵌入JavaScript代码的三种方式_24、在html中,可以引入javascrint代码方式(3分)是()。a、a、行内式b、b、内嵌

edge等浏览器打开开发者工具(F12)之后在NetWork看不到请求头等信息_浏览器开发者工具 console没有请求信息-程序员宅基地

文章浏览阅读6w次,点赞73次,收藏50次。问题打开调试器,F5刷新页面后出现下面这种情况没有出现资源等想要的信息(注:从参考1里面得到如下图)解决方法1、打开Edge浏览器里面的调试器的设置2、重置默认并刷新即可注:chrome浏览器的开发者工具的设置也在类似位置参考1、edge等浏览器打开开发者工具(F12)之后在NetWork看不到请求头等信息..._浏览器开发者工具 console没有请求信息

top level_adv7280a移植-程序员宅基地

文章浏览阅读953次。1, 调试前肩后肩的驱动,那个文件是那个设备的驱动?,lcd刷新频率。2,MMC sdiosd驱动框架看下;大概了解记忆sdio协议。复读一下wifi驱动的框架,3,i2c驱动框架。4,Makefile基本常识基本语句 1,解决过什么问题:收货什么经验,自己的review的总结: 1,解决当wifi没有连接到路由器上时,此时通过_adv7280a移植

c#获取当前应用程序所在路径_c获取当前程序的路径-程序员宅基地

文章浏览阅读875次。1.asp.net webform用“Request.PhysicalApplicationPath获取站点所在虚拟目录的物理路径,最后包含“\”;2.c# winform用A:“Application.StartupPath”:获取当前应用程序所在目录的路径,最后不包含“\”;B:“Application.ExecutablePath ”:获取当前应用程序文件的路径,包含文件_c获取当前程序的路径

推荐文章

热门文章

相关标签