技术标签: 调度工具 数据调度 数据仓库 ETL 技术交流 kettle
最近遇到了很多正在研究ETL及其工具的同学向我们抱怨:同样都在用 Kettle ,起点明明没差异,但为什么别人ETL做的那么快那么好,自己却不断掉坑?
其实,类似于像 Kettle 这样开源的工具,已经覆盖了大部分日常工作所需的功能了,直接部署一套就能够解决企业基本的需求。但在实际使用的过程中我们也会发现,kettle 如同是一个出场自带电话短信功能的智能手机,少了功能各异的智能 App 的配合,和只能接打电话的老年机也没什么不同。
今天我们就先对其中一个比较火热的“App”——调度工具,做一个简单的评测对比,帮助大家快速解锁用开源工具做 ETL 的新姿势。
开局我们先扫盲。
我们都知道大数据的计算、分析和处理,一般由多个任务单元组成(Hive、Sparksql、Spark、Shell等),每个任务单元完成特定的数据处理逻辑。
多个任务单元之间往往有着强依赖关系,上游任务执行并成功,下游任务才可以执行。比如上游任务结束后拿到 A 结果,下游任务需结合 A 结果才能产出 B 结果,因此下游任务的开始一定是在上游任务成功运行拿到结果之后才可以开始。
而为了保证数据处理结果的准确性,就必须要求这些任务按照上下游依赖关系有序、高效的执行。一个较为基础的处理方式是,预估出每个任务处理所需时间,根据先后顺序,计算出每个任务的执行的起止时间,通过定时跑任务的方式,让整个系统保持稳定的运行。
一个完整的数据分析任务最少执行一次,在数据量较少,依赖关系较为简单的低频数据处理过程中,这种调度方式完全可以满足需求。然而在企业级场景中,更多的是需要每天执行&#
1.MongoDB基本使用写入和查询:-- 查看所有数据库> show dbsadminimooclocal-- 查看某一数据库下所有collection集合(先切换到对应数据库)> use test1> show tablesmycol runoob-- 创建数据库,如果不存在就创建数据库,否则切换到指定数据库use imooc-- 删除数...
回顾下一次面试经历,去的是一家文学网站的Android开发应聘,面试过程中回答的一些面试题有些片面或者比较不全面,现在抽时间进行整体总结下:一、Java方面:1、二进制和异或的算法? 这个当时估计也是想考察下最基础的Java知识点,简单问了1和2的二进制以及其异或后的结果。首先考察了二进制和十进制的转换,其次考察了异或的知识点,涉及知识点或者延申知识点:1)十进制...
本程序是一个不需要数据库的动态php单页站群源码,动态版,需要php+zend环境支持,需要域名泛解析,需要独立主机或者vps支持,虚拟主机暂时无法达到效果,设置好以后只需在文本导入你的关键词和文章内容就可以自动实时更新优化,循环暴力域名站群系统可以瞬间让你产生无数二级和多级站点。无绑定机器,无限制域名,无关联词个数限制动态版每刷新一次内容都会变化你无需懂得任何SEO技术,完全自动化,做好相关设定..._单页站群程序
pip;python包管理工具http://blog.csdn.net/shanliangliuxing/article/details/10114911转自:http://jiayanjujyj.iteye.com/blog/1409819 刚开始学习Python时,在看文档和别人的blog介绍安装包有的用easy_install, setuptools, 有的使用pip,dis...
在终端模式下: 1:#chmod a+x qt-sdk-linux-x86-opensource-2010.05.1.bin(.bin文件为要执行的文件,+x表示增加权限, a某个权限值) 2:#./qt-sdk-linux-x86-opensource-2010.05.1.bin_给bin程序网络权限
这一年多,写小程序的语言,逐步从matalb转到了python。实际上,我觉得MATLAB对于我来说,要友好很多,帮助文件论述清晰,还有详尽的示例,而且相关工具函数齐备,临时做些计算非常方便。不过,知乎上提及金融分析,基本上都是python了,而且社区论坛python也要活跃很多。虽然这些论坛主要是搞程序的在做,但对新进入的人来说,肯定优选python作为入门工具了。Matlab在金融工程里面的份..._baw模型 python代码
局域网SDN技术硬核内幕 二 从局域网到互联网前面提到,在数据中心内部,通过层次化端口绑定和EVPN,云平台得以教会了让虚拟机通过硬件交换机封装VXLAN,实现同网段和不同网段的互联互通。但是,无论是服务器,还是虚拟机,最终是要向数据中心外部提供服务的。让我们回顾开篇时见到的这张图——在图中,每个VPC需要通过vLB对外提供负载均衡,通过vFW进行内外网的互访策略控制。对于Neutron原..._sdn在局域网的应用
在Python中,pygal 是一个常用数据可视化的数据图库,它以面向对象的方式来创建各种数据图,而且使用 pygal 可以非常方便地生成各种格式的数据图,包括 PNG、SVG、JPG 、GIF等。使用 Pygal 也可以生成 XML etree、HTML 表格…这次简单分享利用pygal库分别绘制雷达图、柱状图和折线图三种基本图形先看一下三个运行效果图:今天只讲pygal模块的简单应..._python中pygal库应用
在webpack中是不喜欢你使用标签来引入图片的,但是我们作前端的人特别热衷于这种写法, 国人也为此开发了一个:html-withimg-loader。他可以很好的处理我们在html 中引入..._webpack 处理html中引用的图片
windows中静态库lib和动态dll的区别及使用方法网上有很多关于这方面的说明,但是比较乱,感觉都说不清楚的样子。根据自己的理解以及查询资料,有些内容参考于网络,做一下总结:1. 静态库lib和动态dll的区别1.1 项目类型VS在建Win32项目时,有以下选项:windows应用程序 控制台应用程序 DLL 静态库最..._静态库里包含地址信息吗
spark性能_spark运行突然变慢
文章目录IntroductionMotivationHoma DesignDiscussionIntroduction这篇文章是Sigcomm2018年的文章Homa。Homa是基于pHost接收端驱动进行改进的。设计的主要动机是为了提升小流的吞吐量,降低尾部延时。设计的要点是接收端驱动,动态调整优先级,Overcomitment。Homa主要对pHost存在的两个问题进行了改进:第一个问题是新流到达时不能够进行快速抢占,需要等待一个RTT才能调整调度策略,对短流不够友好。第二个问题是发