什么是流处理-程序员宅基地

流处理正变得像数据处理一样流行。流处理已经超出了其原来的实时数据处理的范畴,它正在成为一种提供数据处理(包括批处理),实时应用乃至分布式事务的新方法的技术。

1、什么是流处理?

流处理是不断合并新数据以计算结果的动作。在流处理中,输入数据不受限制,并且没有预定的开始或结束。它只是形成一系列事件,这些事件到达流处理系统,例如信用卡交易,网站点击或来自物联网设备的传感器读数。

流是一种数据分发技术,其中数据生产者将数据记录写入有序数据流,数据使用者可以从中按相同顺序读取数据。这是一个简单的数据流图,说明了数据生产者,数据流和数据使用者。

每个数据流产品都对使用案例和要支持的处理技术进行了一系列假设。这些假设导致了某些设计选择,这些选择影响可以使用它们实现的流处理行为的类型。

来自维基百科;

流处理是一种计算机编程范例,等效于数据流编程,事件流处理和反应式编程,它使某些应用程序可以更轻松地利用有限形式的并行处理。 流处理是一项强大的技术,可以扫描来自传感器,信用卡刷卡,点击流和其他输入的大量数据,并几乎即时找到可行的见解。例如,流处理可以检测到包含数百万合法购买的流中的单个欺诈性交易,充当推荐引擎来确定特定客户在实际购物时要显示什么广告或促销,或者计算出最佳价格以用于只需几秒钟即可完成汽车服务。

术语“流处理”是指数据以某些外部系统或多个外部系统产生的事件的连续“流”形式进入处理引擎,并且处理引擎的运行速度如此之快,以至于所有决策都无需停止数据流和首先存储信息。

2、典型用例

流处理正在迅速获得普及并在各种业务领域中找到应用程序。随着证券交易所从场内交易转向电子交易,它在金融行业的首次使用得到了证实。如今,在几乎每个行业中,无论是通过人工活动,机器数据还是传感器数据生成流数据的任何地方,它都变得有意义。假设它起飞了,那么物联网将增加数据的数量,种类和速度,从而导致流处理技术的应用程序急剧增加。

流处理可以解决业务问题的一些用例包括:

  • 网络监控

  • 情报和监视

  • 风险管理

  • 电子商务

  • 欺诈识别

  • 智能订单路由

  • 交易成本分析

  • 定价与分析

  • 市场数据管理

  • 算法交易

  • 数据仓库扩充

3、流处理和Hadoop

大数据架构包含用于实时分析的流处理,以及用于存储各种数据和长时间运行的计算的Hadoop。

Hadoop最初是从MapReduce开始的,后者提供批处理,其中查询耗时数小时,数分钟或最多数秒钟。对于大数据量的复杂转换和计算,这将是非常有用的。但是,对于临时数据探索和实时分析而言,它并不是很好。但是,多家供应商已经进行了改进,并为Hadoop添加了功能,使其不仅具有批处理框架的功能。

DWH,Hadoop和流处理彼此很好地互补。因此,在大数据时代,集成层显得尤为重要,因为您必须组合越来越多的不同接收器和源。

自2016年以来,出现了一个称为Streaming SQL的新想法。我们将一种语言称为“流SQL”,该语言使用户能够编写类似于查询的SQL来查询流数据。现在,几乎所有流处理器都支持流SQL。

4、选择流处理框架

数据流产品有很多,很难知道从哪里开始研究它们,哪些产品可以做什么等等。

在做出决定之前,必须进行典型的评估过程(长清单,短清单,概念证明)。

  • 用于流分析的流处理编程语言

  • 可视化开发和调试,而不是编码

  • 实时分析

  • 监控和警报

  • 支持容错和高度优化的性能

  • 产品成熟度

考虑一下项目需要上述哪些功能。此外,在做出选择之前,必须评估使用框架的成本,生产率,减少的工作量以及产品上市时间。

我们正处于一个数据的时代。在此过程中,时间至关重要,而速度将决定赢家和输家。

当必须快速连续处理数据(即必须实时计算和迅速反应)时,需要进行流处理。这个要求越来越多地出现在各个领域。市场上已经有许多不同的框架和产品。

许多用例需要快速,实时的决策。尽管可以使用数据库或批处理来实现它们,但是使用这种技术只会越来越复杂。相反,流提供了一种更自然的模型来考虑,捕获和实现这些实时流用例。流SQL提供了一种简单而强大的语言来对流用例进行编程。

现实情况是,大多数数据的价值会随着时间而下降。

更多Flink,Kafka等相关技术博文,科技资讯,欢迎关注实时流式计算 公众号后台回复 “电子书” 下载300页Flink实战电子书

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/xiangwang2206/article/details/107194580

智能推荐

Java8 parallelStream——共享线程池对性能解析_jdk8 parallelstream 性能-程序员宅基地

文章浏览阅读3.3k次,点赞2次,收藏8次。最近做压测中发现一个应用中cpu过高,导致接口超时rt情况有些不大稳定,jstack打印线程一直在parallelStream相关的代码出进行计算。故对parallelStream相关做一下研究,找一下优化方法。java8并行流parallelStream,相信很多人都喜欢用,特别方便简单。但是有多少人真正知道里面采用的共享线程池对密集型任务,高并发下的性能影响呢可能你的一个应用里面..._jdk8 parallelstream 性能

C++ 11 创建和使用 unique_ptr_unique_ptr创建空节点-程序员宅基地

文章浏览阅读292次。https://www.cnblogs.com/DswCnblog/p/5628195.htmlunique_ptr 不共享它的指针。它无法复制到其他 unique_ptr,无法通过值传递到函数,也无法用于需要副本的任何标准模板库 (STL) 算法。只能移动unique_ptr。这意味着,内存资源所有权将转移到另一 unique_ptr,并且原始 unique_ptr 不再拥有此资源。我们建议..._unique_ptr创建空节点

NetCoreAPI配置全局路由_selector.attributeroutemodel.template-程序员宅基地

文章浏览阅读853次。1:新增类:RouteConvention,继承自IApplicationModelConvention/// <summary> /// 全局路由前缀配置 /// </summary> public class RouteConvention : IApplicationModelConvention { /// <summary> /// 定义一个路由前缀变量 /// </su_selector.attributeroutemodel.template

算 数-程序员宅基地

文章浏览阅读64次。从woody那里copy一段最简的fib代码[code="ruby"]x,y = 0,1 Array.new(10) {|i| [0,1].include?(i) ? 1 : (x,y = y,x+y)&&(x+y) } [/code]生成了这么多,太多了,中途终止了,不知道多少条。[code="ruby"] 1, 1, 2, ..._359579325206583560961765665172189099052367214309267232255589801

Java的BIO和NIO很难懂?用代码实践给你看,再不懂我转行!-程序员宅基地

文章浏览阅读280次。本文原题“从实践角度重新理解BIO和NIO”,原文由Object分享,为了更好的内容表现力,收录时有改动。1、引言这段时间自己在看一些Java中BIO和NIO之类的东西,也看了很多博客,发现各种关于NIO的理论概念说的天花乱坠头头是道,可以说是非常的完整,但是整个看下来之后,发现自己对NIO还是一知半解、一脸蒙逼的状态(请原谅我太笨)。基于以上原因,..._java bio粘包处理

Python3.9环境搭建RobotFramework_python-3.9.9-amd64用那个版本ride-程序员宅基地

文章浏览阅读9k次,点赞2次,收藏12次。Robot Framework是一个基于Python的,可扩展的关键字驱动的测试自动化框架,用于端到端验收测试和验收测试驱动开发(ATDD)。_python-3.9.9-amd64用那个版本ride

随便推点

Hbase相关操作_hbase 查询-程序员宅基地

文章浏览阅读2.4k次。1.进入shellhbase(main):003:0>hbase shell2.查看所有表hbase(main):003:0> list3.根据rowKey查询某个记录hbase(main):003:0>get '表名','rowKey'4.常用过滤器过滤方式是通过value过滤,匹配出value含7259的数据。scan 'buss_surface', FILTER=>"ValueFilter(=,'substring:7259')"过滤方式是通_hbase 查询

噪声:Practical Poissonian-Gaussian noise modeling and fitting for single-image raw-data-程序员宅基地

文章浏览阅读2k次,点赞4次,收藏16次。Practical Poissonian-Gaussian noise modeling and fitting for single-image raw-data文章目录Practical Poissonian-Gaussian noise modeling and fitting for single-image raw-dataPoissonian-Gaussian ModelingThe Noise Profile AlgorithmWavelet domain analysisSegmentat_practical poissonian-gaussian noise modeling and fitting for single-image ra

计算机开机最快设置,w7提高开机速度如何操作_win7电脑怎么开机更快-程序员宅基地

文章浏览阅读4k次。由于win7电脑使用时间过长或者存放时间久了,难免会出现硬件各方面的老化或者堆积了大量的垃圾,因此就会导致电脑开机时的速度有所降低,对此有些用户就想,在不更换硬件的条件下,有没有方法能够提高一下开机速度,那么win7电脑提高开机速度如何操作呢?这里小编就来告诉大家win7电脑开机更快操作步骤。具体方法:1、在任意界面按下:windows键+R,然后在框内输入msconfig,点确定2、然后选择“启..._如何提高w7系统的开机速度

1688API接口:item_search - 按关键字搜索商品_1688 一件代发 api-程序员宅基地

文章浏览阅读672次。今天分享的是1688平台API,item_search - 按关键字搜索商品接口1688的API开发接口,我们需要做下面几件事情。1)开放平台注册开发者账号;2)然后为每个1688应用注册一个应用程序键(App Key) ;3)下载1688API的SDK并掌握基本的API基础知识和调用;4)利用SDK接口和对象,传入AppKey或者必要的时候获取并传入SessionKey来进行程序开发;5)利用1688平台的文档中心和API测试工具,对接口进行测试。从而了解返回信息,方便程序获取1688_1688 一件代发 api

vue-property-decorator使用指南_vue-property-decorator emit update-程序员宅基地

文章浏览阅读3.1k次,点赞2次,收藏12次。在Vue中使用TypeScript时,非常好用的一个库,使用装饰器来简化书写。一、安装npmi-Svue-property-decorator@Prop @PropSync @Provide @Model @Watch @Inject @Provide @Emit @Component(provided byvue-class-component) Mixins(the helper function namedmixinsprovided byvue-cla..._vue-property-decorator emit update

(七)用ChartDirector绘制实时图表-程序员宅基地

文章浏览阅读467次。本示例演示如何用Web图表控件 ChartDirector 绘制一个配置有刷新率的实时图表。在本例中,由一个计时器驱动的随机数生成器生成新的数据值,新产生的值会转换到数据数组中,然后显示在图表上。图表由一个秒表进行更新,这样图表的刷新率可独立于数据率。此外,这个图表支持暂停以方便用户查看,但是后台的数据仍然在继续更新。图表刷新计时器调用CChartViewer.update..._c++ chartdirect updateviewport