InfoSphere Warehouse 数据挖掘与 Cognos 集成架构概述(一)_cognos数据挖掘-程序员宅基地

技术标签: 商业智能  数据分析  cognos  数据可视化  大数据  数据挖掘  

简介

数据挖掘使专家、分析师和用户可以洞察大量数据集中存在的模式,并使之成为日常业务流程中的一部分。在过去,数据挖掘一直是统计和数据分析专家的任务。另一方面,数据挖掘的结果又常常与公司中各种不同的用户有关联。

考虑以下场景。您收集关于符合特定的人口特征(例如年龄、职业和居住地点)的客户以及过去的事务(例如售出的产品以及合同)的数据。商场营销部门希望针对具有相似特点的特定客户群开发新的定制产品。如何发现那样的独特用户群?数据集群为这个问题提供了一个解决方案。它自动根据数据集的属性或特征对数据集进行分组。然后,分析师查看这些组,并交互式地对它们进行微调,直到满足他/她的需要。而市场营销专家将发现,有一群为数不多、但是在经济上有重大意义的客户,他们的年龄超出了平均年龄,不使用 Internet 银行。根据这样的信息,可以为这些客户开发专门的产品。在分析过程中,一个关键的步骤就是让用户理解数据集群步骤的结果。专业的分析师通常并不擅长低级的数据库编程。

如何将数据挖掘的结果交付给需要它的分析师和雇员?如何显示结果,以反映用户所涉及的业务流程?如何满足安全性需求,使每个用户只看到他/她应该看到的内容。对于这些问题,要想给出令人满意的答案,必须将视角从统计分析转变到实际的终端用户以及他/她所涉及的业务流程上来。InfoSphere Warehouse 是企业数据仓库的强有力的基础。InfoSphere Warehouse 直接在存储数据的底层 DB2 数据库中提供数据挖掘功能。整个数据挖掘功能可以通过一个容易使用的、基于 Eclipse 的工具平台来访问,而且部署任务可以直接在工具中触发。

IBM Cognos 是报告解决方案中的领先者之一。在很多公司中,报告扮演着一个重要的角色,因为它有助于以不同的方式为不同的目标人群合并和可视化相关信息。报告的结果通常是通过对存储在数据仓库中的信息应用基本的算术运算而得到的(例如,每月的平均销售额)。对于高级的分析,例如上面的例子,则超出了报告框架的范围和能力。因此,可以将两者相结合,既使用 InfoSphere Warehouse 的可伸缩的、高级的分析功能,又使用 IBM Cognos 已有的、先进的报告功能。接下来的小节展示如何灵活地将 IBM InfoSphere Warehouse Data Mining 与 IBM Cognos 相结合,以实现这个目标。这种集成不需要任何复杂的编程或设置,只需使用纯 DB2 SQL 就能完成。

接下来的小节简要地介绍 InfoSphere Warehouse 和 IBM Cognos 的基本架构。然后将描述如何集成它们。最后,通过一个简单的、逐步讲解的来自医疗保健领域的例子来演示这种集成。这个系列接下来的文章将描述这种集成的一些更高级的技巧和概念。

产品组件

IBM InfoSphere Warehouse

InfoSphere Warehouse 以 DB2 作为数据存储。它提供了数据库分区功能(DPF),以便以可伸缩的、安全的、高性能的方式存储数据仓库中的数据,并将在线事务处理(OLTP)数据库的优点与大型数据仓库的存储需求相结合。InfoSphere Warehouse 提供了很多不同的用于仓库管理和分析的工具。这些分析组件有:

  • Cubing 服务
  • 数据挖掘
  • 文本分析

InfoSphere Warehouse Design Studio 是基于 Eclipse 的工具平台,用于为数据挖掘和文本分析设计工作负载规则、数据转换流和分析流。然后,可以将这些流部署到 InfoSphere Warehouse 管理控制台,以根据需要进行调度和运行。InfoSphere Warehouse 数据挖掘是用 DB2 存储过程和用户定义函数构建的,以利用 DB2 作为执行环境,从而获得高性能的数据库内执行。可以通过 SQL 接口或通过 InfoSphere Warehouse 的挖掘流访问它。

数据挖掘是一项从大型数据集中发现有用信息的任务。一个典型的场景是医疗保健,本文将用它作为实例。如今可以收集到大量的卫生保健数据,这些数据描述很多不同的病人数年来的状态。这种数据的一个重要用途是在早期发现潜伏性疾病的指标。例如,出于这个目的,可以收集患有心脏病的病人的数据,并分析什么因素与这种疾病有关,例如血压和体重。这种数据必须在收集后进行转换,使之能用于数据挖掘。更具体而言,需要有一个表,每个病人对应于其中的一行记录,表中有一些列,表示关于病人的信息。而且,还应该有一个专门的列表明这个病人是否真正患病。图 1 显示了一种可能的模式:

图 1. 心脏病数据库表的模式(InfoSphere Warehouse 例子的一部分)
cognos教程

基于这种数据,InfoSphere Warehouse 中的存储过程可以构建一个模型,对于任何新的病人,该模型可以预测他/她是否可能有潜伏性心脏病。这个过程称作 “建模”。这样得到的 XML 数据挖掘模型存储在数据库中,可以通过 SQL/XQuery 进行访问。这个模型可用于两个目的:首先,可以从这个模型提取信息,以洞察哪些是心脏病的重要指标以及其他统计信息。其次,可以将该模型自动应用到新的数据记录上。因此,对于在心脏病这一列上还没有值的任何记录,可以自动添加这个值,另外再添加一个表示预测的置信度的一个值。这个过程称作 “评价”。图 2 通过示意图显示了这个过程:

图 2. 基于历史数据构建预测模型,然后将此模型应用到新数据上
cognos教程

InfoSphere Warehouse 几乎包含目前所有数据挖掘算法的极为高效的实现。要调用数据挖掘,首先要将数据写到一个表中。然后创建一个模型,再将这个模型应用到目标值尚且未知的记录上,以产生一个预测和该预测的置信度值。所有数据挖掘函数都是作为常规的 SQL 命令来调用的,后面您将看到这一点。这样便很容易集成到几乎所有的设置中,例如 Web 服务。

IBM Cognos 11 Business Intelligence

IBM Cognos 11 Business Intelligence 提供一套完整的商业智能(BI)功能,并且基于一个灵活的面向服务架构(SOA)。它的主要

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/chenjunji123456/article/details/52101073

智能推荐

STM32芯片的ADC引脚的识别与选择_adc12_in4-程序员宅基地

文章浏览阅读1w次,点赞4次,收藏26次。1、以STM32F103ZET6芯片为例,ADC引脚分布为:2、可以看出,一共有IN0--IN15,16个ADC通道,通道IN0--IN9与芯片的其他功能复用了引脚。通道IN10--IN15是ADC独立的引脚。 且ADC1和ADC2有IN0--IN15 16个ADC通道。 而ADC3只有IN0、IN1、IN2、IN3、IN10、IN11、IN12、IN13通道。 ADC123_IN0表示ADC1、ADC2、ADC3都有通道IN0。 ADC12_IN4表示只有A..._adc12_in4

webpack test-程序员宅基地

文章浏览阅读1.3k次。webpack test_webpack test

java批量修改文件名后缀_java修改文件后缀名-程序员宅基地

文章浏览阅读1.4k次。java批量修改文件后缀名_java修改文件后缀名

jeecgboot按字段分表_jeecgboot 分表-程序员宅基地

文章浏览阅读1.3k次。在jeecgboot 使用mybatis框架,mybatis-plus3.1.1后支持分表,以下是在jeecg项目中实行分表一、修改mybatis-plus版本后,必须要在3.1.1版本后 <dependency> <groupId>com.baomidou</groupId> <artifactId>mybatis-plus-..._jeecgboot 分表

java字符串_gags69zzww-程序员宅基地

文章浏览阅读353次。一、字符串的特性:String 被声明为 final,因此它不可被继承。二、不同JDK版本中String的区别:①: 在 Java 8 中,String 内部使用 char 数组存储数据。②: 在 Java 9 之后,String 类的实现改用 byte 数组存储字符串,同时使用 coder 来标识使用了哪种编码。value 数组被声明为 final,这意味着 value 数组初始化之..._gags69zzww

虚拟机在PE系统下看不到硬盘_pe虚拟系统盘-程序员宅基地

文章浏览阅读9.2k次。故障说明:想在VM虚拟化系统里进入PE重置密码,结果PE系统看不到一个硬盘,空空荡荡的。解决方法:先在虚拟机设置里面看看SCSI控制器的当前类型,如果是准虚拟的情况下,就更改SAS类型即可更改SAS类型最后重新进入PE即可看到硬盘,更改这个参数并不会影响系统。..._pe虚拟系统盘

随便推点

航空航天数值分析matlab算法,数值分析 matlab-程序员宅基地

文章浏览阅读501次。"本书介绍数值方法的基本理论和计算方法,并讲述如何利用MATLAB软件实现各种数值算法。它的突出特点是把经典的数值方法内容与现代MATLAB计算软件相结合,书中每个概念均以实例说明,同时还包含大量习题与编程练习,通过这些实例提高读者的实践能力,并加深对数值计算方法的理解。本书经过缩编后适合一学期课"¥63.96定价:¥487.90(1.32折)1. 精心提炼数百个典型实例,全部源于作者的实际工作和..._数值分析在航空领域的应用

Zookeeper权限管理与Quota管理_zookeeper ip 和quota ip-程序员宅基地

文章浏览阅读598次。1 Zookeeper ACLZooKeeper的权限管理亦即ACL控制功能通过Server、Client两端协调完成:Server端:一个ZooKeeper的节点(znode)存储两部分内容:数据和状态,状态中包含ACL信息。创建一个znode会产生一个ACL列表,列表中每个ACL包括:l 验证模式(scheme)l 具体内容(Id)(当scheme=“digest”时,Id为用户名密码,例..._zookeeper ip 和quota ip

ocr数据集:图片数据集_ocr 图片集-程序员宅基地

文章浏览阅读684次。数据集数据集总数量为370万张图片图片数据集文件介绍测试数据集_ocr 图片集

python识图自动化_聊聊 Python 自动化截图的一些经验-程序员宅基地

文章浏览阅读357次。前言今天想先给大家分享 1 个小白用户的 Airtest 从入门到放弃的故事小 A 是一个自动化的小白,在逛测试论坛的时候,偶然间发现了 Airtest 这个基于图像识别的 UI 自动化框架出于好奇,小 A 试用了这个框架,发现只需要几条简单的截图脚本,就可以对设备进行各种自动化操作,于是小 A 成功种草了这个框架但几天之后,随着小 A 的深入使用,他发现截图脚本并不是他想象中那么“完美”;有时..._python识图框架

python语言的关键字是什么_Python语言的关键字有哪些特点?关键字列举-程序员宅基地

文章浏览阅读272次。在Python中,具有特殊功能的标识符称为关键字。关键字是Python语言自己已经使用的了,不允许开发者自己定义和关键字相同名字的标识符。Python中的关键字如下所示:FalseawaitelseimportpassNonebreakexceptinraiseTrueclassfinallyisretu..._python语言的关键字有哪些

pandas数据处理之groupby的常用用法_pandas怎么处理groupby的结果-程序员宅基地

文章浏览阅读2.8k次。groupby的数据处理简单用法groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)1、by:mapping, function, str, or iterable。用于确定gro..._pandas怎么处理groupby的结果

推荐文章

热门文章

相关标签