商务智能理论与应用数据仓库_第1页
商务智能理论与应用数据仓库_第2页
商务智能理论与应用数据仓库_第3页
商务智能理论与应用数据仓库_第4页
商务智能理论与应用数据仓库_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据与数据挖掘-数据仓库大数据分析一、决策支持系统大数据分析二、商务智能

人们对商务智能的理解如同那七个印度盲人对大象的理解:有人认为它是高级管理人员信息系统(EIS),有人认为它是管理信息系统(MIS),有人认为它是决策支持系统(DSS);有人说它是数据库技术,有人说它是数据仓库,有人说它是数据集市,有人说它是数据整合与清洗工具,有人说它是查询和报告工具,有人说它是在线分析处理工具,有人说它是数据挖掘,有人说它是统计分析;有人把它当做分析性ERP,有人把它当做分析性CRM,有人把它当做分析性SCM,有人把它当做企业绩效管理,有人把它当作平衡记分卡……

商业智能技术,它以数据仓库(DataWarehousing)、在线分析处理(OLAP)、数据挖掘(DataMining)3种技术的整合为基础,建立企业数据中心和业务分析模型,以提高企业获取经营分析信息的能力,从而提高企业经营和决策的质量与速度。

大数据分析三、商务智能组成1、关系型数据库2、数据仓库

(数据系统整合,收集,清洗)3、多维分析

(不同维度之间的剖析,自定义)4、数据挖掘(灵魂,产生价值的地方)5、展示(可视化界面)在线分析处理技术(OLAP:OnlineAnalyticalProcessing)数据挖掘技术(DataMining)数据仓库技术(DataWarehousing)数据整合集成各系统的历史数据,建立面向主题的企业数据中心数据分析灵活、动态、快速的多维分析、随机查询、即席报表知识发现通过数学模型发现隐藏的、潜在的规律,以辅助决策三、商务智能体系大数据分析大数据分析四、关系型数据库关系型数据库就是由二维表及其之间的联系组成的一个数据组织,关系数据库中的数据结构就是一张二维表,以表格(关系)的形式存放数据。比如:订单数据库包括一个用列表示的描述一个客户信息的表格:名字、住址、电话号码,等等。另外的一个表格会描述一个订单:产品、客户、日期、销售价格,等等。报表:是关系型数据库时代将数据转化为信息的主要手段,但是报表是需要事先由开发人员定制的。比如:2013年5月份的废单报表大数据分析五、数据仓库我们可以从多个菜市场,挑选我们做需要的蔬菜,肉类等。当然,我们处在一个选择的过程。如果菜不新鲜,我们完全可以不要它.大数据分析六、多维分析OALP掌握数据仓库先要了解OLAP多维数据分析OLAP是以海量数据为基础的复杂数据分析技术。侧重于对决策人员和高层管理人员的决策支持,可以快速、灵活地进行大数据量的复杂处理,并且以一种直观易懂的形式将结果提供给决策人员。OLAP的特性:快速性:系统能在数秒内对用户的多数分析要求做出反应可分析性:用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告多维性:提供对数据分析的多维视图和分析信息性:能及时获得信息,并且管理大容量信息大家知道数据透视表吗?对于于数数据据的的查查询询,,可可以以有有以以下下两两种种形形式式产品名称销售地区销售数量电器电器电器电器服装服装服装服装汇总汇总汇总汇总江苏上海北京汇总江苏上海北京汇总江苏上海北京汇总9404503401730830350270145017708006103180关系系数数据据库库的的汇汇总总查询询时时除除了了查查询询销销售售量量外外,,有有时时还还查查询询涉涉及及多多个个数数据据项项求求和和,,若若采采取取临临时时进进行行汇汇总总计计算算,,会会使使查查询询效效率率大大大大降降低低。。多维维数数据据库库的的OLAP,多多维维数数据据库库((MDDB)是是以以多多维维方方式式组组织织数数据据,,即以以维维作作为为坐坐标标系系,采采用用类类似似于于数数组组形形式式存存储储数数据据。。多多维维数数据据库库中中的的元元素素具具有有形形同同类类型型的的数数值值,,如如销销售售量量。。例,,多多维维数数据据库库存存储储数数据据如如表表所所示示::反映映不不同同产产品品在在不不同同地地区区的的销销售售情情况况江苏上海北京电器服装940830450350340270江苏上海北京汇总电器服装汇总9408301770450350800340270610173014503180多维维数数据据库库的的汇汇总总在多多维维数数据据库库中中只只需需要要按按行行或或列列进进行行求求和和,,增增加加汇汇总总的的维维成成员员即即可可。。2022/12/3116假设以以“产品、、城市市、时时间”三维数数据为为例以上关关系可可简单单的抽抽象成成多维维数据据分析析模式式比较发发现多多维数数据比比关系系数据据库表表达的的关系系更加加清晰晰明了了,而而且所所消耗耗的存存贮容容量更更少,,查询询处理理也格格外简简单,,若要要查某某地区区的销销售量量,只只要按按列统统计一一下即即可,,若要要查某某个产产品的的销售售量,,则只只要按按行统统计即即可。。多维数据据的表示示方法星型模式式雪花型模模式星型模式式的关系系数据库库表示产品ID销售商ID地址ID时间ID销售数量销售成本总收入地理位置维表时间维表产品维表产品ID时间ID销售商ID地址ID销售商维度表雪花模式式在关系系数据库库中的表表示

地理位置维表时间维表产品ID产品名称公司ID公司名称产品颜色ID产品颜色产品商标ID商标名称产品类型ID产品类型名销售商维度表产品ID销售商ID地址ID时间ID销售数量销售成本总收入产品ID公司ID产品颜色ID产品商标ID产品类型ID产品维表产品ID销售商ID时间ID地址ID图

雪花模式的关系数据库表示大数据分分析OLAP中的常用用术语切片/切块上卷/下钻穿透赚取取旋转维度事实在多维分分析过程程中,如如果对多多维数据据集的某某个维选选定一维维成员,,这种选选择操作作就称为为切片。。也即::如有(维1,维2,…,维i,…,维n,观察变变量)多维数据据集,对对维i选定了某某个维成成员,则则(维1,维2,…,维i成员,…,维n,观察变变量)就是多维维数据集集(维1,维2,…,维i,…,维n,观察变变量)在维i上的一个个切片。。这种切切片的数数量完全全取决于于维i上的维成成员个数数,如果果维数越越多,可可以做的的切片也也就越多多。例:对时间维的切片片操作,,它对中中心数据据立方体体使用条条件:时间=“Q1”选择销售售数据。。1、切片Q1Q2Q3Q4计算机安全家庭娱乐电话南京北京上海广州605825144003951560440地区(城市)时间(季)类型切片广州上海北京南京计算机安全家庭娱乐电话605

825

14

400类型城市在切片的的概念中中,有以以下两个个重要的的概念必必须掌握握:多维数据据集的切切片数量量多少是是由所选选定的那那个维的的维成员员数量的的多少所所决定的的。进行切片片操作的的目的是是使人们们能够更更好地了了解多维维数据集集,通过过切片的的操作可可以降低低多维数数数据集集的维度度,可使使人们将将注意力力集中在在较少的的维度下下进行观观察。在一个多多维数据据集中对对两个(及其以上上的)维选定维维成员的的操作可可以称为为切块。。即在(维1,维2,…,维i,…,维k,…,维n,观察变变量)多维数据据集上,,对维i,…,维k,选定了了维成员员,则(维1,维2,…,维i成员,…,维k成员,…,维n,观察变变量)就是多维维数据集集(维1,维2,…,维i,…,维k,…,维n,观察变变量)在维i,…,维k上的一个个切块。。显然,,当i=k时,切块块操作就就退化成成切片操操作。例:涉及三个个维的切切块。条条件为:(地点=“南京”OR“北京”)AND(时间=“Q1”OR“Q2”)AND(类型=“家庭娱乐乐”OR“计算机”)2、切块Q1Q2Q3Q4计算机安全家庭娱乐电话南京北京上海广州608214403950156440地区(城市)时间(季)类型切块计算机家庭娱乐Q1Q2南京北京605395在对数据据仓库的的多维数数据集进进行显示示操作过过程中,,用户常常常希望望能将多多维数据据集改变变其显示示的维方方向,也也就是说说进行多多维数据据集的旋旋转操作作。旋转操作作可将多多维数据据集中的的不同维维进行交交换显示示,以使使用户更更加直观观地观察察数据集集中不同同维之间间的关系系。例:类型和地区区在一个2-D切片上转动动。3、旋转

北京市上海市天津市

2002年1季度12313467

2季度5610373

3季度459859

4季度6687962003年1季度13410273

2季度5613969

3季度239762

4季度5582942002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市6773599673696294广州上海北京南京计算机安全家庭娱乐电话60582514400类型城市广州上海北京南京计算机安全家庭娱乐电话类型城市40014825605旋转通过一个维维的概念分分层向上攀攀升或者通通过维归约约,在数据据立方体上上进行聚集集,称为上上卷操作。。例:在地区维层层次向上攀攀升,在中中心数据立立方体执行行上卷操作作。(这个个分层被定定义为全序序:县<城市<州或省<国家)4、上卷Q1Q2Q3Q4计算机安全家庭娱乐电话南京北京上海广州605825144003951560440地区(城市)Q1Q2Q3Q4计算机安全家庭娱乐电话江苏省广东省地区(省)上卷从城市到省下钻是上卷卷的逆操作作,它由不不太详细的的数据到更更详细的数数据。下钻钻可以通过过沿维的概概念分层向向下或引入入新的维来来实现。例:沿着年<季<月<天定义的时时间维的概概念分层向向下,在中中心数据立立方体执行行下钻操作作的结果。。5、下钻150北京南京上海广州1月2月3月4月5月6月7月8月9月10月11月12月时间(月)地区(城市)150100150计算机安全家庭娱乐电话下钻从季到月OLAP的其它操作作还有统计计表中最高高值和最低低值的项数数,计算平平均值、增增长率、利利润、投资资回报率等等统计计算算。OLAP提供了分析析建模机制制,包括推推导比率、、变差等以以及跨越多多维计算度度量的计算算引擎。它它能在每一一粒度级和和在所有维维的交叉产产生汇总、、聚集和分分层。OLAP也支持预报报、趋势分分析和统计计分析的函函数模型。。在这种意义义下,OLAP是一种强有有力的数据据分析工具具。多维维分分析析-维度度维度度在在数数据据仓仓库库中中主主要要对对用用户户要要读读取取的的指指标标进进行行过过滤滤和和重重新新组组织织。。可可以以将将用用户户对对事事实实的的查查询询结结果果按按照照维维度度指指标标进进行行筛筛选选,,只只允允许许与与维维度度指指标标相相关关的的数数据据返返回回给给用用户户。。维度度层层级级用用来来描描述述维维度度的的各各个个层层级级。。根根据据维维度度细细节节程程度度的的不不同同,,划划分分数数据据在在逻逻辑辑上上的的等等级级关关系系,,例例如如,,时时间间维维度度包包括括年年、、季季度度、、月月、、日日等等层层次次,,地地区区维维度度包包括括国国家家、、省省、、市市等等层层次次。。用维维表表来来记记录录多多维维数数据据库库中中的的维维度度,,将将多多维维数数据据立立方方体体的的坐坐标标轴轴上上的的各各个个取取值值记记录录在在一一张张维维表表中中,,这这样样对对于于一一个个n维数数据据立立方方体体就就存存在在n张维维表表。。多维维分分析析—维度度表表事实实是是各各个个维维度度的的交交点点,,是是对对某某个个特特定定事事件件的的度度量量。。比如如客客户户打打电电话话,,可可能能选选择择的的度度量量有有通通话话时时长长、、通通话话次次数数和和通通话话费费用用等等;;客户户购购买买商商品品,,可可能能选选择择的的度度量量有有购购买买的的次次数数、、购购买买商商品品的的金金额额和和购购买买商商品品的的数数量量等等。。六、、多多维维分分析析—事实实事实实表表用用来来记记录录多多维维数数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论