大数据与数据挖掘之数据仓库_第1页
大数据与数据挖掘之数据仓库_第2页
大数据与数据挖掘之数据仓库_第3页
大数据与数据挖掘之数据仓库_第4页
大数据与数据挖掘之数据仓库_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据与数据挖掘之数据仓库大数据与数据挖掘-数据仓库大数据分析一、决策支持系统大数据分析二、商务智能

人们对商务智能的理解如同那七个印度盲人对大象的理解:有人认为它是高级管理人员信息系统(EIS),有人认为它是管理信息系统(MIS),有人认为它是决策支持系统(DSS);有人说它是数据库技术,有人说它是数据仓库,有人说它是数据集市,有人说它是数据整合与清洗工具,有人说它是查询和报告工具,有人说它是在线分析处理工具,有人说它是数据挖掘,有人说它是统计分析;有人把它当做分析性ERP,有人把它当做分析性CRM,有人把它当做分析性SCM,有人把它当做企业绩效管理,有人把它当作平衡记分卡……

商业智能技术,它以数据仓库(DataWarehousing)、在线分析处理(OLAP)、数据挖掘(DataMining)3种技术的整合为基础,建立企业数据中心和业务分析模型,以提高企业获取经营分析信息的能力,从而提高企业经营和决策的质量与速度。

大数据分析三、商务智能组成1、关系型数据库2、数据仓库

(数据系统整合,收集,清洗)3、多维分析

(不同维度之间的剖析,自定义)4、数据挖掘(灵魂,产生价值的地方)5、展示(可视化界面)在线分析处理技术(OLAP:OnlineAnalyticalProcessing)数据挖掘技术(DataMining)数据仓库技术(DataWarehousing)数据整合集成各系统的历史数据,建立面向主题的企业数据中心数据分析灵活、动态、快速的多维分析、随机查询、即席报表知识发现通过数学模型发现隐藏的、潜在的规律,以辅助决策三、商务智能体系大数据分析大数据分析四、关系型数据库关系型数据库就是由二维表及其之间的联系组成的一个数据组织,关系数据库中的数据结构就是一张二维表,以表格(关系)的形式存放数据。比如:订单数据库包括一个用列表示的描述一个客户信息的表格:名字、住址、号码,等等。另外的一个表格会描述一个订单:产品、客户、日期、销售价格,等等。报表:是关系型数据库时代将数据转化为信息的主要手段,但是报表是需要事先由开发人员定制的。比如:2013年5月份的废单报表大数据分析五、数据仓库我们可以从多个菜市场,挑选我们做需要的蔬菜,肉类等。当然,我们处在一个选择的过程。如果菜不新鲜,我们完全可以不要它.大数据分析六、多维分析OALP掌握数据仓库先要了解OLAP多维数据分析OLAP是以海量数据为基础的复杂数据分析技术。侧重于对决策人员和高层管理人员的决策支持,可以快速、灵活地进行大数据量的复杂处理,并且以一种直观易懂的形式将结果提供给决策人员。OLAP的特性:快速性:系统能在数秒内对用户的多数分析要求做出反应可分析性:用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告多维性:提供对数据分析的多维视图和分析信息性:能及时获得信息,并且管理大容量信息大家知道数据透视表吗?对于数据的查询,可以有以下两种形式产品名称销售地区销售数量电器电器电器电器服装服装服装服装汇总汇总汇总汇总江苏上海北京汇总江苏上海北京汇总江苏上海北京汇总9404503401730830350270145017708006103180

关系数据库的汇总查询时除了查询销售量外,有时还查询涉及多个数据项求和,若采取临时进行汇总计算,会使查询效率大大降低。

多维数据库的OLAP,多维数据库(MDDB)是以多维方式组织数据,即以维作为坐标系,采用类似于数组形式存储数据。多维数据库中的元素具有形同类型的数值,如销售量。例,多维数据库存储数据如表所示:反映不同产品在不同地区的销售情况江苏上海北京电器服装940830450350340270

江苏上海北京汇总电器服装汇总9408301770450350800340270610173014503180

多维数据库的汇总在多维数据库中只需要按行或列进行求和,增加汇总的维成员即可。2023/11/917假设以“产品、城市、时间”三维数据为例以上关系可简单的抽象成多维数据分析模式

比较发现多维数据比关系数据库表达的关系更加清晰明了,而且所消耗的存贮容量更少,查询处理也格外简单,若要查某地区的销售量,只要按列统计一下即可,若要查某个产品的销售量,则只要按行统计即可。多维数据的表示方法星型模式雪花型模式星型模式的关系数据库表示产品ID销售商ID地址ID时间ID销售数量销售成本总收入地理位置维表时间维表产品维表产品ID时间ID销售商ID地址ID销售商维度表雪花模式在关系数据库中的表示

地理位置维表时间维表产品ID产品名称公司ID公司名称产品颜色ID产品颜色产品商标ID商标名称产品类型ID产品类型名销售商维度表产品ID销售商ID地址ID时间ID销售数量销售成本总收入产品ID公司ID产品颜色ID产品商标ID产品类型ID产品维表产品ID销售商ID时间ID地址ID图

雪花模式的关系数据库表示大数据分析OLAP中的常用术语切片/切块上卷/下钻穿透赚取旋转维度事实在多维分析过程中,如果对多维数据集的某个维选定一维成员,这种选择操作就称为切片。也即:如有(维1,维2,…,维i,…,维n,观察变量)多维数据集,对维i选定了某个维成员,则(维1,维2,…,维i成员,…,维n,观察变量)就是多维数据集(维1,维2,…,维i,…,维n,观察变量)在维i上的一个切片。这种切片的数量完全取决于维i上的维成员个数,如果维数越多,可以做的切片也就越多。例:对时间维的切片操作,它对中心数据立方体使用条件:时间=“Q1”选择销售数据。1、切片Q1Q2Q3Q4计算机安全家庭娱乐电话南京北京上海广州605825144003951560440地区(城市)时间(季)类型切片广州上海北京南京计算机安全家庭娱乐电话60582514400类型城市

在切片的概念中,有以下两个重要的概念必须掌握:多维数据集的切片数量多少是由所选定的那个维的维成员数量的多少所决定的。进行切片操作的目的是使人们能够更好地了解多维数据集,通过切片的操作可以降低多维数数据集的维度,可使人们将注意力集中在较少的维度下进行观察。在一个多维数据集中对两个(及其以上的)维选定维成员的操作可以称为切块。即在(维1,维2,…,维i,…,维k,…,维n,观察变量)多维数据集上,对维i,…,维k,选定了维成员,则(维1,维2,…,维i成员,…,维k成员,…,维n,观察变量)就是多维数据集(维1,维2,…,维i,…,维k,…,维n,观察变量)在维i,…,维k上的一个切块。显然,当i=k时,切块操作就退化成切片操作。例:涉及三个维的切块。条件为:(地点=“南京”

OR“北京”)AND(时间=“Q1”OR“Q2”)AND(类型=“家庭娱乐”OR“计算机”)2、切块Q1Q2Q3Q4计算机安全家庭娱乐电话南京北京上海广州608214403950156440地区(城市)时间(季)类型切块计算机家庭娱乐Q1Q2南京北京605395

在对数据仓库的多维数据集进行显示操作过程中,用户常常希望能将多维数据集改变其显示的维方向,也就是说进行多维数据集的旋转操作。旋转操作可将多维数据集中的不同维进行交换显示,以使用户更加直观地观察数据集中不同维之间的关系。例:类型和地区在一个2-D切片上转动。3、旋转

北京市上海市天津市

2002年1季度12313467

2季度5610373

3季度459859

4季度6687962003年1季度13410273

2季度5613969

3季度239762

4季度5582942002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市6773599673696294广州上海北京南京计算机安全家庭娱乐电话60582514400类型城市广州上海北京南京计算机安全家庭娱乐电话类型城市40014825605旋转

通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集,称为上卷操作。例:在地区维层次向上攀升,在中心数据立方体执行上卷操作。(这个分层被定义为全序:县<城市<州或省<国家)4、上卷Q1Q2Q3Q4计算机安全家庭娱乐电话南京北京上海广州605825144003951560440地区(城市)Q1Q2Q3Q4计算机安全家庭娱乐电话江苏省广东省地区(省)上卷从城市到省

下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。例:沿着年<季<月<天定义的时间维的概念分层向下,在中心数据立方体执行下钻操作的结果。5、下钻150北京南京上海广州1月2月3月4月5月6月7月8月9月10月11月12月时间(月)地区(城市)150100150计算机安全家庭娱乐电话下钻从季到月OLAP的其它操作还有统计表中最高值和最低值的项数,计算平均值、增长率、利润、投资回报率等统计计算。OLAP提供了分析建模机制,包括推导比率、变差等以及跨越多维计算度量的计算引擎。它能在每一粒度级和在所有维的交叉产生汇总、聚集和分层。OLAP也支持预报、趋势分析和统计分析的函数模型。在这种意义下,OLAP是一种强有力的数据分析工具。多维分析-维度维度在数据仓库中主要对用户要读取的指标进行过滤和重新组织。可以将用户对事实的查询结果按照维度指标进行筛选,只允许与维度指标相关的数据返回给用户。维度层级用来描述维度的各个层级。根据维度细节程度的不同,划分数据在逻辑上的等级关系,例如,时间维度包括年、季度、月、日等层次,地区维度包括国家、省、市等层次。用维表来记录多维数据库中的维度,将多维数据立方体的坐标轴上的各个取值记录在一张维表中,这样对于一个n维数据立方体就存在n张维表。多维分析—维度表事实是各个维度的交点,是对某个特定事件的度量。比如客户打,可能选择的度量有通话时长、通话次数和通话费用等;客户购买商品,可能选择的度量有购买的次数、购买商品的金额和购买商品的数量等。六、多维分析—事实事实表用来记录多维数据立方体各个维度的交点的度量值。这样,多维数据立方体各个坐标轴上的刻度以及立方体各个交点的取值都被记录下来,因而多维数据立方体的全部信息就被记录下来。多维数据立方体中所有的度量信息均可记录在同一事

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论