版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六讲数据仓库第1页,共56页,2023年,2月20日,星期三数据库处理的两大应用联机事务处理(OLTP)决策支持系统(DSS)第2页,共56页,2023年,2月20日,星期三数据库处理的两大应用联机事务处理(OLTP)操作型处理,为企业的特定应用服务是对数据库的联机的日常操作,通常是对一个或一组记录的查询和修改人们关心的是响应时间、数据的安全性和完整性决策支持系统(DSS)第3页,共56页,2023年,2月20日,星期三数据库处理的两大应用联机事务处理(OLTP)决策支持系统(DSS)分析型处理,用于管理人员的决策分析经常需要访问大量的历史数据数据仓库+联机分析处理+数据挖掘(DW+OLAP+DM)→DSS第4页,共56页,2023年,2月20日,星期三数据仓库是一个面向主题的、集成的、非易失的(不可修改)且随时间变化的数据集合,用来支持管理人员的决策第5页,共56页,2023年,2月20日,星期三数据仓库的特点面向主题主题是在较高层次上对数据抽象面向主题的数据组织分为两步骤抽取主题确定每个主题所包含的数据内容每个主题在数据仓库中都是由一组关系表实现的集成的数据不可更改随时间变化的第6页,共56页,2023年,2月20日,星期三数据仓库的特点——面向主题第7页,共56页,2023年,2月20日,星期三数据仓库的特点面向主题集成的数据仓库的数据是从原有的分散数据库数据中抽取来的消除数据表述的不一致性(数据的清洗)数据的综合数据不可更改随时间变化的第8页,共56页,2023年,2月20日,星期三数据仓库的特点——集成第9页,共56页,2023年,2月20日,星期三数据仓库的特点面向主题集成的数据不可更改数据仓库的主要数据操作是查询、分析不进行一般意义上的数据更新(过期数据可能被删除)数据仓库强化查询、淡化并发控制和完整性保护等技术随时间变化的第10页,共56页,2023年,2月20日,星期三数据仓库的特点——数据不可更改第11页,共56页,2023年,2月20日,星期三数据仓库的特点面向主题集成的数据不可更改随时间变化的不断增加新的数据内容不断删除旧的数据内容定时综合数据仓库中数据表的键码都包含时间项,以标明数据的历史时期第12页,共56页,2023年,2月20日,星期三数据仓库的特点——随时间变化第13页,共56页,2023年,2月20日,星期三数据仓库的结构OLTP系统RDBMSSybaseVSAMSAP/ERP5-10年过去详细数据当前详细数据轻度汇总数据高度汇总数据数据集市分析型CRM业务指标分析数据仓库数据仓库/决策分析系统EXCEL第14页,共56页,2023年,2月20日,星期三数据仓库的结构数据由操作型环境(综合)导入数据仓库数据具有不同的细节级早期细节级(过期数据)当前细节级轻度综合数据级(数据集市)高度综合数据级第15页,共56页,2023年,2月20日,星期三数据仓库建立的过程第16页,共56页,2023年,2月20日,星期三粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别粒度级越小,细节程度越高,综合程度越低,回答查询的种类越多粒度影响数据仓库中数据量的大小粒度问题是设计数据仓库的一个重要方面双重粒度在数据仓库的细节级上创建两种粒度短期储存的低粒度(真实档案),满足细节查询具有综合的高粒度(轻度综合),做分析第17页,共56页,2023年,2月20日,星期三第18页,共56页,2023年,2月20日,星期三第19页,共56页,2023年,2月20日,星期三分割是指把数据分散到各自的物理单元中去,以便能分别独立处理,提高数据处理效率是粒度之后的第二个主要设计问题两个层次的分割系统层:DBMS,一种定义应用层:开发者,多种定义多种分割的标准日期:最常用的地理位置组织单位…...第20页,共56页,2023年,2月20日,星期三第21页,共56页,2023年,2月20日,星期三数据仓库中的数据组织形式简单堆积轮转综合数据按一定的格式进行轮转的累加简化直接按一定的时间间隔,对数据进行提取,是操作型数据的一个快照连续把新的快照追加到以前的连续数据上去第22页,共56页,2023年,2月20日,星期三数据仓库中的数据组织形式简单堆积每日由数据库中提取并加工的数据逐天积累堆积第23页,共56页,2023年,2月20日,星期三数据仓库中的数据组织形式轮转综合数据按一定的格式进行轮转的累加第24页,共56页,2023年,2月20日,星期三数据仓库中的数据组织形式简单堆积与轮转综合的比较第25页,共56页,2023年,2月20日,星期三数据仓库中的数据组织形式简化直接按一定的时间间隔,对数据进行提取,是操作型数据的一个快照第26页,共56页,2023年,2月20日,星期三数据仓库中的数据组织形式连续把新的快照追加到以前的连续数据上去第27页,共56页,2023年,2月20日,星期三数据仓库的数据追加数据追加数据仓库的数据初装完成以后,再向数据仓库输入数据的过程称为数据追加变化数据的捕获时标法:加标识DELTA法:对更新作记录前后映象法:两次快照的对比日志法:利用DBMS的日志,需改进第28页,共56页,2023年,2月20日,星期三数据库的体系化环境是在一个企业或组织内部,由各面向应用的OLTP数据库及各级面向主题的数据仓库所组成的完整的数据环境操作型环境、分析型环境四层体系化环境操作型环境——OLTP全局级——数据仓库部门级——局部仓库个人级——个人仓库,用于启发式的分析数据集市(DataMart)特定的、面向部门的小型数据仓库是为满足用户特定需求而创建的数据仓库是数据仓库的子集第29页,共56页,2023年,2月20日,星期三数据库的体系化环境第30页,共56页,2023年,2月20日,星期三数据库的体系化环境第31页,共56页,2023年,2月20日,星期三数据仓库的开发生命周期第32页,共56页,2023年,2月20日,星期三数据仓库的基本数据模式星型模式(StarSchema)事实表(facttable),存放基本数据,相关主题的数据主体(BCNF)维(dimension),影响、分析主体数据的因素量(measure),事实表中的数据属性维表(dimensiontable),表示维的各种表维是量的取值条件,维用外键表示以事实表为中心,加上若干维表,组成星型数据模式例:产品-商店-销售额第33页,共56页,2023年,2月20日,星期三数据仓库的基本数据模式CustSalesLocationSalesProdSalesTimeSalesSalestimeid<pk,fk>productid<pk,fk>locationid<pk,fk>customerid<pk,fk>salesrevenueunitssoldProductproductid<pk>makemodelTimetimeid<pk>dateyearquartermonthweekLocationlocationid<pk>regiondistrictstoreCustomercustomerid<pk>categorygroupSalesfactSalesmeasuresTimedimensionAttributesofthe
timedimension第34页,共56页,2023年,2月20日,星期三数据仓库的基本数据模式雪花模式(SnowflakeSchema)维一般是由若干层次组成把维按其层次结构表示成若干个表规范化、节省存储空间但需多做连接操作第35页,共56页,2023年,2月20日,星期三数据仓库的解决方案通用的关系数据库系统专门的数据仓库服务器第36页,共56页,2023年,2月20日,星期三数据仓库系统的体系结构数据仓库层数据仓库工具层最终用户第37页,共56页,2023年,2月20日,星期三数据仓库系统数据仓库居系统的核心地位是信息挖掘的基础数据仓库管理系统是整个系统的引擎负责管理整个系统的运转数据仓库工具一般的查询工具、功能强大的分析工具是整个系统发挥作用的关键第38页,共56页,2023年,2月20日,星期三数据分析模型早期静态数据值的相互比较需求从多个不同的数据源中综合数据从不同的角度观察数据多变的主题、多维数据E-R不能完全支持第39页,共56页,2023年,2月20日,星期三四种分析模型(Codd)绝对模型静态数据分析只能对历史数据进行值的比较,描述基本事实用户交互少解释模型思考模型公式模型第40页,共56页,2023年,2月20日,星期三四种分析模型(Codd)绝对模型解释模型静态数据分析在当前多维视图的基础上找出事件发生的原因思考模型公式模型第41页,共56页,2023年,2月20日,星期三四种分析模型(Codd)绝对模型解释模型思考模型动态数据分析多维分析在决策者的参与下,找出关键变量需要高级数据分析人员的介入公式模型第42页,共56页,2023年,2月20日,星期三四种分析模型(Codd)绝对模型解释模型思考模型公式模型动态性最高的一类自动完成变量的引入工作第43页,共56页,2023年,2月20日,星期三数据仓库系统的工具层查询工具主要是对分析结果的查询很少有对记录级数据的查询验证型工具多维分析工具用户首先提出假设,然后利用各种工具通过反复、递归的检索查询以验证或否定假设发掘型工具从大量数据中发现数据模式预测趋势和行为第44页,共56页,2023年,2月20日,星期三联机分析处理——OLAP是针对特定问题的联机访问和分析。通过对信息的很多种可能的观察形式进行快速、稳定一致和交互性的存取,允许分析人员对数据进行深入观察第45页,共56页,2023年,2月20日,星期三一些概念变量是数据的实际意义,描述数据是什么维是人们观察数据的特定角度维的层次是维在不同细节程度的描述维成员是维的一个取值多层次维的维成员是各层次取值的组合对应一个数据项,维成员是该数据项在该维中位置的描述多维数组可以表示为(维1,维2,……,变量),如(地区,时间,销售渠道,销售额)多维数组的取值称为数据单元(单元格)可以理解为交叉表的数据格第46页,共56页,2023年,2月20日,星期三一些基本操作在多维数组的某一维选定一个维成员的动作称为切片。舍弃一些观察角度在多维数组的某一维上选定某一区间的维成员切块多个切片的叠加旋转是改变一个报告或页面显示的维方向以用户容易理解的角度来观察数据第47页,共56页,2023年,2月20日,星期三基于多维数据库的OLAP——MOLAP以多维方式组织数据(综合数据)以多维方式显示(观察)数据多维数据库的形式类似于交叉表,可直观地表述一对多、多对多的关系如:产品、地区、销售额关系多维多维数据库由许多经压缩的、类似于数组的对象构成,带有高度压缩的索引及指针结构以关系数据库存放细节数据、以多维数据库存放综合数据第48页,共56页,2023年,2月20日,星期三基于关系数据库的OLAP——ROLAP以二维表与多维联系来表达多维数据(综合数据)星型结构事实表,存储事实的量及各维的码值(BCNF)维表,对每一个维,至少有一个表用来保存该维的元数据(多层次、冗余)事实表通过外键与每个维表相联系雪花、星座、雪暴模拟多维方式显示(观察)数据第49页,共56页,2023年,2月20日,星期三MOLAP与ROLAPMOLAP计算速度较快支持的数据容量较小缺乏细节数据的OLAPROLAP结构较复杂以关系模拟多维支持适当细节的OLAP较成熟HOLAP是以上两种的综合第50页,共56页,2023年,2月20日,星期三数据挖掘(DataMining)探测型的数据分析发现信息、发现知识基于人工智能、机器学习、统计学由计算机自动智能地分析数据,获取信息,作出预测或帮助决策需要算法的支持和机器的环境第51页,共56页,2023年,2月20日,星期三数据挖掘的常用方法决策树方法利用信息论中的熵信息,寻找数据库中具有最大信息量的属性字段,建立决策树的节点,再根据该属性字段的不同取值建立树的分支在每个分支子集中重复建立下层节点和分支第52页,共56页,2023年,2月20日,星期三数据挖掘分析方法关联分析为了挖掘出隐藏在数据间的相互关系支持度/置信度作为输入的条件,进行筛选、分析序列模式分析类似与关联分析着重于分析数据的前因后果分类分析对于不同分类的数据进行分析,找出他们的规律、特征聚类分析是分类的逆过程根据数据特征,进行分类第53页,共56页,2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 九年级体育 韵律体操与舞蹈 任选教材教案3
- 安徽省滁州二中高中信息技术《3.1文本信息的加工与表达(2)》教案 新人教版必修
- 2024-2025学年七年级生物上册 3.1.1 藻类、苔藓、蕨类植物教案 (新版)新人教版
- 2024年工程合作方共同承包协议
- 2024年企业采购战略合作项目的价格谈判合同
- 2024年城市轨道交通信号系统升级协议
- 2024年城市公共交通运营合同标的与服务区域
- 2024双方关于共同研发新能源车辆充电设施合同
- 2024年定制毛坯商铺租赁合同模板
- 2023年中国铁路太原局集团有限公司招聘考试真题
- 大工电机与拖动实验报告一
- 小学二年级上册语文部编版课件 纸船和风筝(生字讲解)
- 红色消防安全知识宣传培训课件PPT模板
- 果蔬机械冷藏课件2
- 拼音复习-拼音转盘课件
- 项目进度管理培训(-)课件
- 高考语文 如何读懂诗歌 课件(32张PPT)
- 中压交联电缆电缆正、负和零序计算
- 3C战略三角模型
- 高标准农田建设示范工程质量管理体系与措施
- 学生顶岗实习安全教育课件
评论
0/150
提交评论