版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3讲数据仓库中的数据及组织1数据仓库产生的原因数据处理的类型操作型处理(OLTP):数据的收集、整理、存储、查询和增、删、改操作。分析型处理(OLAP):数据的再加工,往往要访问大量的历史数据,进行复杂的统计分析。2数据仓库的四个基本特征:数据仓库的数据是面向主题的(SubjectOriented);数据仓库的数据时集成的(Integrate);数据仓库的数据不可更新(Non-Volatile);数据仓库的数据时随时间不断变化(TimeVariant)的。
数据仓库的基本概念3数据仓库的体系结构4数据库和数据仓库两层体系结构(DB-DW)并不能涵盖企业所有的数据处理要求。某些应用既不是纯粹的联机事务处理,又不是高层决策分析。什么是ODS5ODS的定义及特点定义:是用于支持企业日常的全局应用的数据集合。ODS中的数据具有4各基本特征:面向主题的、集成的、可更新的、数据是当前或接近当前的。ODS中只存放当前或接近当前的数据,并且可以进行联机修改,包括增、删、改等操作。6DW与ODS面向不同的用户、不同的需求,都有其不可替代的作用,彼此间不是相互包含的,同时两者又可以相互结合、相互补充。DBDBDBODSDW应用操作型环境分析型环境三层体系结构73.1数据仓库中的数据组织3.2数据仓库中数据的追加3.3数据仓库中的元数据8数据仓库中存储两类数据:业务数据和元数据3.1数据仓库中的数据组织9数据仓库的体系结构10数据仓库中存存储的数据3.1数据仓仓库中的数据据组织后备数据后备数据后备数据高度综合级轻度综合级当前细节级早期细节级元数据11源数据经过过抽取、转转换后,首首先进入当前细节级级,再根据具具体需要进进行进一步步的综合,,从而进入入轻度综合级级乃至高度综合级级。老化的数据据进入早期细节级级。3.1数据据仓库中的的数据组织织12数据组织的的实例3.1数据据仓库中的的数据组织织数据仓库层后备数据后备数据后备数据高度综合级轻度综合级当前细节级早期细节级2015每“月”电话呼叫情况信息2015每“天”电话呼叫情况信息2015每个电话呼叫情况信息2010~2014电话呼叫明细情况信息131)数据粒粒度数据粒度是是数据仓库库的重要概概念。存在在两种形式式,形式一:粒度是对数数据仓库中中数据的综综合程度高高低的一个个度量。粒度越小,,细节程度度越高,综综合程度越越低。14不同的情况况组织数据据的粒度会会不同。如:电信通话细节数据::记录每一次通话情况。。轻度综合数数据:记录录顾客每天的通话情况况。高度综合数数据:记录录顾客每月的通话情况况。1)数据粒粒度15超市购物细节数据::记录顾客客每一次购物细节。。轻度综合数数据:记录录每个顾客客每次的购物物金额,或每种商商品每一天的销销售数据。高度综合数数据:记录录每个顾客客每月或每年年的购物金额额,或每种种商品每月或每年年的销售数据据。1)数据粒粒度161)数据粒粒度数据粒度的的确定是业业务分析、、硬件、软软件的一个个折中。在数据仓库库中多重粒度是必不可少少的171)数据粒粒度数据粒度是是数据仓库库的重要概概念。存在在两种形式式,形式二:样本数据库库,其粒度度是根据采样率的高低来划划分的。盖洛普民意意测验是一一种观点的的民意测验验,其特点点是用简单单的随机取取样法并且且试图把偏偏差度保持持在最低。。182)数据分分割数据分割是是数据仓库库中的另一一个重要概概念。它是指将数数据分布到到各自的物物理单元中中,以便能能分别独立立处理,提高数据分分析效率。数据分割后后的数据单元称称为分片。19MySQLMySQLMySQLMySQLMySQLMySQLMySQLMySQLMySQLMySQLMySQLMySQLMySQL202)数据分分割数据分割的的标准可以以根据实际际情况来确确定,通常常选择:按按日期、地地域、业务务领域等来来进行。212)数据分分割数据分割的的方法垂直分割::垂直分割割就是把一一个表垂直直分成两部部分。水平分割::水平分割割就是把表表按行分成成两部分。。22AppIDMEMBE_IDINFO1pavarotti17…11pavarotti17…MySQLIDMEMBE_IDINFO4test1234…5test1234…IDMEMBE_IDINFO3abcd…9abcd…20abcd…MySQLMySQLCobar
ProxyAppAppAppAppAppAppApp2)数据分分割232)数据分分割一个简单的的分割例子子。243.1数数据仓库中中的数据组组织3.2数数据仓库中中数据的追追加3.3数数据仓库中中的元数据据253.2数据据仓库中数数据的追加加当数数据据仓仓库库的的数数据据初初装装完完成成以以后后,,再再向向数数据据仓仓库库输输入入((导导入入))数数据据的的过过程程称称为为数据据追追加加。如何何能能够够确确切切地地感感知知究究竟竟哪哪些些数数据据是是在在上上一一次次追追加加过过程程以以后后新新生生成成的的,,这这项项工工作作称称为为变化化数数据据的的捕捕捉捉。26需要对源数据据库的数据模模式加以修改改,加上时标字段。对新插入或更更新的数据记记录,在记录录中加更新时时的时标。1)时标法27由应用生成的的文件,用来来记录应用所所改变的数据据内容。在要被抽取的的源表上建立立插入、修改改、删除3个个触发器,每当源表中中的数据发生生变化,相应应的触发器将将变化的数据据写入一个增增量日志表。。2)DELTA文件28在上次抽取数数据库数据到到数据仓库之之后及本次将将抽取数据库库数据之前,,对数据库分分别做一次快快照,然后比比较两幅快照照的不同。缺点:需要占用大大量资源,影影响系统性能能。3)前后快照照文件的方法法29通过分析数据据库自身的日日志来判断变变化的数据。。优点:提取的变化数数据只局限于于日志文件,,不需扫描整整个数据库。。4)日志文件件303.1数据据仓库中的数数据组织3.2数据据仓库中数据据的追加3.3数据据仓库中的元元数据313.3数据仓仓库中的元数数据传统数据库中中为了说明数数据引入了数数据字典的概概念。数据字典是描描述数据的数数据。32元元数据的定义义元数据:是用来描述数数据的数据。。它描述和定定位数据组件件、它们的来来源及它们在在数据仓库进进程中的活动动;关于数据据和操作的相相关描述(输输入、计算和和输出)。33元元数据的定义义其主要目标是提供数据资资源的全面指指南,使得数数据仓库管理理员和开发人人员可以方便便地了解数据据仓库中有什么数据?数据在什么地地方?它们来源于于哪里,以及及数据仓库系系统中是如何利用这些数据?如如何管理这些些数据?34与元数据产生生、存储有关关的工具:数据抽取工具具:完成ETL操作。前端展现工具具:实现把关关系表映射成成与业务相关关的事实表和和维表来支持持多维业务视视图,进行多多维分析。建模工具:提提供更高层次次的、与特定定业务相关的的语义。元数据存储工工具:用于将将元数据存储储在专门的数数据库中。元元数据的定义义35元元数据的分类类元数据可以按按多种方式分分类:按用户分类按功能分类361)按使用元元数据的用户户分类按使用元数据据的用户分类类:技术元数据::是关于数据据仓库系统技术细节的描述数据,,是数据仓库库开发人员和和管理人员需需要使用的重重要信息。主主要包括数据据仓库结构的的描述等。业务元数据::从业务角度描述数据仓库库中的数据,,它提供了介介于使用者和和实际系统之之间的语义层层定义,使得得不懂计算机机技术的业务务人员也能够够理解数据仓仓库中的数据据。373.按功能分分类按功能分类::数据源元数据据ETL规则元元数据ODS元数据据和DW元数数据报表元数据接口数据文件件格式元数据据商业元数据1)按使用元元数据的用户户分类38元元数据管理的的标准化元数据在数据据仓库系统中中占有十分重重要的地位,,但是目前工工业界的各种种数据仓库管管理和分析工工具却常常使使用不同的元元数据标准,,使得元数据据管理、不同同系统之间的的迁移、数据据交换变得困困难。迫切需要建立立一种统一的的标准,使得得不同数据仓仓库和商务智智能系统之间间可以相互交交换元数据。。从而产生了基基于元数据联联盟(MetaDataCoalition,MDC)和OMG组织的相关关元数据标准准。391)MDC的的OIM标准准背景MDC成立于于1995年年。致力于建立于于厂商无关、、不依赖于具具体技术的企企业元数据管管理标准的非非营利技术联联盟。有150多个会员员。提出了开放信信息模型(OpenInformationModel,OIM)。1999年7月接受微软软的建议,将将OIM作为为元数据标准准。401)MDC的OIM标准准OIM标准准的目目的通过公公共的的元数数据信信息来来支持持不同同工具具和系系统之之间数数据的的共享享和重重用。。它涉及及信息息系统统的各各个阶阶段。。采用UML描述述。412)OMG组织织的CWM标准准背景对象管管理组组织((英文文ObjectManagementGroup,,缩写写为OMG),,是一一个国国际协协会,,开始始的目目的是是为分分布式式面向向对象象系统统建立立标准准,现现在致致力于于建立立对程程序、、系统统和和业业务流流程的的建模模标准准,以以及基基于模模型的的标准准。有500多多个会会员。。提出了了公共共仓库库元模模型((CommonWarehouseMetamodel,CWM)。。422)OMG组织的CWM标准准CWM标准准的目的异构环境下下,帮助
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年北京市射线应用研究中心有限公司招聘备考题库完整答案详解
- 2026年中核大地生态科技有限公司招聘备考题库及完整答案详解1套
- 2026年天水市麦积区桥南社区医院招聘备考题库带答案详解
- 2026年中山市古二村招聘备考题库及完整答案详解一套
- 2026年国机海南发展有限公司招聘备考题库及答案详解1套
- 2026年临朐县柳山中心卫生院公开招聘工作人员备考题库附答案详解
- 2026年庆阳市扬黄工程庆西管理所泵站运行工招聘备考题库完整答案详解
- 2026年右江区阳圩镇达江卫生院公开招聘编外聘用人员备考题库附答案详解
- 2026年国电投置业(雄安)有限公司招聘备考题库及参考答案详解
- 2026年天津市机电工艺技师学院公开招聘派遣制社会化工作人员21人备考题库及答案详解一套
- 剪纸艺术文化中国民间传统民族文化教学介绍知识演示课件两篇
- 2023年巡检员岗位考试真题模拟汇编(共113题)
- 七下长江全能学案
- 2023年浙江省宁波市人才服务中心招聘5人笔试历年难、易点深度预测(共500题含答案解析)模拟试卷
- 康明斯M11发动机教学课件
- 2023年首都医科大学附属北京安贞医院专项招聘医学类人员及高层次卫技人才历年试题常考点甄选答案带黑钻解析
- 最全的封头尺寸及重量自动计算
- JJG 1162-2019医用电子体温计
- GB/T 6070-2007真空技术法兰尺寸
- GB/T 18400.6-2001加工中心检验条件第6部分:进给率、速度和插补精度检验
- 铁路机车车辆电力机车课件
评论
0/150
提交评论