已阅读5页,还剩72页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库中的元数据,元数据:关于数据的数据; 描述数据结构、内容、码、索引等信息。 元数据的重要性 元数据的内容,元数据的重要性,管理人员做分析时,往往先从元数据入手。 例如:从元数据中查广义索引,再进一步搜索 支持数据转换:DB环境的数据DW环境的数据元数据描述“转换”;元数据本身具有良好的灵活性,适应变化。 例如:不同时期,数据结构是变化的 支持对数据仓库中数据的理解 例如:结构、粒度层次、分片策略、索引等,元数据的分类,技术元数据 是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。 商业元数据 从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询、报表;业务的关注点,比如销售量,客户购买情况,维度建模方法,维度建模,维度建模的相关概念 维度建模的基本步骤,多维数据模型,直观的表示现实中的复杂关系 基本组成 维 度量(变量、指标) 立方体,Example:,计算每一个商场,每一产品销售额,产品、商场交叉表,联机分析(OLAP)维度模型,多维数据模型的组成,维(Dimension) 维层次路径、维层次、维成员(维实例)、维层次属性 事实(Fact) 度量(Measure) 数据立方体(Cube),维,维:对数据进行分类的一种结构,以用于从特定的角度观察数据。(例如:时间、地区、产品) 维的两个用途 选择针对期望详细程度的层次的数据 分组对细节数据综合(聚集)到相应的详细程度的数据层次,维,维的组织方式:维层次路径(HIERARCHY ) 维层次路径由代表不同详细程度的维层次(Level)组成。 维的层次:特定角度的不同细节程度,维层级,层级是维度属性组内属性之间的两级或多级结构。高一级的属性(组)构成的维度完全包含低一级的一个或多个属性(组)构成的维度。,事实(度量),度量(指标):数据的实际意义,一般是一个数值度量指标 例如:销售量、销售额, 而具体数据(如“10000”)是变量的一个值 事实: 存储一个多维数据 表达期望分析的主题(目的、感兴趣的事情、事件或者指标等) 具有一定的粒度,粒度的大小与维层次相关 一个事实中通常包含一个或者多个度量 一个度量的两个组件 数字型指标 聚集函数,立方体(CUBE),按照一定维层次结构和度量(事实)的逻辑上的组织 其逻辑上相当于一个多维数组,多维数组,多维数组: 一个多维数组表示为: (维1 ,维2 ,.,维n,变量) 例如: (时间、地区、销售渠道、销售额) 可扩展维数:如 (时间、地区、销售渠道、商品类型、销售额),数据单元(Cell),数据单元(单元格):多维数组的取值 可表示为: (维1维成员,维2维成员,.,维n维成员,变量的值) 例如: (1997年1月,北京,批发,10000),多维分析,多维的切片(slice) 从多维数组选定一个二维子集,切出一个“平面” 多维的切块(dice) 从多维数组选定一个三维子集,切出一个“立方体”,切片,切片和切块,多维分析,旋转 改变一个报告(或页面)显示的维方向,旋转,钻取 根据维层次,改变数据的粒度 “上卷” (roll_up)是指沿某一个维的概念分层向上归约 ; “下钻” (drill_down)是上卷的逆向操作,它是沿某一个维的概念分层向下或引入新的维来实现;,其它OLAP操作 “钻过”(Drill Across)是指对多个事实表进行查询; “钻透”(Drill Through)是指对立方体操作时,利用数据库关系,钻透立方体的底层,进入后端的关系表。 OLAP的其它操作还有统计表中最高值和最低值的项数,计算平均值、增长率、利润、投资回报率等统计计算。,多维数据模型的实现,Relational OLAP (ROLAP)(关系数据库) 利用关系数据库来存储和管理基本数据和聚合数据,并利用一些中间件来支持缺失数据的处理,具有良好的可扩展性 Multidimensional OLAP (MOLAP) 利用多维数据库来存放和管理基本数据和聚合数据,其中需要对稀疏矩阵处理技术 对预综合的数据进行快速索引 Hybrid OLAP (HOLAP) 利用关系数据库来存储和管理基本数据,利用多维数据库来存储和管理聚合数据。,多维数据的组织存放(细节数据),关系数据库中的数据组织,多维数据库中的数据组织,MDB方法的优点(细节数据),清晰简明,占用存储少 性能好,尤其像“冰箱销售总量是多少?”的查询 RDB方法:找出有关“冰箱”的记录,再对销售 MDB方法:找到有关“冰箱”的行,按行求和,多维数据的组织存放(综合数据),RDB中数据组织,MDB中数据组织,MDB方法的优点(综合数据),多维概念表达清晰,占用存储少 对数据进行综合的速度快(只需按行/列累加) 在RDB中,“总和”作为某个域上的取值(属性 值)与列定义语义不符,用关系结构表示多维数据,关系数据库使用广泛,相当成熟 用二维表表达多维概念 用两类表来表示多维结构: 事实表,维表 事实(fact)表 用来存储变量值和各维的码值 维表 用来存储维的描述信息(元数据),包括层次和类等,维度模型,一种非规范化的关系模型 由一组属性构成的表所组成 表与表之间的关系通过关键字和外键来定义 以良好的可理解性和方便的产生报表来进行组织,很少考虑修改的性能 通过MDX或相关的工具实现数据的查询和维护,E-R模型和维度模型,星形模型,Fact Table,每一个事实表通常包含了处理所关心的一系列的度量值 每一个事实表的行包括 具有可加性的数值型的度量值 与维表相连接的外键,事实表(fact table),事实表讨论,假设,以上案例中marketing campaign 维有8个成员,year维度有6个成员,product type维度有4个成员,sales region维有4个成员, buyers age维有6个成员,事实表中的记录数可达到: 8 6 4 4 6 or 4608 rows in the SalesFact table. 度量组(measure group),事实表的特征 非常大 列数较少 经常发生(数据追加)变化 事实表的使用 各类度量值的聚集计算,Dimension Table,每一张维表对应现实世界中的一个对象或者概念 例如:客户、产品、日期、地区 维表的特征 包含了众多描述性的列 通常情况下,跟事实表相比,行数相对较少 内容相对固定,维表的应用 基于维属性的过滤(切片、切块等) 基于维属性的个中聚集操作(上卷、下钻) 报表中各类标签的主要来源 事实表通过维表进行应用,Snowflake Schema Model,Time Table Week_id Period_id Year_id,Dept Table Dept_id Dept_desc Mgr_id,Mgr Table Dept_id Mgr_id Mgr_name,Product Table Product_id Product_desc,Item Table Item_id Item_desc Dept_id,Sales Fact Table Item_id Store_id Product_id Week_id Sales_amount Sales_units,Store Table Store_id Store_desc District_id,District Table District_id District_desc,慢变维(SCD),相对与事实表,维表的内容稳定 新的事务或交易不断产生 新产品的加入却相对较少 新商场的开张更少 有些维度内容尽管变化相当缓慢,但维度属性可能随着时间发生变化 客户地址发生变化 商场根据地域进行分组,或者由于企业重组,地域的划分也随之改变,数据仓库的生成,(Extract)数据的抽取 (Transform)数据的转换 (Clean)数据的清洗 (Load)数据的装载,数据抽取、转换和加载 (ETL),“Effective data extract, transform and load (ETL) processes represent the number one success factor for your data warehouse project and can absorb up to 70 percent of the time spent on a typical data warehousing project.” DM Review, March 2001,抽取、转换和加载(ETL)过程,抽取源数据 转换/清除数据 索引和相加 加载数据到数据仓库 检测修改 更新数据,Operational systems,ETL: 任务、重要性和费用,Operational systems,相关性 实用性 可靠性 准确性 操作性,Data Warehouse,ETL,抽取 清洗 整合 重构 装载 维持 更新,Warehouse database,抽取数据,Source systems Data from various data sources in various formats Extraction Routines Developed to select data fields from sources Consist of business rules, audit trails, error correction facilities,检查源数据,产生 归档的 内部的 外部的,抽取技术,Programs: C, C+, COBOL, PL/SQL, Java Gateways: transparent database access Tools: In-house developed tools Vendors data extraction tools,抽取方法,Logical Extraction methods: Full Extraction Incremental Extraction Physical Extraction methods: Online Extraction Offline Extraction,抽取工具,转换,Transformation eliminates anomalies from operational data: Cleans and standardizes Presents subject-oriented data,转换技术,Merging data Adding a Date Stamp Adding Keys to Data,转换工具,Third-party tools(第三方工具) SQL*Loader(结构化查询语句) In-house developed programs(高级语言自己写程序),加载数据到数据仓库,Loading moves the data into the warehouse Loading can be time-consuming: Consider the load window Schedule and automate the loading Initial load moves large volumes of data Subsequent refresh moves smaller volumes of data,加载技术,Tools(工具) Customized copy programs FTP Manual,数据仓库的使用和维护,DSS应用开发的步骤,数据仓库的使用及维护,理解需求、完善系统 增加主题(如:在商场DW中增加“顾客”主题) 调整粒度层次 增加属性(如对“商品”主题增加“商品档次”属性) DW维护 数据装入(刷新当前详细数据,将过时数据转化为历史数据) 清除不再使用的数据 追加数据(确定刷新频率) 管理元数据,Inmon提出的设计步骤,Data Marts,数据仓库(事实和汇总)数据的一个子集。 BI环境中的大部分分析活动均在数据集市中进行。每个数据集市中的数据通常是为特定的功能(或部门)所定制,不必对其他的使用有效。,Data Warehouses Versus Data Marts,Dependent Data Mart,Independent Data Mart,Sales or Marketing,External Data,案例分析,案例背景,经过三年快速的增长,MAXMIN公司的业务增长了300%,基于原有信息系统的报表系统只能提供细节型的信息,并且难以提供多种视角的灵活分析方式。 同时,在同产品领域的竞争非常激烈,公司为了应对竞争需要进行有效的决策,而现有现有系统架构下难以满足。 基于以上两点,公司决定开发一种真正的商务智能系统。,当前系统,业务需求,基于每天、每台机器、每种产品、每一批次的合格品数量 基于每天、每台机器、每种产品、每一批次的次品数量 基于每天、每台机器、每种产品、每一批次的注塑和固化时间 基于每天、每台机器、每种产品、每一批次的处理和喷绘时间 产品能够按照产品子类别、产品类别进行上卷和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑施工行业安全生产工作总结
- 装饰行业设计培训
- 农业行业市场宣传策略总结
- 医疗行业护士岗位培训总结
- 加工制造行业车间主任培训总结
- 基础设施行业行政后勤工作总结
- 风电行业销售代表工作总结
- 2024年度美容化妆品代理委托服务合同(含品牌合作)3篇
- 教育行业人才招聘与引才策略
- 康复治疗护士年度工作总结
- DZ∕T 0130-2006 地质矿产实验室测试质量管理规范(正式版)
- 2024年高中语文选择性必修下册理解性默写含答案
- 2023北师大版新教材高中数学选择性必修第一册同步练习-全书综合测评
- 人工智能基础题库(含答案)
- 中药鉴定学智慧树知到期末考试答案章节答案2024年中国药科大学
- 中西友谊观差异研究-以《哪吒之魔童降世》和《哈利·波特》为例
- JJG 693-2011可燃气体检测报警器
- 2024-2029年中国水利行业发展分析及发展前景与趋势预测研究报告
- 电表分户申请书范本合集3篇
- 《艺术概论》课件
- 军队公寓住房管理规定
评论
0/150
提交评论