版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
--商业数据的分析、挖掘和应用华东师范大学出版社数据库和数据仓库数据仓库设计数据集市商业信息仓储设计商业智能数据库和数据仓库数据库概念:数据库(Database)是依照某种数据模型组织起来并存放二级存储器中的数据集合。这种数据集合具有如下特点:尽可能不重复;以最优方式为某个特定组织的多种应用服务;其数据结构独立于使用它的应用程序;对数据的增、删、改和检索由统一软件进行管理和控制。从发展的历史看,数据库由文件管理系统发展起来的,它是数据管理的高级阶段。数据库建设的必要性:1.劣质信息要付出成本 2.难以辨别企业最有价值的客户 3.由于不准确的单据,难以对收入进行追踪
4.优质信息将带来明显的好处数据库管理系统数据库管理系统之于数据库,就如同文字处理软件之于文件,或电子表格软件之于电子表格。一个是信息,而另一个是人们用来操作这些信息的软件。优势数据仓库概念:
1990年比尔·恩门(Bill
Inmon)提出了数据仓库(Data
Warehouse)的概念。数据仓库是一个面向主题的(Subject
Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time
Variant)的数据集合,用于支持管理决策。传统数据库到数据仓库数据库与数据仓库的区别从数据量来说,数据仓库要比数据库更庞大得多在为应用服务的过程中,数据库与数据仓库往往要结合使用。5.2.1
相关概念1.三层结构三层体系结构,是在客户端与数据库之间加入了一个中间层。三层体系结构的应用程序将业务规则、数据访问、合法性校验等工作放到了中间层进行处理。通常情况下,客户端不直接与数据库进行交互,而是通过与中间层通讯建立连接,再经由中间层与数据库进行交互。5.2.1
相关概念表示层(Browser)中间层(WebServer)数据层
(DBServer)表示层位于客户端,一般没有应用程序,借助于Javaapplet、Actives、Javascript、vbscript等技术可以处理一些简单的客户端处理逻辑。中间层是用户服务和数据服务的逻辑桥梁。它负责接受远程或异地的用户请求,对用户身份和数据库存取权限进行验证,运用服务器脚本,借助于中间件把请求发送到数据库服务器(即数据层),把数据库服务器返回的数据经过逻辑处理并转换成HTML及各种脚本传回客户端。数据层位于最底层,它负责管理数据库,接受Web服务器对数据库操纵的请求,实现对数据库查询、修改、更新等功能及相关服务,并把结果数据提交给Web服务器。2.三级模型和二层映射数据库的设计有一个严谨的体系结构,即:三级模式,它包括外模式、概念模式、内模式。三级模式有效地组织、管理数据,提高了数据库的逻辑独立性和物理独立性。数据库管理系统在这三级模式之间提供那个了两层映像:
外模式/模式映像,模式/内模式映像。数据仓库的生成05数据字典和元数据06物理模型设计04总体分析设计01逻辑模型设计03概念模型设计021.总体分析设计①确定研究内容这一环节主要是明确要研究的内容,即要研究的问题,围绕该问题所需要的数据和信息及如何获得这些信息等方面问题进行研究。②确定主题这一步中,需要根据所研究的内容确定相应的主题,并尽可能明确主题之间的关系。以企业为例,当企业在选择促销商品的时候,它可能考虑的主题包括:商品、顾客、供应商。其中商品主题包含商品编号、商品名称、价格、库存、产品、颜色、大小等;顾客主题包含顾客编号、年龄、姓名、性别、职业等;供应商主题包含供应商编号、供应商所在地、供应商品编号、供应商品名称等。在这三个主题中,一个供应商可以供应多种商品,一种商品可以由多个供应商供应,供应商主题和商品主题之间的联系就是商品供应关系;一位顾客可以买多种商品,一种商品可以被多个顾客购买,商品主题和顾客主题之间的联系是购买关系;顾客主题和供应商主题之间没有直接关系,它们之间的关系是通过商品来实现的。③技术环境准备在这一阶段,一般包括两个步骤:a)要根据要处理的问题来确定数据仓库的各项性能指标。一般情况下,需要在这一步里确定的性能指标包括:管理大数据量的能力;进行灵活数据存取的能力;根据数据模型重组数据的能力;数据发送和接收的能力;周期性成批装载数据的能力;可设定完成时间的作业管理能力。b)要根据上面的各项性能指标来确定相应的软硬件配置。2.概念模型设计将总体分析设计中得到的用户需求抽象为计算机表示的信息结构,即概念模型。它是从客观世界(用户)到计算机世界的一个中间层次,即用户需求的数据模型。概念模型常用的表示方法是实体-关系法(E-R图法),这种方法用E-R图作为描述工具。3.逻辑模型设计逻辑模型设计描述了数据的形式,是数据仓库需求部分的重要文档,是数据仓库细化的准备工作。主要包括以下几方面内容:⑴分析主题域主题域是对某个主题进行分析后确定的主题集合的边界。选择第一个主题域所要考虑的是它要足够大,以便使得该主题域能建设成为一个可应用的系统;它还要足够小,以便于开发和较快的实施。如果所选择的主题域很大并且很复杂,可以针对它某个有意义的子集来进行开发。在每一次的反馈过程中,都要进行主题域分析。⑵粒度层次划分数据粒度是指数据仓库的数据中保存数据的细化程度或综合程度的级别。细化程度越高,粒度级别就越小;相反,细化程度越低,粒度级别就越高。数据仓库逻辑设计中要解决的一个重要问题是决定数据仓库的粒度划分层次,粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型。通过估算数据行数和所需的直接存取存储设备数,来确定是采用单一粒度还是多重粒度,以及粒度划分的层次。⑶确定数据分割策略在选择数据分割的标准时,一般要考虑以下几个方面因素:数据量、数据分析处理的实际情况、简单易行以及粒度划分策略等。数据量的大小是决定是否进行数据分割和如何分割的主要因素。数据分析处理的要求是选择数据分割标准的一个主要依据,因为数据分割是跟数据分析处理的对象紧密联系的。⑷关系模式定义数据仓库的每个主题都是由多个表来实现的,这些表之间依靠主题的公共码键联系在一起,形成一个完整的主题。在概念模型设计时,已经确定了数据仓库的基本主题,并对每个主题的公共码键、基本内容等做了描述,接下来就要对选定的当前实施的主题进行模式划分,形成多个表,最终确定各个表的关系模式。与概念模型设计中的E-R图相对,逻辑模型设计中需要将其转化为逻辑模型,主要包括星形模型、雪花型模型。⑴星形模型用星形模型来表示逻辑模型,设计简单,容易被用户理解。星形模型主要包含两部分:指标实体和维度实体。指标实体是位于星形模型中间的实体,它是用户最关心的实体,为用户的商务活动提供定量的数据,指标实体用矩形表示。维度实体是位于星形模型角星上的实体,其作用是限制用户的查询结果,用菱形表示。⑵雪花型模型雪花型模型是星形模型的进一步细化。与星形模型相比,雪花模型增加了一个详细类别实体,详细类别实体代表维度内的一个单独层次,用结束符号表示。4.物理模型设计物理模型设计主要是确定数据的存储结构,确定索引策略,确定数据存放位置,确定存储分配。要实现数据仓库的物理模型,设计人员必须做到以下几点:a)全面了解所选用的数据库管理系统,特别是存储结构和存取方法。b)了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等,这些事对空间和时间效率进行平衡和优化的重要依据。c)了解外部存储设备的特性,如分块原则、块大小的规定、设备的I/O特性等。根据这些要求,所做的工作包括以下四点:⑴确定数据的物理存储结构⑵确定索引策略⑶确定存储分配5.数据仓库的生成这一环节主要是把数据放入数据仓库中,并进行接口的设计,一旦完成,就可以在其上建立数据仓库的应用。⑴设计接口将操作型环境下的数据装载进数据仓库环境,需要在两个不同环境的记录系统之间建立一个接口。在这一过程中,还要考虑到物理设计的一些因素和技术条件限制,根据这些内容,严格地制定规格说明。⑵数据装入在这一步里所要进行的就是运行接口程序,将数据装入到数据仓库中。主要的工作是:①确定数据装入的次序。②清除无效或错误数据。③数据粒度管理。④数据刷新等。数据仓库生成完后数据是稳定的,但并不是一成不变的,而是要根据需求在使用过程中不断地维护和更新。6.数据字典和元数据严格来说,这并不是建立数据仓库的一个步骤,而是建立数据仓库过程中所要涉及的特殊数据。数据字典是数据库中各类数据描述的集合,通常包括数据项、数据结构、数据流、数据存储和处理过程五个部分,其中数据项是数据的最小组成单位,若干个数据项可以组成一个数据结构,数据字典通过对数据项和数据结构的定义来描述数据流、数据存储的逻辑内容。⑴数据项数据项是不可再分的数据单位。对数据项的描述通常包括数据项名、数据项含义说明、数据类型、长度、取值范围、取值含义等。⑵数据结构数据结构反映了数据之间的组合关系。一个数据结构可以由若干个数据项组成,也可以由若干个数据结构组成。数据结构的描述通常包括数据结构名、含义说明、数据项等。⑶数据流数据流是数据结构在系统内传输的路径,对数据流的描述通常包括数据流名、说明、数据流来源、数据流去向、平均流量等。其中“数据流来源”用于说明该数据流来自哪个过程。“数据流去向”用于说明该数据流将到哪个过程去。“平均流量”是指单位时间(如每天)里的传输次数。⑷数据存储数据存储是数据结构保存数据的地方,数据存储的描述通常包括数据存储名、说明、编号、输入的数据流、输出的数据流、数据量、存取频度、存取方式。其中“存取频度”指每小时或每天或每周存取几次、每次存取多少数据等信息。“存取方式”包括是批处理还是联机处理、是检索还是更新、是顺序检索还是随机检索等。另外,“输入的数据流”要指出其来源,“输出的数据流”要指出其去向。“输出的数据流”要指出其去向。⑸处理过程处理过程一般用判定表或判定树来描述。数据字典中只需要描述处理过程的说明性信息,通常包括处理过程名、说明、输入、输出、处理。其中“处理”主要说明该处理过程的功能及处理要求。可见,数据字典是关于数据库中数据的描述,而不是数据本身。数据字典是数据库的元数据。元数据(MetaData)被定义为关于数据的数据(DataaboutData)。目前,元数据这一术语实际用于各种类型信息资源的描述记录。元数据在数据仓库中是描述数据仓库中数据及其环境的数据。元数据在数据仓库中不仅定义了数据仓库有什么,还指明了数据仓库中信息的内容和位置,刻画了数据的抽取和转换规则的说明,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的,如数据的修改、跟踪、抽取、装入、综合以及使用等。由于元数据遍及数据仓库的所有方面,因此它已成为整个数据仓库的核心。数据仓库的元数据共包含有四类元数据,除对数据仓库中数据的描述(数据字典)外,还有以下三类元数据:①关于数据源的元数据②关于抽取和转换的元数据③关于最终用户使用数据仓库的元数据数据库的诞生是一次变革,让数据的存储变得便捷而有序,发展出的数据仓库技术又是一次变革,让数据的价值通过整理和分析更加得以发挥。数据集市是由数据仓库发展而来,某种层面上讲,它是属于企业某个部门的小型数据仓库,强化了一部分功能,拥有更专业的目的。虽然数据集市比企业的数据仓库应用范围更小,包含数据更少,但是进一步支撑了所属部门的数据处理和信息获取能力,是一次体系结构上的巨大进步,是对“大而全”目标反向思考的成功结果。对于部门而言,了解和应用数据集市,并将其与企业数据仓库整合,可能比单纯的使用数据仓库更有效。概述:数据集市(DataMarts),作为一种更小、更集中的数据仓库,为公司提供了一条分析商业数据的廉价途径,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案。是满足部分特殊用户群体用来收集、管理他们本部门、本专业信息的数据仓库。数据集市数据集市的几个特征:⑴面向部门,由部门定义、设计和开发,也由部门来管理和维护。数据集市面向部门的,这就要求它的整个实施过程需要由部门来主导,才能达到更贴近部门需求,提高部门实力的效果。⑵规模小,便于实施,购买较便宜,投资快速回收。数据集市相对数据仓库的规模较小,能够快捷的设立,发挥作用,产生的效益能够较快的覆盖为设立数据集市付出的投资。⑶提供更详细的、预先存在的、数据仓库的摘要子集,可升级到完整的数据仓库。无论如何,数据集市的数据和功能都是数据仓库的一个子集,并不拥有数据仓库的全部,一些公司通过先行建立数据集市再完善成数据仓库,这绝对是可以做到的,尽管一些专家认为这可能导致后生成的数据仓库整体性不够而产生问题。5.3.3关于商业集市的误区数据集市是一个数据分支子集,它可以从一个数据仓库中找到,或者是为一个单独业务单元提供决策支持而建立的。甚至企业的大部分战略都可以由数据集市来完成,在这个过程中制定行动方针。但是,在建立一个数据集市之前,企业应该知道几个关于数据集市的不切实际的看法。⑴单纯用数据量大小来区分数据集市和数据仓库用大小来判断一个企业是在实施数据仓库还是数据集市的做法是很片面的。尺寸大小不是数据集市的本质特征,真正的问题在于,数据集市(它可能是一个数据仓库的子集)的数据模型一定是满足应用的特定需求的。⑵简单地理解数据集市容易建立数据集市的确比数据仓库的复杂程度低一些,因为它只针对某一需要解决的特定的商业问题,但是围绕数据获取的很多复杂问题并没有减少。数据集市要从多个数据源中提取数据,这个过程很耗时,因为这个过程与建立一个数据仓库一样,需要相同的计划和管理,并且需要把数据模型化。⑶数据集市很容易升级成数据仓库事实上,数据集市针对特殊的业务需要,不可能很容易地伸缩。如果没有事先扩展数据模型,追加数据是非常困难的。例如,一个数据集市可以很快找到最畅销款式的鞋的销售数字,为了增加关于这种鞋的信息,比如新顾客的百分比,就需要新的数据模型,这种数据集市的扩充是困难的。一个组织为何要构建数据集市呢?虽然OLTP和遗留系统拥有宝贵的信息,但是可能难以从这些系统中提取有意义的信息并且速度也较慢。而且这些系统虽然一般可支持预先定义操作的报表,但却经常无法支持一个组织对于历史的、联合的、“智能的”或易于访问的信息需求。因为数据分布在许多跨系统和平台的表中,而且通常是“脏的”,包含了不一致的和无效的值,使得难于分析。数据集市将合并不同系统的数据源来满足业务信息需求。若能有效地得以实现,数据集市将可以快速且方便地访问简单信息以及系统的和历史的视图。一个设计良好的数据集市将会:发布特定用户群体所需的信息,且无需受制于数据来源系统(如业务数据库)的大量需求和操作性危机。支持访问非易变的业务信息(非易变的信息是以预定的时间间隔进行更新的,并且不受OLTP系统进行中的更新的影响)。调和来自于组织里多个运行系统的信息,比如账目、销售、库存和客户管理以及组织外部的行业数据。通过默认有效值、使各系统的值保持一致以及添加描述以使隐含代码有意义,从而提供净化的数据。通过提供对于遗留系统和OLTP应用程序的选择来减少对这些应用程序的要求,以获得更多所需信息。5.3.5
建模一般数据集市模型的建设是在数据仓库的基础上基于需求分析得到的结果,数据集市的建模主要针对事实表和维表的设计。例如,部门员工关系表,如果事实表包含部门编码,则数据可以分析到部门;如果事实表又包含员工编码,则数据既可以分析到部门,又可以分析到员工。一张事实表除了包含所要分析的维度编码外,还包括需要分析的度量值。例如,用户用电分析事实表,它的主题描述就是按地区、时间、电压等级统计用户的耗电量、应收电费,并进行同期对比;它的维度就是地区、时间、电压等级,度量值包括耗电量、应收电费等;指标来源就是数据仓库中的计费结果表、用户基本信息表。维表一般采用增量的方式进行抽取。2006年,中国移动决定将数据集市作为移动地市级公司的建设重点之一。电信行业对于数据仓库并不陌生,为了实现从产品导向往客户导向的转变,电信公司纷纷建立以客户为中心的数据仓库,希望依据客户的需要、期望及喜好来制订策略,提升
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024装修合同范本版
- 个人仓库租赁协议样本
- 小学食堂食品供应合同
- 2024年冷链车运输合同
- 校企合作框架协议书范例
- 2024售楼处物业服务合同(物业)
- 2024英文股份合同范本英文股份合同
- 2024个人装修房屋合同范本
- 2024《铝合金门窗合同》
- 机动车辆交易协议文本
- 2024年公安机关人民警察高级执法资格考试试卷含答案(案例分析题 论述题)
- Unit8WXYZ(课件)牛津自然拼读Level1
- (高清版)DZT 0341-2020 矿产地质勘查规范 建筑用石料类
- 幼儿园教师教育教学能力
- 家长社群运营与家校沟通策略
- 护理液体挂错不良事件
- 2024年法律知识法治建设知识竞赛-残疾人保障法知识竞赛笔试历年真题荟萃含答案
- 继承优良传统弘扬中国精神 (模板)
- 学校筑牢安全防线
- 碳毡石墨毡全球市场研究报告 - 2024 年至 2030 年产业分析、规模、份额、成长、趋势与预测
- 2024年太原幼儿师范高等专科学校高职单招(英语/数学/语文)笔试历年参考题库含答案解析
评论
0/150
提交评论