数据仓库基本概念培训_第1页
数据仓库基本概念培训_第2页
数据仓库基本概念培训_第3页
数据仓库基本概念培训_第4页
数据仓库基本概念培训_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库入门江苏电信EDA介绍目录从数据库到数据仓库数据仓库的理论基础基本概念和基本结构、关键技术数据模型的基本介绍理论概述、设计模式中国电信企业数据模型概述江苏电信主要系统数据模型对比维度模型理论概述江苏电信EDA现状数据仓库的诞生数据仓库的起因数据库方式数据仓库方式数据与应用分离,以实现数据高度共享、支持日常业务处理过程为目的(OLTP)以支持经营管理过程中的决策制定为目的(DSS,OLAP,DM)20世纪90年代之前20世纪90年代之后1970年Edgar.Codd《大型共享数据库数据的关系模型》1991年BillInmon《BuildingtheDataWarehouse》数据仓库起因“数据太多,信息不足”的现状异构环境的数据源事务处理环境不适宜DSS应用事务处理和分析处理的性能特性不同数据集成问题历史数据问题OLTP处理操作型处理也叫事务处理,是指对数据库的日常联机访问操作,通常是对一个或一组记录的查询和修改,主要是为企业特定的应用服务的,所以也叫联机事务处理(On-LineTransactionProcessing,简称OLTP)通常仅仅是对一个或一组记录的查询或修改;执行频率高;人们关心的是处理的响应时间、数据的安全性和完整性等指标。OLAP处理分析型处理OLAP也叫做信息型处理,主要用于企业管理人员的决策分析,为制订企业的未来经营管理计划提供辅助决策信息。需要对大量的事务型数据进行统计、归纳和分析;需要访问大量的历史数据;执行频率和对响应时间的要求都不高。典型的的分析型处理决策支持系统(DSS--DecisionSupportSystem

)MPP(MassivelyParallelProcessing)SMP(SymmetricMultiProcessing)对称多处理系统优点:大并发量小数据量交互大规模并行处理系统优点:小并发量大数据量计算IO瓶颈很难突破无法线性扩展SMP和MPP数据分析与数据仓库在现代计算机信息系统中,数据的作用有两个方面:事务处理和分析处理(数据分析),不同的用户(处理)需要不同的数据信息。操作型数据事务处理所需要的细节性的数据,是面向企业员工的日常业务处理过程的,通常由数据库管理系统来负责其存储与管理。分析型数据分析处理所需的综合性数据,是面向企业管理人员的决策需要的。数据分析与数据仓库特性操作型数据(DB)分析型数据(DW)定位面向应用的事务处理面向主题的数据分析DB设计E-R模型星型/雪花模型,数据立方体数据当前的、最新的历史的,具有时间跨度汇总原始的,细节的集成的,一致的视图详细的,关系的总体的,多维的操作类型读/写(易变的)读(稳定的)存取请求可预知的事先未知的访问记录一次操作少量记录一次操作大量记录DB规模100MB~GBTB工作单位短的,简单事务复杂查询性能要求对性能要求高对性能要求较宽松数据分析与数据仓库数据仓库的定义W.H.Inmon在《建立数据仓库》一书中,对数据仓库的定义为:数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,用于支持经营管理过程中的决策制定。数据仓库的基本结构一个完整的数据仓库的体系结构一般由三个层次组成,它们是:

数据源(ETL)数据仓库数据集市(DataMart)三者之间通过数据仓库管理软件联系起来构成一个完整的数据体系。数据仓库的基本结构数据仓库管理软件ORACLESYBASESQLServer文件……数据集市数据集市数据集市建模数据仓库元数据管理ETL……数据仓库系统的基本结构整个数据仓库系统由数据源、数据仓库(DW)、仓库管理和分析工具四部分组成。数据仓库系统的三层结构数据仓库的关键技术数据的抽取数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据仓库涉及的工具Informatica:ETLDataStage:ETL数据库的脚本工具(存储过程,Perl脚本,JDBC程序。。。)数据仓库的关键技术存储和管理数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外的数据表现形式。数据量很大并行处理针对决策支持查询的优化支持多维分析的查询模式Teradata,DB2,Oracle,SybaseIQ数据仓库的关键技术数据的表现多通过第三方的工具软件来完成BusinessObjectsCognas自己开发(java,flex…)其它展现形式:Excel表格,查询语言展示BusinessInformationAdministrationTransformationToolsBusinessSubjectAreasBusinessViewsMetadataElementsMappingsBusinessViewsTemplatesDataWarehouseOperational&ExternalDataDesign元数据的作用元数据的作用早期的数据仓库概念仅仅提供一个多数据源的数据集成功能,为最终用户访问多个数据源提供统一的数据视图和访问接口,数据仓库的作用仅仅表现为:数据集市(DATAMART)统一的数据模式统一的数据表示统一的数据属性否则,在网络环境中,即使存在多个可用的数据源,但最终用户可能仍然得不到什么可用的信息。建立数据集市的原因数据仓库是一种反映主题的全局性数据组织。但是,全局性数据仓库往往太大,在实际应用中将它们按部门或个人分别建立反映各个子主题的局部性数据组织,它们即是数据集市。因此,有时我们也称它为部门数据仓库。数据集市(DATAMART)商品采购数据集市库房使用数据集市商品销售数据集市例:在有关商品销售的数据仓库中可以建立多个不同主题的数据集市:数据仓库与数据集市的关系类似于传统关系数据库系统中的基表与视图的关系。数据集市的数据来自数据仓库,它是数据仓库中数据的一个部分与局部,是一个数据的再抽取与组织的过程。建立数据仓库与数据集市的过程可以有两条途径,这实际上是反映了一个完整的企业级数据仓库的建立过程:数据集市(DATAMART)从全局数据仓库到数据集市从数据集市到全局数据仓库

数据仓库和数据集市自顶向下的结构数据仓库和数据集市自顶向下的结构LocalDataMartExternalDataLocalDataMartOperationalDataEnterpriseWarehouse构建企业数据仓库公共中央数据模型数据再加工减少冗余和不一致性搜集历史的、细节的、全局的数据基于企业数据仓库构建数据集市选定企业模型下的部门主题聚集数据建立集市数据对企业数据仓库的依赖关系数据仓库和数据集市自顶向下的结构优点建立数据集市能够减轻DW访问负载各部门可以任意处理数据数据转换和整合在DW阶段统一完成数据缓冲功能缺点成本高、见效慢、数据集市间不共享资源数据仓库和数据集市自底向上的结构数据仓库和数据集市自底向上的结构构建数据集市划定主题区快速实施,本地自治易于复制数据再加工允许一定的冗余和不一致基于数据集市构建企业数据仓库确定各数据集市的可用性模型的合并消除不同数据集市之间的数据不一致性LocalDataMartOperationalData(Global)&ExternalDataOperationalData(Local)OperationalData(Local)LocalDataMartEnterpriseWarehouse数据仓库和数据集市自底向上的结构优点见效快、启动资金少

缺点各个部门都要进行数据清理整合可能造成“蜘蛛网”、数据不一致等问题并且总体上没有节约资金

数据仓库和数据集市总线结构的数据集市数据仓库和数据集市总线结构的数据集市特点不建立数据仓库而直接建立数据集市各个数据集市不是孤立的,相互之间通过一种共享维表和事实表的“总线结构”紧密联系在一起。(如下图)数据仓库和数据集市总线结构的数据集市优点共享维表和事实表,解决了建立数据集市的许多问题缺点这种结构基于多维模型,应用限制于OLAP多个数据源直接影响多个集市造成结构不十分稳定TDW的客户化方法自顶向下BLevel12业务驱动跨OSS/BSS的数据源采样,元数据逆向工程并映射到TSDMB-Level主题域。跟踪B-Level到C’Level,在需要时创建新的TDWM子类型和属性.BLevel自底向上数据

驱动客户化BSTBLevel范围C’TDWMExtC’OSSC’TDWM客户化BST12C’TDWM客户化TDWM到BST模板的映射。SOR参照表映射到BST维度;SOR事件映射到监控单元和BST度量指标。客户化BLevel范围推导出C’LevelTDWM客户化。维度映射到到SOR参照表;度量指标映射到SOR事件子类和监控单元汇总。根据需要创建新的TDWM子类型和属性。客户化多个不同的B-LevelBST模板。维度定义了B-Level的范围.数据仓库和数据集市企业级数据集市结构数据模型的理论概述数据模型的基本介绍数据模型与业务数据模型的首要目标:满足业务需求。建模是业务需求具体化的过程。对特定业务活动进行的描述往往不止一种通常只有一种描述方法是最符合业务需求现实世界计算机世界关系数据模型E.F.Codd(1970)大型共享数据库数据的关系模型关系就是表(表描述了关系)关系模型的数据理论基础具有固定的稳定性关系模型的关键原理是:关系不包含重复数据、且记录之间没有顺序规范化的重要性规范化–

(1NF,2NF,3NF)原理:按照严格的逻辑要求,将不同的数据组织在一起,使它们成为结构化的信息。重要性:使混沌变得有序规范化的重要基础是:模型必须具有原子性合理规范化的模型可应对需求变更规范化使数据重复降至最少第一范式1NF确保原子性避免多个值塞进同一个字符串高效搜索能力和由DB保证的数据正确性所有属性都具有原则性、且确定了键,就是1NF了业务主键–

系统主键反例:程控业务编码串(一位字母表示一种)第二范式2NF检查对键的完全依赖性(主键是多字段时)去除只部分依赖键的属性后,表就符合2NF为了消除键的部分依赖性,必须建立新表反例:汽车型号、行驶里程、厂商、座位数第三范式3NF检查属性独立性除了唯一键包含的属性之外,不能根据任何其他属性确定一个属性的值,就是3NF故意不满足3NF,例如维度模型反例:电话号码、身份证号、客户名称建模过程中的注意点MakingEasyThingsEasy&HardThingsPossible(产品的属性)平衡:设计不足与设计过度过于灵活的危险(对象、属性、关联)子类型的使用不要受到OO技术的影响空值的使用一定要清楚它的危险(排序等)必须考虑到处理数据的方式(事务、批量)历史数据的难题(如何体现变化的过程)数据模型的基本介绍数据模型设计模式规格Specification--以数据定义数据以数据定义数据,能迅速适应业务变化和满足新的业务要求规格数据:描述业务对象应该是怎样,包括对象具有什么属性、属性如何取值、该类对象与其它类型对象的关系以及该类对象本身之间的关系等等。就像图纸。实例数据:描述某个业务对象的实际信息。就像按照图纸生产出来的产品。当新需求出现时,我们修改配置数据而不是修改数据结构和程序规格Specification--以数据定义数据举例规格的使用产品规格电话ADSL服务规格本地通话长途通话来电显示Internet接入……产品属性上行速率下行速率……接入号码类型普通电话号码宽带虚拟号款待接入帐号……产品服务84338239本地通话84338239长途通话84338234来电显示84338234闹钟服务……产品属性属性值B0000123上行速率512B0000123下行速率1000B0000124上行速率512B0000124下行速率2000……规格数据实例数据抽象AbstractSuperclass

——求同忽略细节上的差异,关注对象的本质特性简化功能和信息简化与其他实体的关联抽象的使用封装Encapsulation

——存异于有限的范围内隐藏对象内部的信息分离对象的外部行为和内部实现封装的使用CRM资源系统关系与角色Relation&Role

——分清本质与关联将对象间的关系独立描述,进一步提高了模型的稳定性和可扩展性角色类型能够区别不同种类的关联实例化的角色将对象的固有信息和关系性信息分离例如:产品间存在担保、捆绑支付等关系,我们通过关系+关系角色类型来描述;参与人与产品之间的关系,我们通过实例化的参与人角色以及这些角色之间的关系来描述。关系与角色Relation&Role

——分清本质与关联3个层次上对关系的描述关系与角色的使用组合Composite

——保持一致对外组合使得该类型实体可以通过一个单点与其他实体发生关联组合抽象了个体(individual,如:电话)、组装(assemblies,如:虚拟网)、集合(collections,如:全家福),使得这些不同的情况对外可以有一致的表述组合Composite

——保持一致对外组合的另一面——描述选择日常工作和生活中我们每天面临很多选择,小至食堂选菜、大至系统架构的选择BSS中也有很多需要描述的选择,例如:选择一个产品上所开通的服务、选择一个套餐的购成方案等等问题在于:这些选择如何能够用数据模型精确地描述?选择举例组合产品对事物的分类目录–

对规格进行分类分段(标签)–

对实例进行分类避免混淆“属性”和“分类”中国电信企业数据模型概述企业数据模型演进历程回顾企业数据模型1.02003年南京电信负责EDM的试点2004年主要完成设计参与人、产品、帐务、市场营销、事件和地域6个主题域企业数据模型2.02005年主要完善参与人、产品、帐务等6个主题域,完成资源和财务主题域建模工作企业数据模型3.02007年主要完善参与人、产品、帐务、市场营销、事件和地域BSS部分6个主题域NGOSSSIDTeradatacLDM7.0CTG-EDM服务通过网络实现/网络支持服务网络产生事件/事件包括网络类产品被销售给客户/参与人使用和管理产品跟踪应付&应收/提供成本&收入历史事件包含财务类参与人产生和经历事件/事件包括参与人的产品/服务产生事件

事件包括产品类营销产生事件事件实现营销营销被锁定位置/位置定位营销针对特定产品/产品通过营销推向市场为参与人建立帐户、帐单/记录帐户、成本和付款服务使用的帐务信息/帐务记录产品的成本和付款定位网络/网络支持的位置营销的目标针对参与人/参与人是营销的受众包括消费者和运营商在内/

位置定位FinanceManagement(财务管理)BILLING(帐务)NETWORK(网络资源)PRODUCT(产品)MARKETING(市场营销)LOCATION(地域)PARTY(参与人)EVENT(事件)跟踪总帐/负责EDM的定位企业目标业务规律企业级概念数据模型企业级逻辑数据模型系统概念数据模型系统逻辑数据模型系统物理数据模型业务需求技术实现企业级系统级遵照参考细化/基于EDM企业数据模型作用企业级概念数据模型(CDM)企业级逻辑数据模型(LDM)

统一企业重要业务概念,作为业务人员之间以及业务人员和系统人员之间沟通的桥梁。

以数据字典为基础,制定企业级信息分类标准,如产品目录、帐目类型、客户分类、会计科目等

在建设运营支撑系统时作为其逻辑数据模型设计的重要参考

在建设数据仓库时,直接作为运营数据仓储、数据仓库数据统一层的逻辑数据模型,整合来自不同源系统的数据

在系统整合时,作为系统之间信息交换标准的参考

描述了整个企业信息数据的完整模型,包含了数据实体定义、属性、描述以及实体与实体间关系的描述。

定义重要的业务概念和彼此的关系,如客户、产品、帐务、合作伙伴、网络资源、渠道、营销活动等。企业数据模型建模思路CDMLDMCDM把体现重要业务概念的对象实体和关系突出出来,重点描述,便于分析和管理CDM侧重于业务逻辑,会把重要的业务概念展开出来描述,确保概念详细LDM侧重于系统实现,可能会把CDM中展开的多个实体归并到一个通用对象中表现,确保系统简洁CDM的业务概念指导LDM的设计LDM的设计和实施经验也会促进CDM的改进和完善中国电信企业数据模型企业数据模型CDM/LDM示例客户客户评估属性信用度贡献度忠诚度满意度服务等级积分CDMLDM客户特性类型特性值客户属性概念名称概念定义/描述概念说明和使用规则客户是指已经订购中国电信销售品或可能订购中国电信销售品的个人或组织。客户包括潜在客户、在网客户和离网客户。客户具有一定的生命周期,潜在客户订购中国电信销售品后成为在网客户,在网客户注销了所有销售品后成为离网客户。离网客户再次订购销售品后成为在网客户;在网客户有较为完整的客户信息,可关联到产品实例、账户等信息。离网客户在中国电信留有较为完整的客户信息,从历史信息记录中可以查询得到产品实例信息、账户信息等。潜在客户在中国电信可能存在客户信息。。。产品电信产品简称产品,是电信企业可销售给客户,利用企业资源提供的实物或通信功能、信息、服务的单元(如无特殊说明,一般指中国电信提供的产品)。企业资源是电信企业所拥有、管理或使用的对企业运营有价值的生产要素的统称,包括整合合作伙伴的资源信息是电信企业提供的用语言、文字、数字、符号、图象、声音等方式传递的信号和消息。比如中国电信提供的歌曲、影视等内容类信息。服务是电信企业以人力为主可以向客户独立提供的一种可销售的劳动活动。“独立”意味着客户在不拥有任何电信产品情况下就可以提供。比如中国电信向客户提供的咨询、培训类服务;向中国网通客户提供的装机服务。信息可复制,服务不可复制,服务的结果可以复制。产品可以是功能、信息、服务的综合体。比如IT的集成方案,电信提供IT集成的过程是服务,集成的方案是信息。对于这样的综合体,我们依据客户认知的主体来划分其产品分类。。。示例企业数据模型设计框架分解分解CRM与计费系统融合时的设计原则企业级数据模型CRM数据模型计费数据模型数据模型交集部分参与人产品帐务地域定价市场营销事件资源财务参与人主题域客户相关实体、关系以CRM为准,结合计费的需求,细化和完善客户相关模型合作伙伴、竞争对手等实体、关系等,以CRM为准帐务主题域帐务关系定制相关实体,CRM与计费融合定价相关的实体、关系以计费模型为准,基本保持不变账目、余额等实体、关系以计费模型为准,基本保持不变产品主题域统一CRM与计费的产品、销售品概念,统一CRM与计费产品、销售品粒度产品域CRM与计费的数据模型融合地域主题域细分各自地域划分需求,明确实体概念模型层面交叉部分实现融合事件主题域CRM关心客户交互过程,计费关心计费内部业务事件和使用记录重点考虑客户交互事件市场营销主题域计费系统不直接涉及市场营销过程管理重点考虑CRM业务需求核心概念-产品规格核心概念-销售品规格继承和完善销售品体系修改关键点明确基础类销售品及套餐类销售品的分类,以及相互之间的关系梳理销售品和定价计划之间的关系,使得销售品成为售卖和定价的中介基础类销售品是只有一个能独立提供通信功能的产品和所有必须依赖它提供通信功能的产品或只有一个信息、服务、实物产品提供组合、定价、包装而成,不含优惠资费的销售品。套餐类销售品通常是指对单个或多个产品进行组合、包装和重新定价,以一个整体提供给既定目标客户群的销售品。销售品是中国电信以营销为目的,按照一定的市场策略,对产品进行组合、定价、包装后形成的可直接提供给客户选择的销售单元。JS.CRM–EDM3.0可组合产品实例销售品实例实例化实例化包装/销售包含/构成可组合销售品规格产品规格可组合服务规格包含/构成产品实例客户类服务实例实例化包含/构成实例化包装/销售OFFERING产品规格资源类服务实例支持/依赖PROD_2_PP资费计划资费计划江苏电信主要系统数据模型CRM-BILL数据模型产品实例产品规格商品与资费计划帐户ODS的产品实例产品实例PRODUCTPROD_IDPROD_SPEC_IDOWNER_IDSERVSERV_IDAGREEMENT_IDCUST_IDPRODUCT_IDPROD_SPECPROD_SPEC_IDPRODUCTPRODUCT_IDPRODUCT_CODEPRODUCT_CLASSIFICATION(=10A)参见下页产品实例产品规格产品规格只有少数组合产品(虚拟网、专线等)存在对应PROD_SPEC(单产品)PROD_SPEC_IDCOMP_PROD(=N)PROD_SPEC(组合产品)PROD_SPEC_IDCOMP_PROD(=Y)PRODUCTPRODUCT_IDPRODUCT_CODEPRODUCT_CLASSIFICATION(=10A)SERV_SPECSERV_SPEC_IDSERV_SPEC_TYPE_CD商品(单产品)PROD_2_PPPROD_2_PP_IDPRICE_PLAN_CDPROD_IDPRODUCT_OFFER_INSTANCEPRODUCT_OFFER_INSTANCE_IDCUST_IDCUST_AGREEMENT_IDPRODUCT_OFFER_IDPRODUCT_OFFER_INSTANCE_DETAILPRODUCT_OFFER_INSTANCE_IDINSTANCE_TYPE(=10A)INSTANCE_ID商品(套餐)PROD_2_PPPROD_2_PP_IDPRICE_PLAN_CDPROD_IDPRODUCT_OFFER_INSTANCEPRODUCT_OFFER_INSTANCE_IDCUST_IDCUST_AGREEMENT_IDPRODUCT_OFFER_IDPRODUCT_OFFER_INSTANCE_DETAILPRODUCT_OFFER_INSTANCE_IDINSTANCE_IDINSTANCE_TYPE(=10A)COMP_PRODCOMP_PROD_IDSUB_PROD_IDBSS侧的组合产品实例在BILL侧没有对应的SERV套餐商品1:N1:N资费计划(销售品)PRICE_PLANPRICE_PLAN_CDNAMEPRODUCT_OFFEROFFER_IDPRICE_PLAN_IDNAMEINTF.B2C_PROD_OFFER_SPEC_PRICEPROD_OFFER_SPEC_CDPRICE_PLAN_CD计费私有的销售品没有对应关系PRICE_PLANPRICE_PLAN_CDNAMEPRODUCT_OFFEROFFER_IDPRICE_PLAN_IDNAMEINTERFACE.TIF_PRODUCT_OFFER_MAP

PRICE_PLAN_CDOFFER_ID计费私有的销售品没有对应关系,计费的一个销售品可能对应多个BSS的资费计划账户PRODUCTPROD_IDACCOUNTACCT_IDACCT_CDPARTY_IDACCT_NAMEPROD_ACCOUTPROD_IDACCT_IDCHARGE_ITEM_CD(=0)SERVSERV_IDACCTACCT_IDACCT_NBR_97CUST_IDACCT_NAMESERV_ACCTSERV_ACCT_ID(KEY)SERV_IDACCT_IDSTATE(=10A)ITEM_GROUP_ID(=1)ODS中产品实例:ODS_PRODUCTPROD_ID主键同CRM的主键ODS_CITY本地网标识分区的依据ODS_CREATE_DTODS_MODIFY_DTMAIN_STATUS_CD主状态开通、拆机BUSI_STATUS_CD业务状态除主状态以外的AN_SUB副接入号例如宽带帐号PROD_RELA_6线路共享产品IDADSLCHANNEL_ID受理渠道…

…维度模型理论概述数据仓库中的数据模型“Inmon”派和“Kimball”派之争。Inmon提倡完全按照3NF的要求设计“决策支持系统使用的数据仓库”。Kimball认为应该用“维度模型”取代3NF模型。目前kimball理论在众多的中小数据仓库项目中发展非常迅速。先后数据集市还是先有数据仓库?对比InmonKimball模型种类ER模型/3NF维度模型适应业务变化能力很强较弱查询效率较低很高易于理解度较低较高数据冗余度较低较高适应面很宽较窄维度模型维度模型经常违反3NF。维度模型的内容来自于3NF模型中的数据。维度模型要求专门面向读操作而设计,所以经常忽略关系设计的规则。维度模型比事务型模型简单,业务人员更容易理解和使用。维度模型是种技术而不是理论维度模型可以容忍地毯式索引-只

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论