版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
BIDW概念1数据仓库及其BI概念共136页,您现在浏览的是第1页!数据仓库概念2数据仓库及其BI概念共136页,您现在浏览的是第2页!知识模块分解此次课程涵盖下面的模块:模块1: 数据仓库-概述以及数据仓库和OLTP(联机事务处理)的对比模块2: 数据仓库架构模块3: ETL过程模块4: 数据仓库和数据集市的对比,以及数据仓库概念模型模块5: OLAP(联机分析处理)概述模块6: 数据仓库成功的诀窍33数据仓库及其BI概念共136页,您现在浏览的是第3页!包含的主题本模块提供需要数据仓库的原因什么是数据仓库数据仓库的发展过程数据仓库架构数据挖掘如何和数据仓库共同工作的使用数据仓库的好处为什么需要一个分离的数据仓库?OLTP和数据仓库之间的区别44数据仓库及其BI概念共136页,您现在浏览的是第4页!BI-简而言之55RawData数据仓库及其BI概念共136页,您现在浏览的是第5页!数据,数据无处不在。然而…我找不到我所需要的数据数据分散在网络上的各个地方数据存在多个版本,其中有细小的差别我不能获取我所需要的数据需要一个专家来获取数据我无法理解所找到的数据可得到的数据,但对应的文档说明很糟糕我无法使用所找到的数据结果不是期望的数据需要从一种形式转换到另外一种形式6数据仓库及其BI概念共136页,您现在浏览的是第6页!什么是数据仓库?数据仓库的目标,是利用组织里的数据,更加有效地辅助决策过程.数据仓库是收集组织后的数据集合。它容易通过分析、抽取、合并,进而被用来进一步理解数据。它可以与收集数据来进行即时处理的业务系统进行对比,如订单和付款事务处理,尽管其数据也可能成为数据仓库的一部分。数据仓库是一个集成的中央数据库,包含来自于组织内的所有操作型数据源和归档系统。它包含了事务处理系统数据的拷贝、特别是用于查询分析的结构化数据。77数据仓库及其BI概念共136页,您现在浏览的是第7页!什么是数据仓库?
是一个将数据转换成信息、使其能及时供最终用户使用的过程。DataInformation8数据仓库及其BI概念共136页,您现在浏览的是第8页!数据仓库
数据仓库是
面向主题的集成的时变的(随时间变化的)非易失的易得到的
数据集合,主要用于组织里的决策制定。
--BillInmons,BuildingtheDataWarehouse19969数据仓库及其BI概念共136页,您现在浏览的是第9页!数据挖掘和数据仓库数据仓库是企业的数据存储数据挖掘是挖掘出企业数据中的知识10数据仓库及其BI概念共136页,您现在浏览的是第10页!为什么要分离出数据仓库?性能操作型数据库设计,应用于已知事务和工作量的场合对于操作型系统来说,进行复杂的OLAP查询会使其性能下降。对多维视图和查询,需要特殊的数据组织方式,读取方法,实施方案。功能遗失数据:决策支持需要历史数据,而操作型数据库并不保存它数据整合:决策支持需要整合(聚合,汇总)来自多个异构数据源(操作型数据库,外部数据源)的数据数据质量:不同数据源经常使用不一致的数据表现形式、代码、格式,需要统一它们11数据仓库及其BI概念共136页,您现在浏览的是第11页!那么,二者的区别是什么?12数据仓库及其BI概念共136页,您现在浏览的是第12页!对比OLTP和
数据仓库OLTP面向应用的用来运行事务处理详细的数据当前最新数据孤立的数据重复访问操作人员数据仓库(DSS)面向主题的用来分析业务汇总和精炼的数据快照数据集成的数据即席查询知识用户(管理者)13数据仓库及其BI概念共136页,您现在浏览的是第13页!总的来说...OLTP系统用来“运行”事务处理数据仓库用来帮助“优化”业务14数据仓库及其BI概念共136页,您现在浏览的是第14页!测验1._____是数据仓库的面向一个主题的视图 OLTP系统/DataStagingArea/DataMart/None2.数据挖掘意味着_____Modeling/Forecasting/ExplanatoryAnalysis3.订单输入系统是一个OLTP系统的例子
True/False4.数据仓库的并发用户数量不是很多
False/True5.数据抽取是_____________过程A.从数据源获取信息/数据,并将其变成可用于数据仓库B.将抽取的数据加载到数据仓库C.BothDataMartForecastingTrueTrueBoth15数据仓库及其BI概念共136页,您现在浏览的是第15页!架构,设计&构造数据仓库架构加载及更新结构/模型integration*intelligence*insight16数据仓库及其BI概念共136页,您现在浏览的是第16页!
数据仓库架构业务系统信息转换/集成架构外部系统企业数据仓库财务数据集市独立的销售数据集市
非独立的市场数据集市
非独立的网络服务器外部客户备份服务局域网客户17数据仓库及其BI概念共136页,您现在浏览的是第17页!数据仓库架构通用的两类架构独立的数据集市数据集市和操作型数据存储
这两个层次的架构都会涉及到数据的抽取,转换及加载(ETL)18数据仓库及其BI概念共136页,您现在浏览的是第18页!独立数据集市数据集市:小型数据仓库,范围有所限制ETL每个独立的数据集市必须单独进行ETL数据获取复杂是由于存在多个数据集市造成的19数据仓库及其BI概念共136页,您现在浏览的是第19页!数据和维度可在多个数据集市之间共享
通用的两类架构
独立数据集市
非独立数据集市简要概述各个数据集市之间数据存储相互独立
20数据仓库及其BI概念共136页,您现在浏览的是第20页!ETL过程模块321数据仓库及其BI概念共136页,您现在浏览的是第21页!抽取阶段分析源数据,选择抽取工具抽取数据一般要用源系统的语言编写代码(例如PL/SQL,VBScript,或者COBOL)。抽取工具能够自动生成源系统的代码。使用抽取工具比手工编写简单的多。需要预处理和在加工过程。例如,在抽取阶段前,可能需要对数据排序或者调用一个含有某种规则的函数处理数据。22数据仓库及其BI概念共136页,您现在浏览的是第22页!加载阶段插入语句会生成日志建议批量加载
全量刷新数据前应清空目标表
索引管理
删除,重建索引23数据仓库及其BI概念共136页,您现在浏览的是第23页!抽取数据抽取过程从遗留数据系统或其他数据源系统抽取数据。完成抽取后,数据被放在临时存储区,在临时存储区将做数据的清洗。源数据可能来自单个的数据源或多个数据源。如果源数据是多个数据源,那么需要使用专门连接多个数据源的连接器。如果数据来自单个数据源,那么它可以是OLTP系统或文本文件。详细抽取过程
24数据仓库及其BI概念共136页,您现在浏览的是第24页!抽取数据手工编码可以节省成本,因为PL/SQL是数据库系统已经提供的只有当程序员很了解数据的体系结构的时候,才使用手工编码方式抽取数据25数据仓库及其BI概念共136页,您现在浏览的是第25页!抽取技术变化数据抽取仅仅新近插入或者修改的源系统数据才被抽去或者加载到仓库中。由于传输的数据少,这种方法使用的网络负载很小。这种方法需要复杂的代码来确定,什么时候新数据记录要被插入到数据仓库,和什么时候数据仓库数据记录需要被更新。抽取方法26数据仓库及其BI概念共136页,您现在浏览的是第26页!抽取数据源系统平台和数据库.工具能在所有类型的计算机平台上,访问所有的数据源可调用的抽取组件或可重用功能使用可调用的抽取模块或可重用功能,可降低数据抽取过程里的技术难度。选择抽取工具的标准
27integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第27页!integration*intelligence*insight数据转换28数据仓库及其BI概念共136页,您现在浏览的是第28页!数据质量的重要性数据质量:
在数据转换阶段之前,数据的质量问题就应该被关注。一旦完成数据转换之后,目标数据仓库中的数据应该尽可能少地进行改动,这样可以减少源数据和目标数据的不一致性。
29数据仓库及其BI概念共136页,您现在浏览的是第29页!确保数据质量数据质量工具,可以帮助数据仓库开发团队定位和更正数据错误.
源数据或目标库数据都可以更正。但是当仅仅对数据仓库里的数据进行更正时,容易发生数据的不一致,这属于数据的同步问题。30数据仓库及其BI概念共136页,您现在浏览的是第30页!转换转换:
数据抽取完成后,需要将数据进行转换。抽取的数据放在数据准备区,在这里将完成数据的转换,如数据清洗操作等。在转换阶段,使用清洗工具完成数据的转换。转换后,数据将放到传输区。31integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第31页!integration*intelligence*insight数据转换的问题和解决方法为了确保数据被正确加载,有如下几种解决方法交叉统计检查一种数据质量的标准模板,可通过比较模版中的规范,确定数据正确与否。.人工检查选择某种取样方式对数据进行采样,之后对样例进行人工检查。过程验证生成验证脚本,这些脚本可以确定错误数据,将错误数据隔离开来。32数据仓库及其BI概念共136页,您现在浏览的是第32页!integration*intelligence*insight转换技术标准化:将数据标准化,在个别数据上应用数据标准和规则,来提高源数据库和目标库的一致性。SystemAOrderDate05August2007SystemBOrderDate08-08-07SystemAOrderDateAugust052007SystemBOrderDateAugust08200733数据仓库及其BI概念共136页,您现在浏览的是第33页!integration*intelligence*insight转换工具一些转换工具:ApertusCarleton.Enterprise/Integrarot.DataMirror.TransformationServer.Informatica.PowerMartDesigner.34数据仓库及其BI概念共136页,您现在浏览的是第34页!数据加载加载数据到数据仓库里创建加载过程加载数据加载数据的后续处理35integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第35页!数据加载到仓库源数据
临时存储区数据仓库抽取加载36integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第36页!构建加载过程我们可以使用下列方式进行数据加载:PL/SQL脚本SQLLoader处理平面文件ETL工具37integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第37页!SourceA–partASourceC–partCSourceB–partBABCABC分析操作用户视图抽取转换交易数据分类构建数据仓库38integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第38页!ETL工具
OracleWarehouseBuilder–
关键特性方便易用-图形界面.向导驱动界面.通过通用仓库建模(CWM)集成元数据.兼容Oracle8i.可使用预定义的转换库39integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第39页!元数据定义数据仓库的元数据元数据的开发策略元数据的类型检查元数据管理工具通用数据仓库元数据40integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第40页!元数据元数据是对数据的综合和概括元数据提供数据项的格式和名称元数据提供数据的上下文.提供数据值的取值范围数据元素之间的关系数据的业务规则数据的来源
41integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第41页!这是将抽取得到的数据,转换成指定格式的过程要点概述
这是从遗留系统或其他数据源抽取数据的过程.转换后的数据加载到数据仓库中
ETL过程
抽取数据
转换数据
加载数据
构建仓库技术
抽取技术
转换技术
加载技术ETL工具元数据及其重要性元数据是关于数据的数据。它对于转换数据来讲是很重要的。42integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第42页!对比数据仓库和数据集市模块443integration*intelligence*insight43integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第43页!数据集市数据集市是:企业的一个功能片断,具有有限的安全性、地域空间、性能或业务范围,采用和数据仓库一致的建模方法和信息交付方法。44integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第44页!自顶向下法45integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第45页!混合法46integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第46页!星型模型的例子
time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_streetcountrylocationSalesFactTable
time_key
item_key
branch_key
location_key
units_sold
dollars_sold
avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch47integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第47页!事实星座的例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_streetcountrylocationSalesFactTabletime_keyitem_key
branch_key
location_key
units_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_key
item_key
shipper_key
from_location
to_location
dollars_cost
units_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper48integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第48页!测验1.那种数据仓库模式,规范化维表以减少数据冗余?StarSchemaSnowflakeSchema2.数据集市经常有多个主题域?
True/False3.在事实星座里,有多个事实表共享相同的维表?False/True4.一个企业级数据仓库,可以通过合并数据集市来建立?False/True5.下面哪个是数据仓库的切入点?theentrypointsintheWarehouse1.Facttables2.DimensionTablesSnowFlakeSchemaFalseTrueTrueDimension49数据仓库及其BI概念共136页,您现在浏览的是第49页!OLAP–定义OLAP–联机分析处理OLAP
可以让分析人员、管理人员和主管人员能够快速、一致和交互地去访问信息的各个方面,从而深入了解数据.OLAP转换原始数据,使其可以按照用户理解的方式,从维度上反应企业的真实情况.50数据仓库及其BI概念共136页,您现在浏览的是第50页!数据仓库vs.OLAPOLAP侧重于将数据转化成信息,以满足最终客户的分析需求数据模型和计算过程是一致的OLTP和
数据仓库提供源数据,而OLAP将数据转成信息integration*intelligence*insight51数据仓库及其BI概念共136页,您现在浏览的是第51页!OLAP–功能OLAP通常可采用C/S模式在多用户环境下应用,不管数据库的数据量和复杂性,能对查询提供一致快速的响应OLAP通过比较、个性化的查看,以及在各种“模拟”数据模型假设下,透彻的分析历史和预测数据,从而帮助用户综合业务信息52数据仓库及其BI概念共136页,您现在浏览的是第52页!OLAP
功能需求灵活性
展示方式:图形,图表,行或者列定义:数值的格式,命名更改分析:销售人员分析数据,而不于市场人员界面:
不同内容分节展示的报表外观integration*intelligence*insight53数据仓库及其BI概念共136页,您现在浏览的是第53页!OLAP–特征维度显示立方体或者维度的能力层次公式或者链接integration*intelligence*insight54数据仓库及其BI概念共136页,您现在浏览的是第54页!OLAP–层次聚合是层次的基础层次是维度的一个属性,它提供了将数据聚合在一起的一种方式.维度层次时间维具备层次的形式–年,期间,季度,月和周单一维度可以有多个层次产品组,客户组等等,可以在同一个维度上进行不同的卷积已售产品可能是被批量销售或者零售的.integration*intelligence*insight55数据仓库及其BI概念共136页,您现在浏览的是第55页!多维分析多维数据存储维度和变量汇总数据计算支持integration*intelligence*insightWk1Wk3Wk256数据仓库及其BI概念共136页,您现在浏览的是第56页!多维分析异常和趋势报表哪项费用低于预算5%或更多,同时超过总费用的2%?显示在过去6个月里趋势为负的所有费用过去52周里,费用组合如何变化的?integration*intelligence*insightExpenseSuppliesTravelQtr1Qtr3Qtr21201151236075739287106DivisionADivisionCLaborDivisionB57数据仓库及其BI概念共136页,您现在浏览的是第57页!基础数据模型是一样的integration*intelligence*insightKEYSCentralMonthWestEastJanTentsCanoesRacquetsRegionDIMENSIONSFebMarSALES58数据仓库及其BI概念共136页,您现在浏览的是第58页!派生的度量值integration*intelligence*insightUNITS3Q1Q2Q3Q4Q1Q2Q3Q4Q1Q2Q3Q4SALES64183UNITS*PRICE=SALESTentsCanoesRacquetsSportswearFootwearTentsCanoesRacquetsSportswearFootwear23PRICE2TentsCanoesRacquetsSportswearFootwearNewYorkBostonPhiladelphia59数据仓库及其BI概念共136页,您现在浏览的是第59页!内置函数样例integration*intelligence*insight财务函数DepreciationGrowthRateNetPresentValueInternalRateofReturn数值/时间序列函数AverageCumulativeSumsLag/LeadVarianceMovingAverage/TotalSmallest/LargestStandardDeviationTotal其他函数ForecastingRegression...或者创建你自己的用户自定义函数60数据仓库及其BI概念共136页,您现在浏览的是第60页!多维OLAP(MOLAP)使用专门的数据结构和多维数据库管理系统(MD-DBMSs)来组织,操纵
和分析数据.数据通常按照预想的用途来进行聚合和存储,从而增强查询性能.integration*intelligence*insight61数据仓库及其BI概念共136页,您现在浏览的是第61页!关系型OLAP(ROLAP)快速发展的OLAP技术。采用元数据层支持RDBMS产品,有利于建立关于二维关系的多维视图,这就可以避免建立静态的多维数据结构。integration*intelligence*insight62数据仓库及其BI概念共136页,您现在浏览的是第62页!OLAP的架构integration*intelligence*insightWOLAP–基于WEB的联机分析处理WOLAP,或基于WEB的OLAP,用户可以采用浏览器来进行OLAP操作。业务经理们都说这种结合有强大的功能。采用Web进行展示交付,加上OLAP的商务智能工具,可以使众多的业务分析人员从中受益。例如:63数据仓库及其BI概念共136页,您现在浏览的是第63页!OLAP–FASMI测试Fast:更快的用户响应时间Analytical:系统可以满足所有的业务逻辑和统计分析方法,并且不需要编程来实现Shared:支持并发访问Multidimensional:数据视图应全面支持层次关系Information:包括所有数据和必要的派生数据64integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第64页!
数据仓库最佳实践模块665integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第65页!成功构建数据仓库的建议从天开始,要树立这样一个概念,数据仓库是用户和实施人员一起合作才能完成的项目确保维护数据质量,是需要用户和实施人员不断努力、共同承担的责任用户培训需要分阶段、循序渐进地进行通过培训,让用户了解数据仓库包含的数据来自:LarryGreenfeld,pwp.starnetinc./larryg/index.html66integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第66页!如何建造一个成功的数据仓库配合网络管理员,调节由于系统运转可能引起的网络负载不均衡问题处于困境的时候,向其他做过类似项目的开发人员咨询,获得建议
注意一些小的,具有战略意义的工程开拓市场,并推销你的仓库系统67数据仓库及其BI概念共136页,您现在浏览的是第67页!数据仓库设计的陷阱一些事务处理系统作为仓库的数据源,没有包含详细数据许多终端用户接受了培训,但是很少应用,甚至不用系统在终端用户获得查询或报表工具之后,需要预先生成的报表的需求可能会增加数据仓库用户可能提出互相矛盾的业务规则大规模数据仓库的建造过程就是一个数据均质化的过程68数据仓库及其BI概念共136页,您现在浏览的是第68页!流行的BI/DW工具OracleLDMs&DatabaseOracleWarehouseBuilderOracleDiscoverer&OracleReportingBIBeans&JOLAPAPIMicrosoftDatabaseSQLServerAnalysisServicesSQLServerReportingServicesSQLServerIntegrationServicesTeradataRedbrickHyperionEssbaseOracleExpressServerInformaticaAbinitioAnyDatabaseSQLLanguageoranyotherProgrammingLanguageCognosBISuiteBusinessObjects&CrystalMicrostrategyActuateHyperion/Brio(AcquiredbyHyperion)SAPBWPeoplesoftEPMEmbarcaderoSuiteErwinCognosPerformanceAppsPlanning&Budgeting全套工具报表工具ETL工具数据库一些特殊的工具IBMLogicalDataModel&IBMDB2DatabaseDB2CubeViewsETLAscentialDataStageDB2AlphaboxSAS9–theBIPlatformLogicalDataModel&SASDatabaseSASETLBIandReportingSASDataMining69integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第69页!数据仓库概念模块170数据仓库及其BI概念共136页,您现在浏览的是第70页!什么是BI?商务智能(BI)包含的应用系统和技术较宽泛,通过收集、存储、分析和提供对数据的访问,来帮助企业用户做出更好的商务决策。BI应用包括决策支持、查询和报表、联机分析处理OLAP、统计分析、预测和数据挖掘等活动。例如:BusinessObjects:.businessobjects.7171数据仓库及其BI概念共136页,您现在浏览的是第71页!哪些人是带给我们最低/最高利润的客户?哪些人是我们的客户以及他们买什么产品?哪些客户最有可能流失到竞争对手那里?
新产品/服务会对收入和利润有什么影响?什么产品促销方式最能影响收入?什么是最有效的分销渠道?一个厂商想知道….72数据仓库及其BI概念共136页,您现在浏览的是第72页!什么是数据仓库?“ 单一的、完整的和一致的数据存储,这些数据从多个数据源获取,经过加工成在一定程度上为最终用户可理解的形式,以用于业务管理。” [BarryDevlin]73数据仓库及其BI概念共136页,您现在浏览的是第73页!用户要说的是...应该整合整个企业内的数据汇总数据对整个组织具有价值
历史数据有重要作用灵活的决策支持能力74数据仓库及其BI概念共136页,您现在浏览的是第74页!演变过程60年代:批处理报表难于查找和分析信息缺乏灵活性,成本昂贵,对于每个新需求都要重新编程70年代:基于终端的DSS和andEIS(主管信息系统)仍然缺乏灵活性,没有和桌面工具集成起来80年代:桌面级数据访问和分析工具查询工具,电子表格,图形界面易于使用,但是只能访问操作型数据库90年代至今:带有集成OLAP引擎和工具的数据仓库,实时数据仓库75数据仓库及其BI概念共136页,您现在浏览的是第75页!数据仓库架构数据仓库引擎优化加载抽取
清洗分析
查询元数据管理Relational
DatabasesLegacy
DataPurchased
DataERPSystems76数据仓库及其BI概念共136页,您现在浏览的是第76页!什么使数据挖掘成为可能?
如下领域的发展,使得数据挖掘的运用成为可能:数据仓库更好和更多的数据(如,操作型数据,行为数据,以及人口统计学数据)易于部署的数据挖掘工具的出现新的数据挖掘技术的出现.
--GartnerGroup77数据仓库及其BI概念共136页,您现在浏览的是第77页!数据仓库的好处可靠的报表快速得到数据集成的数据灵活的数据展示方式更好的决策制定78数据仓库及其BI概念共136页,您现在浏览的是第78页!面向应用的vs面向主题的面向应用的操作型数据库贷款信用卡信托存款面向主题的数据仓库客户供应商产品活动79数据仓库及其BI概念共136页,您现在浏览的是第79页!OLTPVs数据仓库OLTP对性能敏感同时访问少量的记录(数十条)可以读和更新没有数据冗余DB大小:100MB-100GB用户:数百个-数千个数据仓库对性能不敏感同时访问大量的数据(数百万条)主要是读(批量更新)存在数据冗余DB大小:100GB-TB用户:数个-数百个80数据仓库及其BI概念共136页,您现在浏览的是第80页!来自多个数据源的单一的,完整的一致的数据存储。什么是BI?什么是数据仓库?数据仓库架构数据挖掘如何同数据仓库共同工作数据仓库的好处数据仓库和OLTP的区别需要分离出数据仓库的原因要点概述可靠的报表快速读取数据集成数据更好的进行决策BI集成了挖掘数据,分析,报表的功能。
数据挖掘提供从企业数据仓库中挖掘的知识。
用来分析业务
用来运行业务
81数据仓库及其BI概念共136页,您现在浏览的是第81页!数据仓库架构模块282数据仓库及其BI概念共136页,您现在浏览的是第82页!涵盖的主题这个部分包括下列内容:数据仓库架构基本的两个层次架构独立的数据集市数据集市及数据存储ETL过程数据质量保证数据质量保证工具ETL工具元数据及其重要性8383integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第83页!数据仓库架构数据存储介质遗留系统元数据存储临时存储区抽取/转换服务器往数据仓库/数据集市
元数据设计/管理
清洗工具
映射工具
抽取管理工具
转换工具
移植管理工具84数据仓库及其BI概念共136页,您现在浏览的是第84页!通用的两类架构ETLOne,pany-widewarehouse周期性抽取——数据仓库的数据并不全都是最新的数据85数据仓库及其BI概念共136页,您现在浏览的是第85页!非独立数据集市和操作型数据存储ETL对于企业数据仓库的单一ETL过程(EDW)数据访问将变得简单ODS提供获取当前最新数据的渠道非独立数据集市可以通过企业数据仓库加载数据86数据仓库及其BI概念共136页,您现在浏览的是第86页!测验1.对于自顶向下的方法,下面那个表述是错的?a.数据仓库中保存着从源系统抽取出来的原子数据,在那里,数据被分派到单个或者多个不同的数据集市中去
b.它的实施比别的方法花费较少的成本和时间c.它强制各个数据集市之间数据的一致性和标准性2.数据仓库设计的主要目标是:a.高效的查询处理b.高效的事务处理c.None3.在独立的数据集市中,数据和维度可在多个数据集市之间共享。True/False4.ODS可提供当前最新数据
True/False5.非独立数据集市中的数据获取更为复杂。
True/FalseOPTIONBNONEFalseTrueTrue87数据仓库及其BI概念共136页,您现在浏览的是第87页!构建数据仓库抽取,转换,加载数据(ETL)抽取数据抽取技术抽取工具构建数据仓库的步骤
88数据仓库及其BI概念共136页,您现在浏览的是第88页!转换阶段数据质量的重要性创建业务规则使用工具创建可复用的转换模块或对象简单数据转换包括包含日期,数字和字符转化的转换增加代理键整合的数据源集验证1对1和1对多的关系89数据仓库及其BI概念共136页,您现在浏览的是第89页!数据刷新阶段
处理缓慢变化维自动抽取-转换-加载周期.增量事实表抽取.清理和归档数据.90数据仓库及其BI概念共136页,您现在浏览的是第90页!抽取数据工具有规范化的方法和文档.工具提供了一种非常简易的方法来执行数据的抽取,往往就是用鼠标拖放操作就可以完成。数据抽取过程,可通过手工代码或使用抽取工具来完成。定制代码抽取(如PL/SQL脚本)和使用抽取工具的优缺点91数据仓库及其BI概念共136页,您现在浏览的是第91页!抽取技术全量抽取.用从源系统抽取的数据定期的更新整个数据仓库。应用系统所有的数据从源系统抽取来,然后加载到数据仓库中。这种方式从数据源到数据仓库的网络负担沉重。但是这种机制是比较容易实现和维护的。抽取方法.
92数据仓库及其BI概念共136页,您现在浏览的是第92页!integration*intelligence*insight抽取技术手工代码开发经验代码中创建头以及字段注释坚持命名标准测试所有代码-——包括单元测试和系统测试为所有的工作建立文档93数据仓库及其BI概念共136页,您现在浏览的是第93页!integration*intelligence*insight抽取工具抽取工具包括ApertusCarleton公司的PassportEvolutionaryTechnologies公司的ETLExtract.Platinum公司的InfoPump94数据仓库及其BI概念共136页,您现在浏览的是第94页!数据转换数据质量的重要性.转换数据转换:问题和解决方法转换技术转换工具 95integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第95页!确保数据质量高质量数据特点精确完整一致唯一及时96数据仓库及其BI概念共136页,您现在浏览的是第96页!数据质量工具
尽管脏数据是数据仓库建造中存在的最大问题,但是一些研究表明,数据质量投资一直在整个仓库开销中占据较小的份额。
下面是一些数据质量工具:DataFlux.DataQualityWorkbench.PineConeSystems.ContentTracker.Prism.QualityManager.ValityTechnology.IntegrityDataReengineering97数据仓库及其BI概念共136页,您现在浏览的是第97页!integration*intelligence*insight数据转换:问题来自遗留系统的数据通常存在的问题是:某些代码或特殊字符不一致或不正确的使用单个字段被用于非官方或非文档的目的重复代码.数据进化.遗漏的,错误的,重复的值,98数据仓库及其BI概念共136页,您现在浏览的是第98页!转换技术字段拆分和合并:
源系统的某单个物理字段有时候需要拆分到目标库中的几个字段。
几个源系统的字段有时候需要在目标库中合并为1个字段。
Addressfield#123ABCStreet,DEFCity,RepublicofGHNo: 123Street: ABCSTREETCity: DEFCountry: GH99integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第99页!integration*intelligence*insight转换技术消除重复:定义一些规则,消除重复的客户或产品。如果2个或以上的记录重复,那么这些重复记录应该合并成一条记录。SystemACustomerName:JohnWIstinSystemBCustomerName:JohnWilliamIstinCustomerName:JohnWilliamIstin100数据仓库及其BI概念共136页,您现在浏览的是第100页!加载101integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第101页!integration*intelligence*insight加载数据到仓库数据经过转换后,将被加载到数据仓库中。.数据加载器:数据加载器将转换后的数据加载到数据仓库中.如果这些要加载的数据在相同的RDBMS引擎里,可以使用存储过程来加载数据到仓库中。102数据仓库及其BI概念共136页,您现在浏览的是第102页!加载数据到仓库数据仓库模型:指的是维度模型(维度和事实)。临时存储区:它指的是数据准备清洗的工作空间。这是为了减少数据准备所需要时间而设立的。源数据区:可以是平面文件,oracle表,以及其他形式的数据。103integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第103页!我们使用SQLLoader来直接导文本文件到表中。SQLLoader可以做批量加载。SQL
Loader可以加载两种记录格式的文件。变长记录格式的文件固定长度记录格式的文件使用SQLLoader来加载数据104integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第104页!ETL工具下面是流行的ETL工具:OralceWarehouseBuilder.Informatica.Sagent.SASWarehouseAdministrator.105integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第105页!ETL工具OracleWarehouseBuilder–
关键特性图形映射和转换设计.自动生成代码.支持异构数据源.106integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第106页!元数据什么是元数据?传统定义是:它是关于数据的数据它用抽象的形式描述仓库的结构和内容。107integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第107页!元数据的重要性元数据建立了数据仓库数据的上下文元数据有助于数据分析过程元数据是对数据转换进行审计追踪的一种形式元数据改进和维护数据的质量108integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第108页!测验1.下面哪一个是OLAP工具?OracleExpress\OWB\Cognos\Microstrategy2.下面哪一个是ETL开发过程的目标?模块化和可复用代码自动文档化执行过程完全元数据记录过程Alloftheabove3.关于数据的数据应该保存在:RDBMSDBMSMetadata(元数据)4.手工编码的数据抽取技术,提供了一种节省成本的数据抽取方式True/False5.如何处理缓慢变化维度?人工处理使用临时存储区BothoftheaboveOWBALLTHEABOVEMETADATATrueBOTH109integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第109页!integration*intelligence*insight包含的主题本模块提供以下内容什么是数据集市数据集市建设方法
自顶向下法
自底向上法
混合法数据仓库概念模型的例子
星型模型
雪花模型
事实星座110110integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第110页!数据集市-建立方法物理数据仓库(物理的)数据仓库-->数据集市数据集市-->数据仓库数据仓库和数据集市并行建立111integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第111页!自底向上法112integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第112页!数据仓库概念模型
数据仓库建模:维度和度量星型模型雪花模型事实星座113integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第113页!雪花模型的例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTable
time_key
item_key
branch_key
location_key
units_sold
dollars_sold
avg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycityprovince_or_streetcountrycity114integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第114页!integration*intelligence*insight在这个模块里,我们看到了如下主题.什么是数据集市?建立数据集市的各种方法
自顶向下法
自底向上法
混合法概念模型采用
星型模型
雪花模型
事实星座建模技术的例子要点概述115和某个主题域相关的数据仓库的子集数据仓库到数据集市数据仓库和数据集市并行建立数据集市到数据仓库
单一的事实表被多个维表包围单一的事实表被规范化的维表包围一个或多个事实表被维表包围115integration*intelligence*insight数据仓库及其BI概念共136页,您现在浏览的是第115页!OLAP概念模块5116数据仓库及其BI概念共136页,您现在浏览的是第116页!OLAP–特征integration*intelligence*insight交互性安全可视化定制化OLAP117数据仓库及其BI概念共136页,您现在浏览的是第117页!OLAP–功能OLAP的功能具有下面特征动态多维分析企业的整合数据,支持最终用户分析,指导所采取的行动计算和模型可以通过层次和/或跨成员,来进行跨维度应用通过不同的时序时段,来进行趋势分析在屏幕上进行切片往下钻取整合数据到更深的层次达到底层详细数据旋转到新的维度进行比较查看integration*intelligence*insight118数据仓库及其BI概念共136页,您现在浏览的是第118页!OLAP功能需求快速访问和计算对于保持一个分析人员的思路来说,速度是至关重要的分析人员需要浏览需要聚合和卷积的数据.强大的分析能力除了简单的数据聚合和卷积,OLAP存在许多复杂的计算integration*intelligence*insight119数据仓库及其BI概念共136页,您现在浏览的是第119页!OLAP-快速和选择性的访问汇总数据integration*intelligence*insightBudgetDir.ViewAdHocViewPRODAccountingDept.Mgr.ViewDepartmentTimeActualsAccountingDir.View120数据仓库及其BI概念共136页,您现在浏览的是第120页!OLAP–维度较少维度的数据集通常想象成2个维度(行和列)增加第三个维度通常想象成一个立方体(x,y和z轴)增加第N个维度通常不太容易想象
...integration*intelligence*insight121数据仓库及其BI概念共136页,您现在浏览的是第121页!OLAP–公式和链接公式将数据转化成信息聚合是最简单的规则比率和趋势是最复杂的规则定义数据数值,非数值,一个维度的数据属性,基于单元格的,图形的,声音定义链接以提供数据一致性结构链接:关于维度的结构信息属性链接:映射属性信息到某个维度内容链接:映射数据将数据和链接定义到公式里integration*intelligence*insight122数据仓库及其BI概念共136页,您现在浏览的是第122页!多维分析对比和关联的报表我的实际费用和预算费用相比是怎样的?劳动成本费用,和材料费用相比是怎样的?薪金总额中,劳动成本增长了多少个百分点?integration*intelligence*insightExpenseDivisionCDivisionALaborSuppliesTravelQtr1Qtr3Qtr21201151236075739287106123数据仓库及其BI概念共13
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 炒黄豆教案反思
- 编织教案反思
- 氧化碳性质说课稿
- 深度学习及自动驾驶应用 课件全套 第1-10章 汽车自动驾驶技术概述 -强化学习理论及自动驾驶应用实践
- 汽车灯光应急
- 检验科应急演练
- 度假村自建房施工合同样本
- 矿业安全规则承诺书
- 城市公园化粪池维修协议
- 管道安装清包工施工合同
- 基于核心素养初中数学跨学科教学融合策略
- 200TEU 长江集装箱船设计
- 办公楼物业服务管理的培训
- 智慧能源管理平台建设项目解决方案
- JTG∕T F30-2014 公路水泥混凝土路面施工技术细则
- 2024年高中语文学业水平过关测试四-名句名篇默写积累过关训练(全国通用)学生版
- 奇瑞QQ冰淇淋说明书
- 糖尿病性舞蹈病
- 医学类-教学查房异位妊娠(宫外孕)
- 听数学故事探秘负数起源
- 眼视光技术职业生涯规划大赛
评论
0/150
提交评论