数据仓库技术架构课件_第1页
数据仓库技术架构课件_第2页
数据仓库技术架构课件_第3页
数据仓库技术架构课件_第4页
数据仓库技术架构课件_第5页
已阅读5页,还剩105页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库技术架构黄予辉2008年12月26日数据仓库技术架构黄予辉Agenda架构设计原理整体架构说明方案说明物理体系架构架构前瞻Agenda架构设计原理2架构立方逻辑架构层物理业务信息应用技术当前转换目标逻辑层方案项目操作的顺序定义的等级起止经架构立方业务信息应用技术当前转换目标逻辑层方案项目操作的顺3架构设计原则简单化纯粹化标准化扩展性保障性一致性架构设计原则简单化4体系架构目的提供一组集中的数据仓库架构集合

–一般从概念参考架构和逻辑层次入手增强对一个经典数据仓库环境所提供的能力的理解和认识建立理想的逻辑设计,以体现架构中各种服务环节的能力为将来数据仓库架构的实现、物理化和部署奠定基础体系架构目的提供一组集中的数据仓库架构集合5架构定义信息技术系统架构(通用定义)–一个系统各组件的结构,包括它们之间的内部关系,以及一些原则和指导方针,用来管理系统架构内的组件及内部关系的质量、设计和不断变化的过程,使其最终达到一个理想的状态。数据仓库架构–专为满足企业信息需要的一种系统架构,包括定义数据仓库能力,组件、流程以及相应的原则,并为数据仓库设计的实施提供参考和依据。架构定义信息技术系统架构(通用定义)–一个系统各组件6目标建立一个数据仓库的体系架构:遵循企业的IT目标,并成为一个可集成多种产品和服务的提供者可以按照业务运营的水平和方式来支持数据仓库环境的运行和管理帮助所有用户能够更好地使用数据仓库所提供信息用于提高业务成效,并提供访问的便利性推动并保证数据仓库体系内的一致性和可重用性为企业级数据仓库的能力提供文档说明为适用将来架构的扩展提供一个基准目标建立一个数据仓库的体系架构:7参考架构描述参考架构将涵盖一个经典数据仓库环境所提供的主要能力–例如,它定义了哪些要素组成了现代数据仓库的环境它建立一套完整的术语和数据仓库面向服务的结构,将为企业内的业务和IT部门所普遍使用在参考架构中建立了五大主要服务类别,如下所示:DataManagementDataAcquisitionWarehouseInfrastructureWarehousingApplicationsInformationDelivery参考架构描述参考架构将涵盖一个经典数据仓库环境所提供的主要能8逻辑架构描述逻辑架构的设计用于支持参考架构所定义的服务能力更加关注这些功能组件如何进行整合,以及如何支持环境内的数据流和元数据流逻辑架构为正在进行的数据仓库实现和部署提供一个重要的基础DataManagementDataAcquisitionWarehouseManagementWarehousingApplicationsInformationDeliveryMetadataFlowsWarehousePhysical&

SemanticStructuresTechnicalDesignSemanticBusinessLogicalDataModel逻辑架构描述逻辑架构的设计用于支持参考架构所定义的服务能力D9Agenda架构设计原理整体架构说明方案说明物理体系架构架构前瞻Agenda架构设计原理10Co-located

DependentMartDimensionalViewLogicalMartTeradataWarehouseFramework–Sinceforever…DataLoadingKnowledgeDiscovery/DataMiningBusinessUsersITUsersAssembleManageAnswerITUsersBusinessUsersSourceData(Internaland/orExternal)InformationAccess/ApplicationsExternalDependentMartOperationalImageCrossFunctionalModelSemanticLayerDataAccessLayerMetadata Logical/PhysicalDataModelDataDictionaryBusiness&TechnologyServicesNetwork/Database/SystemsManagement/BackupRecoveryViewViewELTCo-located

DependentDimension11Teradata可扩展数据仓库系统框架结构Teradata可扩展数据仓库框架结构Teradata可扩展数据仓库系统框架结构Teradata可12Tier3SemanticLayer视图逻辑数据集市依赖型数据集市分析型知识库PHYLogEDW应用逻辑架构M

E

T

A-

D

A

T

A多功能模型历史数据经转换后Tier2SingleVersionOfCorporateMemoryTier1OperationalImage操作型源数据影像Tier3视图PHYLogEDW应用逻辑架构M

E

13Agenda架构设计原理整体架构说明方案说明物理体系架构架构前瞻Agenda架构设计原理14ETL过程Portal(访问控制/统一认证)数据仓库监控/运行/管理数据质量检查调度控制/日志输出接口安全管理/机制业务用户层IT用户层数据仓库管理数据导入层PDMMetaDataEDW数据存储与管理层中间服务层访问控制层出错处理回溯备份与恢复元数据管理数据仓库整体技术体系架构设计核心源数据层卡前置业务系统业务系统镜像国业其他数据库文件文本文件信贷文本文件文本文件ETL过程Portal(访问控制/统一认证)数据仓库监控/运15【组成部分】业务系统不同平台不同编码抽取成文件形式或数据库镜像【存在形式】文本文件数据库文件关系数据库RDBMS及其对象如View(在线数据)1、源数据层核心源数据层卡前置业务系统业务系统镜像国业其他数据库文件文本文件信贷文本文件文本文件【组成部分】1、源数据层核心源数据层卡前置业务系统业务系统镜16工作范围定义源数据范围确定源数据接口挑战数据抽取或影响业务系统性能业务系统无法抽取出正确的增量数据业务系统抽取全量数据,时间窗口无法保证解决方案业务系统提供增量数据或者,业务系统提供全量数据在Teradata数据库内比对找出增量或者,业务系统直接提供全量数据库文件(中国证券登记结算公司)由ETL系统解码后加载到Teradata数据库内利用Teradata强大的并行性能进行比对,从而找出正确的增量数据关键问题:增量数据抽取方式工作范围关键问题:增量数据抽取方式172、数据导入层(ETL)ETL过程数据质量检查调度控制/日志数据导入层出错处理回溯【功能与作用】从源数据层的数据抽取,采用文本文件或数据库文件数据加载采用Teradata的数据加载工具Fastload整个ETL流程管理采用Teradata的DWAutomation工具。ETL服务器配置两台,互为备份,同时也承担数据输出/分发的工作【组成部分】ETL调度与日志跟踪管理模块ETL运行脚本模块数据质量检查模块出错处理与回溯模块2、数据导入层(ETL)ETL过程数据质量检查调度控制/日18挑战ETL开发工作量巨大,如何有效降低工作量,提高生产效率如何有效管理控制ETL流程如何实施数据质量管理解决方案TeradataMinervaDWAutomationDQC关键问题:ETL开发工作量与数据质量控制挑战关键问题:ETL开发工作量与数据质量控制19ETL脚本自动生成工具Minerva

与流程管理工具DWAutomationTeradataMinerva全自动的ETL脚本生成工具只需在完成源系统调研后,基于调研成果的ID报告(Excel),可直接生成后续ETL脚本包括ETL转换脚本、数据质量检查脚本等可极大提高ETL开发效率和质量便于后续运行维护,源系统发生变更时,只需修改ID报告,就可由Minerva完成后续所有相关ETL脚本的更改工作DWAutomationTeradata的ETL运行调度与监控工具不仅涵盖了ETL过程,还涵盖了数据库备份等后续运行调度工作提供可视化管理和监控界面,并可方便地完成出错处理和回溯处理ETL脚本自动生成工具Minerva

与流程管理工具DWA20数据质量管理总体架构-DQC数据质量管理总体架构-DQC213、数据存储与管理层(中央数据库)【功能与作用】负责存储和管理来自各种源数据系统的数据,并为访问用户提供数据服务数据按照企业级逻辑数据模型分主题存放采用Teradata关系型数据库【组成部分】采用Teradata的FS-LDM作为模型设计的基础工具采用ERWin,客户化LDM和PDM。同时也包括维护和管理数据模型各个版本的过程与方法采用Teradata数据库以及5500系列硬件平台和磁盘阵列PDMMetaDataEDW数据存储与管理层3、数据存储与管理层(中央数据库)【功能与作用】PDMMe22挑战如何确保数据模型的稳定性和灵活性数据粒度如何划分解决方案采用FS-LDM,为国内同业广泛采用最符合国内本地化实践的数据模型业内最富实践经验的模型设计师合理规划数据存储区域与存储粒度关键问题:数据模型设计挑战关键问题:数据模型设计23财务资产当事人Notallrelationshipsareshown区域地理区域,物理的或电子的地址单个人或一组人事件客户通过金融机构的服务网络所实现的金融或非金融的事件内部组织金融机构或保险公司内部的业务单元协议在客户和金融机构之间达成的关于特定产品的协议产品一种可以在市场上交易的产品或服务,包括条款或条件行销活动为了获取、挽留客户或提高用户的使用率而采取的战略、计划或促销活动渠道客户和金融机构或保险公司进行接触的途径企业内部的会计系统当事人所有的具有价值且能够获得受益的事物Teradata金融业逻辑数据模型FS-LDM主题区域财务资产当事人Notallrelationships24数据存储区域与粒度规划源系统历史数据快照ETL工作空间基础数据区详细历史数据客户信息、帐户信息交易信息汇总数据区应用数据区公共汇总数据帐户、客户、产品、机构汇总业务报表经营快报临时数据区数据存储区域与粒度规划临时数据的物理数据模型:用于在ETL处理过程中临时保存各类业务的原始明细数据;详细数据的物理数据模型:用于保存各类业务的明细数据;中间数据的物理数据模型:用于保存各类业务的轻度汇总数据,业务指标等;面向应用的物理数据模型:用于保存各类面向分析型业务应用的汇总数据;MetaData元模型:用于存储元数据管理中的元数据;数据存储区域与粒度规划源系统历史数据快照基础数据区详细历史数254、中间服务层(业务应用)【功能与作用】向用户提供包括OLAP服务、报表服务、查询服务、数据挖掘服务和中间件服务等多种服务应用为用户对中央数据的访问提供各种方式的服务,从而实现访问方式的多样化和信息存取的透明化【组成部分】报表与查询工具(如:BIEEPlus)OLAP工具(如:Essbase)数据挖掘采用TeraMiner直接在数据库中挖掘直接在数据库中应用模型消除数据转移、简化数据管理、开发更为精确模型、缩短模型开发和部署的周期、充分利用Teradata的平行处理能力和扩展能力中间服务层4、中间服务层(业务应用)【功能与作用】中间服务层265、访问控制层【功能与作用】主要包括WEB、认证、安全、门户四方面的服务。提供HTTPWeb服务、门户的用户登录、用户认证、门户Web应用、并提交用户层请求到中间服务层,对用户实施安全策略,为用户管理报表、查询文档,提供个性化定制等。【组成部分】WebServer(如Apache)应用服务器(如:Weblogic)实现单点登录和用户安全认证访问控制层Portal(访问控制/统一认证)5、访问控制层【功能与作用】访问控制层Portal(访问控制27统一的用户管理SPDBEDW应用门户5.1EDW应用门户单点登录管理统一的权限管理企业级门户支持统一的用户管理SPDBEDW应用门户5.1EDW应用285.2EDW应用门户与企业门户的集成界面集成用户集成单点登录权限集成安全审计5.2EDW应用门户与企业门户的集成界面集成用户集成单点登29Teradata数据仓库平台(RDBMS)OLEDBODBCJDBCCLIAPITeradata专有接口Teradata支持业界标准的数据访问接口Teradata自己提供的访问工具BTEQFastexpTeradata数据访问技术接口6、数据输出/分发接口ETL工具【功能与作用】提供数据输出、数据分发【组成部分】利用ETL服务器采用FastExport和各类数据库接口Teradata数据仓库平台(RDBMS)OLEDBO30元数据存储库(MDS)元数据管理元数据管理元数据查询元数据报表元数据分析元数据集成(Metabridge)数据源元数据维护元数据维护元数据展现/PortalETLTeradata前端系统业务文档技术用户业务用户其他其他文档管理用户7、元数据管理【功能与作用】提供元数据抽取、管理、应用的体系架构【组成部分】元数据管理采用MetaDataService元数据存储库(MDS)元数据管理元数据管理元数据查询元数据报318、用户安全管理及系统安全管理用户分类业务用户决策管理层用户(决策用户)部门专业用户(一般用户)信息分析型用户(超级用户)技术用户操作用户用户管理用户分组用户级别用户安全管理操作系统的安全控制数据权限控制数据库权限控制前端功能的用户管理和访问权限控制用户日志及审计数据转移安全网络安全与协议操作系统安全软件工具安全数据存储安全MPP架构物理安全、用户登录与数据存取数据保护–磁盘阵列RAID技术、Teradata数据库级数据保护备份与恢复数据访问安全数据库级访问–登录管理、存取权限、视图对象、存取日志8、用户安全管理及系统安全管理用户分类数据转移安全329、系统管理与维护系统管理与维护元数据(MetaData)管理操作管理与维护(OA&M)数据库管理数据字典逻辑数据模型物理数据模型网络管理系统管理数据管理工作负载管理用户与安全管理专业技术服务与咨询9、系统管理与维护系统管理与维护33Agenda架构设计原理整体架构说明方案说明物理体系架构架构前瞻Agenda架构设计原理34网段代理服务器OA网段数据仓库系统5500服务器6843存储AWS1000M交换机数据备份服务器报表服务器PortalWeb应用服务器数据源系统核心业务系统(AS400)业务用户磁带库1000M交换机防火墙互联网业务用户ETL服务器OLAP服务器生产网段生产网段互联网信贷(RS6000)其他系统…生产系统总体物理架构国业(RS6000)卡前置(RS6000)网段OA网段数据仓库系统5500服务器AWS1000M数据备35SIT测试环境数据仓库(DW)数据集市SIT测试人员应用服务平台ETL缓储区1104转产集市外部集市集成测试性能测试数据仓库系统环境逻辑图代码检入代码检出配置管理平台数据导入过程代码导入过程系统开发环境代码开发单元测试数据仓库(DW)数据集市开发测试人员应用服务平台ETL缓储区1104转产集市外部集市DW生产环境数据仓库(DW)数据集市最终用户应用服务平台ETL缓储区UAT测试及培训环境数据仓库(DW)数据集市UAT测试及培训人员应用服务平台ETL缓储区验收测试上线后生产数据导出LANLAN安全处理手工导入过程数据汇聚平台核心系统外围系统1104转产集市外部集市1104转产集市外部集市SIT测试环境数据仓库(DW)数据集市SIT测试人员应用服务36开发测试代码及数据迁移流程DCP数据汇聚平台开发环境SIT测试环境UAT测试环境生产环境单元测试返回配置管理平台测试是否通过测试通过代码检入代码检出测试是否通过测试通过测试未通过返回未通过返回开发环境SIT测试环境UAT测试环境生产环境数据导出数据导出手工导出数据导出①一期上线后①代码测试流程数据导入流程代码检出代码检出开发测试代码及数据迁移流程DCP数据汇聚平台开发环境SIT测37数据仓库系统环境说明数据仓库系统实施过程中包含四个环境:开发环境、集成测试环境、UAT测试环境、生产环境,这四个环境构成数据仓库的总体技术架构中的技术环境配置,将会在未来数据仓库整个生命周期中一直存在;在四种环境之间的代码的检入和检出均通过项目的配置管理平台,无法使用项目配置管理平台的开发过程,则通过手工将代码在四个平台之间迁移;在系统进行测试过程中,如果发现代码中存在缺陷,则开发人员需要将这些代码从配置管理平台中检出到开发环境中进行修改,并在测试完成之后再次检入到配置管理平台中供测试系统进行继续测试;对于开发环境来说,不仅仅是完成编码开发的环境,同时开发人员需要在开发环境中完成单元测试的过程;对于系统集成测试环境来说,主要为了完成系统整体功能的测试,同时在这个环境中也可以完成系统性能和压力测试的过程;对于UAT环境来说还将作为整个系统的培训环境和系统最终验收需要的环境;数据仓库系统环境说明数据仓库系统实施过程中包含四个环境:开发38数据仓库系统环境说明(续)开发环境中的资源的需求要满足各个数据仓库和应用开发的需要,如:ETL开发环境、报表开发环境;集成测试环境对资源的需求与开发环境相同,并且两个环境的网络需要相互通讯;UAT测试环境的建立参照最终的生产环境,UAT环境的容量需求依赖于被测试的应用的要求。UAT测试应利用生产环境中的实际数据进行相关的UAT测试工作;在开发环境,开发人员之间可以通过网络进行通讯,通过开发环境需要与项目具体的配置管理平台进行通讯;数据仓库系统环境说明(续)开发环境中的资源的需求要满足各个数39数据仓库与应用系统环境之间的关系在DW系统中,可以划分为两个环境,即:数据仓库环境、应用系统环境;在每个环境中都包含:开发环境、集成测试环境、UAT环境和生产环境;数据仓库环境是作为应用开发环境的数据基础平台,应用开发要利用数据仓库生产环境中提出的数据进行开发;应用系统和数据仓库系统需要共享UAT测试环境,UAT的数据来自数据仓库生产环境;UAT环境需要和数据仓库生产环境以及应用开发生产环境进行网络通讯;数据的导入、导出通过网络传输的方式来进行;数据仓库与应用系统环境之间的关系在DW系统中,可以划分为两40数据仓库与其所支持的应用系统开发及测试环境之间数据依赖关系数据仓库系统环境应用系统环境数据仓库开发环境DW集成测试环境数据仓库生产环境UAT测试及培训环境DW&APP应用开发测试环境应用集成测试环境应用系统生产环境数据导出数据导出数据导出数据仓库数据集市数据仓库与其所支持的应用系统开发及测试环境之间数据依赖关系数41Agenda架构设计原理整体架构说明方案说明物理体系架构架构前瞻Agenda架构设计原理42决定温度的因素:数据访问的频度数据更新的频度数据的维护历史的深度多温度的数据仓库体系HotCool频繁访问更多面向操作型智能涵盖较近的历史可临时调解趋势分析深度历史Warm决策型智能决定温度的因素:多温度的数据仓库体系HotCool频繁访问可43多温度的技术优势通过多温度技术能够充分利用最新的磁盘技术而提高的容量为不同的用户保持不同的SLAs根据业务规则和对系统工作负载的分析对系统的资源的使用优先级顺序进行区分关注管理工作负载,而不是数据多温度的技术优势通过多温度技术44It’sallaboutworkloadmanagement!数据仓库多温度技术多温度数据仓库:能够基于业务规则对系统资源的使用设定优先级,同时最大化存储的使用Teradata通过以下技术实现多温度:Partitionedprimaryindex(PPI)JoinIndex(includingpre-joined,aggregateandsparseindexes)Multi-valuecompressionPrioritySchedulerTeradataActiveSystemManagement(TASM)TeradataWorkloadAnalyzerTeradataDynamicWorkloadManagerTeradataManagerDashboardandTrendAnalysisTheRegulatorPriorityschedulerWorkloadclassificationandmanagementbyindividualqueryattributesLargeDisksupportIt’sallaboutworkloadmanage45ComparingDWEvolutiontoDWMaturityIncreasingQueryandWorkloadComplexityContinuousUpdateandTime-Sensitive

QueriesBecome

ImportantOPERATIONALIZINGWHATIS

happening?Event-BasedTriggeringTakesHoldACTIVATING

MAKINGithappen!IncreaseinAdHocAnalysisPrimarilyBatchand

SomeAdHocReportsREPORTINGWHAThappened?Analytical

ModelingGrowsPREDICTINGWHATWILLhappen?BatchAdHocAnalyticsContinuousUpdate/ShortQueriesEvent-BasedTriggeringANALYZINGWHY

didithappen?IncreasingDataDetail,Volume,Integration,andSchemaSophisticationComparingDWEvolutiontoDWM46ActiveEnterpriseIntelligenceTeradataActiveDataWarehouseActiveInfrastructureBIToolsStrategicIntelligenceOperationalIntelligenceActiveEnterpriseIntelligence47ActiveDataWarehouseElementsActiveAvailabilityActiveWorkloadManagementActiveAccessActiveEventsActiveLoadTeradataActiveDataWarehouseActiveEnterpriseIntegrationActiveDataWarehouseElements48Transactional(OLTP)UserprofilesCustomersClerksServicesTransactionsBookkeepingAccessprofileFrequentupdatesOccasionallookupDataCurrent“state”dataLimitedhistoryNarrowscopeStrategic(EDW)UserprofilesBackofficeservicesManagementTradingpartnersServicesStrategicdecisionsAnalytics(e.g.scoring)AccessprofileBulkinserts–someupdatesFrequentcomplexanalyticsDatamodelPeriodic“state”dataDeephistoryEnterpriseintegratedviewTactical(ODS)UserprofilesFrontlineservicesCustomers–indirectlyServicesLookupsTacticaldecisionsAnalytics(e.g.scoring)AccessprofileContinuousupdatesFrequentlookupsDatamodelCurrent“state”dataRecenthistoryIntegratedbusinessareasOLTP1OLTPiOLTPnWorkloadContinuumEnterpriseDataWarehouseStrategicDecisionRepositoriesTransactionalRepositories……ODS1ODS2TacticalDecisionRepositories…DatabaseWorkloadContinuumTransactional(OLTP)Userprofi49DatabaseWorkloadContinuumStrategic(EDW)UserprofilesBackofficeservicesManagementTradingpartnersServicesStrategicdecisionsAnalytics(e.g.scoring)AccessprofileBulkinserts–someupdatesFrequentcomplexanalyticsDatamodelPeriodic“state”dataDeephistoryEnterpriseintegratedviewTactical(ODS)UserprofilesFrontlineservicesCustomers–indirectlyServicesLookupsTacticaldecisionsAnalytics(e.g.scoring)AccessprofileContinuousupdatesFrequentlookupsDatamodelCurrent“state”dataRecenthistoryIntegratedbusinessareasWorkloadContinuumActiveDataWarehouseTacticalandStrategicDecisionRepositoriesOLTP1OLTPiOLTPnTransactionalRepositoriesTransactional(OLTP)UserprofilesCustomersClerksServicesTransactionsBookkeepingAccessprofileFrequentupdatesOccasionallookupDataCurrent“state”dataLimitedhistoryNarrowscopeDatabaseWorkloadContinuumStr50DualActive解决方案架构TeradataSystemATeradataSystemBTeradataQueryDirectorTeradataQueryDirectorReplicationDualLoadDataSynchronizationQueryRoutingMonitoringAdministrationOperationalControlMonitoring&ControlUsers/

ApplicationsUsers/

ApplicationsUsers/

ApplicationsDualActive解决方案架构TeradataTera51DualActive的优点在数据库级别不存在单点故障和不可用状态有效地消除了系统计划性与非计划性的宕机时间后端架构对于前端用户而言是透明的充分利用了企业资产并能够进行工作负载的平衡大大增强了数据仓库的对外持续服务能力DualActive的优点在数据库级别不存在单点故障和不可52DWRoadmap阶段2更多的应用部署元数据管理工作负载管理容量规划动态数据仓库概念验证阶段3动态数据仓库近实时数据采集与数据加载决策智能与操作智能工作负载管理阶段1焦点于EDW基础建设数据汇聚平台DCP逻辑数据模型物理数据模型数据质量数据仓库管理与运行报表移植少量分析型应用部署

阶段4企业信息总线EAI动态数据仓库Event-BasedProcessing工作负载管理SOA应用架构DWRoadmap阶段2更多的应用部署阶段3动态数53Teradata’sReal-TimeEnterpriseReferenceArchitectureEnterpriseMessage/ServiceBusTX1APPLNWDA-MWTX2APPLMSG-MWDA-MWTX3APPLMSG-MWDA-MWTX4APPLMSG-MWDA-MWBIAPPLMSG-MWDA-MWTacticalAPPLMSG-MWDA-MWStrategicAPPLMSG-MWDA-MWBusinessProcessAutomationAnalytic&DecisionMakingRepositoriesAnalytic&DecisionMakingServicesTransactionalRepositoriesBatchStreamingDataAcquisition&IntegrationTransactionalServicesEnterpriseUsers—(Browsersand/orPortal)LegacyEnvironmentLegacyEnvironmentServiceBrokersBusinessRulesMSG-MWEventNotificationMSG-MWMSG-MWEventDetectionWAN/VANRSEDW—BEDW—AInternet/IntranetWAN/VANOLTP1OLTP2OLTP3OLTP4DA-MWDA-MWDA-MWRDBMSBasedEventProcessingBIAPPLNWDA-MWQDQDC/SEDIConsumersSuppliersInternalPartnersEDIC/SASP/JSPTeradata’sReal-TimeEnterpris54Evolutionto“ServiceOrientedArchitecture”EvolutiontoServiceOrientedArchitectureBIAPPLDA-MWTacticalAPPLDA-MWStrategicAPPLDA-MWAnalytic&DecisionMakingRepositoriesAnalytic&DecisionMakingServicesEDW—ABIAPPLDA-MW“Applications”arereplacedby“services”Evolutionto“ServiceOriented55Questions.....Questions.....56数据仓库技术架构黄予辉2008年12月26日数据仓库技术架构黄予辉Agenda架构设计原理整体架构说明方案说明物理体系架构架构前瞻Agenda架构设计原理58架构立方逻辑架构层物理业务信息应用技术当前转换目标逻辑层方案项目操作的顺序定义的等级起止经架构立方业务信息应用技术当前转换目标逻辑层方案项目操作的顺59架构设计原则简单化纯粹化标准化扩展性保障性一致性架构设计原则简单化60体系架构目的提供一组集中的数据仓库架构集合

–一般从概念参考架构和逻辑层次入手增强对一个经典数据仓库环境所提供的能力的理解和认识建立理想的逻辑设计,以体现架构中各种服务环节的能力为将来数据仓库架构的实现、物理化和部署奠定基础体系架构目的提供一组集中的数据仓库架构集合61架构定义信息技术系统架构(通用定义)–一个系统各组件的结构,包括它们之间的内部关系,以及一些原则和指导方针,用来管理系统架构内的组件及内部关系的质量、设计和不断变化的过程,使其最终达到一个理想的状态。数据仓库架构–专为满足企业信息需要的一种系统架构,包括定义数据仓库能力,组件、流程以及相应的原则,并为数据仓库设计的实施提供参考和依据。架构定义信息技术系统架构(通用定义)–一个系统各组件62目标建立一个数据仓库的体系架构:遵循企业的IT目标,并成为一个可集成多种产品和服务的提供者可以按照业务运营的水平和方式来支持数据仓库环境的运行和管理帮助所有用户能够更好地使用数据仓库所提供信息用于提高业务成效,并提供访问的便利性推动并保证数据仓库体系内的一致性和可重用性为企业级数据仓库的能力提供文档说明为适用将来架构的扩展提供一个基准目标建立一个数据仓库的体系架构:63参考架构描述参考架构将涵盖一个经典数据仓库环境所提供的主要能力–例如,它定义了哪些要素组成了现代数据仓库的环境它建立一套完整的术语和数据仓库面向服务的结构,将为企业内的业务和IT部门所普遍使用在参考架构中建立了五大主要服务类别,如下所示:DataManagementDataAcquisitionWarehouseInfrastructureWarehousingApplicationsInformationDelivery参考架构描述参考架构将涵盖一个经典数据仓库环境所提供的主要能64逻辑架构描述逻辑架构的设计用于支持参考架构所定义的服务能力更加关注这些功能组件如何进行整合,以及如何支持环境内的数据流和元数据流逻辑架构为正在进行的数据仓库实现和部署提供一个重要的基础DataManagementDataAcquisitionWarehouseManagementWarehousingApplicationsInformationDeliveryMetadataFlowsWarehousePhysical&

SemanticStructuresTechnicalDesignSemanticBusinessLogicalDataModel逻辑架构描述逻辑架构的设计用于支持参考架构所定义的服务能力D65Agenda架构设计原理整体架构说明方案说明物理体系架构架构前瞻Agenda架构设计原理66Co-located

DependentMartDimensionalViewLogicalMartTeradataWarehouseFramework–Sinceforever…DataLoadingKnowledgeDiscovery/DataMiningBusinessUsersITUsersAssembleManageAnswerITUsersBusinessUsersSourceData(Internaland/orExternal)InformationAccess/ApplicationsExternalDependentMartOperationalImageCrossFunctionalModelSemanticLayerDataAccessLayerMetadata Logical/PhysicalDataModelDataDictionaryBusiness&TechnologyServicesNetwork/Database/SystemsManagement/BackupRecoveryViewViewELTCo-located

DependentDimension67Teradata可扩展数据仓库系统框架结构Teradata可扩展数据仓库框架结构Teradata可扩展数据仓库系统框架结构Teradata可68Tier3SemanticLayer视图逻辑数据集市依赖型数据集市分析型知识库PHYLogEDW应用逻辑架构M

E

T

A-

D

A

T

A多功能模型历史数据经转换后Tier2SingleVersionOfCorporateMemoryTier1OperationalImage操作型源数据影像Tier3视图PHYLogEDW应用逻辑架构M

E

69Agenda架构设计原理整体架构说明方案说明物理体系架构架构前瞻Agenda架构设计原理70ETL过程Portal(访问控制/统一认证)数据仓库监控/运行/管理数据质量检查调度控制/日志输出接口安全管理/机制业务用户层IT用户层数据仓库管理数据导入层PDMMetaDataEDW数据存储与管理层中间服务层访问控制层出错处理回溯备份与恢复元数据管理数据仓库整体技术体系架构设计核心源数据层卡前置业务系统业务系统镜像国业其他数据库文件文本文件信贷文本文件文本文件ETL过程Portal(访问控制/统一认证)数据仓库监控/运71【组成部分】业务系统不同平台不同编码抽取成文件形式或数据库镜像【存在形式】文本文件数据库文件关系数据库RDBMS及其对象如View(在线数据)1、源数据层核心源数据层卡前置业务系统业务系统镜像国业其他数据库文件文本文件信贷文本文件文本文件【组成部分】1、源数据层核心源数据层卡前置业务系统业务系统镜72工作范围定义源数据范围确定源数据接口挑战数据抽取或影响业务系统性能业务系统无法抽取出正确的增量数据业务系统抽取全量数据,时间窗口无法保证解决方案业务系统提供增量数据或者,业务系统提供全量数据在Teradata数据库内比对找出增量或者,业务系统直接提供全量数据库文件(中国证券登记结算公司)由ETL系统解码后加载到Teradata数据库内利用Teradata强大的并行性能进行比对,从而找出正确的增量数据关键问题:增量数据抽取方式工作范围关键问题:增量数据抽取方式732、数据导入层(ETL)ETL过程数据质量检查调度控制/日志数据导入层出错处理回溯【功能与作用】从源数据层的数据抽取,采用文本文件或数据库文件数据加载采用Teradata的数据加载工具Fastload整个ETL流程管理采用Teradata的DWAutomation工具。ETL服务器配置两台,互为备份,同时也承担数据输出/分发的工作【组成部分】ETL调度与日志跟踪管理模块ETL运行脚本模块数据质量检查模块出错处理与回溯模块2、数据导入层(ETL)ETL过程数据质量检查调度控制/日74挑战ETL开发工作量巨大,如何有效降低工作量,提高生产效率如何有效管理控制ETL流程如何实施数据质量管理解决方案TeradataMinervaDWAutomationDQC关键问题:ETL开发工作量与数据质量控制挑战关键问题:ETL开发工作量与数据质量控制75ETL脚本自动生成工具Minerva

与流程管理工具DWAutomationTeradataMinerva全自动的ETL脚本生成工具只需在完成源系统调研后,基于调研成果的ID报告(Excel),可直接生成后续ETL脚本包括ETL转换脚本、数据质量检查脚本等可极大提高ETL开发效率和质量便于后续运行维护,源系统发生变更时,只需修改ID报告,就可由Minerva完成后续所有相关ETL脚本的更改工作DWAutomationTeradata的ETL运行调度与监控工具不仅涵盖了ETL过程,还涵盖了数据库备份等后续运行调度工作提供可视化管理和监控界面,并可方便地完成出错处理和回溯处理ETL脚本自动生成工具Minerva

与流程管理工具DWA76数据质量管理总体架构-DQC数据质量管理总体架构-DQC773、数据存储与管理层(中央数据库)【功能与作用】负责存储和管理来自各种源数据系统的数据,并为访问用户提供数据服务数据按照企业级逻辑数据模型分主题存放采用Teradata关系型数据库【组成部分】采用Teradata的FS-LDM作为模型设计的基础工具采用ERWin,客户化LDM和PDM。同时也包括维护和管理数据模型各个版本的过程与方法采用Teradata数据库以及5500系列硬件平台和磁盘阵列PDMMetaDataEDW数据存储与管理层3、数据存储与管理层(中央数据库)【功能与作用】PDMMe78挑战如何确保数据模型的稳定性和灵活性数据粒度如何划分解决方案采用FS-LDM,为国内同业广泛采用最符合国内本地化实践的数据模型业内最富实践经验的模型设计师合理规划数据存储区域与存储粒度关键问题:数据模型设计挑战关键问题:数据模型设计79财务资产当事人Notallrelationshipsareshown区域地理区域,物理的或电子的地址单个人或一组人事件客户通过金融机构的服务网络所实现的金融或非金融的事件内部组织金融机构或保险公司内部的业务单元协议在客户和金融机构之间达成的关于特定产品的协议产品一种可以在市场上交易的产品或服务,包括条款或条件行销活动为了获取、挽留客户或提高用户的使用率而采取的战略、计划或促销活动渠道客户和金融机构或保险公司进行接触的途径企业内部的会计系统当事人所有的具有价值且能够获得受益的事物Teradata金融业逻辑数据模型FS-LDM主题区域财务资产当事人Notallrelationships80数据存储区域与粒度规划源系统历史数据快照ETL工作空间基础数据区详细历史数据客户信息、帐户信息交易信息汇总数据区应用数据区公共汇总数据帐户、客户、产品、机构汇总业务报表经营快报临时数据区数据存储区域与粒度规划临时数据的物理数据模型:用于在ETL处理过程中临时保存各类业务的原始明细数据;详细数据的物理数据模型:用于保存各类业务的明细数据;中间数据的物理数据模型:用于保存各类业务的轻度汇总数据,业务指标等;面向应用的物理数据模型:用于保存各类面向分析型业务应用的汇总数据;MetaData元模型:用于存储元数据管理中的元数据;数据存储区域与粒度规划源系统历史数据快照基础数据区详细历史数814、中间服务层(业务应用)【功能与作用】向用户提供包括OLAP服务、报表服务、查询服务、数据挖掘服务和中间件服务等多种服务应用为用户对中央数据的访问提供各种方式的服务,从而实现访问方式的多样化和信息存取的透明化【组成部分】报表与查询工具(如:BIEEPlus)OLAP工具(如:Essbase)数据挖掘采用TeraMiner直接在数据库中挖掘直接在数据库中应用模型消除数据转移、简化数据管理、开发更为精确模型、缩短模型开发和部署的周期、充分利用Teradata的平行处理能力和扩展能力中间服务层4、中间服务层(业务应用)【功能与作用】中间服务层825、访问控制层【功能与作用】主要包括WEB、认证、安全、门户四方面的服务。提供HTTPWeb服务、门户的用户登录、用户认证、门户Web应用、并提交用户层请求到中间服务层,对用户实施安全策略,为用户管理报表、查询文档,提供个性化定制等。【组成部分】WebServer(如Apache)应用服务器(如:Weblogic)实现单点登录和用户安全认证访问控制层Portal(访问控制/统一认证)5、访问控制层【功能与作用】访问控制层Portal(访问控制83统一的用户管理SPDBEDW应用门户5.1EDW应用门户单点登录管理统一的权限管理企业级门户支持统一的用户管理SPDBEDW应用门户5.1EDW应用845.2EDW应用门户与企业门户的集成界面集成用户集成单点登录权限集成安全审计5.2EDW应用门户与企业门户的集成界面集成用户集成单点登85Teradata数据仓库平台(RDBMS)OLEDBODBCJDBCCLIAPITeradata专有接口Teradata支持业界标准的数据访问接口Teradata自己提供的访问工具BTEQFastexpTeradata数据访问技术接口6、数据输出/分发接口ETL工具【功能与作用】提供数据输出、数据分发【组成部分】利用ETL服务器采用FastExport和各类数据库接口Teradata数据仓库平台(RDBMS)OLEDBO86元数据存储库(MDS)元数据管理元数据管理元数据查询元数据报表元数据分析元数据集成(Metabridge)数据源元数据维护元数据维护元数据展现/PortalETLTeradata前端系统业务文档技术用户业务用户其他其他文档管理用户7、元数据管理【功能与作用】提供元数据抽取、管理、应用的体系架构【组成部分】元数据管理采用MetaDataService元数据存储库(MDS)元数据管理元数据管理元数据查询元数据报878、用户安全管理及系统安全管理用户分类业务用户决策管理层用户(决策用户)部门专业用户(一般用户)信息分析型用户(超级用户)技术用户操作用户用户管理用户分组用户级别用户安全管理操作系统的安全控制数据权限控制数据库权限控制前端功能的用户管理和访问权限控制用户日志及审计数据转移安全网络安全与协议操作系统安全软件工具安全数据存储安全MPP架构物理安全、用户登录与数据存取数据保护–磁盘阵列RAID技术、Teradata数据库级数据保护备份与恢复数据访问安全数据库级访问–登录管理、存取权限、视图对象、存取日志8、用户安全管理及系统安全管理用户分类数据转移安全889、系统管理与维护系统管理与维护元数据(MetaData)管理操作管理与维护(OA&M)数据库管理数据字典逻辑数据模型物理数据模型网络管理系统管理数据管理工作负载管理用户与安全管理专业技术服务与咨询9、系统管理与维护系统管理与维护89Agenda架构设计原理整体架构说明方案说明物理体系架构架构前瞻Agenda架构设计原理90网段代理服务器OA网段数据仓库系统5500服务器6843存储AWS1000M交换机数据备份服务器报表服务器PortalWeb应用服务器数据源系统核心业务系统(AS400)业务用户磁带库1000M交换机防火墙互联网业务用户ETL服务器OLAP服务器生产网段生产网段互联网信贷(RS6000)其他系统…生产系统总体物理架构国业(RS6000)卡前置(RS6000)网段OA网段数据仓库系统5500服务器AWS1000M数据备91SIT测试环境数据仓库(DW)数据集市SIT测试人员应用服务平台ETL缓储区1104转产集市外部集市集成测试性能测试数据仓库系统环境逻辑图代码检入代码检出配置管理平台数据导入过程代码导入过程系统开发环境代码开发单元测试数据仓库(DW)数据集市开发测试人员应用服务平台ETL缓储区1104转产集市外部集市DW生产环境数据仓库(DW)数据集市最终用户应用服务平台ETL缓储区UAT测试及培训环境数据仓库(DW)数据集市UAT测试及培训人员应用服务平台ETL缓储区验收测试上线后生产数据导出LANLAN安全处理手工导入过程数据汇聚平台核心系统外围系统1104转产集市外部集市1104转产集市外部集市SIT测试环境数据仓库(DW)数据集市SIT测试人员应用服务92开发测试代码及数据迁移流程DCP数据汇聚平台开发环境SIT测试环境UAT测试环境生产环境单元测试返回配置管理平台测试是否通过测试通过代码检入代码检出测试是否通过测试通过测试未通过返回未通过返回开发环境SIT测试环境UAT测试环境生产环境数据导出数据导出手工导出数据导出①一期上线后①代码测试流程数据导入流程代码检出代码检出开发测试代码及数据迁移流程DCP数据汇聚平台开发环境SIT测93数据仓库系统环境说明数据仓库系统实施过程中包含四个环境:开发环境、集成测试环境、UAT测试环境、生产环境,这四个环境构成数据仓库的总体技术架构中的技术环境配置,将会在未来数据仓库整个生命周期中一直存在;在四种环境之间的代码的检入和检出均通过项目的配置管理平台,无法使用项目配置管理平台的开发过程,则通过手工将代码在四个平台之间迁移;在系统进行测试过程中,如果发现代码中存在缺陷,则开发人员需要将这些代码从配置管理平台中检出到开发环境中进行修改,并在测试完成之后再次检入到配置管理平台中供测试系统进行继续测试;对于开发环境来说,不仅仅是完成编码开发的环境,同时开发人员需要在开发环境中完成单元测试的过程;对于系统集成测试环境来说,主要为了完成系统整体功能的测试,同时在这个环境中也可以完成系统性能和压力测试的过程;对于UAT环境来说还将作为整个系统的培训环境和系统最终验收需要的环境;数据仓库系统环境说明数据仓库系统实施过程中包含四个环境:开发94数据仓库系统环境说明(续)开发环境中的资源的需求要满足各个数据仓库和应用开发的需要,如:ETL开发环境、报表开发环境;集成测试环境对资源的需求与开发环境相同,并且两个环境的网络需要相互通讯;UAT测试环境的建立参照最终的生产环境,UAT环境的容量需求依赖于被测试的应用的要求。UAT测试应利用生产环境中的实际数据进行相关的UAT测试工作;在开发环境,开发人员之间可以通过网络进行通讯,通过开发环境需要与项目具体的配置管理平台进行通讯;数据仓库系统环境说明(续)开发环境中的资源的需求要满足各个数95数据仓库与应用系统环境之间的关系在DW系统中,可以划分为两个环境,即:数据仓库环境、应用系统环境;在每个环境中都包含:开发环境、集成测试环境、UAT环境和生产环境;数据仓库环境是作为应用开发环境的数据基础平台,应用开发要利用数据仓库生产环境中提出的数据进行开发;应用系统和数据仓库系统需要共享UAT测试环境,UAT的数据来自数据仓库生产环境;UAT环境需要和数据仓库生产环境以及应用开发生产环境进行网络通讯;数据的导入、导出通过网络传输的方式来进行;数据仓库与应用系统环境之间的关系在DW系统中,可以划分为两96数据仓库与其所支持的应用系统开发及测试环境之间数据依赖关系数据仓库系统环境应用系统环境数据仓库开发环境DW集成测试环境数据仓库生产环境UAT测试及培训环境DW&APP应用开发测试环境应用集成测试环境应用系统生产环境数据导出数据导出数据导出数据仓库数据集市数据仓库与其所支持的应用系统开发及测试环境之间数据依赖关系数97Agenda架构设计原理整体架构说明方案说明物理体系架构架构前瞻Agenda架构设计原理98决定温度的因素:数据访问的频度数据更新的频度数据的维护历史的深度多温度的数据仓库体系HotCool频繁访问更多面向操作型智能涵盖较近的历史可临时调解趋势分析深度历史Warm决策型智能决定温度的因素:多温度的数据仓库体系HotCool频繁访问可99多温度的技术优势通过多温度技术能够充分利用最新的磁盘技术而提高的容量为不同的用户保持不同的SLAs根据业务规则和对系统工作负载的分析对系统的资源的使用优先级顺序进行区分关注管理工作负载,而不是数据多温度的技术优势通过多温度技术100It’sallaboutworkloadmanagement!数据仓库多温度技术多温度数据仓库:能够基于业务规则对系统资源的使用设定优先级,同时最大化存储的使用Teradata通过以下技术实现多温度:Partitionedprimaryindex(PPI)JoinIndex(includingpre-joined,aggregateandsparseindexes)Multi-valuecompressionPrioritySchedulerTeradataActiveSystemManagement(TASM)TeradataWorkloadAnalyzerTeradataDynamicWorkloadManagerTeradataManagerDashboardandTrendAnalysisTheRegulatorPriorityschedulerWorkloadclassificationandmanagementbyindividualqueryattributesLargeDisksupportIt’sallaboutworkloadmanage101ComparingDWEvolutiontoDWMaturityIncreasingQueryandWorkloadComplexityContinuousUpdateandTime-Sensitive

QueriesBecome

ImportantOPERATIONALIZINGWHATIS

happening?Event-BasedTriggeringTakesHoldACTIVATING

MAKINGithappen!IncreaseinAdHocAnalysisPrimarilyBatchand

SomeAdHocReportsREPORTINGWHAThappened?Analytical

ModelingGrowsPREDICTINGWHATWILLhappen?BatchAdHocAnalyticsContinuousUpdate/ShortQueriesEvent-BasedTriggeringANALYZINGWHY

didithappen?IncreasingDataDetail,Volume,Integration,andSchemaSophisticationComparingDWEvolutiontoDWM102ActiveEnterpriseIntelligenceTeradataActiveDataWarehouseActiveInfrastructureBIToolsStrategicIntelligenceOperationalIntelligenceActiveEnterpriseIntelligence103ActiveDataWarehouseElementsActiveAvailabilityActiveWorkloadManagementActiveAccessActiveEventsActiveLoadTeradataActiveDataWarehouseActiveEnterpriseIntegrationActiveDataWarehouseElements104Transactional(OLTP)UserprofilesCustomersClerksServicesTransactionsBookkeepingAccessprofileFrequentupdatesOccasionallookupDataCurrent“state”dataLimitedhistoryNarrowscopeStrategic(EDW)UserprofilesBackofficeservicesManagementTradingpartnersServicesStrategicdecisionsAnalytics(e.g.scoring)AccessprofileBulkinserts–someupdatesFrequentcomplexanalyticsDatamodelPeriodic“state”dataDeephistoryEnterpriseintegratedviewTactical(ODS)UserprofilesFrontlineservicesCustomers–indirectlyServicesLookupsTacticaldecisionsAnalytics(e.g.scoring)AccessprofileContinuousupdatesFrequentlookupsDatamodelCurrent“state”dataRecenthistoryIntegratedbusinessareasOLTP1OLTPiOLTPnWorkloadContinuumEnterpriseDataWarehouseStrategicDecisionRepositoriesTransactionalRepositories……ODS1ODS2TacticalDecisionRepositories…DatabaseWorkloadContinuumTransactional(OLTP)Userprofi105DatabaseWorkloadContinuumStrategi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论