招商银行数据仓库方案_第1页
招商银行数据仓库方案_第2页
招商银行数据仓库方案_第3页
招商银行数据仓库方案_第4页
招商银行数据仓库方案_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 PAGE 58招商银行数据仓库方案建议书I目录录第一章前言言第二章建议议方案简简介第三章硬件件产品介介绍第四章软件件产品介介绍第五章项目目计划附录一成功功案例附录二 IBBM可以以提供的的服务附录三项目目进度计计划安排排参考附录四产品品报价第一章前言言作为一个个发展中中的银行行,总部部位于我我国南方方著名经经济特区区深圳市市的招商商银行的的成长令令人瞩目目。为了了在五年年内成为为全国著著名的银银行,进进入世界界大银行行的排行行榜,招招商银行行的决策策者们制制订了一一整套行行之有效效的计划划,而作作为现代代化管理理的一部部分,与与国际上上先进的的模式接接轨,计计算机管管理自然然成为相相当重要要

2、的一部部分。招招商银行行与世界界信息产产业的领领导者,美国国国际商业业机器公公司,简简称IBMM 合作作,将其其业务系系统成功功运行在在AS/4000 平台台之上,成功地地迈出了了计算机机管理的的第一步步。但是是他们并并不满足足于目前前的状况况,发扬扬一向紧紧跟新科科技的传传统,决决定对目目前的业业务数据据作进一一步的处处理,将将静态的的数据转转化为决决策支持持的依据据。所以以,准备备采用目目前信息息产业界界极为先先进的数数据仓库库技术,完成招招商银行行的决策策支持系系统,以以进一步步提高公公司的实实力和竞竞争力。而世界界上最大大的软件件及咨询询服务公公司IBMM,将以以其在该该行业雄雄厚的实

3、实力和数数十年丰丰富的经经验,为为招商银银行提供供一套完完整的解解决方案案,使招招商银行行的管理理能力再再上一个个台阶。本方案案以先进进性和可可扩展性性为原则则,使招招商银行行的数据据仓库系系统既可可以保证证在几年年内技术术和设备备不落后后,使之之站在世世界计算算机发展展潮流之之上,又又可以根根据业务务的高速速发展,很方便便地升级级,以达达到业务务发展需需求的性性能。先进性方方面,IIBM提供的的硬件平平台是具具有最强强劲处理理能力的的RS660000 SPP 系列列并行机机,它综综合业界界的最高高端技术术,具备备无与伦伦比的处处理能力力和可扩扩展性、可靠性性。例如如战胜世世界冠军军、国际际象

4、棋特特级大师师卡斯帕帕罗夫的的“深蓝”就是这这种机型型,其每每秒数亿亿步的处处理速度度至今仍仍被人们们称道;软件平平台是IBMM 提供供最新推推出的、业界好好评如潮潮的通用用数据库库产品(Uniiverrsall Daatabbasee),这是是IBMM 的又又一大师师级力作作;还有有荣获本本年度世世界数据据仓库产产品大奖奖的数据据采掘工工具:IInteelliigennt MMineer;在在应用上上,IBBM有成成熟的整整套数据据仓库解解决方案案,和其其他仅仅仅能提供供某些方方面产品品的厂商商有着本本质的区区别。可扩展性性方面,因为数数据量越越来越大大,用户户越来越越多,为为保证合合理的响

5、应速速度,对对机器的的性能提提高就会会有一个个几乎线线性增长长的要求求。硬件件和软件件的可扩扩展性就就成为一一个重要要的考虑虑因素。IBMM 的RS660000 SPP 主机机正是具具备这种种特性,从而成成为硬件件平台的的首选;通用数数据库在在小到手手提机,大到并并行主机机的任何何平台上上,都能能充分发发挥硬件件的性能能。这样样就确保保了整个个数据仓仓库系统统的正常常运作。也可以以保证用用户在今今后升级级时,既既可以保保护现有有投资,也使应应用系统统受到的的影响降降到最小小,做到到无缝升升级。背景中国的的银行业业务正面面临深刻刻的改革革,各种种新生事事物不断断涌现,如新的的业务,由于分分工模糊

6、糊而出现现的很多多非银行行业的竞竞争者,业务全全球化的的趋势,由新旧旧竞争者者造成的的越来越越大的压压力,快快速发展展的信息息技术,客户的的需求和和总体人人口组成成也在不不断变化化。全球球范围内内的金融融服务企企业间的的关系变变得更加加紧密,促使决决策者重重新研究究金融市市场,资资源分配配,组织织结构和和业务流流程,从从而采取取更有创创意的企企业行为为和策略略,如企企业兼并并,市场场定位,产品和和服务推推陈出新新,保持持营销渠渠道畅通通。在银行行业内,越来越越多的企企业正在在采用数数仓库工工具来创创造新的的商业机机会:深深入分析析客户群群的组成成、发现现特殊需需求、设设计新的的产品、在新业业务

7、推出出前开展展详细的的建模和和分析。分析客客户减少少的可能能原因,采取预预防措施施,提高高服务质质量和整整体竞争争力。分分析重要要客户的的来源,保证整整体效益益。预防防和制止止信用卡卡诈骗活活动。正如IBMM 一向向在计算算机业的的发展中中扮演重重要角色色一样,IBMM 早在在19888年,就发表表了第一一篇关于于数据仓仓库的文文章,成成为这一一领域的的先驱,从那时时起,数数据仓库库的技术术,服务务和解决决方案就就在来断断地完善善,时至至今日,IBMM 公司司的数据据仓库系系统已经经安装了了数百个个,在各各个行业业,各种种平台上上运行。 19995年,IBMM 重新新评定了了所有数数据仓库库资

8、源,成立一一支核心心队伍,专门开开发运用用于各行行业的数数据仓库库解决方方案,范范围涉及及银行及及金融业业,电讯讯业,零零售业,保险及及卫生业业等。这这个小组组的任务务是分析析各行业业的业务务需求,选择最最好的软软件和硬硬件产品品,为客客户提供供咨询服服务。在数据据仓库市市场上,IBMM 始终终致力于于提供全全面解决决方案,不但提提供技术术和咨询询服务,还为客客户介绍绍专门的的行业经经验。我我们的数数据仓库库系统运运行在多多种平台台上,保保证一个个开放系系统供应应商的地地位,是是目前最最完整的的全方位位的集成成式数据据仓库解解决方案案。 IDCC 最近近在加拿拿大市场场上作了了一次数数据仓库库

9、的调查查,发现现集成度度是大家家最关心心的问题题,除了了严格遵遵循开放放标准,IBMM 还发发展了一一些有实实力的策策略联盟盟伙伴,如VValiity、进展技技术公司司 ETTI、Coggnoss 以及及Infformmatiion Advvanttagee 等。通过联联合开发发和集成成调试,达到联联盟的主主要目标标:更高高级的集集成度。 IBMM 始终终致力于于确立在在以网络络为中心心的计算算技术方方面的领领导地位位,我们们也坚信信目前我我们站在在潮流的的尖端,公司内内部建立立起遍布布全球1100多多个国家家,7000多个个城市的的全球性性的大型型数据网网络,在在专门的的互联网网部门,在这一

10、一领域的的技术成成果不断断推出,都无可可置疑地地表明 IBMM 是当当之无愧愧的领导导者。今今天IBMM 更是是提出了了一套完完整的解解决方案案。以下下就数据据仓库的的概念和和作用做做一些简简要的介介绍。数据仓库库的概念念及作用用所谓数数据仓库库,数据据仓库之之父W.HH.Innmonn 曾对对数据仓仓库作了了这样的的描述:“数据仓仓库是九九十年代代信息技技术构架架的新焦焦点,它它提供集集成化的的和历史史化的数数据;它它集成种种类不同同的应用用系统;数据仓仓库从发发展和历历史的角角度来组组织和存存储数据据,以供供信息化化和分析析化处理理之用”。这里里要强调调的是必必须将业业务系统统和数据据仓库

11、分分开。两两者功能能不同,要求迥迥异。虽虽然业务务系统为为数据仓仓库提供供数据。但决不不能将数数据仓库库建立在在业务系系统之上上。一来来两者所所存的数数据不同同。业务务系统是是存储实实时数据据的地方方;数据据仓库可可能更关关心的是是整个历历史数据据。两者者的数据据传递不不是简单单的复制制,而是是一个可可能是比比较复杂杂的转换换和传递递过程。二来,这样做做对业务务系统的的影响太太大。不不仅会对对数据的的安全性性造成一一些不可可预测的的影响,还会影影响业务务系统的的性能。查询请请求会使使系统不不堪重负负,响应应速度降降低,严严重时甚甚至导致致系统的的崩溃,使业务务系统瘫瘫痪。所所以必须须将两者者分

12、开。数据仓仓库的作作用主要要在于通通过对大大量数据据的分析析,得出出需要的的统计结结果。还还可以找找出其潜潜在的关关系,从从而作出出正确的的判断。例如,如果银银行要了了解它的的一个客客户的情情况,以以目前的的情况来来看,需需要查询询储蓄库库,信用用卡库,借贷信信息等。这些信信息存储储在不同同的业务务系统中中,不同同的主机机上,显显然要获获得完整整的客户户资料需需要作大大量的工工作,消消耗大量量的时间间。但是是,如果果这个银银行拥有有数据仓仓库系统统,要完完成这个个工作只只需要一一个最简简单的查查询命令令,可能能只需要要几秒钟钟。因为为数据仓仓库中已已经有了了所有的的数据,而且都都已经重重新组织

13、织。特别别是如果果你要查查的是一一些历史史数据,那么目目前的系系统就根根本无能能为力了了。所以以,建立立一个数数据仓库库对公司司的许多多正确决决策的作作出有着着举足轻轻重的影影响。它它可以以以合理的的代价取取得有效效的决策策支持;促进企企业中业业务处理理过程的的重组;改善并并强化对对客户的的服务;强化企企业的资资产和负负债管理理;促进进市场分分析;帮帮助实现现企业的的规模优优化。数据仓库库的特点点由于差差不多各各个业务务系统的的各种数数据都要要放进数数据仓库库,所以以,随着着时间的的增长数数据仓库库的数据据量是特特别大的的。例如如,某单单位一天天有100G 数数据,例例如移动动通讯局局的计费费

14、系统(如果有有几本流流水帐,可能还还会超过过这个数数字),那么么,仅仅仅过了两两年,数数据仓库库中的数数据量就就有:110*3365*2=773000G,相相当于七七个多TB的数据据。那么么五年后后,十年年后呢?简直不不能想象象。由此此可见,数据仓仓库的特特点:数数据量大大且有几几乎线性性的增长长性。数据仓库库对计算算机系统统的要求求根据据上述特特点,我我们认为为支持数数据仓库库的计算算机系统统首先必必须得有有一台不不仅性能能卓著,而且可可扩展性性也很好好的主机机。谈到到可扩展展性,许许多人会会想到对对称多处处理器系系统(Symmmettriccal Mullti-Proocesssinng)

15、系统,其实SMPP 系统统的CPUU 数增增加到一一定数目目后,对对系统性性能的提提高已十十分有限限,甚至至会起反反作用。所以,主机的的选用,一定要要有非常常好的线线性增长长性。这这里,我我们建议议选用目目前已经经比较成成熟的海海量并行行处理系系统(Masssivve PParaalleel PProccesssingg),简称称为MPPP。另外外,数据据库的选选用也是是十分关关键的。一是要要支持超超大的数数据量。可能在在初始阶阶段,数数据量已已经到了了TB级。二二是要有有很强的的稳定性性。数据据仓库是是为决策策支持系系统提供供准确的的数据分分析,如如果数据据库不十十分稳定定,那么么,后果果不

16、堪设设想。另另外,数数据库必必须有可可扩展性性,支持持多平台台,高性性能等等等。整个个网络环环境的稳稳定和高高速也应应被列入入计算机机系统设设计的考考虑范畴畴。数据仓库库系统的的体系结结构一个完完整的数数据仓库库系统,应当由由定义部部分、数数据获取取部分、管理部部分、数数据分发发部分、信息目目录、数数据库管管理系统统、数据据存取与与分析等等部分组组成。1.定义义部分数据仓仓库系统统的定义义部分完完成数据据仓库环环境的定定义和设设置。这这里包括括相应的的定义工工具供数数据仓库库的设计计者和管管理人员员使用。他们使使用这类类工具进进行:a.设设计和定定义数据据仓库数数据库;b.定定义数据据仓库的的

17、数据源源;c.指指定一组组规则用用来约束束当数据据从外部部源点进进入数据据仓库时时的系统统行为。定义部部分的工工作结果果是一批批元数据据,这批批数据将将存放在在信息目目录中。2.数据据获取部部分数据获获取部分分负责从从外部数数据源析析取数据据,并在在数据仓仓库内对对所析取取的数据据实施后后处理。为了实实现数据据仓库系系统的主主要目标标以最最终用户户最容易易理解和和使用的的方式组组织和存存储数据据,进行行后处理理是必须须的一步步。后处处理包括括对所析析取数据据的提炼炼和变换换。在定定义部分分所建立立的规则则用来约约束实施施后处理理时的系系统行为为。数据据提炼包包括以下下内容:记录或或记录内内栏目

18、的的重构,删去不不需要的的运行信信息,字字段值的的解码和和翻译,补充缺缺漏的值值以及检检查数据据的完整整性和相相容性。变换的的内容如如上所述述。需补补充的两两点是变变换还可可以包括括对原数数据加上上时间标标记及对对导出数数据的计计算,在在完成后后处理后后,即可可将处理理的结果果加载到到相应的的数据仓仓库数据据库中,这种加加载可通通过源数数据库的的加载工工具实现现,如果果源库是是关系数数据库,一般可可用SSQL类的工工具实现现对日常常数据清清理和归归整,来来自外部部数据源源的数据据不会原原封不动动地进入入数据仓仓库,而而是必须须进行必必要的变变换以增增强其可可用性。最常见见的数据据变换有有获取瞬

19、瞬像数据据、实施施集运算算(求和和、求平平均量等等)、分分组、填填写缺漏漏值、预预报趋势势(填入入预测量量)、数数据结构构与格式式的转换换、提取取样本值值、编码码值与可可读值间间的转化化等等。3.管理理部分管理部部分由一一组系统统服务工工具构成成,这类类工具及及其所提提供的服服务可为为数据仓仓库系统统中其他他部分所所利用,还可以以用于管管理数据据仓库中中的数据据集,数数据集是是对特定定的一个个或一级级用户有有用的一一组数据据,这组组数据是是从数据据获取部部分得到到的基本本数据导导出的。管理部部分提供供的服务务包括数数据的维维护、数数据的分分发、数数据仓库库的例行行维护,其中,维护服服务完成成从

20、基本本仓库数数据导出出特定数数据集的的任务;分发服服务负责责将集中中的仓库库数据分分发到多多个分设设的数据据仓库数数据库服服务器和和其他供供最终用用户使用用的决策策支持系系统上面面;例行行维护服服务包括括了对数数据仓库库的常规规安全性性服务、归档服服务、备备份、恢恢复以及及对基本本仓库数数据和数数据集的的监督服服务。在在当前,例行维维护服务务多由基基本操作作系统和和数据库库系统软软件来完完成。4.信息息目录数据仓仓库所管管理的数数据,不不仅有供供最终用用户(企企业管理理人员、各级决决策者)使用的的,还包包括供数数据仓库库系统的的开发者者和维护护者使用用的数据据。后一一类信息息是用来来描述仓仓库

21、数据据库结构构的,称称之为元元数据。元数据据的管理理是数据据仓库成成功应用用的关键键。数据仓仓库系统统中的信信息目录录,用来来反映本本系统中中元数据据的组织织情况。通过信信息目录录,可帮帮助用户户了解在在数据仓仓库中都都存放着着什么信信息以及及如何访访问和使使用这些些信息。一般来来说,一一个完整整的信息息目录应应当由几几部分组组成,即即技术目目录、业业务目录录和信息息导航器器。数据仓仓库的设设计者和和管理者者所使用用的数据据,其描描述信息息由技术术目录保保持和管管理。这这类信息息有关于于数据源源和目标标、数据据的提炼炼规则、数据源源与仓库库数据库库之间的的变换规规则和映映射等的的描述信信息。技

22、技术目录录中的信信息,是是在数据据仓库设设计者在在定义数数据源和和数据目目标时,以及向向数据仓仓库拷贝贝数据而而应用某某些规则则时产生生的。如如果外部部系统拥拥有库管管理工具具、DBBMS系统目目录或者者CASEE 工具具,也可可以借用用相应的的工具从从外部系系统输入入这类信信息。为了使使数据仓仓库的设设计者和和管理者者能有重重构、调调整和优优化数据据仓库的的依据,技术目目录还将将保存和和维护与与上述目目标相对对应的信信息,这这类信息息包括:数据仓仓库中数数据的总总量、数数据仓库库的创建建的更新新日期、仓库中中数据的的存取和和使用方方法等。业务目目录包含含的信息息,是将将仓库中中的数据据以符合

23、合最终用用户业务务习惯的的方式表表达出来来。这类类信息包包括:同同一仓库库数据的的业务习习惯叫法法与相应应的数据据仓库命命名及别别名对照照、仓库库数据的的来源、导出规规则和数数据的当当前值、与数据据拥有者者的联络络信息、预定义义的查询询与报告告的内容容细节、授权要要求等。这类信息息通常是是由数据据仓库的的管理员员生成,有的也也可以由由外部系系统(CCASEE 工具具、查询询或报告告生成工工具等)引入到到数据仓仓库中来来。业务目目录的使使用和仓仓库数据据的存取取需要简简单易用用的工具具来辅助助,信息息导航器器就是这这样的工工具,其其基本功功能是:对业务务目录中中的信息息实施查查询和搜搜索、经经查

24、询而而生成临临时性的的或永久久性的仓仓库数据据集、向向仓库管管理员发发送新的的数据获获取请求求的通讯讯、向数数据仓库库系统的的数据分分发部件件发送分分发请求求、与系系统的数数据分发发部件和和数据存存取与分分析部件件直接交交互。5.数据据库管理理系统数据库管管理系统统是数据据仓库的的重要协协同支持持部分。整个系系统都程程度不同同地依赖赖数据库库软件的的支持。其中最最基本的的支持是是对仓库库数据检检索和维维护。能够有有效支持持数据仓仓库系统统的数据据库软件件,必须须具备两两个能力力:伸缩缩能力和和运行效效率。由由于数据据仓库所所维护的的数据量量一般都都在TTB 之之上,所所以上述述要求的的道理是是

25、再明白白不过的的了。在在当前,支持数数据仓库库系统的的主要是是RDBBMS,所以效效率问题题更显得得重要。为了解解决在加加载、存存取和分分析大批批量仓库库数据时时存在的的效率问问题,IIBM推出了了具有广广泛并行行处理能能力的产产品,这这类产品品充分利利用大规规模并行行处理机机的能力力和开放放系统的的优势,在伸缩缩性效率率上均有有实质性性的改观观。数据据仓库系系统需要要数据库库软件提提供的基基本支持持包括并并行查询询、并行行建索引引和并行行常规维维护(加加载、备备份和恢恢复等)。6.数据据存取与与分析部部分存取与分分析部分分属于仓仓库系统统的前端端。这里里主要由由桌面信信息系统统的各种种工具组

26、组成。在在C/SS 计算算环境下下,这部部分属于于客户端端。数据据仓库的的最终用用户在这这里提取取信息、分析数数据集、实施决决策,从从而可望望取得竞竞争优势势。能够够进入这这一部分分的软件件工具,主要是是查询生生成工具具、多维维分析工工具和数数据提取取工具等等。第二章建议议方案简简介关于招商商银行如如何实现现数据仓仓库的建建议经过前前一段时时间的调调查研究究,IBBM 特特向招商商银行提提出这份份建议,建议书书的设计计办求体体现以下下要点:在招商商银行现现有的技技术和经经验的基基础上开开展建设设,保护护贵行在在这些方方面的投投资,充充分考虑虑到贵行行在数据据库技术术如数据据建模和和数据库库管理

27、等等方面的的经验,以及正正在使用用的IIBM产品,建议的的新产品品都是易易于接受受和使用用的如 UNIIX,DB22 UDDB 系系列产品品等。建议书书编写的的过程中中,咨询询了多位位有丰富富银行业业经验的的专业顾顾问,他他们对于于如何在在银行业业内实现现数据仓仓库有多多年的实实践经验验,可以以保证尽尽量降低低方案的的风险。为将来来的发展展打下良良好的基基础,由由于银行行金融企企业业务务的不断断发展,以及企企业信息息系统可可采用的的新技术术不断涌涌现,所所以绝对对有必要要保证系系统有充充分的可可扩展性性,能够够采纳各各种新技技术,如如数据采采掘工具具,互联联网和多多媒体等等。采用用开放的的,可

28、重重用的技技术成份份,尽量量增加系系统的灵灵活性,使投资资得到最最大程度度的保护护。通过过采用成成熟的技技术使系系统建设设的风险险降到最最低。采采用联接接集成技技术来降降低总体体运营成成本,在在本建议议书中最最明显的的例子就就是采用用数据复复制技术术,在 AS/4000 主机机系统和和数据仓仓库间传传输数据据。总体建议议的要点点:基于大大规模并并行技术术的开放放,可重重用,紧紧密集成成的组件件,这个个方案经经过国际际范围内内多个专专业顾问问的审核核,如 Riccharrd FFinkkelsstieen, IDCC 及CollinWWhitte 等等,并得得到他们们的一致致同意。为开发发完整的

29、的业务系系统而选选定的一一整套来来自IIBM及其伙伙伴厂商商的软件件产品。与招商商银行在在数据分分析发现现方面建建立数据据发掘的的合作关关系,使使贵行成成为中国国银行界界的领先先企业,通过准准确的客客户定位位,需求求顾测等等手段获获得丰厚厚的利润润。 IBMM 将召召集来自自世界各各地的数数据仓库库和数据据发掘方方面的专专家,他他们有多多年为银银行客户户服务的的经验,将为贵贵行提供供与业务务相关的的顾问服服务。从技术术及财务务方面为为客户考考虑,提提供单一一而灵活活的价格格条款,以分期期实现的的方式,使系统统的建设设对现行行系统的的影响减减到最少少,在整整个建设设过程与与客户共共担风险险。本建

30、议议书的核核心技术术是SSP 系系统,SSP 系系统的机机器已在在世界各各地的大大银行内内普遍使使用,如如中国银银行和花花旗银行行。方案案内的另另一个核核心技术术DB22 UDDB 的的并行版版本(EEEE) Ennterrpriise-Exttendded Ediitioon,它它是目前前最快的的并行数数据库,也是目目前唯一一一个符符合标准准的全并并行数据据库。其其中还包包括了从从 ASS/4000 到到 SPP 的数数据复制制工具 DattaPrropaagattor。方方案中的的其他软软件产品品有:数数据集市市工具 VissuallWarrehoousee,数据据采掘工工具IInteel

31、liigennt MMineer,以以及DDataaGuiide、ADSSM 以以及进展展技术公公司的 ETII 等。在在本方案案中特定定提出一一个专门门条款:与招商商银行的的数据采采掘合作作。数据据采掘是是目前国国际上各各大企业业普遍采采用的一一种用于于增加和和管理效效益的手手段,它它是一种种比多维维分析工工具更先先进的数数据分析析技术。采用了了这项技技术的用用户普遍遍反映良良好,认认为能很很好地帮帮助他们们降低成成本,增增加收入入,管理理风险,招揽客客户和扩扩大市场场。 IBMM 研究究中心根根据数据据仓库的的使用经经验,总总结出一一组需求求建模的的算法,由各地地的专业业顾问指指导了数数百

32、个客客户使用用这些工工具,选选出最适适合总结结业务流流程的88个算法法,涉及及的数据据采掘技技术包括括聚集 (Cllustteriing)、分类类 (CClasssifficaaitoon)、关联发发现(asssociiatiion disscovveryy)、序序列模式式发现(seqquenntiaal ppattternn diiscooverry)、相似时时间序列列发现 (siimillar timme ssequuencce ddisccoveery)和预测测 (ppreddicttionn)。数数据采掘掘系统的的开发中中使用了了多种技技术和产产品,如如数据预预备工具具和可视视化技术术

33、,为客客户实现现满意的的效果。通过这这些系统统的建设设,也证证明了所所用的工工具和硬硬件(RS/60000)和数据据库环境境 (DDB2 UDBB) 有有足够的的可扩展展能力,能处理理大型数数据文件件。与目前前市场上上其他解解决方案案相比,IBMM 的顾顾问组提提供的服服务明显显高出一一筹,其其他公司司提供的的算法只只能适用用于单一一种特定定的情况况,IBBM 的的算法则则能在各各种企业业中使用用,所提提供的 APII 能集集成其他他表示和和决策支支持工具具,全世世界共有有9个 IBBM 的的实验室室,500多个专专业研究究人员从从事这方方面的工工作,他他们提出出的方案案能分析析数以百百万计的

34、的记录,与关系系型并行行数据库库集成,而不再再受限于于由内存存容量决决定的小小型文件件。我们向向贵行推推荐DDB2并行版版本EEEE,是因为为我们有有足够的的数据采采掘技术术和经验验,使之之能处理理非常大大量的数数据,发发现从来来不曾发发现过的的模式和和关联。在方案案中,我我们将向向贵行提提供所有有合适的的工具和和资源,并希望望组织一一些研讨讨会,共共同探计计如何更更好地选选择适用用于中国国银行业业的产品品和技术术。根据招招商银行行提供的的资料,我们认认为整个个企业用用的数据据仓库系系统需要要一台装装有8个高节节点的 SP系统,最初时时需要 4000GB存储空空间,有有必要时时,可以以在其他他

35、省的分分行安装装数据仓仓库或数数据集市市,具体体方案视视当地的的业务量量而定,我们设设计了相相应的两两个方案案,第一一个方案案是在总总行配备备一个88个高节节点的 SP系统,配备 6500GB存储设设备;第第二个方方案是在在总行配配备一个个4个高节节点的 SP系统,配备 3255GB存储设设备。然然后在各各个分行行各配备备一个22个高节节点的 SP系统,配备 1622GB存储设设备。详详细方案案见附图图。IBBM 建建议使用用第一种种方案。因为 1.整个数数据仓库库系统在在一个地地方,易易于管理理和维护护; 2.降低费费用,避避免重复复投资,可共享享资源; 3.从业务务上看,数据仓仓库得出出的

36、结论论更具有有整体性性。建议方案案企业级的的数据仓仓库与数数据集市市的比较较根据招招商银行行提出的的业务需需求,我我们建议议采用一一个分两两期的方方案来实实现数据据集市的的概念,第一步步是建立立一个全全局的数数据仓库库,它是是建立数数据集市市的必由由之路,数据仓仓库和数数据集市市不应该该是两个个完全分分开的系系统,因因为数据据集市虽虽然向独独立的业业务领域域提供高高质量的的信息,但数据据来源和和基础是是与数据据仓库无无法分开开的,否否则就会会出现数数据完整整性,数数据可管管理性和和元数据据可管理理性等问问题,全全局集中中的企业业数据仓仓库为所所有为特特定业务务领域服服务的数数据集市市提供一一个

37、可靠靠的基础础。数据集集市的定定义逻辑辑成份较较多,而而不注重重于物理理角度,企业级级的数据据仓库指指把企业业业务信信息经提提炼整理理后作长长期的保保存,而而数据集集市保存存的信息息附属于于某一特特定的业业务范围围,相对对比较动动态化,因为数数据集市市相关的的业务范范围会随随着时间间和经营营方针的的改变而而改变。数据集集市需要要快速访访问原始始业务数数据,这这些数据据可能是是从几个个不同的的时期收收集来的的,事先先要经过过业务规规则的检检验和净净化处理理。这样样才能保保证不同同业务需需求的数数据集市市都能快快速访问问到所需需的数据据。正是是这个原原因,最最成功的的数据集集市应用用不是那那些以应

38、应用为可可心的业业务系统统,而是是由全局局企业数数据仓库库中提炼炼出来的的数据集集市系统统。企业业数据仓仓库可以以扮演过过滤器的的角色,执行业业务规则则和检验验数据。本建议议书在实实现数据据集市方方面推荐荐一种相相当灵活活的体系系结构,数据集集市的规规模可以以小到只只有几个个用户,大到整整个部门门,甚至至整企业业务系统统,为了了适应这这种需求求,推荐荐的方案案能从核核心的数数据仓库库中抽取取所需的的特定数数据,跟跟踪与建建立数据据集市有有关的所所有操作作,以便便作审计计控制,并能在在较长时时间后重重组数据据。数据集集市的具具体实现现依赖于于业务需需求和企企业数据据模型,可以选选择的方方案有很很

39、多,为为确保安安全性,可管理理性,可可靠性和和可行性性,数据据集市可可以在 SP平台上上和企业业的数据据仓库共共存,这这种配置置使工作作负载可可以分布布到多个个节点上上,从而而使数据据集市的的应用获获得较好好的性能能效果,对于远远程节点点和移动动用户而而言,数数据集市市则可以以从企业业数据仓仓库平台台转移到到其他平平台上,IBMM 的DB22 UDDB 数数据库和和数据复复制产品品降低了了转移过过程的复复杂性和和难度,这些产产品可运运行在多多种平台台上,如如WinndowwsNTT、 OSS/2、AIXX、Sunn Soolarris、HP-UX和 SCCO UUNIXX 等,使数据据集市可可

40、灵活扩扩展。对于小小于220 GGB的数数据集市市,还可可以把数数据下载载到多维维数据和和分析包包中,如如 Arrborr 公司司的EEssbbasee 可以以从数据据仓库中中切下部部分数据据,专用用于部门门级的数数据集市市应用,Esssbasse有一个个多维数数据库,最终用用户可以以从不同同的维上上分析数数据,在在较短的的响应时时间内分分析数据据和汇总总信息。本建议议书的其其余部分分将专注注于论述述如何建建立一个个集中式式的全局局数据仓仓库,评评估具体体的业务务需求时时会进一一步解释释数据集集市的实实现。方案所用用技术概概述本方案案涉及七七项最重重要的技技术:数数据仓库库的管理理和基础础结构

41、,数据获获取,数数据存储储,决策策支持工工具,数数据采掘掘,企业业数据仓仓库目录录,咨询询及顾问问服务,下面将将分别介介绍。每每项技术术都分类类列出可可能的选选择,我我们在这这个项目目中的推推荐方案案以及原原因。我们的的解决方方案不但但覆盖了了这七项项技术,还有针针对性地地根据招招商银行行的业务务需求来来使用这这些技术术,保证证紧密地地集成系系统,完完成所有有业务需需要的功功能,同同时这些些技术遵遵循开放放标准,每个组组成部分分的模块块化结构构使整个个系统具具有充分分灵活性性,可以以在必要要的时候候升级改改进。管理及基基础结构构硬件技术术招商银银行可以以选用的的硬件平平台有 SMPP,SMPP

42、 集群群和MMPP。根据业业务的规规模,银银行业的的动态性性,以及及为将来来的发展展建立一一个灵活活的,可可扩展的的,有充充分发展展余地的的基础的的需求,编写这这份建议议书的专专家一致致认为应应该选择择 MPPP 平平台,其其他评核核的顾问问如Riichaard Finnkellsteein、CollinWhiite和 IDDC 的的 ChhrissWillliaard等都肯肯定这一一选择,根据 Garrtneer 集集团的统统计,九九成的 IT经理为为了更快快,更灵灵活,更更有效地地执行分分析工作作,都会会选择 MPPP 平台台和并行行数据库库。 IBMM 有两两种UUNIXX 环境境下的

43、MPPP 处理理方案:SP和大型型主机上上的MMVS开放版版本。我我们推荐荐 SPP 系统统,因为为它稳固固的结构构,成功功的运行行记录,较好的的性能价价格比。 SP在19994年推推出,时时至今日日,全世世界共有有20000多个个系统在在运行,总节点点数超过过200000个个,现在在在中国国也安装装了近1100个个系统。大型的的银行企企业,一一般会选选用一个个或多个个 SPP 平台台来执行行各种业业务,如如市场分分析,客客户管理理,利润润分析,服务跟跟踪等。 SP可以提提供几乎乎不受限限制的可可扩展能能力,本本项目建建议的配配置只及及目前最最强大的的处理能能力,最最大的内内存和硬硬盘容量量的

44、不足足百分之之五,有有一些用用户甚至至在使用用超过4400个个节点的的 SPP 系统统。系统管理理长期稳稳定运行行的业务务系统有有赖于稳稳定的体体系结构构,而系系统管理理是整个个数据仓仓库稳定定性量度度的重要要指标。有超过过一半的的客户/服务器器项目是是失败的的,其中中超过990%的的系统是是因为没没有合适适的系统统管理结结构。SSP 平平台上有有一整套套系统管管理软件件,能管管理系统统的改变变,重新新配置,操作执执行以及及作性能能和故障障管理。Tivvolii 系列列系统管管理工具具进一步步完善这这组软件件的功能能,它是是一套可可靠的跨跨平台的的管理工工具,能能实现完完善的数数据仓库库管理功

45、功能,使使整个系系统发挥挥最大的的交用。本方案案中采用用的TTivooli产品是是ADSSM(ADSSTARR分布式式存储管管理器)。数据获取取数据获获取过程程由几步步组成,有数据据抽取和和传送,数据提提炼,数数据分发发和装载载。数据据获取是是一个不不间断的的过程,要求自自动化的的处理能能力,可可靠性和和可管理理性,所所以上节节所说的的系统管管理能力力也很重重要。数数据获取取的核心心是企业业数据仓仓库目录录的分发发和管理理。该功功能由 DB22 UDDB EEEE中的产产品DDataa Prropaagattor完成。数据存储储在 SPP 硬件件平台上上,可选选的数据据存储产产品有 ORAAC

46、LEE、INFFORMMIX和 DBB2 并并行版本本,我们们推荐 DB22 并行行版本 UDBB-EEEE,该该产品在在加拿大大实验室室开发,得到多多数顾问问的一致致推荐,因为 DB22 并行行版本是是目前市市场上唯唯一完全全符合标标准的 MPPP 数据据,通过过广泛的的安装和和使用进进一步证证明了其其能力。在SSP 平平台上实实现数据据仓库选选用DDB2并行版版本的占占了超过过50,远远超超过第二二位的 ORAACLEE,因为为它目前前唯一一一个全并并行的数数据库。最近作作了一个个关于 VLDDB (超大型型数据库库)的调查查中,DDB2成为最最受欢迎迎的产品品,在五五大数据据库中无无论是

47、数数据库的的容量还还是用户户数都远远远领先先。例如如一家叫叫 BeellSSygmma 的的公司,正在使使用DDB2/MVSS 作市市场分析析,随着着 UNNIX平台上上的数据据仓库的的不断发发展,他他们在考考虑转型型时决定定采用 DB22 并行行版本,因为他他们已经经有DDB2的使用用经验,而且 IBMM 在 VLLDB上令人人信服的的技术和和经验,可信的的运行记记录等促促使他们们作出这这种决定定。时至至今日,他们已已经开发发出几个个 VLLDB的数据据仓库应应用,都都有非常常好的可可扩展性性和性能能。一向以以来,DDB2因为其其多样化化的功能能而受世世界各大大型企业业的普遍遍欢迎,美国最最

48、大的5500家家企业中中有超过过80采采用了 DB22,其中中前1000家全全部采用用了DDB2。DB22 并行行版本象象 SPP 平台台一样,能帮助助象招商商银行这这样的企企业去应应付各种种类型的的业务压压力,有有足够的的灵活性性去增加加,删除除,重新新开发和和管理应应用和数数据,DDB2有独特特的可重重用特点点,能同同时作数数据仓库库、数据据集市和和内部网网应用的的数据库库服务器器,将来来还可以以把DBB2/4400的应用用向下优优化到 DB22 上。最新的的 TPPCD 测试试表明,DB22 的性性能是并并行数据据库中最最好的,这次测测试模拟拟了一个个实际的的数据仓仓库环境境,从 TPC

49、C 量度度上来看看,与招招商银行行目前的的数据仓仓库规模模比较接接近,IIBM公司在在19996年共共投入了了12000个人人年开发发 DBB2 产产品,今今后仍会会保持这这种力度度以保证证并行数数据库领领域的领领先地位位。决策分析析支持工工具面向最最终用户户的工具具种类繁繁多,有有 IBBM的 Viisuaalizzer、Datta IInteer PPrettatiion;其他公公司的如如 Coogonns、Infformmatiion Advvanttagee、Bussineess Objjectts、Briio-QQuerry、CryystaalReeporrts、Miccrosstr

50、aateggy、Proodeaa、Arbbor的EsssBasse 等等。汇集集总体层层次上的的数据,从多个个角度去去分析,发现有有价值的的信息,但每个个工具的的功能范范围都比比较单一一而固定定。经过专专家的讨讨论,我我们推荐荐 Arrborr 的 EsssBaase,作部门门级数据据集市方方案中的的多维数数据库。我们也也希望建建立数据据采掘的的合作关关系,以以便更好好地发挥挥 IBBM 最最新的数数据采掘掘和发现现技术的的作用。IBM的数据据采掘技技术数据仓仓库最重重要的作作用就是是发掘信信息,更更好地支支持业务务决策,增加客客户忠诚诚度,提提高市场场占有率率和利润润,信息息发掘的的应用有有

51、市场分分析,利利润评估估,成本本审核等等。现在的的技术趋趋势是以以信息发发现为驱驱动,提提高上述述应用的的效率,IBMM在这方方面的研研究和开开发工作作一直处处于领先先地位,与几个个重大的的金融和和零售业业客户合合作,开开发出一一些有针针对性的的解决方方案。在在此基础础上汇集集成一个个完整的的数据采采掘工具具包,IInteelliigennt MMineer.已已在19996年年六月推推出,支支持RSS/60000和 SPP 平台台上的 DB22,该项项技术在在业界内内堪称一一绝。第第一版的的产品内内含有八八个独立立的算法法。 METTA 集团团的AAaroonZoornees 曾曾高度评评价

52、这一一技术“IBMM 的数数据采掘掘工具包包和提供供的相关关的服务务,相信信会对大大型企业业的数据据仓库技技术带来来决定性性的影响响。”这项技技术是一一项新技技术,对对招商银银行而言言很有好好处,采采用这项项技术可可以使贵贵行与其其他银行行在技术术上拉开开差距,这项技技术必然然会进一一步发展展,同时时也就保保证了贵贵行在数数据仓库库上的投投资能发发挥更大大的作用用。企业数据据仓库目目录数据仓仓库的元元数据是是数据仓仓库完整整性、自自动化程程度和可可用性的的基础,元数据据定义了了数据仓仓库的处处理过程程,记录录下来并并支配整整个运行行过程,对业务务型用户户而言,元数据据是一种种信息目目录,从从中

53、可以以较容易易地理解解和使用用数据仓仓库中的的信息。元数据据的来源源,信息息模型和和存储技技术有很很多种,通常相相互之间间是冲突突的,为为了使各各种工具具可以顺顺利地互互相交换换元数据据,需要要 Meetaddataa Innterrchaangee Cooaliitioon 的的帮助,提供元元数据的的标准化化的交换换。IBBM,ETII,Inffrommatiion Advvanttagee 和 Vaalitty 等等公司都都支持这这种标准准,我们们与其他他数据仓仓库厂商商也正在在共同合合作,以以达成最最终的标标准。 IBMM 的方方法与 Coaalittionn 的策策略完全全一致,技术性

54、性的元数数据和业业务性的的元数据据的内容容和使用用方式都都是比较较独立的的,针对对不同的的用户,应该有有不同的的元数据据存储,优化信信息结构构。IBBM 推推荐的方方案中,技术性性的元数数据可以以用ETTI,业业务性的的元数据据用IIBM的 DaataGGuidde,这这些相互互独立的的产品虽虽然来自自不同的的厂商,但组合合起来能能发挥更更大的作作用,因因为它们们是所在在领域中中最好的的产品,否则无无论如何何都要维维护两套套元数据据目录,还要保保证它们们之间的的同步。 ETII 和 DaataGGuidde 的的同步由由 ETTI 负负责,因因为EETI有一种种很特别别的功能能,能象象处理其其

55、他数据据源一样样处理 ETII 的元元数据存存储,EETI最大的的长处就就是有选选择的查查询、传传送数据据,不受受软件和和硬件的的影响,能在任任何格式式的数据据库或文文件间传传送大量量的数据据,所有有操作都都是在元元数据的的控制下下进行。ETII 的元元数据存存储能卸卸出,然然后卸入入 DaataGGuidde,或或与DaataGGuidde 的的数据合合并,整整个处理理过程可可在图形形界面中中完成,最后能能生成相相关的报报告,EETI还支持持版本控控制,建建立并维维护详细细的审计计记录。 DattaGuuidee 是 IBBM 的的信息目目录工具具,集成成工作组组级和企企业级上上的最终终用户

56、业业务元数数据,DDataaGuiide中的元元数据按按业务性性质划分分成多个个业务组组,最终终用户很很容易浏浏览,分分析时如如果要查查找某一一对象,如报告告、电子子表格、数据库库、程序序、ETTI 元元数据存存储或数数据采掘掘工具等等,DaataGGuidde 都都能把所所需的数数据连同同信息抽抽调出来来,DaataGGuidde 的的目录信信息存储储在DDB2中,与与数据仓仓库中的的业务数数据放在在相同的的地方。咨询与顾顾问服务务概述招商银银行已有有开发大大型项目目的技术术和经验验。根据据 IBBM 在在数百个个数据仓仓库项目目中的经经验,其其中有几几个与招招商银行行的情况况相类似似,我们

57、们有信心心帮助贵贵行利用用已有的的技术和和经验,把系统统升级,扩展数数据仓库库的范围围和业务务应用的的广度。 IBMM 一向向是通过过增加商商业价值值来推动动项目的的进展,保证用用户花在在数据仓仓库上的的每一分分钱都是是物有所所值的,所采用用的技术术都是绝绝对有必必要的,与业务务需求相相适应的的,我们们的方案案进展是是分期进进行的,保证整整个项目目按步就就班,达达至最后后完全成成功。 IBMM 是世世界最大大的顾问问服务公公司,提提供全面面的顾问问服务,在招商商银行项项目中我我们有三三个突出出的长处处: IBBM 充充分认识识到数据据仓库的的重要性性,专门门建立一一个技术术中心,由数百百个专业

58、业人员组组成,设设计、实实现并管管理数据据仓库项项目中的的所有部部件。 IBBM 已已有多年年为客户户提供数数据仓库库咨询与与顾问服服务的历历史,附附录中列列出了 IBMM 数据据仓库顾顾问服务务的方式式。 IBBM 有有数据采采掘方面面领先的的技术,在过去去十年中中,超过过50个研研究人员员专注于于超大型型数据环环境中的的数据发发掘的研研究,研研究工作作在遍布布世界各各地的99个实验验室中进进行,前前后共研研制了442种数数据发掘掘的算法法,所有有这些成成果,再再加上我我们提供供的专业业顾问服服务,帮帮助客户户设计方方案,实实现和开开展培训训,构成成了数据据采掘的的强大力力量。第三章硬件件产

59、品介介绍在仔细细研究招招商银行行总行目目前的运运行环境境,以及及总行对对数据仓仓库计划划的需求求后,IIBM提出SP解决方方案。IIBM方案结结合了在在不同平平台(IBMM RSS/60000及IBMM ASS/4000)间数据据移动 (daata movvemeent),系统统连接 (syysteem cconnnecttiviity) 以及及系统可可扩展性性 (syysteem sscallabiilitty)等许多多新的技技术,这这些技术术不仅可可以满足足总行目目前的需需求,而而且提供供了满足足未来需需求的基基础。解决方案案:因为目目前总行行每天的的日常操操作是在在AS/4000 上运运

60、行,为为确保不不影响日常的的运行,以及满满足数据据仓库大大量运算算的需求求,IBBM 建建议使用用IBMM 最高高档的UNIIX 平平台RS/60000 SSP,因因为SP具有(11)开放放式系统统功能。(2)高可扩扩展性等等优点,足以满满足总行行目前及及未来的的需求。IBM解决方方案的主主机硬件件需求:八个R500 节点点的RS/60000 SSP,每每节点配配置有88个CPUU,4GBB 内存存,4.5 GGB 内内置硬盘盘,外置置硬盘为为81.1GBB。各节节点的外外置硬盘盘不互连连。八个个节点通通过SP SWIITCHH 相联联,构成成SP的MPPP 结构构,而每每个节点点内采用用8

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论