招商银行数据仓库方案样本_第1页
招商银行数据仓库方案样本_第2页
招商银行数据仓库方案样本_第3页
招商银行数据仓库方案样本_第4页
招商银行数据仓库方案样本_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

招商银行数据仓库方案建议书I目录第一章前言第二章建议方案简介第三章硬件产品简介第四章软件产品简介第五章项目筹划附录一成功案例附录二IBM可以提供服务附录三项目进度筹划安排参照附录四产品报价第一章前言作为一种发展中银行,总部位于国内南方知名经济特区深圳市招商银行成长令人瞩目。为了在五年内成为全国知名银行,进入世界大银行排行榜,招商银行决策者们制定了一整套行之有效筹划,而作为当代化管理一某些,与国际上先进模式接轨,计算机管理自然成为相称重要一某些。招商银行与世界信息产业领导者,美国国际商业机器公司,简称IBM合伙,将其业务系统成功运营在AS/400平台之上,成功地迈出了计算机管理第一步。但是她们并不满足于当前状况,发扬从来紧跟新科技老式,决定对当前业务数据作进一步解决,将静态数据转化为决策支持根据。因此,准备采用当前信息产业界极为先进数据仓库技术,完毕招商银行决策支持系统,以进一步提高公司实力和竞争力。而世界上最大软件及征询服务公司IBM,将以其在该行业雄厚实力和数十年丰富经验,为招商银行提供一套完整解决方案,使招商银行管理能力再上一种台阶。本方案以先进性和可扩展性为原则,使招商银行数据仓库系统既可以保证在几年内技术和设备不落后,使之站在世界计算机发展潮流之上,又可以依照业务高速发展,很以便地升级,以达到业务发展需求性能。先进性方面,IBM提供硬件平台是具备最强劲解决能力RS6000SP系列并行机,它综合业界最高品位技术,具备无与伦比解决能力和可扩展性、可靠性。例如战胜世界冠军、国际象棋特级大师卡斯帕罗夫“深蓝”就是这种机型,其每秒数亿步解决速度至今仍被人们称道;软件平台是IBM提供最新推出、业界好评如潮通用数据库产品(UniversalDatabase),这是IBM又一大师级力作;尚有荣获本年度世界数据仓库产品大奖数据采掘工具:IntelligentMiner;在应用上,IBM有成熟整套数据仓库解决方案,和其她仅仅能提供某些方面产品厂商有着本质区别。可扩展性方面,由于数据量越来越大,顾客越来越多,为保证合理响应速度,对机器性能提高就会有一种几乎线性增长规定。硬件和软件可扩展性就成为一种重要考虑因素。IBMRS6000SP主机正是具备这种特性,从而成为硬件平台首选;通用数据库在小到手提机,大到并行主机任何平台上,都能充分发挥硬件性能。这样就保证了整个数据仓库系统正常运作。也可以保证顾客在此后升级时,既可以保护既有投资,也使应用系统受到影响降到最小,做到无缝升级。背景中华人民共和国银行业务正面临深刻改革,各种新生事物不断涌现,如新业务,由于分工模糊而浮现诸多非银行业竞争者,业务全球化趋势,由新旧竞争者导致越来越大压力,迅速发展信息技术,客户需求和总体人口构成也在不断变化。全球范畴内金融服务公司间关系变得更快密,促使决策者重新研究金融市场,资源分派,组织构造和业务流程,从而采用更有创意公司行为和方略,如公司兼并,市场定位,产品和服务推陈出新,保持营销渠道畅通。在银行业内,越来越多公司正在采用数仓库工具来创造新商业机会:进一步分析客户群构成、发现特殊需求、设计新产品、在新业务推出前开展详细建模和分析。分析客户减少也许因素,采用防止办法,提高服务质量和整体竞争力。分析重要客户来源,保证整体效益。防止和制止信用卡诈骗活动。正如IBM从来在计算机业发展中扮演重要角色同样,IBM早在1988年,就刊登了第一篇关于数据仓库文章,成为这一领域先驱,从那时起,数据仓库技术,服务和解决方案就在来断地完善,时至今日,IBM公司数据仓库系统已经安装了数百个,在各个行业,各种平台上运营。1995年,IBM重新评估了所有数据仓库资源,成立一支核心队伍,专门开发运用于各行业数据仓库解决方案,范畴涉及银行及金融业,电讯业,零售业,保险及卫生业等。这个小组任务是分析各行业业务需求,选取最佳软件和硬件产品,为客户提供征询服务。在数据仓库市场上,IBM始终致力于提供全面解决方案,不但提供技术和征询服务,还为客户简介专门行业经验。咱们数据仓库系统运营在各种平台上,保证一种开放系统供应商地位,是当前最完整全方位集成式数据仓库解决方案。IDC近来在加拿大市场上作了一次数据仓库调查,发现集成度是人们最关怀问题,除了严格遵循开放原则,IBM还发展了某些有实力方略联盟伙伴,如Vality、进展技术公司ETI、Cognos以及InformationAdvantage等。通过联合开发和集成调试,达到联盟重要目的:更高档集成度。IBM始终致力于确立在以网络为中心计算技术方面领导地位,咱们也坚信当前咱们站在潮流尖端,公司内部建立起遍及全球100各种国家,700各种都市全球性大型数据网络,在专门互联网部门,在这一领域技术成果不断推出,都无可置疑地表白IBM是当之无愧领导者。今天IBM更是提出了一套完整解决方案。如下就数据仓库概念和作用做某些简要简介。数据仓库概念及作用所谓数据仓库,数据仓库之父W.H.Inmon曾对数据仓库作了这样描述:“数据仓库是九十年代信息技术构架新焦点,它提供集成化和历史化数据;它集成种类不同应用系统;数据仓库从发展和历史角度来组织和存储数据,以供信息化和分析化解决之用”。这里要强调是必要将业务系统和数据仓库分开。两者功能不同,规定迥异。虽然业务系统为数据仓库提供数据。但决不能将数据仓库建立在业务系统之上。一来两者所存数据不同。业务系统是存储实时数据地方;数据仓库也许更关怀是整个历史数据。两者数据传递不是简朴复制,而是一种也许是比较复杂转换和传递过程。二来,这样做对业务系统影响太大。不但会对数据安全性导致某些不可预测影响,还会影响业务系统性能。查询祈求会使系统不堪重负,响应速度减少,严重时甚至导致系统崩溃,使业务系统瘫痪。因此必要将两者分开。数据仓库作用重要在于通过对大量数据分析,得出需要记录成果。还可以找出其潜在关系,从而作出对的判断。例如,如果银行要理解它一种客户状况,以当前状况来看,需要查询储蓄库,信用卡库,借贷信息等。这些信息存储在不同业务系统中,不同主机上,显然要获得完整客户资料需要作大量工作,消耗大量时间。但是,如果这个银行拥有数据仓库系统,要完毕这个工作只需要一种最简朴查询命令,也许只需要几秒钟。由于数据仓库中已有了所有数据,并且都已经重新组织。特别是如果你要查是某些历史数据,那么当前系统就主线无能为力了。因此,建立一种数据仓库对公司许多对的决策作出有着举足轻重影响。它可以以合理代价获得有效决策支持;增进公司中业务解决过程重组;改进并强化对客户服务;强化公司资产和负债管理;增进市场分析;协助实现公司规模优化。数据仓库特点由于差不多各个业务系统各种数据都要放进数据仓库,因此,随着时间增长数据仓库数据量是特别大。例如,某单位一天有10G数据,例如移动通讯局计费系统(如果有几本流水帐,也许还会超过这个数字),那么,仅仅过了两年,数据仓库中数据量就有:10*365*2=7300G,相称于七个多TB数据。那么五年后,十年后呢?简直不能想象。由此可见,数据仓库特点:数据量大且有几乎线性增长性。数据仓库对计算机系统规定依照上述特点,咱们以为支持数据仓库计算机系统一方面必要得有一台不但性能卓著,并且可扩展性也较好主机。谈到可扩展性,许多人会想到对称多解决器系统(SymmetricalMulti-Processing)系统,其实SMP系统CPU数增长到一定数目后,对系统性能提高已十分有限,甚至会起反作用。因此,主机选用,一定要有非常好线性增长性。这里,咱们建议选用当前已经比较成熟海量并行解决系统(MassiveParallelProcessing),简称为MPP。此外,数据库选用也是十分核心。一是要支持超大数据量。也许在初始阶段,数据量已经到了TB级。二是要有很强稳定性。数据仓库是为决策支持系统提供精确数据分析,如果数据库不十分稳定,那么,后果不堪设想。此外,数据库必要有可扩展性,支持多平台,高性能等等。整个网络环境稳定和高速也应被列入计算机系统设计考虑范畴。数据仓库系统体系构造一种完整数据仓库系统,应当由定义某些、数据获取某些、管理某些、数据分发某些、信息目录、数据库管理系统、数据存取与分析等某些构成。1.定义某些数据仓库系统定义某些完毕数据仓库环境定义和设立。这里涉及相应定义工具供数据仓库设计者和管理人员使用。她们使用此类工具进行:a. 设计和定义数据仓库数据库;b. 定义数据仓库数据源;c. 指定一组规则用来约束当数据从外部源点进入数据仓库时系统行为。定义某些工作成果是一批元数据,这批数据将存储在信息目录中。2.数据获取某些数据获取某些负责从外部数据源析取数据,并在数据仓库内对所析取数据实行后解决。为了实现数据仓库系统重要目的以最后顾客最容易理解和使用方式组织和存储数据,进行后解决是必要一步。后解决涉及对所析取数据提炼和变换。在定义某些所建立规则用来约束实行后解决时系统行为。数据提炼涉及如下内容:记录或记录内栏目重构,删去不需要运营信息,字段值解码和翻译,补充缺漏值以及检查数据完整性和相容性。变换内容如上所述。需补充两点是变换还可以涉及对原数据加上时间标记及对导出数据计算,在完毕后解决后,即可将解决成果加载到相应数据仓库数据库中,这种加载可通过源数据库加载工具实现,如果源库是关系数据库,普通可用SQL类工具实现对寻常数据清理和归整,来自外部数据源数据不会原封不动地进入数据仓库,而是必要进行必要变换以增强其可用性。最常用数据变换有获取瞬像数据、实行集运算(求和、求平均量等)、分组、填写缺漏值、预报趋势(填入预测量)、数据构造与格式转换、提取样本值、编码值与可读值间转化等等。3.管理某些管理某些由一组系统服务工具构成,此类工具及其所提供服务可为数据仓库系统中其她某些所运用,还可以用于管理数据仓库中数据集,数据集是对特定一种或一级顾客有用一组数据,这组数据是从数据获取某些得到基本数据导出。管理某些提供服务涉及数据维护、数据分发、数据仓库例行维护,其中,维护服务完毕从基本仓库数据导出特定数据集任务;分发服务负责将集中仓库数据分发到各种分设数据仓库数据库服务器和其她供最后顾客使用决策支持系统上面;例行维护服务涉及了对数据仓库常规安全性服务、归档服务、备份、恢复以及对基本仓库数据和数据集监督服务。在当前,例行维护服务多由基本操作系统和数据库系统软件来完毕。4.信息目录数据仓库所管理数据,不但有供最后顾客(公司管理人员、各级决策者)使用,还涉及供数据仓库系统开发者和维护者使用数据。后一类信息是用来描述仓库数据库构造,称之为元数据。元数据管理是数据仓库成功应用核心。数据仓库系统中信息目录,用来反映本系统中元数据组织状况。通过信息目录,可协助顾客理解在数据仓库中都存储着什么信息以及如何访问和使用这些信息。普通来说,一种完整信息目录应当由几某些构成,即技术目录、业务目录和信息导航器。数据仓库设计者和管理者所使用数据,其描述信息由技术目录保持和管理。此类信息关于于数据源和目的、数据提炼规则、数据源与仓库数据库之间变换规则和映射等描述信息。技术目录中信息,是在数据仓库设计者在定义数据源和数据目的时,以及向数据仓库拷贝数据而应用某些规则时产生。如果外部系统拥有库管理工具、DBMS系统目录或者CASE工具,也可以借用相应工具从外部系统输入此类信息。为了使数据仓库设计者和管理者能有重构、调节和优化数据仓库根据,技术目录还将保存和维护与上述目的相相应信息,此类信息涉及:数据仓库中数据总量、数据仓库创立更新日期、仓库中数据存取和用法等。业务目录包括信息,是将仓库中数据以符合最后顾客业务习惯方式表达出来。此类信息涉及:同一仓库数据业务习惯叫法与相应数据仓库命名及别名对照、仓库数据来源、导出规则和数据当前值、与数据拥有者联系信息、预定义查询与报告内容细节、授权规定等。此类信息普通是由数据仓库管理员生成,有也可以由外部系统(CASE工具、查询或报告生成工具等)引入到数据仓库中来。业务目录使用和仓库数据存取需要简朴易用工具来辅助,信息导航器就是这样工具,其基本功能是:对业务目录中信息实行查询和搜索、经查询而生成暂时性或永久性仓库数据集、向仓库管理员发送新数据获取祈求通讯、向数据仓库系统数据分发部件发送分发祈求、与系统数据分发部件和数据存取与分析部件直接交互。5.数据库管理系统数据库管理系统是数据仓库重要协同支持某些。整个系统都限度不同地依赖数据库软件支持。其中最基本支持是对仓库数据检索和维护。 可以有效支持数据仓库系统数据库软件,必要具备两个能力:伸缩能力和运营效率。由于数据仓库所维护数据量普通都在TB之上,因此上述规定道理是再明白但是了。在当前,支持数据仓库系统重要是RDBMS,因此效率问题更显得重要。为理解决在加载、存取和分析大批量仓库数据时存在效率问题,IBM推出了具备广泛并行解决能力产品,此类产品充分运用大规模并行解决机能力和开放系统优势,在伸缩性效率上均有实质性改观。数据仓库系统需要数据库软件提供基本支持涉及并行查询、并行建索引和并行常规维护(加载、备份和恢复等)。6.数据存取与分析某些存取与分析某些属于仓库系统前端。这里重要由桌面信息系统各种工具构成。在C/S计算环境下,这某些属于客户端。数据仓库最后顾客在这里提取信息、分析数据集、实行决策,从而可望获得竞争优势。可以进入这一某些软件工具,重要是查询生成工具、多维分析工具和数据提取工具等。

第二章建议方案简介关于招商银行如何实现数据仓库建议通过前一段时间调查研究,IBM特向招商银行提出这份建议,建议书设计办求体现如下要点:在招商银行既有技术和经验基本上开展建设,保护贵行在这些方面投资,充分考虑到贵行在数据库技术如数据建模和数据库管理等方面经验,以及正在使用IBM产品,建议新产品都是易于接受和使用如UNIX,DB2UDB系列产品等。建议书编写过程中,征询了多位有丰富银行业经验专业顾问,她们对于如何在银行业内实现数据仓库有近年实践经验,可以保证尽量减少方案风险。为将来发展打下良好基本,由于银行金融公司业务不断发展,以及公司信息系统可采用新技术不断涌现,因此绝对有必要保证系统有充分可扩展性,可以采纳各种新技术,如数据采掘工具,互联网和多媒体等。采用开放,可重用技术成分,尽量增长系统灵活性,使投资得到最大限度保护。通过采用成熟技术使系统建设风险降到最低。采用联接集成技术来减少总体运营成本,在本建议书中最明显例子就是采用数据复制技术,在AS/400主机系统和数据仓库间传播数据。总体建议要点:基于大规模并行技术开放,可重用,紧密集成组件,这个方案通过国际范畴内各种专业顾问审核,如RichardFinkelstien,IDC及ColinWhite等,并得到她们一致批准。为开发完整业务系统而选定一整套来自IBM及其伙伴厂商软件产品。与招商银行在数据分析发现方面建立数据发掘合伙关系,使贵行成为中华人民共和国银行界领先公司,通过精确客户定位,需求顾测等手段获得丰厚利润。IBM将召集来自世界各地数据仓库和数据发掘方面专家,她们有近年为银行客户服务经验,将为贵行提供与业务有关顾问服务。从技术及财务方面为客户考虑,提供单一而灵活价格条款,以分期实现方式,使系统建设对现行系统影响减到至少,在整个建设过程与客户共担风险。本建议书核心技术是SP系统,SP系统机器已在世界各地大银行内普遍使用,如中华人民共和国银行和花旗银行。方案内另一种核心技术DB2UDB并行版本(EEE)Enterprise-ExtendedEdition,它是当前最快并行数据库,也是当前唯一一种符合原则全并行数据库。其中还涉及了从AS/400到SP数据复制工具DataPropagator。方案中其她软件产品有:数据集市工具VisualWarehouse,数据采掘工具IntelligentMiner,以及DataGuide、ADSM以及进展技术公司ETI等。在本方案中特定提出一种专门条款:与招商银行数据采掘合伙。数据采掘是当前国际上各大公司普遍采用一种用于增长和管理效益手段,它是一种比多维分析工具更先进数据分析技术。采用了这项技术顾客普遍反映良好,以为能较好地协助她们减少成本,增长收入,管理风险,招揽客户和扩大市场。IBM研究中心依照数据仓库使用经验,总结出一组需求建模算法,由各地专业顾问指引了数百个客户使用这些工具,选出最适合总结业务流程8个算法,涉及数据采掘技术涉及汇集(Clustering)、分类(Classificaiton)、关联发现(associationdiscovery)、序列模式发现(sequentialpatterndiscovery)、相似时间序列发现(similartimesequencediscovery)和预测(prediction)。数据采掘系统开发中使用了各种技术和产品,如数据预备工具和可视化技术,为客户实现满意效果。通过这些系统建设,也证明了所用工具和硬件(RS/6000)和数据库环境(DB2UDB)有足够可扩展能力,能解决大型数据文献。与当前市场上其她解决方案相比,IBM顾问组提供服务明显高出一筹,其她公司提供算法只能合用于单一种特定状况,IBM算法则能在各种公司中使用,所提供API能集成其她表达和决策支持工具,全世界共有9个IBM实验室,50各种专业研究人员从事这方面工作,她们提出方案能分析数以百万计记录,与关系型并行数据库集成,而不再受限于由内存容量决定小型文献。咱们向贵行推荐DB2并行版本EEE,是由于咱们有足够数据采掘技术和经验,使之能解决非常大量数据,发现从来不曾发现过模式和关联。在方案中,咱们将向贵行提供所有适当工具和资源,并但愿组织某些研讨会,共同探计如何更好地选取合用于中华人民共和国银行业产品和技术。依照招商银行提供资料,咱们以为整个公司用数据仓库系统需要一台装有8个高节点SP系统,最初时需要400GB存储空间,有必要时,可以在其她省分行安装数据仓库或数据集市,详细方案视本地业务量而定,咱们设计了相应两个方案,第一种方案是在总行配备一种8个高节点SP系统,配备650GB存储设备;第二个方案是在总行配备一种4个高节点SP系统,配备325GB存储设备。然后在各个分行各配备一种2个高节点SP系统,配备162GB存储设备。详细方案见附图。IBM建议使用第一种方案。由于1.整个数据仓库系统在一种地方,易于管理和维护;2.减少费用,避免重复投资,可共享资源;3.从业务上看,数据仓库得出结论更具备整体性。建议方案公司级数据仓库与数据集市比较依照招商银行提出业务需求,咱们建议采用一种分两期方案来实现数据集市概念,第一步是建立一种全局数据仓库,它是建立数据集市必由之路,数据仓库和数据集市不应当是两个完全分开系统,由于数据集市虽然向独立业务领域提供高质量信息,但数据来源和基本是与数据仓库无法分开,否则就会浮现数据完整性,数据可管理性和元数据可管理性等问题,全局集中公司数据仓库为所有为特定业务领域服务数据集市提供一种可靠基本。数据集市定义逻辑成分较多,而不注重于物理角度,公司级数据仓库指把公司业务信息经提炼整顿后作长期保存,而数据集市保存信息附属于某一特定业务范畴,相对比较动态化,由于数据集市有关业务范畴会随着时间和经营方针变化而变化。数据集市需要迅速访问原始业务数据,这些数据也许是从几种不同步期收集来,事先要通过业务规则检查和净化解决。这样才干保证不同业务需求数据集市都能迅速访问到所需数据。正是这个因素,最成功数据集市应用不是那些以应用为可心业务系统,而是由全局公司数据仓库中提炼出来数据集市系统。公司数据仓库可以扮演过滤器角色,执行业务规则和检查数据。本建议书在实现数据集市方面推荐一种相称灵活体系构造,数据集市规模可以小到只有几种顾客,大到整个部门,甚至整公司务系统,为了适应这种需求,推荐方案能从核心数据仓库中抽取所需特定数据,跟踪与建立数据集市关于所有操作,以便作审计控制,并能在较长时间后重组数据。数据集市详细实现依赖于业务需求和公司数据模型,可以选取方案有诸多,为保证安全性,可管理性,可靠性和可行性,数据集市可以在SP平台上和公司数据仓库共存,这种配备使工作负载可以分布到各种节点上,从而使数据集市应用获得较好性能效果,对于远程节点和移动顾客而言,数据集市则可以从公司数据仓库平台转移到其她平台上,IBMDB2UDB数据库和数据复制产品减少了转移过程复杂性和难度,这些产品可运营在各种平台上,如WindowsNT、OS/2、AIX、SunSolaris、HP-UX和SCOUNIX等,使数据集市可灵活扩展。对于不大于20GB数据集市,还可以把数据下载到多维数据和分析包中,如Arbor公司Essbase可以从数据仓库中切下某些数据,专用于部门级数据集市应用,Essbase有一种多维数据库,最后顾客可以从不同维上分析数据,在较短响应时间内分析数据和汇总信息。本建议书别的某些将专注于阐述如何建立一种集中式全局数据仓库,评估详细业务需求时会进一步解释数据集市实现。方案所用技术概述本方案涉及七项最重要技术:数据仓库管理和基本构造,数据获取,数据存储,决策支持工具,数据采掘,公司数据仓库目录,征询及顾问服务,下面将分别简介。每项技术都分类列出也许选取,咱们在这个项目中推荐方案以及因素。咱们解决方案不但覆盖了这七项技术,尚有针对性地依照招商银行业务需求来使用这些技术,保证紧密地集成系统,完毕所有业务需要功能,同步这些技术遵循开放原则,每个构成某些模块化构造使整个系统具备充分灵活性,可以在必要时候升级改进。管理及基本构造硬件技术招商银行可以选用硬件平台有SMP,SMP集群和MPP。依照业务规模,银行业动态性,以及为将来发展建立一种灵活,可扩展,有充分发展余地基本需求,编写这份建议书专家一致以为应当选取MPP平台,其她评核顾问如RichardFinkelstein、ColinWhite和IDCChrisWilliard等都必定这一选取,依照Gartner集团记录,九成IT经理为了更快,更灵活,更有效地执行分析工作,都会选取MPP平台和并行数据库。IBM有两种UNIX环境下MPP解决方案:SP和大型主机上MVS开放版本。咱们推荐SP系统,由于它稳固构造,成功运营记录,较好性能价格比。SP在1994年推出,时至今日,全世界共有各种系统在运营,总节点数超过0个,当前在中华人民共和国也安装了近100个系统。大型银行公司,普通会选用一种或各种SP平台来执行各种业务,如市场分析,客户管理,利润分析,服务跟踪等。SP可以提供几乎不受限制可扩展能力,本项目建议配备只及当前最强大解决能力,最大内存和硬盘容量局限性百分之五,有某些顾客甚至在使用超过400个节点SP系统。系统管理长期稳定运营业务系统有赖于稳定体系构造,而系统管理是整个数据仓库稳定性量度重要指标。有超过一半客户/服务器项目是失败,其中超过90%系统是由于没有适当系统管理构造。SP平台上有一整套系统管理软件,能管理系统变化,重新配备,操作执行以及作性能和故障管理。Tivoli系列系统管理工具进一步完善这组软件功能,它是一套可靠跨平台管理工具,能实现完善数据仓库管理功能,使整个系统发挥最大交用。本方案中采用Tivoli产品是ADSM(ADSTAR分布式存储管理器)。数据获取数据获取过程由几步构成,有数据抽取和传送,数据提炼,数据分发和装载。数据获取是一种不间断过程,规定自动化解决能力,可靠性和可管理性,因此上节所说系统管理能力也很重要。数据获取核心是公司数据仓库目录分发和管理。该功能由DB2UDBEEE中产品DataPropagator完毕。数据存储在SP硬件平台上,可选数据存储产品有ORACLE、INFORMIX和DB2并行版本,咱们推荐DB2并行版本UDB-EEE,该产品在加拿大实验室开发,得到多数顾问一致推荐,由于DB2并行版本是当前市场上唯一完全符合原则MPP数据,通过广泛安装和使用进一步证明了其能力。在SP平台上实现数据仓库选用DB2并行版本占了超过50%,远远超过第二位ORACLE,由于它当前唯一一种全并行数据库。近来作了一种关于VLDB(超大型数据库)调查中,DB2成为最受欢迎产品,在五大数据库中无论是数据库容量还是顾客数都远远领先。例如一家叫BellSygma公司,正在使用DB2/MVS作市场分析,随着UNIX平台上数据仓库不断发展,她们在考虑转型时决定采用DB2并行版本,由于她们已有DB2使用经验,并且IBM在VLDB上令人信服技术和经验,可信运营记录等促使她们作出这种决定。时至今日,她们已经开发出几种VLDB数据仓库应用,均有非常好可扩展性和性能。从来以来,DB2由于其多样化功能而受世界各大型公司普遍欢迎,美国最大500家公司中有超过80%采用了DB2,其中前100家所有采用了DB2。DB2并行版本象SP平台同样,能协助象招商银行这样公司去应付各种类型业务压力,有足够灵活性去增长,删除,重新开发和管理应用和数据,DB2有独特可重用特点,能同步作数据仓库、数据集市和内部网应用数据库服务器,将来还可以把DB2/400应用向下优化到DB2上。最新TPC-D测试表白,DB2性能是并行数据库中最佳,这次测试模仿了一种实际数据仓库环境,从TPC量度上来看,与招商银行当前数据仓库规模比较接近,IBM公司在1996年共投入了1200个人年开发DB2产品,此后仍会保持这种力度以保证并行数据库领域领先地位。决策分析支持工具面向最后顾客工具种类繁多,有IBMVisualizer、DataInterPretation;其她公司如Cogons、InformationAdvantage、BusinessObjects、Brio-Query、CrystalReports、Microstrategy、Prodea、ArborEssBase等。汇集总体层次上数据,从各种角度去分析,发既有价值信息,但每个工具功能范畴都比较单一而固定。通过专家讨论,咱们推荐ArborEssBase,作部门级数据集市方案中多维数据库。咱们也但愿建立数据采掘合伙关系,以便更好地发挥IBM最新数据采掘和发现技术作用。IBM数据采掘技术数据仓库最重要作用就是发掘信息,更好地支持业务决策,增长客户忠诚度,提高市场占有率和利润,信息发掘应用有市场分析,利润评估,成本审核等。当前技术趋势是以信息发现为驱动,提高上述应用效率,IBM在这方面研究和开发工作始终处在领先地位,与几种重大金融和零售业客户合伙,开发出某些有针对性解决方案。在此基本上汇集成一种完整数据采掘工具包,IntelligentMiner.已在1996年六月推出,支持RS/6000和SP平台上DB2,该项技术在业界内堪称一绝。第一版产品内具有八个独立算法。META集团AaronZornes曾高度评价这一技术“IBM数据采掘工具包和提供有关服务,相信会对大型公司数据仓库技术带来决定性影响。”这项技术是一项新技术,对招商银行而言很有好处,采用这项技术可以使贵行与其她银行在技术上拉开差距,这项技术必然会进一步发展,同步也就保证了贵行在数据仓库上投资能发挥更大作用。公司数据仓库目录数据仓库元数据是数据仓库完整性、自动化限度和可用性基本,元数据定义了数据仓库解决过程,记录下来并支配整个运营过程,对业务型顾客而言,元数据是一种信息目录,从中可以较容易地理解和使用数据仓库中信息。元数据来源,信息模型和存储技术有诸各种,普通互相之间是冲突,为了使各种工具可以顺利地互相互换元数据,需要MetadataInterchangeCoalition协助,提供元数据原则化互换。IBM,ETI,InfromationAdvantage和Vality等公司都支持这种原则,咱们与其她数据仓库厂商也正在共同合伙,以达到最后原则。IBM办法与Coalition方略完全一致,技术性元数据和业务性元数据内容和使用方式都是比较独立,针对不同顾客,应当有不同元数据存储,优化信息构造。IBM推荐方案中,技术性元数据可以用ETI,业务性元数据用IBMDataGuide,这些互相独立产品虽然来自不同厂商,但组合起来能发挥更大作用,由于它们是所在领域中最佳产品,否则无论如何都要维护两套元数据目录,还要保证它们之间同步。ETI和DataGuide同步由ETI负责,由于ETI有一种很特别功能,能象解决其她数据源同样解决ETI元数据存储,ETI最大长处就是有选取查询、传送数据,不受软件和硬件影响,能在任何格式数据库或文献间传送大量数据,所有操作都是在元数据控制下进行。ETI元数据存储能卸出,然后卸入DataGuide,或与DataGuide数据合并,整个解决过程可在图形界面中完毕,最后能生成有关报告,ETI还支持版本控制,建立并维护详细审计记录。DataGuide是IBM信息目录工具,集成工作组级和公司级上最后顾客业务元数据,DataGuide中元数据按业务性质划提成各种业务组,最后顾客很容易浏览,分析时如果要查找某一对象,如报告、电子表格、数据库、程序、ETI元数据存储或数据采掘工具等,DataGuide都能把所需数据连同信息抽调出来,DataGuide目录信息存储在DB2中,与数据仓库中业务数据放在相似地方。征询与顾问服务概述招商银行已有开发大型项目技术和经验。依照IBM在数百个数据仓库项目中经验,其中有几种与招商银行状况相类似,咱们有信心协助贵行运用已有技术和经验,把系统升级,扩展数据仓库范畴和业务应用广度。IBM从来是通过增长商业价值来推动项目进展,保证顾客花在数据仓库上每一分钱都是物有所值,所采用技术都是绝对有必要,与业务需求相适应,咱们方案进展是分期进行,保证整个项目按步就班,达至最后完全成功。IBM是世界最大顾问服务公司,提供全面顾问服务,在招商银行项目中咱们有三个突出长处:★IBM充分结识到数据仓库重要性,专门建立一种技术中心,由数百个专业人员构成,设计、实现并管理数据仓库项目中所有部件。★IBM已有近年为客户提供数据仓库征询与顾问服务历史,附录中列出了IBM数据仓库顾问服务方式。★IBM有数据采掘方面领先技术,在过去十年中,超过50个研究人员专注于超大型数据环境中数据发掘研究,研究工作在遍及世界各地9个实验室中进行,先后共研制了42种数据发掘算法,所有这些成果,再加上咱们提供专业顾问服务,协助客户设计方案,实现和开展培训,构成了数据采掘强大力量。

第三章硬件产品简介在仔细研究招商银行总行当前运营环境,以及总行对数据仓库筹划需求后,IBM提出SP解决方案。IBM方案结合了在不同平台(IBMRS/6000及IBMAS/400)间数据移动(datamovement),系统连接(systemconnectivity)以及系统可扩展性(systemscalability)等许多新技术,这些技术不但可以满足总行当前需求,并且提供了满足将来需求基本。解决方案:由于当前总行每天寻常操作是在AS/400上运行,为保证不影响寻常运营,以及满足数据仓库大量运算需求,IBM建议使用IBM最高档UNIX平台RS/6000SP,由于SP具备(1)开放式系统功能。(2)高可扩展性等长处,足以满足总行当前及将来需求。IBM解决方案主机硬件需求:八个R50节点RS/6000SP,每节点配备有8个CPU,4GB内存,4.5GB内置硬盘,外置硬盘为81.1GB。各节点外置硬盘不互连。八个节点通过SPSWITCH相联,构成SPMPP构造,而每个节点内采用8CPUSMP构造。物理上八个R50节点占用两个SP机柜,每个SP机柜可放置四个R50节点。八个7133-020磁盘组占用两个R00机柜,每个R00机柜可放置四组7133硬盘(每组16个)。IBMRS/6000ScaleablePOWERParallel(SP)简介SP是RS/6000系列产品线中最高档产品,是IBM专门为需要大量高速计算客户所设计并行机,SP构造是高度可伸缩,最小SP可以只有一种节点,最大SP可以到512个节点。SP有三种节点:窄节点、宽节点、高节点,每个SP机框(SystemFrame)可以放置16个窄节点,或8个宽节点,或4个高节点。所谓高节点即是RS/6000SMP机R50,每个高节点最多可以有8个CPU,4GB内存及6900GBSSA硬盘(或2700GBSCSI硬盘)。节点之间通讯是通过IBM专门为SP设计SPSwitch来实现,节点与外部通讯则可选取用以太网,FDDI或ATM。每个节点都运营AIX操作系统。一种低档RS/6000工作站用来作控制台,控制整个SP系统运营。整个SP系统可以当作一种系统运营一种大并行作业,或者可以区别为几种小系统,每个小系统运营自己作业。SP是高可伸缩性并行计算机SPShared-nothing和离散式内存构造,比共享内存SMP构造及松散耦合式服务器集群(Loosely-CoupledCluster)在可扩展性上有明显优势,SMP(对称式解决器)构造,由于共享内存及使用单一操作系统,在可扩展性限制上是众所周知。SMP构造第一种瓶颈在于所有CPU均需通过一条系统总线,到内存获取数据,CPU之间往往需要彼此竞争来获得系统总线使用权。SMP构造第二个瓶颈在于缓存一致性(CacheCoherence),也就是说每个CPU必要消耗极多时间来拟定每个缓存中数据是一致,当某个CPU改动它缓存中数据,它必要把这个更改告知到其她各个CPU,这对CPU及系统总线开销都是很大。SMP构造第三个瓶颈在于它使用一种操作系统,这个操作系统由所有CPU所共享,许多内核(kernel)构造需要加锁(Locking)与解锁(unlocking),来保证数据一致性,这种Locking机制对SMP构造是一项极大系统开销。SMPorMPPForDataWarehousing当前有愈来愈多数据仓库应用使用像IBMRS/6000SP这种多功能并行机(MPP)作为硬件平台,这是由于:1.并行数据库UDBEnterprise-ExtendedEdition(初期版本为DB2PE)已成熟地运营在SP上,而并行运算复杂性均被数据库所涵盖,原有应用不需要通过任何变化,即可充分运用SP构造达到并行效果。2.数据仓库操作自身就具备高度并行性,就以数据Scan为例:各数据库均有较好办法把数据放在不同硬盘上,由不同节点对之操作达到线性加速效果。3.愈来愈多客户使用SP作为数据仓库平台,并且成功案例越来越多。由于数据仓库计算量及数据量均极为巨大,选取一种具备高度可扩展性平台是十分重要,如下是关于何时该选SMP平台,何时该选MPP平台几点原则:1.数据库及最大表(Table)大小。2.同步使用顾客数。普通一种数据仓库大多有50至200个人同时使用。3.数据库查询复杂限度。4.系统总线速度,解决器速度和I/0速度。5.每个查询会访问多少数据,100多行或在百万行。6.顾客但愿反映时间:几分钟或几小时。7.数据库功能。8.数据库和终端顾客数增长速度。IBM曾就这个问题(何时该选SMP,何时该选MPP)对许多专家进行调研,比较中肯意见是:如果数据量超过100GB(也有专家以为200GB)顾客最佳认真考虑MPP机型,由于它有较好扩展性,固然最佳在实行前即对终端顾客需求有充分理解,可是在实际情形中,这种事先有充分准备例子不多,因此在实行数据仓库后两三年内,数据量增长三到四倍情形非常普遍。诸多数据仓库在实行前均有一种实验筹划,一种有趣现象是:实验筹划愈成功,客户对数据需求就愈大。因而,在考虑平台时,一定要注意这个平台可扩展性,虽然要用一台SMP机型,也要考虑它与否有很高扩展性,与否可以很平滑升级到MPP构造,以避免硬件平台功能无法满足顾客需求。SP比起松散耦合式服务器集群(LooselyCoupledCluster)方式有很大优越性,服务器集群重要缺陷在于服务器之间数据传达速度太慢,以及有太多服务器要管理,IBM特别为中华人民共和国设计了SPSwitch,来提供节点间迅速数据传送,并且IBM也专门为SP设计了一套管理系统来管理SP,无论SP有多少个节点,对系统管理人员而言SP只是一种系统。 SP构造可以扩展到几千个节点,当前最大SP有512个节点,美国花旗银行使用116个节点SP运营数据仓库应用。

SPSWITCHSP技术核心是SPSWITCH,它提供了极高速度连接各节点。SPSWITCH给每两个节点提供四条数据通道,每两个节点之间带宽高达100MB/S双向传送(读与写可以同步进行)。SP系统管理:IBM特别为SP开发了一种系统管理软件ParallelSystemSupportProgram(PSSP),装在控制工作台上(一台低档RS/6000)来管理整个SP。PSSP有下列功能:-硬件监视与控制-配备管理-顾客管理-软件安装与升级-顾客作业管理SPRAS(Reliability,AvailabilityandServiceability)IBM对SPRAS非常注重,每个重要配件如电源、电扇均有冗余。SPSwitch每个重要芯片均有备份,来保证SPSwitch数据传播对的性以及可靠性,两个节点之间则可运用IBM高可靠性软件产品HACMP提供互为备份。节点内部则有SystemGuard芯片提供实时监控。(SystemGuard详述见后)在SP内R50高结点采用了IBM独特SMP技术对称多解决系统。在整体SP为MPP计算构造同步,在每个SP结点内部采用SMP解决,使每个结点所完毕任务亦可分散到各种解决器运营,这样就充分运用了MPP及SMP两种技术各自优越性。如下再对IBMRS/6000SMP技术作一简介:IBMRS/6000SymmetricMulti-Processing(SMP)对称式多解决器系统在系统设计及制造上,IBMSMP服务器代表工业界科技一项重要成就,在中央解决器构造,设计,科技及包装上有诸多领先突破,与其他竞争对手SMP设计比较,RS/6000体现出明显优势,它可扩展性能力及高可伸缩性给客户提供了充分投资保护。下表显示IBMSMP设计在科技及包装上优势:老式SMP限制IBMSMP创新InternalcontentionforMemoryAccessandConstrainedDataMovementNon-BlockingDataCrossbarandAdvancedMemoryImplementationSinglePointsofFailureandOverallSystemReliabilityIndependentonboardserviceprocessor(IBMsystemguard)SystemreliabilityandavailabilitySuiteofimprovedstart-up,runtimeandRecoveryFacilitiesLimitedexpansioncapabilitywithinthesameChassisAdvancedexpandabilitydesignLimitedscalability,constrainedperformancePowerPCroadmapbinarycompatibilityNon-Blockingdatacrossbarandadvancedmemoryimplementation:在老式SMP设计中,各个CPU均由同一条系统总线(SYSTEMBUS)从内存获得所需要数据(DATA),IBM在设计SMP时,使用互换开关技术(CROSS-BARSWITCH),各个CPU均可由自己通道到内存获取所需数据,因而各种CPU可同步由内存获取数据,R50系统带宽可高达1.8GB/Sec。这种设计对客户好处有:1. IBM把这种比较昂贵,使用在较尖端电脑(如IBMES/9000)内存存取技术,提供应RS/6000SMP机型。2. 使系统有较大解决能力,即可服务较多顾客。3. 提供较好功能(Performance)和可扩展性以及客户投资保护。4. 当客户应用是DATAWAREHOUSE时,复杂查询需要从内存获取大量数据,因此上述长处更为明显。

Independentonboardserviceprocessor--IBMSystemGuard: 在IBMSMP机型中,有一种特别解决器SystemGuard。SystemGuard随时监视着系统,当系统浮现故障,SystemGuard可以自动重新启动(reboot),重新配备(reconfiguration)以及恢复(recovery)系统运营。 SystemGuard给客户提供下列好处:

1. 保护客户重要资产2. 提供较好可靠性和可用性(ReliabilityandAvailability).3. 提供自动技术支持,较快反映时间。4.由于系统故障时间(DOWNTIME)减少。使用IBMSMP机型客户可以给客户提供较好服务。5. IBM把这种比较昂贵,使用在较为尖端电脑(如ES/9000)技术提供应RS/6000SMP机型顾客。6. 较好Reliability,AvailabilityandServiceability.

AdvancedExpandabilityDesign对客户好处1.客户很容易在既有系统上增长I/O储存能力,而不必此外购买一种新系统。2.可热插拔硬盘提供较高可用系统可用性(Availability).3. 提供较好投资保障。PowerPCRoadmap,BinaryCompatibility:

IBM有完整筹划来提高PowerPC(SMP机解决器)。由601、604604e到630PowerPC功能均有大幅度增长。给客户提供好处:

1. 提供客户平滑及不中断升级。2. 提供较佳投资保护。先进硬盘技术对运用数据库应用而言,硬盘I/O速度相应用功能有巨大影响,当前各计算机厂商都仍在使用SCSI-2Fast/Wide技术,IBM已于半年前推出较SCSI-2F/W新一代产品SSA(SerialStorageArchitecture),SSA较SCSI-2F/W有下列优势:第一、高性能SSA适配器通道速度可达80MB每秒双向传播,而SCSI-2F/W只能达到20MB每秒,同步SSA配有最迅速硬盘,其带给顾客好处,显示对大量数据持续输出,SSA速度可达到65MB/S,为SCSI-2F/W五倍,对普通事务解决,SSA可达到3000ops(每秒3000次操作)为SCSI-2F/W三倍。第二、高可靠性SSA为链型构造,如果盘组中有一种盘损坏,不会影响其她盘连通。第三、价格低使用SSA技术IBM7133硬盘子系统价格要较使用SCSI-2F/W技术硬盘子系统便宜许多。操作系统概述RS/6000采用IBMUNIX操作系统AIX/6000。AIX是当前操作系统界最成功,应用领域最广,最开放第二代UNIX系统,它汇集了近年来计算机界在UNIX上研究成果以及IBM在计算机体系构造、操作系统方面40近年丰富经验。特别合用于作核心数据解决。AIX/6000,是在两个重要UNIX版本:BSD4.3和AT&TSystemV基本上,综合了两者长处,同步遵循所有工业原则和开放系统原则,并将IBM长期积累先进技术和经验融入其中,扩展了UNIX在实时解决,系统管理,虚存管理,安全可靠性等方面能力,使之成为适应当代公司计算环境具备工业实力第二代UNIX操作系统。AIX/6000重构了UNIX内核,增长了逻辑卷管理(LVM)和日记文献系统(JFS)等功能,使UNIX功能和性能得到了很大改进。它是一种开放、可靠、容易使用、容易管理高性能UNIX操作系统。1.AIX/6000对工业原则支持,对开放系统原则,如POSIX和X/Open支持,奠定了AIX/6000开放系统领先地位。2.动态可扩展内核、可联机动态配备、装卸设备不必关机和重新启动、逻辑卷管理LVM、支持动态文献系统、可以跨越各种磁盘设备、实现联机扩展文献系统、以及透明磁盘镜像、将重要数据镜像保存、所有这些改进了操作环境可靠性和可用性。3.AIXWindows图形顾客界面,InforExplorer联机文本图形文档检索以及桌面工具,使系统易于使用;SMIT(系统管理界面工具),通过菜单驱动方式,不必紧记复杂命令行和参数,使寻常系统管理工作变格外轻松。4.PageableKernel(可置换内核),可将暂不需要内核程序,如打印驱动程序,置换出内存(需要时可再置换内存)变化了内核必要常驻内存方式,提高了内存可用空间和系统性能;Pre-emptableKernel(可先占内核)机制,使高优先级进程能及时从低优先级进程那里获得所需资源,这对联机实时事务解决任务非常重要;日记文献系统JFS和内存映象文献系统,保证了文献系统完整性,在浮现死机时可以迅速重启系统。这些特性,使系统UNIX性能和功能得到了极大改进。AIX操作系统上尚有许多应用支持;软件和工具,顾客可依照需要选用适当软件,也可依照自已需要进行开发移植.此外,在AIX上有一组功能强大使用以便系统管理工具,同步它还具备先进内核技术和最佳开放性。因此,为了最大限度运用RISC技术,就应选取AIX这样具备工业界实力UNIX操作系统。AIX操作系统支持中华人民共和国国标一级和二级中文,并有顾客定义字库功能以便于顾客增长字库。因而,完全满足中华人民共和国市场顾客对软件汉化需求。在AIX每版本推出之前都通过了大量系统测试,这大量测试中除了某些常规工业测试以外,还涉及诸多复杂不同应用环境下测试。这种测试保证了AIX系统可靠性和开放性。AIX是开放操作系统开放系统,是90年代顾客强烈需求。顾客但愿能有更多选取,但愿投资得到保护,综合反映在如下几方面:可移植性,互操作性,系统独立性和集成性。这些目的,必要通过建立一系列原则和规范来实现。IBM对开放承诺是:遵循已经建立工业原则和事实工业原则;尚未建立原则,咱们积极参加研究制定,并向其他厂家和组织提供IBM技术和接口;同步IBM是各种原则组织热心参加者和发起者,有1400多位IBM员工参加11个原则组织工作。在RS/6000系列所有型号上,都运营着同一种操作系统AIX/6000,保证了RS/6000全系列上二进制兼容。任一应用软件不必任何修改,就可在所有型号上运营,这对顾客投资,无疑是极大保护。 由于RS/6000对原则支持,使其在可移植和互操作性上都处在领先地位。RS/6000不但可以和其他厂商UNIX平台互连,还可同SSA系统平台,如S/370、S/390和AS/400等实现互操作。借助于NetWareforAIX/6000,还可将基于Intel各种平台连在一起。AIX操作系统综合了当今各个方面最先进技术,诸如BSD4.3、SVIDV.4、POSIX、TCP/IP、NFS、NCS、Motif等,遵循一系列国际开放组织定义原则,并获得X/OPEN承认UNIX品牌。AIX/6000提供了IBM最先进技术实时解决虚拟内存系统管理网络管理逻辑卷管理日记文献系统图形顾客接口安全性汉化AIX/6000提供了工业界第二代UNIX所有特性实时中断响应客户机服务器构造动态增减硬件设备和系统参数内存映象文献和虚拟内存先进存储管理技术动态链接函数库共享库文献日记文献系统系统迅速启动系统管理数据库高可靠性系统资源控制综上所述,AIX是当前最可靠、成熟、先进第二代UNIX,是最适合于核心数据解决环境操作系统。

第四章软件产品简介作为世界上最大软件公司和数据库公司,IBM最新推出DB2UniversalDatabase具备许多领先特性,最能满足招商银行数据仓库项目需求:DB2通用数据库是业界第一种拥有Web功能多媒体数据库,可支持Intel和UNIX平台、从单一解决器到SMP以及MPP计算环境,以及简便地多厂商、多平台连接;DB2通用数据库体现了IBM网络计算承诺,将公司信息链接至Internet,以开展业务,进行合伙及管理;DB2通用数据库支持各种应用,如业务智能(决策支持、数据仓库和数据采集)和事务解决。从OLAP到OLTP:可以迅速、简便地开发迅速、可靠、安全应用解决方案,获得竞争优势,减少维护成本。DB2通用数据库将OLTP性能、与初期DB2ParallelEditionVersion1.2对象关系型可扩展性、先进优化器、DB2CommonServerVersion2.1丰富关系型功能、以及对大型数据库支持紧密结合在一起。还增长了对OLAP支持以及决策支持应用、各种易于使用改进功能,更深层次Internet集成,以及更高性能。通过顾客自定义函数和自定义数据类型,对对象关系型数据(如图象、视频、语音、文本和空间数据)支持被紧密集成入数据库。还涉及了强大根据内容搜索引擎(如QBIC)。并且,有了UDF和UDT,顾客可以定义自己数据环境,简化了应用程序开发。作为IBM软件服务器之一,DB2通用数据库中直接集成了越来越多功能:一方面是性能监视、性能调节和管理工具;Web链接,以及对象关系型支持;当前有增长了双向数据复制和先进数据库系统管理。DB2还是各种大型解决方案构成某些:1.与Datajoiner和LotusNotesPump共同实现多家数据库访问(容许应用程序使用来自不同数据源数据,就向它们是一数据库同样,而不考虑详细数据库开发厂商)。2.用VisualWarehouse实现数据仓库功能。3.用IntelligentMiner实现数据采集功能。4.与LotusApproach和IntelligentDecisionServer共同实现决策支持和分析功能。DB2通用数据库对其他DB2产品(DB2forOS/390、OS/400、VSE和VM)不同形式支持极大地改进了公司数据源集成功能。这些支持涉及更紧密联接(新TCP/IP支持、DRDAAS支持以及通过DDCS桌面客户机访问主机数据直接),Web功能(Net.Data)和中间件(数据复制源和目的支持,以及集中化数据库系统管理)。DB2支持Java预保存过程和UDF。这意味着Java程序员无需进一步培训,就可以变成数据库应用程序开发人员。对其他语言支持也是如此。DB2通用数据库支持称为JDBCJava专用联接,犹如支持TCP/IP。IBMNet.Data产品提供了Internet数据访问功能,并为DB2和Web浏览器建立了稳定连接,在任意浏览器、平台和DB2之间提供了一致连接。LotusApproachWebSizingAssistant使通过Web进行决策支持变为现实。所有这些都是为了在Internet和Intranet上开展业务,而不但仅是发布信息。当前还没有其他平台可以象DB2通用数据库同样支持业务智能(决策支持、数据仓库、数据采集、OLAP、多维分析)所规定功能。其可伸缩并行环境为实现这些任务提供了灵活性和强大动力。在SMP环境中查询内部并行解决支持就是DB2通用数据库功能一种例子。64位存支持也使性能明显提高。此外,诸如信图索引、星形连接支持、ROLLUP和CUBE等功能进一步加强了DB2卓越业务智能功能。IBMIntelligentMiner,IntelligentDecisionServer以及LotusApproach正是依托这些功能提供了无可比拟业务智能功能。IBMVisualWarehouse依托这些功能提供了无可比拟业务智能功能。IBMIntelligentMiner、IntelligentDecisionServer以及LotusApproach正是依托这些功能提供了无可比拟业务智能功能。IBMVisualWarehouse依托DB2通用数据库实现了经济有效部门级数据仓库解决方案,并受到诸多厂商支持,如ArborSoftware、AndyneComputing、BrioTech、BusinessObjects、Cognos和CrossAccess。在原则、开放性方面,DB2支持各种原则,涉及关系型数据库解决原则(X/OpenCLIXA、SQL92)、分布式数据库解决原则(ODBC、DRDA、DCE)、多平台连接原则(TCP/IP)、政府规范(FIPS127、C2安全性)以及系统管理原则(SNMP)。您可以选取DB2运营平台:IBMOS/2、MicrosoftWindowsNT和Windows95、IBMAIX、Hewlett-PackardHP-UX、SunSolaris操作环境、SCOOpenServerGemini以及SiemensNixdorfSINIX。客户机还可以是SGI、MacOS及所有通用Web浏览器平台。DB2通用数据库在预保存过程和顾客自定义函数功能还支持各种通用语言(如Java、BASIC、COBOL、C++)。诸如SAP、Baan、PeopleSoft和J.D.Edwards等厂商都推出了支持DB2应用程序,并且有种ISV产品。(请参阅IBMDB2解决方案目录)。DB2在支持各国语言方面也独树一帜,这使它成为许多跨国顾客唯一选取,完全支持简体中文。DB2并行版UDBEEEDB2并行版(DB2UDBEEE)是在IBMRS/6000平台上实现并行关系型数据库.它容许跨多系统数据形成单一影像,并运用因此系统解决能力满足顾客对数据规定.它涉及如下重要性能:Shared-Nothing架构DB2UDBEEE是被设计为运营在Shared-Nothing硬件环境中,因而各种解决器不共享CPU、内存或磁盘。使用Multi-PurposeParallelComputing(MPPC)技术。它比老式SymnetricMultiprocessor(SMP)减少了资源竞争,使得性能随节点数增长而线性上升。DB2UDBEEE分别在客户测试32个和96个节点环境,以及内部128个节点环境中体现了性能可扩充性。它被设计为可扩充到超过1000个节点。并行基于成本优化器DB2UDBEEE基于成本优化器可以懂得它在并行环境中。IBM研究中心专门为DB2UDBEEE设计了高效并行数据访问。所采用访问办法比以往办法更为出众。所有SQLSML都可以被并行完毕。涉及所有SQL语句(SELECT,INSERT,OPDATE和DELETE),实用工具(Backup,Restore,Reorg,Load)和数据访问办法(Joins,TableScan和IndexScan)。祈求是在没有任何特殊变化下自动地并行完毕。应用透明性对于数据仓库程序员或商业顾客来说,DB2UDBEEE看起来与其他DB2数据库同样。应用程序不需为DB2UDBEEE作变化,应用系统是通过SQL,ODBC和CallLevel界面访问DB2UDBEEE。这就较好地保护了顾客在数据库、应用和技能上投资。数据功能发送操作是尽量地在数据所在场合进行。DB2UDBEEE将祈求连同需要得到成果最小祈求信息(SQL)发送出去,从而减少了查询开销。运用POWERParellelSPDB2UDBEEE架构可以出众地配合IBMMassivelyParallelProcessor(MPP)即POWERParellelSP,直接子任务到子任务异步数据管道能运用SPHighPerformanceSwitch,DB2UDBEEE和SP完美结合产生了当今最强有力可伸缩并行数据库方案。减少并行任务额外开销单个DB2UDBEEE操作员并不作为独立子任务进行解决。在一种节点中一组操作员常被作为一种单位来解决,从而避免子任务额外开销,使在更少资源下得到更好性能。在并发多表查询数增长时这种资源减少更为明星。相比之下,Informix为每个操作员建立一种独立线程,这样就大大增长了额外开销,减少了并发能力。灵活配备虽然DB2UDBEEE充分运用SP,但并不意味着需要它。DB2UDBEEE也可以通过LAN上独立RS/6000SMP系统上多解决器。HACMP簇中多节点,甚至是单SP节点上各种逻辑节点提供并行解决,这使得从初级系统成长为大型并行解决成为也许。IBM优势不但在于只是有一种出众数据库,重要是,它有更为出众专业工具,如下简介其王牌产品:IntelligentMiner。DataMining是DataWarehouse应用方式中最重要一种。基本上,DataMining是用来将你数据中隐藏信息采掘出来,因此DataMining其实是所谓KnowledgeDiscovery一部份,DataMining使用了许多记录分析与Modeling办法,到数据中寻找有用特性(Patterns)以及关连性(Relationships)。KnowledgeDiscovery过程对DataMining应用成功与否有重要影响,只有它才干保证DataMining能获得故意义成果。IBM意识到DataMining重要性,因此开发了一套称为IntelligentMiner产品。咱们对于这种DataMining产品应当有一种对的认知,就是它不是一种无所不能魔法。它不是在那边监视你数据状况,然后告诉你说你数据库里发生了某种特别现象。也不是说有了DataMining工具,就连不理解业务,不理解数据所代表意义,或是不理解记录原理人也可以做DataMining。DataMining所采掘出来信息,也不是你可以不经确认,就可以照单全收应用到业务上。事实上,DataMining工具是用来协助业务分析策划人员从数据中发掘出各种假设(Hypothesis),但是它并不帮你查证(Verify)这些假设,也不能帮你判断这些假设对你价值。咱们常会有一种疑问,就是DataMining与OLAP(OnlineAnalyticalProcessing)究竟有什么不同?重要差别地:OLAP是由使用者所主导,使用者先有某些假设,然后运用OLAP工具来查证这些假设;而DataMining是用来帮使用者产生假设。在使用OLAP或其她Query工具时,使用者是自己在做摸索(Exploration),但是如果是使用DataMining工具,则是DataMining工具在协助你做摸索。举例来说,财务分析师也许会以为一种负责多而收入少人信用风险必然高,这是她假设,她可以使用OLAP工具来查询各种数据,从各方面来确认或是推翻这个假设。而DataMining则是可以用来帮你找到各种信用风险高因素,例如它也许会帮分析师发现负债多而收入少人信用风险较高,它也也许才分析师找到某些她从来不晓得事实,例如收入负债比以及年龄与信用风险也关于系。因此OLAP与DataMining是可以互补,DataMining先帮咱们从数据中找到某些特性,然后运用OLAP去确认这些特性价值,最后再依照这些信息作成决策。OLAP还可以在Knowledge-Discovery初期协助你理解你数据,它让你更注意到某些变因,找出某些例外情形,以及某些互相影响因素。这种过程非常重要,由于你越理解数据,就越能从数据中找出信息,也就是Knowledge-Discovery就越有效率。由于OLAP与DataMining是可以互补,因此IBM就把IntelligentDecisionServer与IntelligentMiner整合在一起,让使用者可以运用IDS图形界面来驱动IntelligentMiner,并且分析它所找出成果。DataMining办法DataMining工具是运用数据来建立某些模仿真实世界模式(Model),运用这些模式来描述数据中特性(Patterns)以及关系(Relations)。这些模式有两种用处,第一,理解数据特性与关系可以提供你做决策所需要信息,譬如:AssociationModel可以协助超级市场或百货店规划如何摆设货品。第二,数据特性可以协助你做预测,例如你可以从一份邮寄名单预测出哪些客户最也许对你推销做回应,因此你可以只对特定对象做邮购推销,而不必挥霍许多印刷旨费邮寄而只得到很少回应。DataMining可以建立六种模式:Classification、Regression、TimeSeries、Clu

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论