基于分布式数据库和数据挖掘技术的统计报表系统的分析与设计_第1页
基于分布式数据库和数据挖掘技术的统计报表系统的分析与设计_第2页
基于分布式数据库和数据挖掘技术的统计报表系统的分析与设计_第3页
基于分布式数据库和数据挖掘技术的统计报表系统的分析与设计_第4页
基于分布式数据库和数据挖掘技术的统计报表系统的分析与设计_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于分布式数据库和数据挖掘技术的统计报表系统的分析与设计第一章绪论一、设计与实现在本系统的设计中,考虑到对现有软硬件资源的充分利用和与农行现有业务系统之间的连接,采用C/S与B/S架构(WEBSPHEREJSPJAVA),后台使用RS/6000或HP9000小型机环境下使用SybaseASE数据库,批处理和监控进程采用SHELL/ESQL-C方式,数据传输使用MT,报表灵活定制使用FORMULAONE,前端报表使用WEB展现。多维分析考虑使用二、分布式数据库技术(DistributedDataBase,DDB)分布式数据库是数据库技术与计算机网络技术相结合的产物。一个分布式数据库是由分布于计算机网络上的多个逻辑相关的数据库组成的集合,网络中的每个结点具有独立处理的能力(称为场地自治),可执行局部应用,同时每个结点通过网络通讯系统也能执行全局应用。局部应用是指对本结点的数据库执行某些应用,其用户称为局部用户。全局应用(或分布应用)是指对二个以上结点中的数据库执行某些应用,其用户称为全局用户。支持全局应用的系统才能称为分布式数据库系统。对用户来说,一个分布式数据库系统逻辑上看如同集中式数据库系统一样,用户可在任何一个场地执行全局应用。分布性是指数据不是存放在单一场地为单个计算机配置的存储设备,而是按全局需要将数据划分成一定结构的数据子集,分散地存储在各个节点上。在分布式数据库系统中,由于分布性的存在使的分布数据独立性的要求更加丰富。逻辑协调性是指各场地上的数据子集,相互间由严密的约束规那么加以定,而在逻辑上是一个整体。对于数据库来说,将数据组织在数据库中以便于数据共享,为此要减少数据冗余,提高查询效率,便于数据一致性维护,但对于分布式数据库来说,由于数据存储的分散性,各节点在网上传输数据,使得与集中式数据库相比,增加了网上传输的代价,因此,分布式数据库中数据一般存储在经常使用的节点上,也可以将数据存储在两个或者多个节点上,以节省开销。对于大规模数据使用分布式数据库存储可以起到分散系统压力的作用。另外,多副本的存储,对数据库的可靠性也有提高,即当系统中某个节点出现故障时,由于有其他副本在非故障节点上,所以对于其他非故障节点都是可用的,从而保证数据的完整性。这种冗于度是在系统的控制下,不会给系统造成不利的影响。三、基于WEB的Browser/Server的体系结构随着Internet越来越广泛的应用,原来基于局域网的企业网开始采用Internet技术构筑和改建自己的企业网,既intranet。于是,一种新兴的体系结构Browser/Server应运而生,并获得飞速开展,成为众多厂家争相采用的新型体系结构。本质上,Browser/Sewer也是一种Client/Server结构,它是一种由传统的二层Client/Server结构开展而来的三层Client/Server结构在Web上应用的特例。在Browser/Server的系统中,用户可以通过浏览器向分布在网络上的许多效劳器发出请求。Browser/Server结构极大的简化了客户机的工作,客户机上只需安装、配置少量的客户端软件既可,效劳器将担负更多的工作,对数据库的访问和应用程序的执行将在效劳器上完成。本文所设计的电子报表系统采用基于WEB效劳器的Browser/Server的结构,该效劳器的根底支撑软件是SuseLinux,WebSphere,具有稳定、高效、跨平台等优点,具体表达在以下几个方面:1.Browser/Server的应用只需在客户端装有通用的浏览器即可,维护和升级工作都在效劳器端进行,不需对客户端进行任何改变,故而大大降低了开发和维护的本钱。2.Browser/Server所采用的标准都是开放的、非专用的,是经过标准化组织所确定的而非单一厂商所制定,保证了其应用的通用性和跨平台性。3.Client/Server用户的界面是由客户端软件所决定的,其使用的方法和界面各不相同,每推广一个Client/Server系统都要求用户从头学起,难以使用。Browser/Server用户的界面都统一在浏览器上,浏览器易于使用、界面友好,不须再学习使用其它的软件,一劳永逸的解决了用户的使用问题。4.Client/Server系统的三局部模块中有一局部需改变就要关联到其它模块的变动,使系统极难升级。Browser/Server系统的三局部模块各自相对独立,其中一局部模块改变时其它模块不受影响,系统改良变得非常容易,且可以用不同厂家的产品来组成性能更佳的系统。5.在Client/Server系统中由于客户机直接与数据库效劳器进行连接,用户可以很轻易的改变效劳器上的数据,无法保证系统的平安性。Browser/Server系统在客户机与数据库效劳器之间增加了一层Web效劳器,使两者不再直接相连,客户机无法直接对数据库操纵,有效地防止用户的非法入侵。四、数据挖掘技术(DataMining)随着数据库技术的不断开展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将为用户创造很多潜在的利润,而这种从海量数据库中挖掘信息的技术,就称之为数据挖掘。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后开展到可对数据库进行查询和访问,进而开展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。本文采用数据挖掘技术主要是用于对分布存储的数据进行采集。五、平安机制作为一个银行业务管理系统,信息平安是其成功的保证。解决好信息共享与保密性、完整性的关系、开放性与保护隐私的关系、互联性与局部隔离的关系,是实现“平安的〞电子报表系统的前提。所涉及的平安需求包括网络层平安需求和应用层的平安需求。1.网络层平安主要解决网络互联时和在网络通讯层平安问题网络进出控制:需要对进入内部网进行管理和控制。在每个部门和单位的局域网也需要对进入本局域网进行管理和控制。各网之间通过防火墙或虚拟网段进行分割和访问权限的控制。要到达授权用户可以进出内部网络,防止非授权用户进出内部网络这个根本目标。网络和链路层数据加密:对关键应用需要进行链路层数据加密,特别是信息共享,需要有高强度的数据加密措施。因为本系统运行于银行内部网络,_且网络中有网管系统和硬件防火墙进行管理和访问权限的控制,所以网络层平安在本系统中未做考虑。2.应用层平安需求公共应用的平安需求:公共应用包括对外部和内部的信息共享以及各种跨局域网的应用方式,其平安需求是在信息共享同时,保证信息资源的合法访问及通讯隐秘性。公共应用主要有WWW、电子邮件等方式,必须严格按照用户的身份进行控制对信息的访问,对效劳器也必须进行必要的身份认证。在认证的根底上根据用户的身份对信息进行授权的访问控制,如有需要建立应用层的数据加密,保证数据隐秘性和完整性。公共应用包括外部的和内部的,尤其是内部的公共应用,有着更高的平安要求。特别对于身份认证和传输加密,必须做到万无一失。内部办公应用的平安需求:内部的办公应用主要是运行在局域网上的办公事务处理,对身份认证和访问控制有更高的要求。将来需要开展到使用IC卡或电子钥匙,通过多种方式确认用户的身份。访问控制的控制粒度更细,必须根据不同应用的不同对象形式进行控制,如Web页面、数据库记录。为了解决网络平安问题,我们必须到达如下几条根本的要求:身份认证:保证在信息的共享和交换过程中,参与者的真实身份;信息的保密性:保证信息在交换过程中,其内容不能够被非授权者阅读;信息的完整性:保证信息的交换过程中,其内容不能够被修改;信息的不可否认性:信息的发出者无法否认信息是自己所发出的。把机密性、访问控制、完整性不可抵赖性结合起来,能够使系统到达相当高的平安程度。本文主要采用平安访问控制和事后平安核查,由于系统的开放特征,理论上所有互通客户都可访问报表系统数据。而银行的根本风险控制准那么是:授权有限、互相制约。因此,必须对系统所有的访问请求实施过滤核查。对这些请求进行分类,并根据登录用户的不同权限,给予许可或拒绝答复。这就是平安访问控制。而事后平安核查那么是指对系统所有访问请求都留有可核查印记,以便事后核查。第二章分布式数据库原理及其应用一、分布式数据库简介一.分布式数据库的概念数据库系统在当今各种计算机上己经成为一种重要的程序设计系统,是信息处理的重要工具和组成局部,其理论和技术都已到达相当成熟的阶段。然而,由于应用要求的不断提高,数据库技术也将接受新的挑战,人们设想以“数据库系统十计算机网络〞来实现分布式数据库系统,既到达对数据的集中管理与共享,又能使地域的分散性被系统隐蔽起来。本章介绍分布式数据库系统的根本概念,包括分布式数据库系统的定义(组成的成分)、特点等。分布式数据库是一组数据集,逻辑上它们属于同一系统,而物理上它们分散在用计算机网络连接的多个场地上,并统一由一个分布式数据库管理系统管理。与数据库系统一样,分布式数据库系统也包含两个重要的成分:分布式数据库和分布式数据库管理系统。1、分布式数据库(DistributedDataBaseDDB)分布式数据库是计算机网络环境中各场地(S加)或节点(Node)上数据库的逻辑集合。为了区别,我们称传统方式的数据库系统为集中式数据库系统(DB),而称分布式数据库系统中的各场地数据库为局部数据库(LocalDBLDB)。也就是说,DDB是一组结构化的数据集合,逻辑上属于同一系统,而物理上分布在计算机网络的各个不同节点上。需要强调的是这组数据的分布性和逻辑协调性。分布性,是指数据不是存放在单一场地为单个计算机配置的存储设备上,而是按全局需要将数据划分成一定结构的数据子集,分散地存储在各个场地(节点)上。逻辑协调性,是指各场地上的数据子集,相互间由严密的约束规那么加以限定,而在逻辑上是一个整体。由此可见,分布式数据库的分布性使之有别于集中式数据库;而分布式数据库的逻辑协调性又有别于网络连接的分散数据库,在数据独立性上更是远远地优于分散数据库。但我们仍然可以看到,集中式数据库是分布式数据库的根底,而计算机网络那么是分布式数据库的必要环境。实际上,基于以上两特性的DDB,是虚拟的、逻辑的,即是由许多LDB逻辑组织而成的,它是针对于全体用户的,全局的数据库。因此,又称分布式数据库为全局数据库(GlobalDB,GDB),它是虚设的,只有局部数据库LDB才是物理的数据库。2分布式数据库管理系统(DistributedDataBaseManagementSystem,DDBMS)分布式数据库管理系统和集中式数据库管理系统一样,是分布式数据库系统中的一组软件。负责管理分布环境下逻辑集成数据的存取、一致性、有效性、完整性等。同时,由于分布性,在管理机制上还必须具有计算机网络通讯协议上的分布管理特性。因此,分布式数据库管理系统比集中式数据库管理系统更加复杂。除了上述因素外,还可能由于各个局部数据库有不同的模型,如关系型、网络型和层次型等,那么使分布式数据库的数据将在数据描述(模型确定的)及格式上不同,因而要进行必要的转换,才‘能使用户得到统一的数据。一般情况下,分布式数据库系统使用统一的数据模型,将各局部数据库经过转换一致起来。这样,无论在任何节点上用户都面对一个统一的模型,这使用户的使用变得简单,也有利于数据的管理。二.分布式数据库的特点分布式数据库系统,是数据库系统的新类型,因此具有集中式数据库系统的特点。同时,还由于它的分布性从而又使这些特点具有不同的含意。传统的数据库系统是针对文件系统的弱点,用集中控制以实现数据共享,这是其最主要的特色。而分布式数据库系统除此之外,由于它是和计算机网络结合,是分散与集中的统一,因此兼有二者的共同特性。1.共享性与自治性在分布式数据库系统中,多个场地或节点的局部数据库在逻辑上集成为一个集体,并为分布式数据库系统的所有用户使用,这种应用称为分布式数据库的全局应用,其用户为全局用户;同时,分布式数据库系统还允许用户只使用本地的局部数据库,这种应用为局部应用,其用户即为局部用户,甚至局部用户所使用的数据可以不参与到全局数据库中去。这种局部用户独立于全局用户的特性即是局部数据库的自治性。2.冗余的可控性将数据组织在数据库中以便数据共享,为此要尽量减少数据冗余,这不仅使存储代价降低,而且还可提高查询效率,便于数据一致性维护,这是数据库优于文件系统特点之一。但是,对数据库来说,也不可能到达绝对的无冗余数据。对于分布式数据库来说,由于数据存储的分散性,各场地在网上传输数据,使得与集中式数据库相比,查询响应中增加了传输代价。因此,分布式数据库中数据一般存储在经常使用的场地上,但这并不排除有二个以上的场地应用对同一数据有存取要求,而且当传输代价高于存储代价时,可以将同一数据冗余存储在两个(甚至更多)场地上,以节省开销。另外,有多副本存储,对系统的可用性亦可提高,即当系统中某个节点故障时,由于有其它副本在非故障场地上,所以对其它所有场地来说都是可用的,而且保证数据的完备性。这种冗余度由于是在系统控制之下的,所以不会给系统造成更不利的影响。3.事务管理的分布性分布式数据库系统的事务管理,由于数据的分布必使得事务也具有了分布性,即一个事务(全局事务)的执行将划分成在许多场地上执行的子事务(局部事务),子事务的执行结果合并而成全局事务的结果。这样的事务即为分布事务。4.存取效率在分布式数据库系统中,全局查询被分解成等效的子查询,即全局查询执行方案分解成多个子查询执行方案加以执行。它是根据系统的全局优化策略产生的,而子查询方案又是在各场地上分布执行的。因而,分布式数据库系统中查询优化以两级进行,全局优化和局部优化。全局优化主要决定在多副本中选取适的场地副本,使得场地间的数据传输量以及次数最少,从而使系统通信开销少。局部优化那么与传统的数据库方式相同。5.数据模型在分布式数据库系统中,DDB是一个逻辑的、虚拟的数据库(被称为全局数据库(GDB))和实际分布在各场地的局部数据库(LDB)(物理的、实际存储的数据库)这样两级数据库组成。全局数据模式描述全局数据库,即一个企业或事业单位(其组织机构在地理上实际是分散存在的)信息。局部数据模式描述各场地的局部数据库,而这些是实际存储的。系统将数据库划分为四层:全局外层(即用户层)、全局概念层、局部概念层和局部内层。6.数据独立性数据独立性是建立数据库的目标,也是信息处理系统引进数据库系统的动力之一。数据独立性的根本含意是应用程序与实际的数据组织相别离,即所谓的系统透明性。在分布式数据库系统中,由于分布性的存在使得分布数据独立性的要求更加丰富也更加复杂。我们有时也称之为分布透明性。分布式数据库系统最重要的目标之一就是支持位置透明,这就是说,用户对所需要的数据的存放位置不必关心。用户可以像使用集中式数据库一样,认为他所使用的数据就存放在本场地。而实际的物理位置由GDBA在系统设计时决定,并在数据辞典目录中登录在存放位置的对照表中,当用户使用非本地数据时,由系统自动调用该表并查找出所需数据的物理位置。这将使用户在书写程序时不必考虑数据的存放位置,而只要了解该数据确实存在即可。因此,不管是应用的改变或是实际数据驻留场地的变化,由于位置透明性被系统支持,都应是不需用户改写程序,因为用户的应用中不包含数据存放的物理场地的任何信息。这即所谓分布式数据库中的位置透明性。数据分片是分布式数据库的特性之一,这与位置透明又紧密相关。在分布式数据库中,全局数据库是由各个局部数据库逻辑组合而成。以一个关系为例来说明数据分片。可以使用选择和投影操作将关系划分成许多子关系,而使用联接操作那么可使这些子关系合成为原关系,这时原关系的信息不会丧失也不会增加。这种关系的划分原那么正好是某些应用所需要的,每个子关系就是原关系的一个分片。假设对所有的应用都不必了解分片的任何细节,对DDB的操作只针对用户所关心的视图,而这视图可能是由假设干子关系(即分片)组成的,其合成也是由系统完成的。这即是分片透明性。三.本文所采用的分布式数据库技术在“1104工程〞监管报表系统中,采用S必aseASE数据库,管理存放全部数据,由于数据规模庞大,采用总分结构的方式建立37个数据分中心,建立1个数据总中心的模式,由37个分行分别存放各自分行数据。各分中心采取各自处理原始数据,然后上传数据处理结果集到总中心,以减少网络上的数据传输,节省时间,提高存取效率,同时,网内具有权限用户可以随时通过该报表系统访问各分中心或总中心数据库。总行数据平台将核心业务系统和相关管理系统数据进行整合,并把分行所需数据下发到分行数据平台。总行进行数据处理前,分行数据平台将相关业务数据和分析结果上传至总行数据平台。总分中心之间存在数据双向交换的关系。如图2.1第三章基于WEB的Browser/Server的体系结构一、Browser/Server体系结构简介一.什么是Browser/Server的体系结构简介随着计算机的普及、互联网的飞速开展,了解和使用工nternet的人数大幅增加,人们寻求到一种更加经济的解决方案一Browser/Server解决方案,一方面降低了本钱,一方面提高了系统的可扩展性。BrowseriServer模式是由传统的两层Client/Server结构开展而来的三层Client/Server结构在Web上的应用。Browser/Server体系结构把Client/Server结构中的事务处理逻辑模块从客户机的任务中别离出来,由Web效劳器来承当,大大减轻了客户机的压力。二.Browser/Server体系结构特点Browser/Server(浏览器/效劳器)结构,就是只安装维护一个效劳器(Server),而客户端采用浏览器(Browse)运行软件。〔〞]它是对C/S结构的一种变化和改良。主要利用了不断成熟的WWW浏览器技术,结合多种Script语言(VBScript,JavaScript"二)和ActiveX技术,是一种新的软件系统构造技术。B/S三层体系结构采用三层客户机效劳器结构,在数据管理层(Server)和用户界面层(Client)增加了一层结构,称为中间件(Middleware),使整个体系结构成为三层。三层结构是伴随着中间件技术的成熟而兴起的,核心概念是利用中间件将应用分为表示层、业务逻辑层和数据存储层三个不同的处理层次。三个层次的划分是从逻辑上分的,具体的物理分法可以有多种组合。中间件作为构造三层结构应用系统的根底平台,提供了以下主要功能:负责客户机与效劳器、效劳器与效劳器间的连接和通信;实现应用与数据库的高效连接;提供一个三层结构应用的开发、运行、部署和管理的平台。这种三层结构在层与层之间相互独立,任何一层的改变不会影响其它层的功能。在B/S体系结构系统中,用户通过浏览器向分布在网络上的许多效劳器发出请求,效劳器对浏览器的请求进行处理,将用户所需信息返回到浏览器。而其余如数据请求、加工、结果返回以及动态网页生成、对数据库的访问和应用程序的执行等工作全部由WebServer完成。随着Windows将浏览器技术植入操作系统内部,这种结构已成为当今应用软件的首选体系结构。显然B/S结构应用程序相对于传统的C/S结构应用程序是一个非常大的进步。B/S结构的系统分布性强、维护方便、开发简单且共享性强、总体拥有本钱低。但数据平安性问题、对效劳器要求过高、数据传输速度慢、软件的个性化特点明显降低,这些缺点是有目共睹的,难以实现传统模式下的特殊功能要求。例如通过浏览器进行大量的数据输入或进行报表的应答、专用性打印输出都比拟困难和不便。此外,实现复杂的应用构造有较大的困难。虽然可以用ActiveX,Java等技术开发较为复杂的应用,但是相对于开展已非常成熟C/S的一系列应用工具来说,这些技术的开发复杂,并没有完全成熟的技术工具供使用。1.无需不断升级客户机的硬件设备。通常,一台个人计算机,而由于应用软件的更新,不断的提高了对计算机性能的要求,每隔一段时间就面临着升级或购置新硬件的问题。采用BrowserlServer模式,不需要购置或升级硬件,只要运行最新版的软件即可,在相当程度上拓展了计算机的生命周期。2.简化了客户端的安装、配置。由于BrowserlServer是建立在广域网根底上的,有比Client/Server系统更强的适应范围,客户端只需装有操作系统和通用浏览器即可,不必特别安装应用软件、数据库接口等,有效的节省了人力和时间。3.显著降低了系统开发的费用。如果开发了新的应用,就需要为客户使用的每一种不同的操作系统和版本创立和测试客户

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论