(计算机软件与理论专业论文)适合统计数据对象整合处理技术的研究与应用.pdf_第1页
(计算机软件与理论专业论文)适合统计数据对象整合处理技术的研究与应用.pdf_第2页
(计算机软件与理论专业论文)适合统计数据对象整合处理技术的研究与应用.pdf_第3页
(计算机软件与理论专业论文)适合统计数据对象整合处理技术的研究与应用.pdf_第4页
(计算机软件与理论专业论文)适合统计数据对象整合处理技术的研究与应用.pdf_第5页
已阅读5页,还剩82页未读 继续免费阅读

(计算机软件与理论专业论文)适合统计数据对象整合处理技术的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

适合统计数据对象整合处理技术的研究与应用 适合统计数据对象整合处理技术的研究与应用 摘要 随着我国城市公共交通快速发展,轨道交通作为城市交通中的重 要组成部分,在城市繁忙的公共交通运输中越来越受到青睐。但目前, 轨道交通自动售检票系统在计算机技术应用层面上还停留在售检票设 备运营自动监控和票务信息处理与管理的技术范畴。本文的项目研究 是针对轨道交通自动售检票系统沉淀的海量票务交易、设备状态和维 护日志等数据的挖掘、发现、统计分析和使用的方法与技术。本文重 点研究适合统计数据对象整合处理的技术与应用。 本文作者的主要研究、创新工作如下: i ) 为便于使用者理解和使用各种数据源组织结构信息,提出映射 数据库元数据信息并进行中文语义描述的方法,把英文的专用缩略词 汇描述成易于理解的中文语义描述,增强了系统易用性; ii ) 通过研究基于l i n u x 平台下的数据整合,采用x m l 技术来解 决异构数据库的数据转换、存储和数据关系运算的问题。根据实际业 务数据的特点,研究和实现的数据转换包括:格式修正、字段解码、 度量单位转化和日期时间转化,并结合数据仓库中的相关策略及本项 目的架构模式,提出一个双层数据转换模型。该模型在开发实现上有 着较大的灵活性、占用计算资源较少、在部署和运行上扩展性较强; i i i ) 针对并发请求响应和数据文件存储问题,通过分析文件存储 和x m l 格式文件存储的特点,定义了适合统计结果存储的x m l 格式文 件,很好地解决了统计结果缓存及再次反馈的应用需求,并能实施控 制x m l 格式结果文件占用存储空间的策略; i v ) 针对数据运算,提出把部分关系运算和数值计算从数据库系 统剥离的策略,降低对业务数据库系统的资源占用。基于x m l 数据文 件,可以根据d o m 接口来读取x m l 文件中数据,进行相关的关系运算、 数值计算和其它运算,为了提高连接的处理效率,实现了基于x m l 数 据文件的n e s - j o i n 算法。 实际应用证明,本文研究的数据整合处理的技术与方法能够满足 在线分析处理的应用需要,并能优化使用生产现场宿主系统的计算资 源。 适合统计数据对象整合处理技术的研究与应用 关键词:统计分析,数据整合,语义映射,数据转换,x m l 文档,数 据存储 i i 适合统计数据对象整合处理技术的研究与应用 i 乏e s e a r c ha n da p p l i c a t i o no fd a t a i n t e g r a t i o np r o c e s s i n g t e c h n i q u e s s u i t a b l e f o rs t a t i s t i ca n a i ,y s i s a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fc h i n a su r b a np u b l i ct r a n s p o r t , r a i l t r a f f i ct h a th a sb e e ng a i n i n gi nf a v o ri sa ni m p o r t a n tc o m p o n e n to ft r a f f i c i nt h ec i t y a tp r e s e n t h o w e v e r , a f co fm i lt r a f f i cr e m a i n si na u t o m a t i c m o n i t o r i n go p e r a t i o no ft h ed e v i c e 。t i c k e ti n f c i r m a t i o nt r a n s a c t i o na n d m a n a g e m e n ti nt h ea p p l i c a t i o no fc o m p u t e rt e c h n o l o g yl e v e l i nt h i sp a p e r , t h ep r o je c ts t u d i e sf o rm i n i n g ,d i s c o v e r y , s t a t i s t i c a la n a l y s i s ,u t i l i z i n gt h e m a s s i v ed a t ao ft i c k e tt r a n s a c t i o n ,e q u i p m e n tc o n d i t i o na n dm a i n t e n a n c e l o g t l l i sp a p e rf o c u s e so no b j e c ti n t e g r a t i n gt e c h n o l o g ya n da p p l i c a t i o n s s u i t a b l ef o rt h es t a t i s t i c a ld a t a t h em a i nr e s e a r c ha n di n n o v a t i o no ft h ea u t h o ra lea sf o l l o w s : i ) i no r d e rt of a c i l i t a t et h eu s e r st ou n d e r s t a n da n du s ev a r i o u sd a t a s o u r c e s o r g a n i z a t i o n a ls t r u c t u r ei n f o r m a t i o n , p r o p o s ea m e t h o dt h a t e n h a n c et h ee a s eo fu s eo ft h es y s t e m i nt h i sm e t h o d ,i tm a p sd a t a b a s e m e t a d a t ai n f o r m a t i o na n ds e m a n t i cd e s c r i p t i o no fc h i n e s e ,a n de n g l i s h d e d i c a t e ds h o r tt e r md e s c r i b e da se a s y - t o u n d e r s t a n dc h i n e s es e m a n t i c d e s c r i p t i o n ; i i ) t h r o u g hr e s e a r c hb a s e do nt h el i n u xp l a t f o r md a t ai n t e g r a t i o n , u s i n gx m lt e c h n o l o g yt os o l v et h ep r o b l e mo fh e t e r o g e n e o u sd a t a b a s e d a t ac o n v e r s i o n ,s t o r a g ea n dd a t ar e l a t i o n s h i po p e r a t i o n a c c o r d i n gt ot h e c h a r a c t e r i s t i e so ft h ea c t u a lo p e r a t i o n a ld a t a , r e s e a r c ha n dr e a l i z a t i o no f t h ed a t ac o n v e r s i o ni n c l u d e :f o r m a ta m e n d m e n t ,f i e l dd e c o d i n g ,t h eu n i t s o fm e a s u r e m e n tc o n v e r s i o na n dd a t e t i m et r a n s f o r m a t i o n ,a n di n c o n j u n c t i o nw i t ht h er e l e v a n td a t aw a r e h o u s es t r a t e g ya n dt h es t r u c t u r eo f t h ep r o j e c t ,t h ep a p e rp r o p o s eat w o t i e rd a t ac o n v e r s i o nm o d e l 耶1 e m o d e li nr e a l i z a t i o no ft h ed e v e l o p m e n th a sag r e a t e rf l e x i b i l i t y , w h i c hi s i 适合统计数据对象整合处理技术的研究与应用 t a k i n gu pl e s sc o m p u t i n gr e s o u r c e sa n dh a v i n gs t r o n ge x p a n s i o ni nt h e d e p l o y m e n ta n do p e r a t i o n ; i i i ) w i t ht h ec o n c u r r e n tr e s p o n s ef o rr e q u e s ta n dd a t af i l es t o r a g e , t h r o u g ha n a l y s i sc h a r a c t e r i s t i c so fd o c u m e n ts t o r a g ea n dx m l f o r m a tf i l e s t o r a g e t h ea u t h o rd e f i n e sa 舭s t o r a g ef o r m a tf i l ew h i c hi ss u i t a b l ef o r s t a t i s t i c a lr e s u l t s i ti sag o o dw a yt om e e tt h ea p p l i c a t i o nn e e d so ft h e r e s u l t sc a c h ea n dr e f e e d b a c k , a n dc a l lc o n t r o ls t o r a g es p a c es t r a t e g yo f o u t c o m ed o c u m e n ti nx m lf o r m a t ; i v ) f o rd a t ac a l c u l a t i o n , t h ep a p e rp r o p o s e sas t r a t e g yt h a tm a k e s s o m ep a r t i a lr e l a t i o n s h i po p e r a t i o na n dn u m e r i c a lc o m p u t i n gs t r i pf r o m d a t a b a s es y s t e m t h i ss t r a t e g yc a l lr e d u c er e s o u r c e so c c u p a t i o no ft h e b u s i n e s sd a t a b a s es y s t e m d a t af i l e sb a s e do nx m lc a nb er e a da c c o r d i n g t h ex m ld o m i n t e r f a c e ,d or e l e v a n tr e l a t i o n s h i po p e r a t i o n ,n u m e r i c a l c a l c u l a t i o na n do t h e ro p e r a t i o n s i no r d e rt o i m p r o v et h ep r o c e s s e f f i c i e n c yo fc o n n e c t i v i t y , t h ea u t h o ra c h i e v e dt h en e s j o i na l g o r i t h m b a s e do nt h ex m ld a t af i l e s p r o v e np r a c t i c a la p p l i c a t i o n s ,t h i sp a p e rd e a lw i t ht h ed a t ai n t e g r a t i o n t e c h n o l o g i e sa n dm e t h o d s c a l lm e e tt h eo n l i n e a n a l y t i c a lp r o c e s s i n g a p p l i c a t i o nn e e d s ,a n do p t i m i z et h eu s eo fp r o d u c t i o ns i t eh o s tc o m p u t i n g r e s o u r c e s k e yw o r d s :s t a t i s t i c a la n a l y s i s ,d a t ai n t e g r a t i o n ,s e m a n t i cm a p p i n g , d a t at r a n s f o r m a t i o n ,x m ld o c u m e n t ,d a t as t o r a g e i v 东华大学学位论文原创性声明 本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位 论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除 文中已明确注明和引用的内容外,本论文不包含任何其他个人或集体 已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对 所写的内容负责,并完全意识到本声明的法律结果由本人承担。 学位论文作者签名:克身叼 日期:8 年少月玛e l 东华大学学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定,同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允 许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复 制手段保存和汇编本学位论文。 保密口,在年解密后适用本版权书。 本学位论文属于 不保密口。 学位论文作者签名: 厄豸,研 j 指导教师签名: 彩,磊铭 日期:捌年月弼日日期:州。悻月孑e t 适合统计数据对象整合处理技术的研究与应用 1 1 引言 第一章绪论 在快速发展的现代信息社会,企业对信息管理的需求日趋复杂,企业转型和 市场竞争要求决策层作出更快、更准确的决策。为了适应企业需要,随着越来越 多的应用系统被投入应用,业务分析b a ( b u s i n e s sa n a l y s i s ) 正逐渐受到企业管 理者的青睐,人们越来越认识到应用系统沉淀数据的潜在价值。由于企业在完善 计算机信息化管理和生产控制方面的计算机应用系统不是一蹴而就,她遵循循环 渐进和最佳实践的原则,通常会分阶段、分业务管理( 控制) 地分系统开发并投 入实际应用,因此在一个大型系统中,由生产和管理系统产生的数据通常会因应 用系统的目标差异和历史原因被存储在异构宿主系统中,包括数据库r d b m s ( r e l a t i o nd a t ab a s em a n a g e m e n ts y s t e m ) 及其库表结构定义的异构。面对大片分 散的信息孤岛和数据信息的急剧膨胀,计算机专业人员面临更加棘手的挑战。如 何分离历史数据和生产现场数据,如何提供公共数据转换平台实现遗留系统协同 工作流? 如何提供统一风格的操作乔面方便跨平台数据访问和联机分析处理 o u 廿( o n l i n ea n a l y s i sp r o c e s s i n g ) 是当前电子应用整合e a i ( e l e c t r o n i c a p p l i c a t i o ni n t e g r a t i o n ) 和数据仓库d w ( d a t aw a r e h o u s e ) 研究的核心内容。整 合异构数据库数据的关键技术,就是研究和实现一种有效的模型和方法,通过该 模型和方法能够以统一的操作界面实现对分散异构数据源的访问和使用。本文研 究和实现的数据整合处理技术能够实现异构数据源的统一访问和使用,根据操作 请求,能够实时地、智能地把适合统计分析的数据传递给o l a p 系统或其他应用 系统。通过数据整合技术,企业可以有效规避r r 系统建设风险、减少投入成本, 保留习惯操作方式和充分利用现有系统资源,从而提高企业人员的工作效率,提 升企业自身的综合能力,增强核心竞争力。 随着我国城市交通快速发展,轨道交通作为城市交通中的重要组成部分,其 环保、低能耗和快捷、准时的运输特点,在大中型城市繁忙的公共交通运输中被 广泛采用。目前,轨道交通自动售检票系统在计算机技术应用层面上还停留在售 检票设备运营自动控制和票务信息管理的业务范畴,对轨道交通自动售检票系统 沉淀的大量票务交易数据、设备故障记录和维护日志等缺乏进一步的挖掘、发现、 分析和利用,是目前国内外从事这一行业i t 集成公司尚未顾及的应用“盲点 和 技术难点。同样,由于一个大中型城市的轨道交通一般由多条线路组成,每条线 路的自动售检票系统分别由中央计算机系统、车站计算机系统和自动售检票终端 适合统计数据对象整合处理技术的研究与应用 设备组成n 1 。线路中央计算机系统和车站计算机系统使用的硬件平台、操作系统 和数据库不尽相同。如上海轨道交通1 、2 号线自动售检票中央计算机系统使用 s y b a s ea d a p t i v es e r v e re n t e r p r i s ev e r s i o n1 2 5 数据库,而3 、4 号线等则使 用o r a c l el o ge n t e r p r i s ee d i t i o n 数据库等。因此,对生产现场异构联机存储数 据实现跨平台数据整合、访问和使用,对大中型城市轨道交通自动售检票运营管 理数据分析具有实际的应用意义,也是当前计算机b a 和o l a p 应用技术研究和实践 的主要内容。 1 2 国内外数据整合研究现状 目前,关于数据整合的研究成果,国内外市场上已经有几种相关的系统问世, 它们为适应不同的应用领域、面向不同的业务而开发。许多研究机构结合自己的 研究项目,推出了自己的原型系统,下面是一些具代表性的项目产品乜3 。 1 ) b e aw e b l o g i ci n t e g r a t i o n e l i n k b e a 是较早进入数据整合市场的软件公司之一,b e a 为企业提供了多种集成解 决方案,如b e aw e b l o g i ci n t e g r a t i o n 、b e ae l i n k 和b e at u x e d o 。 b e aw e b l o g i ci n t e g r a t i o n 是b e a 的重要产品之一,也是一套完善的企业应用 集成解决方案,它为企业提供了应用服务器,业务流程管理、应用集成和b 2 b 集成 等功能,具有充分的灵活性和可伸缩性,能够满足项目开发和集成的要求,并为 跨企业应用集成提供单一的,完善的解决方案,其基于标准的集成方法还可充分 挖掘新旧投资的效益,加速工程,并把总体拥有成本降到最低1 。 b e ae l i n k 是一个企业的应用之间实现无缝通信的开放解决方案。充分利用了 b e a 的交易处理平台,将现有的早期应用与电子商务创新活动相集成。作为耐用、 全面的企业解决方案,可以快速地实施、并且非常易于维护,同时支持各种不同 类型混合的平台、体系结构、数据库和第三方应用,确保使用一个标准编程界面, 高效,透明地对关键任务应用及跨网络的信息进行访问。b e ae l i n k 包括端到端企 业电子商务应用集成所需的特性,世界级连接,连接普遍使用的企业资源规划和 客户资源管理系统、金融数据服务包及其他纵向侧重的应用接口,能够与领先的 集成代理包和最佳商务处理工作流程软件集成h 3 。 2 ) i b mw e b s p h e r e i b mm q s e r i e s 产品族和i b mw e b s p h e r e 软件平台系由i b m 提供的著名集成产品。 i b mm q s e r i e s 产品可用于将e r p 、遗留系统以及企业合作伙伴集成至u i b m 解决方案 中,并提供基于w e b 的界面,便于开发者进行信息的存取。 w e b s p h e r e 是i n t e r n e t 的基础构架软件,它使企业能够开发、部署和集成新一 代电子商务应用( 如b 2 b 的电子交易) ,并且支持从简单的w e b 发布到企业级事务 2 适合统计数据对象整合处理技术的研究与应用 处理的商务应用。w e b s p h e r e 转变了企业对客户、合作伙伴及雇员等的管理方式。 例如,可以通过它提高站点传输数据的数量和质量,从而大幅提升w e b 应用的性能, 并将扩展的应用程序与移动设备相结合,让销售队伍能够为客户提供更快捷的服 务,或者构建电子市场以降低资源获取的成本。 3 ) m i c r o s o f tb i z t a l k 微软的e a i 解决方案包括m i c r o s o f tm e s s a g eq u e u e 产品系列和b i z t a l k s e r v e r2 0 0 2 等。微软的b i z t a l ks e r v e r2 0 0 2 是一个集成化解决方案。其主要特 点如下: 可以针对动态流程实施集成。b i z t a l ks e r v e r 基础构架可帮助企业在应用 程序间( 在组织机构范围内或超越组织机构界限) 就业务文档进行交换,并在此 基础上以简便、快捷的方式针对动态业务流程实施集成、管理和自动化处理。 b i z t a l ks e r v e r 具备适合企业单位执行业务流程编排操作的全部工具手段,并可 帮助企业创建基于i n t e r n e t ,并可跨越应用程序和企业范围的流程。此外,图形 工具还可为业务分析人员和应用程序开发人员针对企业解决方案进行建模与实施 提供便利条件。 。 便于将应用程序与业务合作伙伴进行集成。b i z t a l ks e r v e r2 0 0 0 可为开发 人员针对应用程序和企业单位所进行的集成化处理提供便利条件。业务分析人员 和应用程序开发人员可用于创建x m l 构架,执行构架转换和基于i n t e r n e t 创建贸易 合作伙伴关系,并针对交换数据和文档实施跟踪与分析的图形化工具中获益匪浅。 b i z t a l ks e r v e r2 0 0 0 具备针对x m l 和标准i n t e r n e t 技术的支持特性,可把传统电 子商务和电子数据交换( e d i ) 特性扩展至整个电子商务领域。 通过公共标准保障企业应用程序和合作伙伴之间的交互。b i z t a l ks e r v e r 2 0 0 0 不仅可为像x m l 、e d i 和h t t p 这样的公共标准与技术规范提供广泛支持,而且, 还具备诸如公钥加密和数字签名等安全标准,从而切实保障与应用程序和业务合 作伙伴之间的高水平交互操作能力及安全特性啼1 。 1 3 本文研究内容及意义 由于本文描述的研究成果将实际应用于上海轨道交通明珠线二期( 四号线) 自动售检票系统中央计算机系统和车站计算机系统运营管理的数据分析和辅助决 策中,为了不增加生产现场数据库服务器的计算负载,设计要求只能以单表优化 的方式抽取相关数据库的表数据,因此对抽取后的数据需经过转换、清洗和关系 式运算整合处理后形成适用统计模型的样本数据。因此,结合生产现场实际应用 环境的限制,适合统计对象数据整合的研究内容由下述四方面的工作组成( 见图 1 1 ) : 3 适台统计数捌对每整台址月技术的研究,戊用 图1l 本文研究内存 ( 1 ) 语义映射 设计语义映射数据库,包括源数据库字典信息中数据库和袁结构元数据信息 的映射、中文描述输入、用户权限管理和元数据致性维护等; 开发w i n d o w s 下摹于c s 二层构架的语义映射和用户权限管理了系统,管理和 维护语义映射数据库以及用户访问授权。 ( 2 ) 适合统计的数据转换 解决不同数据库系统之间同义不同类数据的转换,以及相同、相近数据类型 之间的转换的问题。 ( 3 ) 适台统计的数挢存储管理 解决数据文件格式定义( 接n ) 问题,方便数据的输入与输出操作。 解决数据文件的存储问题,按照用户权限,分配给用户适当的存储空f u j 。 士 。止b 适合统计数据对象整合处理技术的研究与应用 解决数据文件的相关管理问题,实现数据文件自动迁移或通过l i n u x 的文件管 理系统进行手工迁移等操作;实现对用户存储空间管理,并及时通过表示层提示 用户存储空间使用情况。 ( 4 ) 适合统计的关系式运算处理 解决二维数据文件间的关系运算问题,不仅包括选择、投影、并、交、差、 除和j o i n 运算,还包括相关数值计算,如求和、均值、计数、最大值、最小值等。 此外,还应该实现排序、分组和h a v i n g 等操作。 本文描述的研究内容涉及数据决策支持系统d d s s ( d a t ad e c i s i o ns u p p o r t s y s t e m ) 、数据仓库d w 和数据挖掘d m ( d a t am i n i n g ) 技术的理论与实际应用研 究,结合三层计算构架和跨异构平台数据抽取、数据集市中文展现和统计数据对 象整合处理等创新性观点的设计与实现,能够使数据分析软件系统具有更强的应 用功能和更好的质量属性。 1 4 本文组织结构 本文组织结构如下: 第一章叙述本项目的开发背景、国内外相关研究现状及本文主要完成的创 新性工作; 第二章介绍轨道交通a f c 运营管理数据分析系统,描述该系统分层系统的构 架模式、参考模型及其参考构架及相关技术特点; 第三章论述基于中文描述的元数据展现方式及实现方法。主要思想是把面 向数据库设计者的元数据映射成面向普通用户的中文语义信息,方便用户使用; 同时对字段类型按统计度量分类,避免用户误用计算函数; 第四章详细论述本项目所采用的双层数据转换模型及制定、实现适合本项 目使用的数据转换包方法; 第五章重点介绍基于n m l 的适合统计的数据存储; 第六章介绍适合统计的数据运算,包括关系运算、数值运算和其它运算及 其相关实现方法; 第七章简单介绍轨道交通a f c 运营管理数据分析系统及其应用效果分析; 第八章对全文进行了总结,分析和展望了下一步可资研究的工作。 本文第三章、第四章、第五章、第六章是是项目实施的难点和相关关键技术 创新点。 5 适合统计数据对象整合处理技术的研究与应用 第二章数据分析系统简介及软件构架设计 2 1 项目简介 数据分析是对客观世界记载的数据或信息进行分析并发现其内在规律的经典 方法。基于这一方法的广泛适用性,美国早在上世纪6 0 年代起,就开始通过计算 机数值计算方法研究和实现了通用统计分析软件包,如国际上知名的两大统计软 件包:社会科学统计软件包s p s s ( s t a t i s t i cp a c k a g ef o rt h es o c i a ls c i e n c e ) 和统计分析系统s a s ( s t a t i s t i ca n a l y s i ss y s t e m ) 。目前,s p s s 已推出9 个语种 版本。使用w i n d o w s 的窗口方式展示管理和分析数据的各种功能。s a s 贝u 是美国s a s 软件研究所研制的一套大型集成应用软件系统,具有完备的数据存取、数据管理、 数据分析和数据展现功能。尤其是创业产品一统计分析系统部分,由于其具有强 大的数据分析能力,一直为业界青睐,在数据处理和统计分析领域,被誉为国际 上的标准软件和最权威的优秀统计软件包,广泛应用于政府行政管理、科研、教 育、生产和金融等不同领域,发挥着重要的作用。当前,s a s 软件对w i n d o w s 和u n i x 两种平台都提供支持,最新版本分别为8 1 和6 1 2 。s a s 作为专业统计软件中的巨 无霸,现在还很难有什么统计软件足以与之抗衡。 我国,在上世纪8 0 年代初,由上海市计算技术研究所相关科研人员设计开发 了“关系式数据分析系统r d a s - - r e l a t i o n a ld a t aa n a l y s i ss y s t e m ”,该系统首 次把d b a s e i i 关系式文件运算管理技术用于数据分析的数据管理并提供多种描述 量统计和多元统计算法。1 9 8 5 年,国家统计局批量采购r d a s 软件5 0 0 套,发至全国 相关统计部门使用。 “轨道交通自动售检票( a u t o m a t i cf a r ec o l l e c t i o n ,a f c ) 运营管理数据 分析系统 ( 以下简称“数据分析系统”) 系由东华大学、上海申通轨道交通研 究咨询有限公司和上海轨道交通明珠线( 二期) 发展有限公司联合立项、开发的 系统。该系统的总体目标是研制一套集数据存储管理、数据集市中文语义展现、 跨平台数据抽取、数据整合、数据分析和图表显示于一体的数据分析系统。该系 统基于三层构架模式实现,通信传输和接口协议分别采用s o c k e t 通信编程和可扩 展标识语言x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 格式文件实现,能够实现跨异构 平台的数据源抽取,在用户操作界面上能够完全以中文语义描述的数据集市d m ( d a t am a r k e t ) 展现跨异构平台的多数据源结构定义信息,包括: 1 ) 数据源服务器名: 2 ) 数据库名; 6 适合统计数据对象整合处理技术的研究与应用 3 ) 数据表名; 4 ) 字段名,含类型、长度和统计测度分类标志。 使操作用户能够以自己熟悉的行业或业务术语正确理解和选择用于统计分析 的数据对象。 该系统提供通用和专用两种分析功能,能够为轨道交通自动售检票运营管理 提供下述决策支持: 1 ) 为轨道交通运营列车调度提供运载客流分析数据; 2 ) 为国定节假日客流高峰提前预测; 3 ) 为设备平均无故障时间m t b f ( m e a nt i m eb e t w e e nf a i l t u r e s ) 和平均故 障恢复时间m t t r ( m e a nt i m et or e p a i r ) 提供量化分析; 4 ) 为各种票卡在轨道交通线路中的占有率和使用状况提供分析数据; 5 ) 造成设备故障的因子分析; 6 ) 相关分类统计数据的环比、同比分析; 7 ) 分类条件下,多因素统计量分析; 8 ) 客流和营收状况的相关分析及其变化趋势分析等。 在导师指导下,作者有幸参与了“轨道交通a f c 运营管理数据分析系统”设计 和开发的全过程,在该项目的实施过程中通过知识运用和实践,提高了自己分析 问题和解决问题的能力,并积累了软件系统设计、开发的相关经验。 “轨道交通a f c 运营管理数据分析系统 于2 0 0 7 年7 月1 2 日通过上海市科学技 术委员会组织的科研项目验收;2 0 0 7 年8 月7 日获上海市科学技术委员会科学技 术成果证书( 登记号:9 3 1 2 0 0 7 y 1 1 6 8 ) ;2 0 0 7 年8 月3 0 日国家版权局计算机软件 著作权登记证书( 登记号:2 0 0 7 s r l 3 2 1 4 ) 。 2 2 软件构架设计 文献 6 定义某个软件或计算系统的软件构架是该系统的一个或多个结构,它 们由软件元素、这些元素的外部可见属性以及这些元素之间的关系组成。 根据上述定义和捕获构架元素的有用的概念,可以把软件构架的设计简单理 解为由参考模型映射在构架模式上的一系列分解设计组成,其中包括功能和质量 属性的设计。图2 1 简洁给出构架模式、参考模型、参考构架和软件构架之间的关 系。 7 适合统计数据对象整合处理技术的研究与应用 图2 - 1 构架模式、参考模型、参考构架和软件构架之间的关系 其中: 构架模式是对元素和关系类型以及一组对其使用方式的限制的描述。可以 把构架模式看作是对构架的一组制约条件( 即对各元素类型及其交互模式的限制 条件) ,这些限制条件确定一组或一系列能满足它们的构架。 参考模型是一种考虑数据流的功能划分。参考模型是对已知问题的标准分 解,分解所得的各个部分相互协作,构成问题的解决方案。产生于实践经验的参 考模型是熟知某领域的体现。 参考构架是映射到软件元素( 它们相互协作,共同实现在参考模型中定义 的功能) 及元素之问数据流上的参考模型。参考模型实现了功能划分,而参考构 架则将这种功能划分与系统分解对应起来。这种对应可能( 但不一定必须) 是一 一映射的。一个软件元素可以实现某个功能的一部分,也可以实现若干个功能。 本文描述的数据分析系统将参照图2 - 1 所示元素及其关系予以设计。 2 2 1 构架模式 采用分层系统的构架模式设计数据分析系统,该系统构架模式由三层组成, 即数据源层、应用服务层( a p p l i c a t i o ns e r v i c e ,a p s ) 和表示层,如图2 2 所示。 r霪 罗一7 碣 i i 厂 粼懈嚼累舻谮累 , 嚆 l 数据l 应用 ,l 卜 i 服务层 及镄用尸淆莎 表示层; 源层8 及饿璃嘏谓鼍 l j ;l k 一。,。,么 级。,荔 墨 # 0 已,一 图2 - 2 数据分析系统分层系统的构架模式 适合统计数据对象整合处理技术的研究与应用 用户操作的层主要集中在表示层,在表示层用户发送统计请求给应用服务器 层,应用服务器层自动根据发过来的请求文件向数据源层发送数据抽取请求,在 数据源层根据请求反馈给应用服务层相应的抽取数据后,应用服务层自动根据相 应的请求模型进行统计计算,并将此次请求结果反馈给表示层。 2 2 2 参考模型 根据数据分析系统需满足可用性、可修改性、性能、安全性、可测试性和易 用性的质量属性和实际应用需要,设计该系统的参考模型如图2 - 3 所示。 图2 - 3 数据分析系统的参考模型 9 适合统计数据对象整合处理技术的研究与应用 从上图可以看出:此参考模型中对应表示层有两部分内容组成:一个是用户 c l i e n t ,另一个是维护c l i e n t 。用户c 1 l e n t 主要实现以下五个功能: 1 ) 用户登录授权。它是通过向应用服务层发送x m l 文件( c a 0 1 ) 来验证用户 登录时的客户端信息和用户信息是否准确。 2 ) 授权的数据项浏览。不同的用户属于不同的分组,用户只能浏览所在分组 允许浏览的数据,用户不能浏览其它分组所允许的数据项信息; 3 ) 选择统计对象和方法。在用户选择需要进行统计计算的数据对象后,用户 选择各种统计方法,比如多元线性回归法、非线性回归法、季节分解法等统计方 法,然后将统计请求以) 眦文件( c a 0 2 或0 2 以上均表示统计请求) 的格式发送给应 用服务层: 4 ) 显示统计结果或报表。客户端显示用户请求的统计结果是以报表或图形的 方式展现出来的,比如直方图、饼图、条形图等。 5 ) 选择存储打印结果或退出。用户在浏览分析统计结果后,有三种选择, 第一种是将统计结果存储到应用服务层;第二种是将统计结果打印出来:第三种 是退出此统计结果查看。 维护c 1 i e n t 主要实现以下两个功能: 1 ) c 1 l e n t 管理。实现对客户端信息比如客户端i p 地址、客户端唯一编号、有 效时间的管理; 2 ) 登录和授权管理。对用户及口令信息进行维护,并及时更新用户所在分组 信息。 应用服务层( h e s ) 主要实现以下七个功能: 1 ) 验证用户登录x m l 并反馈授权x m l 。如果验证信息均是合法的,则应用服务 层会反馈对应c a 0 1 的a c o l x m l 文件并下发给此用户需要的授权x m l 文件;如果验证 结果为非合法信息,则应用服务层会反馈对应此c a 0 1 的a c 0 1 x m l 文件,在此文件中 的非合法信息的标识会说明是由于什么原因导致非法登录。比如用户名不存在或 是口令不正确或客户端信息不正确等等。 2 ) 在时间戳范围内匹配请求x m l 。若存在则反馈结果。如果某个请求x m l 文件 在时间戳范围内,与正在请求的x m l 文件相匹配,则将对应此x m l 文件的结果文件 反馈给客户端。 3 ) 响应请求x m l 并生成数据优化抽取子x m l 。应用服务层会根据请求的x m l 文件 进行优化并执行单表数据抽取。 4 ) 优化执行子x m l 并整合生成被分析数据对象。优化执行单表的数据抽取,并 将不同数据源的数据进行数据整合生成适合统计的数据对象。 5 ) 执行选定统计方法并生成结果x m l ,进入时间戳队列。根据请求x m l 文件和抽 l o 适合统计数据对象整合处理技术的研究与应用 取到的数据执行选定的统计方法,并生成结果文件( a c 0 2 或0 2 以上) ,并将此请 求文件放在时间戳队列中,以备相同请求时需要。 6 ) 响应c l i e n t 存储请求并作相应处理。用户提出将统计结果存储在应用服务 层请求时,应用服务层会根据当前用户所占的空间来决定是否将接受此次统计结 果存储,或建议用户删除其它存储的统计结果文件。 7 ) 支持c 1 i e n t 管理、用户登录、口令更改维护等管理。此功能是针对维护 c 1 i e n t 功能来实现的。 s e m a n tic d s ,语义数据源( s e m a n ticd a t as o u r c e ) ,主要存储各数据源相 关元数据的信息、中文语义描述和用户权限等信息,具体有元数据信息,如数 据库名、表名和字段名( 含类型、长度) 、表间关联和索引定义等信息;元数 据中文语义描述信息和字段统计度量标志信息;用户控制表,包括用户名、用 户i d 、登录口令、部门、岗位、联系电话等;数据访问权限,可规定用户可访 问表( 或和字段) 的权限和c l i e n t 配置、控制表。 数据源层( d b s ) 主要实现以下两个功能: 1 ) 允许数据库连接并访问。应用服务层只要能连接上数据源层的数据库并实 现访问才能对请求数据进行相关抽取。 2 ) 数据源层能够响应a p s 的查询请求。对o r a c l e 数据库来说是通过p r o * c 技术 来实现的,而对其它数据库是通过o d b c 接口技术来实现查询请求的,并将查询结 果以记录集的方式反馈给应用服务层。 2 2 3 参考构架 对应图2 - 3 所示数据分析系统的参考模型,根据模块分解和使用规则,设计该 系统的参考构架如图2 - 4 所示。 适台统计数据对蕈整台处4 技术的研究j m 月 表示层应用服务层数据源层 1 一i | 1 “j 姻 溢蠢二 、 幽油獭 历习 睦型 适合统计数据对象整合处理技术的研究与应用 算。它在应用服务层起核心作用,调度并协调各个组件。 结果持久化组件。把统计结果保存在设定的目录下,发送统计结果给表示 层和提供存储空间管理。该组件能够按照系统管理员设置的时间间隔进行统计结 果迁移,以便以后刻盘备份。 统计计算组件。是整个系统的重要组成部分,能够把抽取到的数据或者是 整合好的数据进行相关统计计算,生成统计结果发送给结果持久化组件。 此外,应用服务层还设有一个语义映射数据库( s e m a n t i c _ d s ) ,它存放语义 映射所需要的信息,同时也存储用户请求信息。 2 2 3 3 数据层 数据层由多个数据源组成。数据源一般是关系式数据库系统,用来存储业务 数据并能够执行s q l 查询语句。应用服务层的每个数据抽取器通常针对某种类型的 数据源设计开发。虽然各种类型的数据抽取程序采用的具体开发技术不同,但都 遵从本系统统一制定的标准,提供统一的服务。与数据层的通信传输使用t c p i p 协议。通过不同数据抽取器使应用服务器具有访问和获取不同数据源的能力,同 时也方便优化抽取策略实施、提高数据抽取效率。 2 2 3 4 层次间接口 表示层与应用服务层的消息( 数据) 交互传输采用s o c k e t 技术,通过i p 地址、 端口及其相应的通信传输软件实现。在c l i e n t 和a p s 之间实现的通信规程为同步短 连接,具体处理过程简洁说明如下。 1 ) c 1l e n t 请求发送c a x x * x m l 文件的会话过程 c li e n t 请求发送c a x x * x m l 文件的会话处理过程如图2 5 所示。 c l i e n t a p s 若千次后 发送结束 a c k n o w l e d g ec o m p l e t e 接收 应答消息 接收 收毕回文 断开连接 图2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论