




已阅读5页,还剩49页未读, 继续免费阅读
(通信与信息系统专业论文)一种舆情数据挖掘平台的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要:随着计算机及网络技术发展的日新月异,互联网成为消息传播的重要媒体, 然而这种媒体具有直接性、突发性、偏差性、自由性等特点,需要有关部门通过 高效的舆情分析系统予以适当的监督和管控。传统的舆情数据挖掘系统处理效率 低,实时性差,建设周期长,维护困难,扩展性差且建设维护成本高。对于互联 网上具有实时性强、数据维度高、语义不确定等特点的海量舆情数据已不能够满 足需求。 为此本文提出将云计算与数据挖掘平台结合。文中分析了舆情数据挖掘平台的 需求,不仅利用云计算平台理论上无限的扩展能力解决了计算能力不足的制约, 并且将整个平台设计为面向服务的模式,引入了s o a 的架构来管理云计算平台中 的大量基础操作及其相关调用,解决了云计算平台中大量应用管理混乱耦合性高 的问题。并通过s 0 a 架构,实现快速、高效、低成本的应对系统功能需求的变更。 本系统采用服务注册表与企业服务总线结合的模式进行设计,基于w e b 服务实现 s o a 更加加强了云计算平台虚拟化和面向服务这两个方面的特性。 本文首先比较了现有的分布式数据挖掘平台架构,以及各自的优势,随后吸取 各家的长处,提出了基于云计算的舆情数据挖掘平台的设计方案,并从平台的特 点及需求、整体方案、舆情数据存储层、舆情挖掘任务调配层、舆情挖掘应用层 和s o a 应用的方面进行了阐述。系统还设计了舆情挖掘算法植入的插件结构,使 得系统更加具有灵活性。用户可以根据自身的需要和系统的权限,上传算法到系 统平台。本文设计了种插件注册查询体系及其与系统对接的接口。使得系统中 的舆情挖掘算法以插件的形式动态的进行管理维护。 最后,在对系统开发平台分析的基础上,论述了舆情挖掘用户平台和舆情数据 挖掘算法接口部分的实现。通过实验数据的分析及用户体验,本系统较传统的舆 情挖掘平台有较大改进。 关键词:数据挖掘;云计算:面向服务的体系结构;舆情。 分类号:t p 3 1 9 塞蛮适叁堂亟堂位途塞旦曼! b ! a b s t r a c t a b s t r a c t :w i t ht h ed e v e l o p m e n to fc o m p u t e ra n dn e t w o r kt e c h n o l o g y i n t e m e t b e c o m e so n eo fi h em o s ti m p o r t a n tm e d i ao fi n f o r m a t i o ns p r e a d i n g s i n c et h i sm e d iu m h a st h ef e 狐l r e so fd i r c c t ,s u d d e n ,b i a s ,l o o s ca 1 1 ds oo n ,i tn e e d st ob es u p e n ,i s e da n d c o n n o l l e db yt h er e l a t e dd e p a r t m e n t sb yt h ce 衔c i e n tp u b l i co p i n i o na n a l y s i ss y s t e m 1 r a d i t i ( ) n a lp u b l i co p i n i o n ( 1 a t am i n i n gs y s t e m ,h o w e v e r ,n o to n l yh a st h es h o n c o m i n g s o fi n c m c i e n c y ,l o w r e a l t i m e ,l o n gp e r i o da n dh i 曲c o s to fc o n s t r u c t i o na n dp o o r s c a l a b i l i t y b u ta l s oh a sap o o rp e r f o 加1 a n c ei nm a i n t e n a n c e c u r r e n ts y s t e mi sn ol o n g e r a b l et om e e tt h ed e m a n do ft h es t r o n gr e a l t i m e 缸a ,h i g hd i m e n s i o na n du n c e r t a i n s e m a n t i cf e a t u r e s 1 no r d e rt om a k eab r e a k t h r o u g hi nt h es y s t e m ,t h i sp a p e ri se n g a g e di nm a k i n ga c o m b i n a t i o no fc l o u dc o m p u t i n gp l a t f o 锄a n dd a t am i n i n gp l a t f o 锄i tr c m o v e st h e c o n s t r a i n t so fc o m p u t i n gp o w e rb yu s i n gt h et h e o r e t i c a l l yu n l i m i t e ds c a l a b i l i t yo fc l o u d c o m p u t i n gp l a t f o r m a l s o ,i ti sd e s i g n e di n t oas e r 、,i c e - o “e n t e dm o d e lb yu s i n gs o a a r c h i t e c t u r e ,w h i c hi si n t r o d u c e dt om a n a g et h ei a 唱en u m b e ro fc l o u d - b a s e do p e r a t i o n s a n dr e l a t e dc a l l s ,a n ds o l v eal o to fc o n f - u s i o n sa n dh i 曲a p p l i c a t i o nm a n a g e m e n t p r o b l e m s o b v i o u s l y ,c h a n g e si ns y s t e mr e q u i r e m e n t sb e c o m ef a s t , e 币c i e n ta n d l o w - c o s tt h r o u 曲t h es o aa r c h i t e c t u r c t h i ss y s t e mi sd e s i g n e db a s e do nt h es e r v i c e r e g i s t r ya n dt h ee n t e 叩r i s es e r v i c eb u sp a t t e m ,a n dt h ei m p l e m e n t o fs o ab a s e do nw e b s e r v i c e se n h a n c e st h ec h a r a c t e r i s t i c so fv i r t u a l i z a t i o na n ds e r v i c e o r i e n t e do ft h e s y s t e m t h i sp a p e rc o m p a r e st h ee x i s t i n gf r a m e w o r ko fd i s t r i b u t e dd a t am i n i n gp l a t t o m s , b e f _ o r ep r o p o s i n gad e s i g no fc l o u d b a s e dp u b l i co p i n i o nd a t am i n i n gp l a t f o 咖 r e f e 州n gt h e i rr e s p e c t i v ea d v a n t a g e s t h es y s t e mi sd e s i g n e di n t os e r i a ll a y e r s s u c ha s p u b l i co p i n i o nd a t as t o m g el a y e r ,t h em i n i n gt a s ka l l o c a t i o nl a y e r a p p l i c a t i o ni a y e r a n ds o a a p p j c a t i o n s i na d d i t i o n ,a l g o r i t h mi m p l a n t a t i o ns y s t e mi sd e s i g n c dt om a k e t h es y s t e mm o r ef l e x i b l e ,士、0 ru s e r sc a nu p l o a ds e l f - d e s i g n e da l g o r i t h m st ot h es y s t e m p l a t f o r ma c c o r d i n gt ot h e i rn e e d sa n ds y s t e mp e m i s s i o n s t h ep l u g u pi n q u i r i e s d o c k i n gs y s t e ma n di t s i n t e r f 砬e sd e s i g n e di n t h i s p a p e rm a k et h es y s t e mm o r e d y n a m i cm a n a g e m e n ta n dm a i n t e n a n c e f i n a l l y b a s e do nt h ed i s c u s s i o no ft h es y s t e ma b o v e ,t h el a s ts e c t i o np r e s e n t st h e u s e rp l a t f o m lo fp u b l i co p i n i o nd a t am i n i n gp l a t f o n na n dt h ei n t e r f a c eo fm i n i n g ab st r a c t a l g o r i t h m s e x p e r i m e n t a ld a 协a n dt 1 1 e u s e re x p e r i e n c es h o w st h a to u rd a t am i n i n g p l a t f o r n lo fp u b i i co p i n i o nb a s e do nc l o u dc o m p u t i n gi sag r e a t l yi m p r o v e dp l a t f o r m t h a nt r a d i t i o n a lo n e s k e y w o r d s :d a t am i n i n g :c l o u dc o m p u t i n g ;s o a ;p u b l i co p i n i o n c l a s s n o :t p 31 9 v 致谢 从论文选题到搜集资料,从写稿到反复修改,期间经历了喜悦、聒噪、痛苦 和彷徨,在写作论文的过程中心情是如此复杂。如今,伴随着这篇毕业论文的最 终成稿,复杂的心情烟消云散,自己甚至还有一点成就感。那种感觉就宛如在一 场盛大的颁奖晚会上,我在晚会现场看着其他人一个接着一个上台领奖,自己却 始终未能被念到名字,经过了很长很长的时间后,终于有位嘉宾高喊我的大名, 这时我忘记了先前漫长的无聊的等待时间,欣喜万分地走向舞台,然后迫不及待 地开始抒发自己的心情,发表自已的感想。这篇毕业论文的就是我的舞台,以下 的言语便是有点成就感后在舞台上发表的发自肺腑的诚挚谢意与感想: 我要感谢,非常感谢我的导师刘云教授。她为人随和热情,治学严谨细心。 在闲聊中她总是能像知心朋友一样鼓励你,在论文的写作和措辞等方面她也总会 以“专业标准”严格要求你,从选题、定题开始,一直到最后论文的反复修改、 润色,刘老师始终认真负责地给予我深刻而细致地指导,帮助我开拓研究思路, 精心点拨、热忱鼓励。正是刘云老师的无私帮助与热忱鼓励,我的毕业论文才能 够得以顺利完成,谢谢刘老师。 我要感谢,非常感谢张振江副教授。正在撰写硕士研究生毕业论文的他,在 百忙之中抽出时间帮助我理清论文写作思路,对我的论文提出了诸多宝贵的意见 和建议。对张老师的帮助表示真挚的感谢。 在实验室工作及撰写论文期间,张乐、代勇、杨路、李计等同学对我论文研 究工作给予了热情帮助,在此向他们表达我的感激之情。 另外也感谢家人,他们的理解和支持使我能够在学校专心完成我的学业。 l 引言 1 1 课题研究的目的及意义 随着计算机及网络技术发展的f 新月异,互联网成为消息传播的重要媒体,然 而这种媒体具有直接性、突发性、偏差性、自由性等特点,需要有关部门予以适 当的监督和管控。然而对于互联网上如此大规模的数据,仅靠人工分析是远远不 够的,网络舆情分析恰恰解决了这一问题,舆情分析平台中重要的组成部分就是 数据挖掘部分,它收集了抓取部分获得的数据,进行分析后又将结果作为进行关 联发现和预测的依据。然而面对海量的异构多维数据,传统的数据挖掘方式显得 力不从心了。 数据挖掘的基本问题就在于数据的数量和维数,数据结构也因此显的非常复 杂,在选择合适的变量、选用适当的挖掘算法进行分析探索的同时,强大的分析 处理能力也是数据挖掘质量与效率的重要保证。尤其是对于时效性很强的信息挖 掘来讲更是讲究数据挖掘的高速性。如果能将当今流行的云计算技术和数据挖掘 技术进行有机整合,使得数据挖掘能够在大量的高性能设备聚集的云端进行处理, 将分析的结果返回给客户,将数据挖掘作为云端提供给用户的一种服务,既提高 了数据挖掘的质量和效率,又使得客户不必购买大量硬件设备进行数据挖掘,仅 仅当作一项服务来使用挖掘的结果,节约了设备采购维护的开销。故本课题具有 非常可观的经济效益。 云计算与数据挖掘的结合,使得两个新兴的技术在这项综合应用领域各自发挥 所长,将各自的优势发挥在这一综合应用之上。 1 2 课题现阶段研究现状与需求 目前数掘挖掘面临的主要问题有数据的数量和维数庞大、结构复杂,以及数据 的非标准化,比如w e b 上的文本信息。前者是当前数据挖掘的最主要问题,解决 的主要方式是通过在分析挖掘时选择适当的数据和合适的算法,另外依靠硬件设 备计算能力和处理速度。才能保证数据挖掘的有效性。 国内当前的数据挖掘还处于起步阶段,应用主要在通信业,国内的银行、保险、 证券行业。这些行业数据发生量大,而且关联比较密切。容易在其中发现联系创 造经济效益。而且这些行业资金雄厚,比较容易建立自己的数据挖掘平台,但足 对于中小型企业虽对数据挖掘也有需求但是由于前期投入较大,望尘莫及。 数据挖掘必须以大量的可靠的数据为基础,只有数据达到一定数量才能够进行挖 掘分析。然向数据的数量过大向数据挖掘的支撑平台提出了更高的计算要求和储 存能力,而且数据挖掘应用的实时性要求也逐步提高,只有快速准确的得到海量 数据中的有用信息才能够给企业带来效益,实现数据挖掘的意义。也l f 是由于这 种高要求使得数据挖掘成为了一个高端的行业应用领域,只有那些大规模的企业 才能有能力建设自己的数据挖掘平台,才能够支付高昂的设备购置费用以及维护 费用。而一些中小型企业对此项技术可望而不可及。 中国移动研究院研发的基于云计算平台的并行数据挖掘工具( b c p 【) m ,b l u e c a m e r b a s e dp a r a l l e ld a 组m i n i n g ) ,集中于采用云计算技术,实现海量数据的存储、 分析、处理、挖掘,向经分系统及网管系统提供高可靠性、高性能的数据挖掘分 析支撑工具。1 6 j 从架构上该平台采用三层设计,依下而上为分布式计算层、数据挖掘平台层以 及业务应用层。 从需求角度而言,凡是对数据挖掘有需求的企业或是单位都希望它们的数据 挖掘工具具有商效性,能够及时准确的分析出它们所需要的信息。例如零售商需 要的某季节性商品销售情况的统计规律,它们需要通过数据挖掘立即得到这种规 律,并且制定相应的营销策略,尤其舆论监督部门,需要在某热点事件发生后的 第一时间内通过数据挖掘,分析出舆论热点的内容和民众对待热点问题的反应, 并及时制定出应急响应方案,将负面舆论的不良影响降到最低。 2 图1 1b c p d m 系统结构 f i g u r el lb c p d ma r c h i t e c t u r e 1 3 论文各部分的内容安排 论文的第二章主要介绍云计算和数据挖掘平台的基本概念及发展现状,第三章 介绍现有的一些分布式计算平台的架构和各自的优缺点,第四章阐述了基于云计 算的舆情数据挖掘平台的设计方案,包括需求分析、整体设计及系统分层次的设 计、分靠式舆情数据存储层、舆情挖掘任务调配层、舆情挖掘应用层以及s o a 应 用层。第五章讲述了系统关键部分的实现,第六章是结论与展望。 2 云计算平台及数据挖掘 2 1 云计算的概念及特点 2 1 1云计算的概念 云计算( c i o u dc o m p u t i n g ) ,分布式计算技术的一种,其最基本的概念,是透 过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务 器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技 术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达 到和“超级计算机”同样强大效能的网络服到。 最简单的云计算技术在网络服务中已经随处可见,例如搜寻引擎、网络信箱 等,使用者只要输入简单指令即能得到大量信息。 进一步的云计算不仅只做资料搜寻、分析的功能,未来如分析d n a 结构、基 因图谱定序、解析癌症细胞等,都可以透过这项技术轻易达成。 云计算是并行计算( p a r a l l e lc o m p u t i n g ) 、分布式计算( d i s t r i b u t e dc o m p u t i n g j 和 网格计算( g 瑚c o m p u t i n g ) 的发展,或者说是这些计算机科学概念的商业实现。云 计算是虚拟化( v i r t u a l i z a t i o n ) 、效用计算( u t i l i t yc o m p u t i n g ) 、i a a s ( 基础设施即服务) 、 p a a s ( 平台即服务) 、s a a s ( 软件即服务) 等概念混合演进并跃升的结果。 2 1 2云计算的主要技术特点 1 虚拟化技术 虚拟化技术是云计算、云存储服务得以实现的关键技术之一。它将应用程序 以及数据,在不同的层次以不同的面貌加以展现,从而使得不同层次的使用者、 丌发及维持人员,能够方便的使用开发及维护存储的数据、应用于计算和管理的 程序。它分为几个层次上的虚拟化,包括:c p u 级的虚拟化,从底层硬件的基 础上:直接运行多个操作系统,此项技术i n t e l 公司正在研究之中。操作系统的虚 拟化。高级语言虚拟化。 虚拟化允许具有不同操作系统的多个虚拟机在同一物理机上独立并行运行, 4 每个虚拟机都有臼己的一套虚拟硬件,可以在这些硬件中加载操作系统和应用程 序。无论实际采用了何种物理硬件设备,操作系统都将视为组标准化的硬件, 将物理服务器、操作系统及其应用程序“打包”为一个档案,使得该虚拟机可以 移动,突破物理限制,从而可以快速对其进行保存、复制和部署,在短时间内将 整个系统从一台物理服务器移至另一台物理服务器,以实现零停机维护和连续的 工作负载整合,提高服务器的使用效率,同时也可以实现虚拟机的迁移、备份和 灵活调度。 更高的应用层次上讲,集群上的虚拟化可以将多个不同硬件平台、不同操作 系统的主机叮以根据用户的请求和资源配置的情况虚拟为一台主机,为用户提供 服务。而对用户屏蔽掉了底层为实现业务而采取的多机联合协嗣工作的细节。 2 分布式技术 分布式技术包括分布式计算和分布式存储两个部分。 分靠式计算指一组计算节点通过互联网络通信,协同完成计算任务。关键技 术包括基本计算单元的编址、计算单元的路由方法、计算单元管理机制、可靠性 机制、消息通信协议、并行计算任务的分解和汇总方式等。 分布式存储足指文件系统管理的物理存储资源不直接连接在本地节点上,而 是通过网络与节点相连。以提供标准接口的远程文件访问为目的,受网络环境、 本地磁盘、处理器速度等方面限制的情况下,系统更多关注访问的性能和数据的 可靠性。 2 2 云计算的发展现状 云计算现今已从概念上的炒作转向了实际的商业应用,g o ( ) g l e 、a m a z o n 、1 ;m 、 微软等知名t t 厂家都拥有着自己的云产品。对于g t ) 0 9 1 0 ,它的技术路线通过云计 算来实现海量的数据存储和处理。而亚马逊,它最主要的贡献是为云计算确立一 个商业模式上的标杆。目前亚马逊在整个云计算这个领域来说它的盈利模式是最 为明晰的。它通过把服务器的c 1 ) u 、存储、内存、磁盘空问、网络带宽等等这些东 西抽象出来给用户进行了申请,提供了很多基础服务和增值服务。目前亚马逊我 们得到的数据是0 9 年亚马逊a w s 以及它的云计算服务,业务收入已经达到2 亿美 金。 微软的w i n d o w sa z u r e 则体现出了微软强大的实力。从下至上,除了h a r d w a r e 则清一色使用微软自己的产品。0 s :s e r v e r 2 0 0 8 ,v m :h y p e r - v ,h o s t :i i s ,d e vt o o l s : v i s u a ls t u d i o 。从a z u r e 来看,微软在云上开发了套开发平台,从而改变了网络 服务提供商的经营和开发模式。它们不再需要买自己的服务器,而转为租用微软 的虚拟机,开发则是通过微软提供的接u 开发在i l s 上的、e b 服务。 2 3 数据挖掘的概念 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数掘中提取隐 含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。常由以 下步骤的迭代序列组成憎3 : ( 1 ) 数据清理( 消除噪声和不一致的数据) ( 2 ) 数据集成( 多种数据源可以组合在一起) ( 3 ) 数据选择( 从数据库里提取与分析任务相关的数据) ( 4 ) 数据变换( 将数据变换或者统一成适合挖掘的形式) ( 5 ) 数据挖掘( 基本步骤,使用智能方法提取数据模式) ( 6 ) 模式评估( 根据某种兴趣度度量,识别表示知识的真正关注的模式) ( 7 ) 知识表示( 使用可视化的知识表示技术,向用户提供挖掘的知识) 2 4 数据挖掘的发展现状及研究方向 数据挖掘当今已在各行各业展开了丰富多彩的应用,通过分析具体数据,发 现确定有效的、新颖的、有潜在使用价值的、以往不为人知的、最终可理解的信 息,为企业良好运营和决策部门做出重要决策提供帮助。只要该产业有分析价值 与需求的数据库,皆可利用数据挖掘工具进行有目的的发掘分析。常见于零售业、 金融业、制造业以及科研领域。 ( 1 )像沃尔玛、家乐福这类大型零售业经销商,每天会产生大量的顾客购 买信息的数据,通过对这些数据的分析可以得到每天企业的运营情况、商品销售 情况、库存情况等信息,这有助于企业判断商品结构是否合理,各类商品经营比 例是否得当。这对于零售业是十分重要的。更为重要的是,根据客户的购买行为 数据来分析顾客的购买习惯并据此制定相应的营销战略应该在什么时间、在什么 地点、以何种方式和对什么样的人搞促销活动,能真正达到促销目的。 ( 2 )对于金融业,需要搜集和处理大量纷繁复杂的数据,而且由于交易的 频繁性、信息的不对称性,所以从海量数据中挖掘信息,从看似无规则的各类信 息中寻找其中的脉络,以辅助监管部门及投资部门进行有效监管及有效投资管理 显得十分重要。比如对于保险公司,通过数据挖掘建立的预测模型,能够辨别可 能的欺诈行为,从而为公司规避风险、提高效益。1 4 j ( 3 )对于制造业,在复杂流程生产过程中,由于各种先进工艺和工程技术 的广泛采用,产生和积累了大量的各种类型的历史数据和当前生产的实时动态数 据,这些海量生产数据又包含用于生产和管理的大量的有价值的信息和知识。通 过对这些数据进行挖掘可以为过程监测、诊断、能效分析、先进控制、优化和调 度、管理等各层次提供决策支持,使得流程制造业综合自动化系统性能达到最优。 1 5 j ( 4 ) 对于科研单位,也同样需要数据挖掘工具。例如在天文学上,天体的 运动或者足某些天文现象的发生往往是有规律的,在研究这种尚不为人所知的规 律时,我们就需要将各种天文现象所产生的数据利用数据挖掘工具进行分析。发 现天体运动或者相关天文现象中的关联或反常规律。但是天文学研究的每一分每 一秒都会产生大量的数据,这些数据具有高维度、不均匀等特性。对于这类数据 仅仅凭手工分析,就很耗时。而且数据产生的速度很快,就要求挖掘工具能够适 应这种产生速度,否则对于已过时的信息发现是没有意义的。通过高效的数据挖 掘工具能帮助科研人员解决这一难题。 数据挖掘虽然现已得到空前的发展,但也存在的很多的问题,现今主要的研 究方向有如下几点:1 6 1 ( 1 ) 形式化描述的语言,即研究专门用于知识发现的数挠:挖掘语言d m q l , 类似s q l 语言一样走向形式化和标准化。 ( 2 ) 可视化的数据挖掘过程,寻求数据挖掘过程中的可视化方法,使知识 发现的过程易于被用户理解和操纵,可使数据挖掘过程成为用户业务流程的一部 分,也便于在知识发现的过程中进行人机交互;包括数据用户化呈现与交互操纵 两部分。 7 ( 3 ) w e b 网络中数据挖掘的应用,特别是在i n t e m e t 上建立数据挖掘服务 器,与数据库服务器配合,实现数据挖掘,从而建立强大的数据挖掘引擎与数据 挖掘服务市场。 ( 4 )融合各种异构数据的挖掘技术,加强对各种非结构化数据的开采,如 对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的丌采。 ( 5 )处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂, 或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和史好的分析 和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复 杂数据准备的一些工具和软件。 ( 6 )交互式发现。 ( 7 )知识的维护更新。 2 5 小结 本章介绍了云计算和数据挖掘的基本概念、发展现状及相关技术特点,以及 将云计算平台与数据挖掘平台进行整合的意义。阐述了当前数据挖掘需求与数据 挖掘平台的之间的供求矛盾。需要有一种高效的,廉价的数据挖掘工具为广大商 家提供数据挖掘服务。而将云计算和数据挖掘结合起来,恰恰解决了传统数据挖 掘平台门槛高、专有性强、重用性差的问题。对于将数据挖掘普及化发挥了重要 的作用。 8 3 基于云计算的数据挖掘平台涉及的概念与技术 3 1s o a 与开放云平台框架c c o a 3 1 1s o a 模型 s o a 是一种架构模型,它可以根据需求通过网络对松散耦合的粗粒度应用组 件进行分布式部署、组合和使用。服务层是s o a 的基础,可以直接被应用调用, 从而有效控制系统中与软件代理交互的人为依赖性。1 7 1 是包含运行环境、编程模型、 架构风格和相关方法论等在内的一整套新的分布式软件系统构造方法和环境,涵 盖服务的整个生命周期:建模开发整合部署运行管理。这 样的定义概括的范围大,着眼于末来的发展,s o a 是分布式软件系统构造方法和环 境的新的发展阶段。【8 j 它有如下关键特征: 功能模块独立运行 基于s o a 的架构中,提供服务的功能实体的完全独立自主的能力。当一个功能 模块出现故障时,最大程度的降低对其它功能模块的影响。这也使得s ( j a 架构具有 自我管理和自我恢复的能力。 低频大数据量访问 系统的功能实现需要多个不同的功能实体之间相互调用,这种调用离不丌大 量的数掘传递与访问,对于人量异构设备构成的复杂系统,频繁的进行这种调用 会使系统的稳定性和性能指标下降。所以s o a 采用大数据量一次性的方式进行数 据变换。 基于文本的消息传递 同样是由于异构系统的存在,使得各个系统之问对于一些基本的数据类新有 可能有着不同的定义,所以必须以相互都能理解的形式传递信息。文本是可以不 包含任何逻辑信息和数据类型的,例如x m l 文件。接收方根据自己本身的特性, 对于文件进行理解,根据本身平台的数据类型恢复出其中包含的逻辑。 松散耦合特性 9 松散耦合的特性使得s o a 架构具有非儿的灵活性,体现在服务接口作为与服 务实现分离的实体而存在。这让服务实现能够在完全不影响服务使用者的情况下 进行修改。 s o a 模型从体系结构从角色组成上分为三个部分,如下图所示: 瑕务注册中心l ,芴悉、 i l 。、v :j 、 、 、 f ,乡:、1 r i 搀一:描1 图3 1s o a 模型的角色体系结构 f i g u r c3 1 r o l e 加c h i t c c t u r co fs o a 从上图中可以看出,s o a 从角色组成上包含了服务提供者,服务中介,服务 请求者三个角色和s o a p 、w s d l 、u d d i 三个技术。 三个角色具体含义如下: a ) 服务提供者:应用系统中服务的开发者,如本系统,数据挖掘系统系统开发 单位作为系统服务的提供者。 b ) 服务注册中心:数据挖掘的各种服务服务需要被人查找到,才能被用户使用, 凶此需要一个地方来注册并发布系统的服务,服务注册中心正是这种服务的发布 地点。 c ) 服务请求者:任何使用这个系统中各项服务的人员或者组织。 3 1 2 开放云平台框架c c o a c c o a ( c i o u dc o m p u t i n go p e na r c h i t e c t u r e ) 可以看作是在云计算平台上对 s o a 的重新构划,为了实现以下目标而提出的一套体系结构。 1 ) 以可重用的方式为云计算提供可配置可重用的资源供应平台。 2 ) 为云计算平台时提出一套普遍可共享的服务机制,从而以统一的方式为其商 业用户提供云资源和服务。 3 ) 在云计算的可扩展的基础设施和管理系统的基础上,最大限度的开发其商业 l o 服务的潜能。 云计算平台中主要通过网络提供四种资源它们是设备、软件、应用和业务进 程,它重要的两个要求就是虚拟化和面向服务( v i r t u a l i z a t i o n & s o a ) 。c c o a 正 是为了实现上述曰标以及虚拟化和面向服务的要求而提出的一套架构。主要通过 以下七个方面来定义一个云计算框架: 方 管 理 图3 2 系统层次及接口示意图 f i g u r e3 2s y s t e ml e v e la n di n t e r f a c e 1 、综合系统管理 需要建立一个管理云计算平台的接口,涉及到云计算服务和解决方案提供商 及其合作伙伴以及云计算的终端用户和资源购买者。 2 、计算设施虚拟化 它包含两个层面上的意义,硬件的虚拟化和软件的虚拟化。从硬件管理的角 度来讲,需要以即插即用那个的模式来管理硬件设备,设备可以动态的从系统中 增减,而不影响其它设备的工作。当然这个过程会伴随着存储空问与计算能力的 调整。从软件竹理的角度讲,以动态编译执行技术对软件资源进行管理,实现代 码共享。降低了代码的冗余,提高执行的效率,并且节约存储空间。 3 、面向服务的可重用服务 除了虚拟化技术之外,面向服务的应用是云计算进一步从资源重用,组件化 服务,混搭服务的层面上实现经济效益的驱动力。面向服务的可重用资源包括横 向与纵向的业务服务( c l o u dh o r i z o n t a la n dv e n i c a lb u s i n e s ss e i c e s ) 。 横向业务服务由不同的平台组成,它们都向上屏蔽了中问件,数据库和其它 工具的复杂性。它除了提供将中间件和开发工具作为服务向外提供之外,还提供 一些其它的诸如监控管理、账单管理或是一些交叉服务比如c r m 、e r p 。 纵向业务服务包括特定领域或者特定行业的事务服务。它对某一个行业的业 务进行深入的挖掘,对整个的业务提供从底层设备到高层应用的全面支持。 4 、可扩展的供应和获取服务 供给和订阅服务( p r o v i s i o n i n ga j l ds u b s c “p t j o ns e r v i c e s ) 用来处理服务提供者 和服务购买者之间的供给与获取的关联。这种服务必须是可扩展的,否则提供方 只能提供单一模式的服务,即使对用户级别最基本的区分也不能做到。 另外在整个服务的体系中,服务提供者与消费者根据自身的角色与权限共同 对系统中的资源进行管理与使用,模式如下图,其中双方共享角色定义与消息传 递的服务。 5 、云产品可配置 云讨算服务分为四个级别设备即为服务,软件即为服务,应用即为服务,业 务处理即为服务。为了实现这四个层面上的服务要求云计算的平台具有良好的可 配置性,能够根据不同的需求以不同的级别向外提供服务。 6 、统一的信息描述交换框架 云计算的各个设备之间、应用之间、用户之问都离不开大量的信息交换,如 何对这些信息进行统一的描述,并且以可靠地方式进行传递直接影响着云计算平 台各个功能组件的协调工作。常用的技术有x m l 、r d f 、w r s f 等 f + 孟聂i l l ; | k l i | 量蔓| 图3 3 提供与获取服务关系图 7 、云的服务质量监管。 通过定义一些标志来指示从可靠性、反应时间、完整性、安全性等角度来衡 量云平台的服务质量( q o s ) ,从监管角度来讲,可以在此层面上建立技术团队与 业务管理者之间的交流沟通平台,来监控和提高云平台的服务质量。 3 2 w e b 服务资源框架 w s i u 在分布式计算的环境下,对于异构资源进行共享和管理的一种框架。 传统的w e b 采用可扩展标记语言x m l 定义了一组服务协议栈,通过开放协议和标 准提供了面向i n t e m e t 应用的统一服务注册、发现、绑定和集成机制,成为i n t e m e t 环境下实现互操作性的一种主要机制。但是传统的w 曲服务实现是无状态的,客 户端发出请求并得到响应,然后断开连接。这种模式已经不适应当今众多的w e b 应用,比如机票预订或者工作流管理系统,客户端在实现功能的时候需要访问系 统内部状态的实体,需要获取实体的属性并且管理实体的生命周期。 w s r f 定义了如何表示、访问、管理有状态资源( w s r e s o u r c e ) 以及如何将资 源进行群组。其中最核心的概念是w s r e s o u r c e ,它是“静态 w 曲服务和相关有 状态资源的组合,能够通过隐式资源模式进行寻址和访问。w s a d d r e s s i n g 协议的 提出,极大地促进了w s r f 的发展,它解决了有状态资源的寻址问题,提出了 种传输中立、面向服务( s e r v i c e o r i e n t e d ) 的机制对动态且有状态的资源进行寻址。 一一rv二搜警 1i j,lj _ 一dh 一 洌 机 一 递 | | 雠 一 息 w s r f 协议包含一系列予协议,旨在解决有状态w 曲服务的运行、管理和通信问 题。 w s r f 协议共分五个子协议:1 1 i l 【1 2 l 1 、w s r e s o u r c e 协议:解释w s r e s o u r c e s 的总体概念,并展示后续文档中的所 有概念如何成为体。 2 、w s r e s o u r c e p r o p e n i e s 协议:解释如何定义和操纵w s r e s o u r c e 。描述有状态 的w 曲服务资源、资源属性,以及元素是怎样获得、更改、删除的。 3 、w s r e s o u r c e l i f e t i m e 协议:解释如何销毁w s r e s o u r c e 。作为网格服务生命 周期的管理机制,为服务请求者或者特定的服务提供显式的服务销毁以及指定服 务生命周期的能力。 4 、w s b a s e f a u l t 协议:定义任何w s r f 应用程序都必须实现的基本故障消息, 以及如何扩展它以创建新的故障。描述了如何报告错误的机制。定义一个当w 曲 服务消息交换返回错误时所使用的基本错误类型。它保证了在w s i u 体系内,当 发生错误后,返回错误信息的一致性。 5 、w s s c r v i c e g r o u p 协议:解释如何创建w s r e s o u r c e s 的逻辑组,以及如何控 制和操纵这些组。定义一种通过引用的方式创建和使用异构w 曲服务的方法。这 个规范可以被用柬组织w 曲服务集合,它所定义的接口要求是由其它的w 曲服务 接【- 】组成。 3 3 分页式存储系统与并行处理引擎 s e c t o r s p h e r e 模型是为在高速网络下进行海量数据挖掘的一种计算模型,它主 要包含两大功能体: s e c t o r 为系统提供长期持久化的数据存储。 s p h e r e 以流进程方式并行执行用户定义的函数来处理由s e c t o r 管理的 数据。 3 3 1s e c t o r s e c t o r 是为云计算提供用柬供计算环节使用的持久化数据存储方案,s e c t o r 本 1 4 身并不是一个文件系统,而是建立在每台存储设备本身的文件系统之上,并向外 提供服务的系统。该系统采取创建副本保证存档数据在被使用时的安全,必要时 还会在一个随机的位置上创建文件副本。 s e c t o r 模型在体系上分为路由层和传输层,层次之间定义了a p i 接口。这样使 存储系统能够使用多种路由和网络协议。 s e c t o r 的访问安全机制是靠连接控制列表实现的,读权限是对系统内部开放 的,丽写权限只有拥有连接访问控制列表中出现的l p 的主机才能向特定的服务器 上传文件。 s e c t o r 将大文件进行分割,并为分割后的每个小文件创建索引。数据文件和索 引文件一般保存在相i 司的几点上,并随着数据文件的复制而复制。文件的索引指 示着数据文件中每条记录的起始结束点以及大小和偏移量。对于那些没有索引的 数据文件,就只能让应用程序从文件的层次上访问了。 客户端连接数据流程 a ) s e c t o r 客户端与一个已知的s e c t o r 服务器连接,通过实体名称向服务器请求一 个实体的具体位置。 b ) 服务器通过网络在路由层的服务查询客户端所请求的实体,并将结果返凹给客 户端。s e c t o r 管理的数据实体,已经根据存储策略被多次复制过了,路由层的食询 算法可以给根据网络带宽和延迟情况决定将哪个实体提供给客户端。 客户端通过特殊的针对不同地理位置的服务器之f i 白j 的有效的数据传输方式向 一个或多个返回的实体地址请求连接。 3 3 2 s p h e r e s p h e r e 是一种流编程模型,在处理大型文件的时候将其切割成若干小部分并 行处理。s p h e r e 的设计考虑了如下几个方面: s p h e r e 数掘集包含一个或多个物理文件。 s p h e r e 内的计算通过用户定义的函数来进行,这些函数以s p h e r e 流作为输入输 出。 s p h e r e 流被分割成多个数据段,交由服务器并行处理。每个数据段可以是一条 记录,或足数据记录的集合或是一个文件。 当一个s p h e r e 函数处理数据流的时候,结果也根据事先的定义以流的方式返 回给s e c t o r 或者写入本地节点。 s p e ( s p h e r ep r o c e s s i n ge l e m e n t ) 是s p h e r e 的主要服务,它基于用户定义的 函数始:f 对用广,提交的计算请求做出回应。s p h e r e 操作符像一个动念库一样,存 储于服务器的磁盘上。 一旦s p h e r e 服务器接到客户端的请求,则启动一个s p e 并调用一个本地操作 符与之绑定。而后重复进行一下循环: a ) s p e 从客户端接收到一个数据段,包含有文件名、偏移量、待处理的行数和一 些额外的参数。 b ) s p e 从本地磁盘或者被s e c t o r 管理的远程存储介质中读取数据段及其记录索 引。 c ) 对于每一个数据段( 单个数据记录或者数据记录集或者整个文件) 而言,s p h e r e 操作者处理这个数据段,并且将处理结果写入一个临时缓冲区中。厅d 时s p e 剧期 性的向客户端发送确认信号,汇报处理进程的进度。 当数据段处理完毕时,s p e 向客户端发送信号,通知数据段处理完毕,并将 处理结果写入事先约定的目的地。如果没有其它的需要处理的数据则客户端关闭 与s p e 的链接,s p e 资源被释放。 3 4w e k a 4 w s w e k a 全名叫作怀卡托智能分析环境( w a i k a t oe n v i r o n m e n tf o rk n o w l e d g e a n a l y s i s ) 是一款免费的,非商业化的基于j a v a 的开源机器学习和数据挖掘平台。 w e k a 4 w s 是将w e k a 进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业培训外包协议
- 心理学压力管理知识点梳理与测试卷
- 2025年无油爪式真空泵项目可行性研究报告
- 产品供应采购合同书
- 2025年提升式速冻机项目可行性研究报告
- 2025年小活络丸项目可行性研究报告
- 2025年姜黄油树脂项目可行性研究报告
- 2025年办公文档处理软件项目可行性研究报告
- 教育机构培训与辅导服务合同
- 孕前优生培训课件
- 中小学心理健康教育宣传月活动方案
- 【9语一模】2025年安徽省合肥市蜀山区九年级中考一模语文试卷(含答案)
- 振动理论习题答案
- GB/T 10810.1-2025眼镜镜片第1部分:单焦和多焦
- 做最勇敢的自己
- 手术部位标识国家标准(2023版)
- 明渠均匀流计算公式
- 医疗护理品管圈QCC成果汇报之提高住院病人健康宣教的知晓率(问题解决型)
- 企业标准化管理手册(完整版)
- 220kV变电站工程质量评估报告
- 幼儿园膳食管理—食品安全检查记录表
评论
0/150
提交评论