下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一种基于云计算数据挖掘平台架构的设计系统分析1 引言近年来,随着科学技术的飞速发展,大量的数据被存储到计算机等存储介质当中。通常情况下,所存储的数据多是复杂的、数据量较大的等。因此,难以通过人工而直接获得。尤其是在科研或是商业发展领域中,需要对海量的数据进行分析,从而找出更多有价值的信息。为解决上述问题,很多研究人员聚集在一起,研究出一种新型的数据挖掘技术。近来,由于计算机技术、云计算技术的飞速发展,大量的数据都存储到了网络当中,而这些海量的、复杂式的数据信息给数据挖掘系统的实现带来很多的难题,如数据相对复杂,现有的计算能力难以达到技术要求,而可以借助云计算数据挖掘技术可提升处理复杂数据的能力
2、。2 云计算数据挖掘系统架构设计的分析2.1 目标系统模型在云计算环境下,构建目标系统为各种终端用户提供高透明化的界面服务,并且在此基础上也提供了开放式的接口支持。这样一来,用户不仅能够通过终端访问用户访问来使用系统,也或是利用其它应用程序调用开放式接口间接式的应用系统服务。不管遇到上述哪一种情形,用户都无需对系统实现而担心其存储能力,只需考虑要选择何种算法进行处理,最后通过任务形式部署给系统获得所需的挖掘结果。除此之外,云计算环境下的数据挖据平台中得模块都是利用用户界面和开放式接口提供服务的。其中,由开放式接口提供的服务均为外部可见服务。而当涉及到高级权限使用功能时,可通过用户界面直接调用开
3、放式接口服务功能。2.2 功能层次框架设计2.2.1算法层该层主要是利用下一层所提供的统一数据源来调用相关算法及对接口进行合理的管理。由于不同算法的执行顺序和得到的结果有所不同而分开的。例如数据清洗算法服务,它是针对具有噪声数据的数据及在应用数据挖掘算法前需要进行接口服务调用,把清洗后的数据利用数据层再储存到云计算平台中,为后续数据挖掘工作提供更好的服务;数据挖掘调用服务,在应用该服务之前,将已清洗的及不需要清洗的数据利用数据挖掘技术统一对数据进行调用。2.2.2应用层和其它层相比,该层的抽象性较强,它是把海量数据挖掘涉及到的数据、算法等之间的内在关系描述成任务,同时提供提供应用调用服务和维护
4、接口等。2.2.3用户层该层主要为用户提供身份验证和授权等功能。2.3 设计关键点2.3.1插件系统设计插件是结合相应的应用程序开发接口规范而实现的一种程序。其中,任何一个插件都是由三大部分构成的,即扩展点、业务逻辑、调用下层扩展点,并且这三者都是由相同的负责模块管理帮顶包跟各种服务所构成的。另外,每个绑定包涉及到一个服务说明接口与多个服务调用接口两种类型的接口。要求绑定包接口必须满足相关规范要求,若把插件防止到平台的某个特定目录下,能够识别和加载该动态。除此之外,算法实现不同于以往针对特定个数、排列数据而实现。它是在满足实现算法的基础上,利用抽象数据提供更多的兼容性。尽管这种算法实现存在很大
5、的难度,但其算法的复用性有了显著提升。2.3.2开放接口设计通常情况下,开放接口主要被应用数据挖掘平台的开发使用。利用上述接口,开发者能够更好地利用数据挖掘平台提供的资源及数据服务。为实现开放接口高效性、直观性的目的,其平台接口主要应用的是表述性状态转移接口,英文缩写为:REST。该类接口的优势在于为无态型。也就是说,在同一个局域网中,浏览器中的缓冲装置可替代服务的重复调用。这样一来,不仅能够有效减轻服务器的运行负担,而且若用户量过多造成底层服务影响整个系统的运行,而此时可利用横向服务器数量的增加扩展线性的吞吐量。因此,利用云计算平台,能够为用户提供无穷大的数据吞吐能力,满足系统的性能要求。3
6、 云计算数据挖掘平台架构的实现3.1 开发环境Google的云计算开发环境主要为App Engine。当遇到重载或是数据量非常的情形时,也能轻松构建安全的应用程序。这是因为此环境的优势在于可提供动态服务、自动扩展等。3.2 开发思想和技术3.2.1原型开发模型首先,需进行快速分析。在相关人员和用户的共同合作下,可准确确定出系统的需求,再结合原型的特征描述需求,来满足开发原型的需求。其次,原型的建构。在经过分析的基础上,结合需求快速建构一可行性较高的系统。在此情况下,需要有相应的软件工具提供可靠的技术支持,同时不考虑系统细节方面的具体要求。再次,原型的运行。此环节是为及时发现问题,从而快速消除问
7、题的一个关键环节。最后,对原型的评价。原型运行的前提下,对原型的特性予以科学性的考核,对运行结果能否满足用户期望而进行分析。而针对该过程中存在的错误或是增添的新要求等,提供合理性的修改建议和意见。3.2.2基于WSGI规范的开发通过分析可知,在基于WSGI规范基础上的开发具有很多的优势。其根本目的是提升系统的可用性和实现跨平台性操作。因此,基于WSGI规范的实现远比传统的C/S模块使用简单的多。用户通过对浏览器来访问系统,同时增加了用户的终端的可选择性。此外,由于WSGI规范是在Python的语言环境下而实现的。而该种语言属于一种跨平台性开发语言。这样一来,不管是把已开发的系统放置到云计算平台
8、上还是在本地开发应用都是极其方便的。3.3 开发步骤3.3.1算法模块插件系统算法模块主要涉及到数据集清洗算法、数据挖掘算法、结果可视化算法等多种。而一个完整的执行过程必须在原始数据集的噪声及不规则数据的情况下借助数据集清洗算法把数据集统一进行整理。也或者是由异狗、分布式等数据源中转化而得到,再自动生成规则的数据集。将这些规则的数据集利用数据挖掘算法予以处理,进而获得数据挖掘结果信息,再经过可视化算法的处理,最终将数据信息传递给用户。其中,任何一个环节数据的调用都必须利用REST接口而实现,并且接口间的数据信息转换和传递都是采用XML格式。特别是近年来,由于数据挖掘平台各种算法模块插件的出现,
9、这样一来,云计算平台下的数据挖掘平台所提供的功能也会逐步增多。3.3.2数据集访问模块该模块的实现和上述算法模块插件系统实现具有很多相同点。它也是通过插件方式进行维护和调用的。尤其是在访问数据集的过程中,其访问模块文件被索引处在被用户调用的状态。而和算法模块插件系统的不同之处是在调用数据集访问模块前,系统自动把数据机实例文件解析成若干个元数据组合及物理访问地址,最后把此类数据组合成字典类型结构的参数传递到数据机访问模块中。4 结束语总体来说,在云计算平台下的数据挖掘系统逐步趋于完善,增强了数据规约的功能,从而更好地解决异构数据访问的问题。同时在App Engin开发平台上,设计出一套更为完善的数据挖掘系统,提升了云计算和数据挖掘技术结合的可靠性与高效性。文章主要针对基于云计算的数据挖掘平台架构设计与实现予以深入的研究,并且对今后云计算环境下的数据挖掘系统的延伸发展予以展望,希望能够通过论述对读者产生一些积极影响。参考文献【1】 杨庆平.基于云计算的数据挖掘平台架构及其关键技术研究.中兴通讯技术,2013,19(1);122-12
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025交通赔偿协议书模板
- 临时工劳动签订协议书七篇
- 债务协议范本
- 全国赛课一等奖初中统编版七年级道德与法治上册《增强安全意识》获奖课件
- 重庆2020-2024年中考英语5年真题回-教师版-专题07 阅读理解之说明文
- 《商务数据分析》课件-市场定位分析
- 企业安全管理人员尽职免责培训课件
- 《卓越的销售技巧》课件
- 养老院老人康复设施维修人员福利待遇制度
- 新冠救治和转运人员的闭环管理要点(医院新冠肺炎疫情防控感染防控专家课堂培训课件)
- 《小英雄雨来》读书分享会
- 医疗保险信访调研分析报告
- 2024年九省联考新高考 英语试卷(含答案)
- 生态系统中的能量流动
- 《膜性肾病及其治疗》课件
- 《二甲醚装置分离精馏工段设计》5200字
- 土壤肥力评估报告
- 《系统解剖学》课程考试复习题库大全-3神经部分
- 制程异常处理管理规定
- 杯弓蛇影儿童绘本故事演讲ppt课件(图文)
- 2023年互联网信息审核员理论考试题库(含答案)
评论
0/150
提交评论