




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于Hadoop平台下SVM的图像识别技术摘 要: 针对海量图像的识别技术进展研究,使用SVM算法作为图像识别模型,考虑到随着图像训练样本数据量逐步增大,训练样本呈现指数上升这一问题,在此对基于Hadoop云平台的并行运算SVM方法进展研究,缩短训练时间,加快图像识别效率。使用Corel图像库中图像进展实验研究,结果说明,常规单机SVM图像识别系统以及基于Hadoop平台SVM的图像识别系统的识别准确率相差不大。当Hadoop平台中拥有超过2个节点时,加速比明显上升,训练时间下降,Hadoop平台中使用SVM进展图像识别的效率优势表达出来。关键词: Hadoop平台; 图像识别; SVM; 云
2、计算; 加速比中图分类号: TN915.43?34; TP391.4 文献标识码: A 文章编号: 1004?373X202116?0098?04Abstract: The recognition technology of massive images is researched, in which the SVM algorithm is taken as the image recognition model. In consideration of the problem that the training samples increase exponentially with the
3、 gradual increase of data size of image training samples, the parallel computation SVM method based on Hadoop platform is studied to shorten the training time and quicken the image recognition efficiency. In an experiment, the SVM image recognition technology were studied by means of the images in C
4、orel image library. The results show that the recognition accuracy rate of the image recognition system using SVM algorithm based on Hadoop platform has no difference with that of the conventional stand?alone SVM image recognition system, but when more than 2 nodes exist in Hadoop platform, the spee
5、dup ratio is increased significantly, and the training time is decreased, so the efficiency advantage of using SVM in Hadoop platform for the image recognition is reflected.Keywords: Hadoop platform; image recognition; SVM; cloud computing; speedup ratio0 引 言现阶段个人电脑和挪动互联网的广泛使用,各种图片、声音、视频等数字信息在网络上广泛交
6、互,数据量已经不可估量。作为其中最为生动直接的图片图像信息正因为互联网的使用而大放荣耀,越来越成为人们日常生活中交流与学习的重要组成局部。海量的图像数据在互联网上广泛传播,每天都有数以亿计的图片在网络上上传或下载。为了便于人们在海量图像中检索到自己需要的图像,专家对图像检索方法进展了广泛的研究和学习。其中,支持向量机Support Vector Machine,SVM模型被广泛应用于图像检索系统中1?3。随着大量数据的产生,云计算随之出现。云计算是基于互联网的相关效劳的增加、使用和交付形式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。简单来说,云计算就是将所有资源进过计算、转换和存
7、储,形成一个巨型的云端网络数据存储平台,利用此平台可以完成各种存储和运算任务,非常适宜于检索系统的应用4。因此本文将单机SVM算法和云平台结合,以讨论进步海量图像识别检索效率的方法。1 云计算在云计算逐渐得到广泛应用的今天,云计算的方法种类也在增多,其中apache的开源分布式平台Hadoop以其价格低廉、高容错性等特点得到了广泛的应用。以IBM现阶段使用的“蓝云云计算平台为例,Hadoop最受广阔用户群青睐的主要原因还是对于它所提供的分布式的可以提供存储的计算平台完全是开源的。Hadoop主要由三局部构成:文件系统HDFS、数据库Hbase、分布式并行计算Map Reduce。在平台中最主要
8、的运算和处理局部主要通过分布式文件管理系统和并行处理两个关键技术实现。作为存储和计算的处理平台,Hadoop平台处理的核心局部还是分布式文件系统HDFS以及并行处理Map Reduce。优越的硬件系统也使该平台表达出了可扩展、廉价、高容错、高效稳定等特点。该平台构造完善,不需要进展改动即可直接进展存储和计算的扩展,这也是Hadoop平台的关键属性:可扩展性;该平台可以直接设计并部署在低廉的硬件上;Hadoop平台可以自动保存数据的多个副本,当错误发生时可以自动恢复分配;对于Hadoop平台来说, Map Reduce对数据的处理方式为按位操作,更加平安高效5?7。2 Map Reduce过程M
9、ap Reduce编程的最主要内容是对Map和Reduce函数自定义的过程。其中无论对于任何个体差异的编写Map和Reduce函数,其主要的任务都是对数据值的读取以及运算。Input Format类为Map操作提供最根本的支持。Map操作的主要对象是对形式的样本,而Input Format类那么是将数据文件的输入地址或者其他形式的输入样本转换为对。 Input Format 类有两个主要的抽象方法,主要是:get Splits,create Record Reader。其中get Splits是将输入图像进展分片处理并搜集所有图像的分片数据的集合。在HDFS中是按照块的方法进展储存的。假设是针
10、对于不同图像形成Splits时,那么需要调用执行Map Reduce 编程框架,从而使运算时间加长,所以数据处理过程中要尽量防止此现象的发生。通过以上方法可以得到分片数组,得到此数组后,Hadoop 平台自动查询tasktracker是否处于空闲状态,当tasktracker处于空闲状态时,Hadoop平台进展算法调度,将对应的数据Splits输入到Map任务中,同时也将Splits所含信息如位置节点信息一同进展上传处理。通过自定义的create Record Reader方法读取该数据内容,并将内容转化成的形式,供Map操作进展试用。假设不在空闲状态那么等待8?11。3 基于Hadoop的S
11、VM算法Libsvm是由台湾大学林智仁教授设计研发的一个简单容易使用的软件分析包,主要用于SVM 形式识别和回归分析。1988年John C.Platt研究并创造SMO算法,通过此算法对Libsvm进展二次规划并进展算法的优化。SMO算法简单实用,使得二次规划优化算法加快,再对SVM进展求解得到了更好的效果,同时也得到了众多学者的广泛认同。训练样本数据量逐步增大,而且训练样本的时间还出现了指数上升的趋势,由此一来虽然二次规划算法的速度相对较快,但在单机形式下进展仍然非常困难。这也是训练样本规模增大带来的问题12。为理解决这个问题,使SVM 算法的训练速度加快,本文对基于Hadoop云平台的并行
12、运算SVM方法进展研究,使得运算时间得到了进一步缩短。SVM 算法的主要思想是在训练数据集中找到决策函数对应的分类进展分析,就是要找到数据集的支持向量。所有的支持向量都具有稀疏性的特点,它们在数据向量集中占据很小的比重,可以通过利用这样的特征,实现对数据的并行SVM算法。在运算过程中,首先将训练数据进展切分,进展分块化处理,然后对每个切分的数据块分别进展SVM 算法求解,以此来到达缩短求解时间的目的。基于Hadoop的SVM算法示意图如图1所示。4 基于Hadoop的SVM算法的实现基于Hadoop的SVM 算法主要通过以下几个方面来实现的:1 向Hadoop云平台上传数据信息。向Hadoop
13、云平台上传数据信息及提交作业,主要从HDFS 中获取数据源,根据数据集群配置对数据进展划分处理,也要对作业的Map和Reduce进展分类处理,输入Map和Reduce 过程中所需的节点信息。2 实现Map 的操作过程。Map函数的主要功能是将储存在HDFS中的图像样本读入系统,同时转换block中的数据样本的参数类型。转换之后通过遗传算法进展优化转换的组合参数。所有准备工作之后,进展svm_train函数的调入,进展样本训练处理,从而得到数据的支持向量即形式的支持向量。最后处理结果等待传入Reduce的操作过程。3 实现Reduce的操作过程。Reduce函数主要目的是把Map函数所转换的数据
14、形式进展分类排序,经过处理后输入到事先所规定的指定途径文件中13?15。实现过程示意图如图2所示。5 Hadoop平台图像识别效果分析5.1 实验平台搭建通过实验比照方法研究在Hadoop平台使用SVM算法进展图像识别以及在单机平台使用SVM算法进展图像识别的效果。单机以及Hadoop中主机和各个节点均使用一样配置的计算机: CPU为Intel I5 4950,内存为8 GB DDR3 1 333 MHz,硬盘为1 TB。Hadoop平台中节点计算机使用Ubuntu 14.10 操作系统,Hadoop 1.0.0版本以及 eclipse?jee?juno?SR2版本的IDE平台,Java的执行
15、环境为: JDK1.7.0_07。Hadoop平台的主要搭建过程为安装JDK;安装并配置SSH;搭建 Hadoop分布式环境;进展Hadoop云平台测试。5.2 实验数据集本文使用Corel 图像库中的图像文件进展Hadoop平台下SVM图像识别研究。该图像库含有恐龙、大象、公共交通工具、人物、山川、河流等图像,常用于图像检索系统和方法的测试。局部图像例如如图3所示。5.3 图像识别准确率实验研究从Corel图像库中分别选取训练样本和测试样本均为1 000,2 000,5 000和10 000的实验组,使用本文研究的基于Hadoop平台SVM图像识别系统,常规单机SVM图像识别系统以及基于Ha
16、doop平台BP神经网络的图像识别系统对图像样本进展训练和识别,测试结果如表1和图4所示。比照表1和图4中数据可以看出,常规单机SVM图像识别系统以及基于Hadoop平台SVM的图像识别系统的识别准确率相差不大,在Hadoop平台下进展图像识别对于进步识别准确率意义不大,而使用基于Hadoop平台BP神经网络的图像识别系统识别准确率很低,因此BP神经网络的图像识别系统不适用于Hadoop平台中。5.4 图像识别效率实验研究对基于Hadoop平台下SVM图像识别技术的效率进展研究,使用加速比衡量其效率,加速比为单机SVM训练时间和基于Hadoop平台下SVM图像识别技术的训练时间之比。同样使用C
17、orel图像库中的10 000条数据对两种比照识别模型进展训练,Hadoop平台中的节点数分别设置为1,2,3和4,那么实验得到的训练时间和加速比方图5所示。 从实验结果可看出,当Hadoop平台中仅有1个节点时,相当于单机SVM识别模型,训练时间为66 s,加速比为1。当Hadoop平台中仅有2个节点时,由于计算机之间交互数据消耗了局部时间,因此训练时间甚至超过了单机SVM识别模型,加速比为0.92,低于1,当Hadoop平台中拥有超过2个节点时,加速比明显上升,训练时间下降,Hadoop平台中使用SVM进展图像识别的效率优势表达出来。6 结 语本文将单机SVM算法和云平台结合,以讨论进步海
18、量图像识别检索效率的方法。通过实例分析,结果说明:常规单机SVM图像识别系统以及基于Hadoop平台SVM的图像识别系统的识别准确率相差不大,而使用基于Hadoop平台BP神经网络的图像识别系统识别准确率很低,BP神经网络的图像识别系统不适用于Hadoop平台中;当Hadoop平台中仅有1个节点时,相当于单机SVM识别模型。当Hadoop平台中仅有2个节点时,训练时间甚至超过了单机SVM识别模型,当Hadoop平台中拥有超过2个节点时,加速比明显上升,训练时间下降,Hadoop平台中使用SVM进展图像识别的效率优势表达出来。参考文献1 牛科.基于Hadoop云平台的分布式支持向量机研究D.临汾:山西师范大学,2021.2 高晓健.基于支持向量机的高光谱遥感图像分类方法研究D.杭州:杭州电子科技大学,2021.3 郭欣欣.基于分布式计算的SVM算法优化D.西安:西安电子科技大学,2021.4 陶杭.基于Hadoop的SVM算法优化及在文本分类中的应用D.北京:北京邮电大学,2021.5 张小琴,胡景,肖炜.基于Hadoop
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 智慧安防:可持续发展的解决方案
- 前台礼仪规范-基础礼仪
- 财务报告中的舞弊信号试题及答案
- 【名师课件】2.4 课件:单摆-2025版高一物理必修二
- 第六章 作业13 向心加速度-2025版高一物理必修二
- 上海市徐汇区2024-2025学年高三下学期3月一模地理试题
- 科普法律小知识
- 鼾症的围手术期护理
- 教导主任个人工作总结2
- 2025届四川省德阳市高三下学期第二次特优生考试历史试题(解析版)
- 淋巴静脉吻合术后护理课件
- 山东省烟台市牟平区(五四制)2023-2024学年七年级上学期期中考试历史试题
- 钣金车间生产流程图
- 地铁保洁服务投标方案
- 先进模具设计与制造技术
- 文件学生体质健康登记卡高中样表
- 老旧小区雨污分流改造工程施工组织设计方案
- 人教版《道德与法治》二年级下册全册优秀课件
- 江苏省四星级高中评估标准及评价细则
- IMT-通信行业:面向通感算一体化光网络的光纤传感技术白皮书
- 股骨颈骨折围手术期护理课件
评论
0/150
提交评论