




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于VGG模型的照片评分机制分析综述目录TOC\o"1-2"\h\u13473基于VGG模型的照片评分机制分析综述 1296541.1PyTorch框架 1194971.2VGG模型 1133921.2.1VGG模型特点 2203931.2.2VGG模型结构 2196141.2.3VGG模型优点 4187971.3基于VGG的图片分类机制 456041.1.1图像预处理 4199721.1.2图片分类机制 51.1PyTorch框架Torch作为一个经典的能够处理多维矩阵数据的张量(tensor)库,广泛应用于机器学习领域。但Torch语言采用Lua,国内用户不够熟悉,导致其在国内属于小众化,用户使用时相较于支持Python的Tensorflow来说不方便。PyTorch作为由Facebook开源的神经网络基础框架,是torch的python版本,专门针对GPU加速的深度神经网络(DNN)编程,同时还能支持动态神经网络[12]。PyTorch追求最少的封装设计,在结构上尽量避免重复;遵循从tensor到variable(autograd)最后nn.Module三个由低到高的抽象层次,分别代表高维数组(张量)、自动求导(变量)和神经网络(层/模块),三个抽象层次之间联系紧密,可以同时修改和操作;PyTorch的灵活性高,但不以速度为代价,在许多评测中,相比TensorFlow和Keras等框架PyTorch的速度表现都更加优越;PyTorch是所有的框架中面向对象设计最优雅简洁的一个,其设计最符合人们的思维,它使用户尽可能地专注于实现自己的想法,用户操作过程中所思即所得,不需要考虑太多关于框架本身的束缚。1.2VGG模型VGGNet是2014年由牛津大学计算机视觉研究组(VisualGeometryGroup)和GoogleDeepMind公司的研究员一起研发出的的深度卷积神经网络,其主要研究了卷积神经网络的结构深度与其模型性能之间的关系。整体模型架构非常简洁,通过反复堆叠3*3的小型卷积核和2*2的最大池化层,成功地构筑了不同网络深度的卷积神经网络,证明了在一定程度上增加网络的深度能够影响网络最终的应用性能。与之前state-of-the-art的网络结构相比,VGGNet的错误率显著下降,获得了ILSVRC2014比赛分类项目的第2名和定位项目的第1名。同时由于VGGNet拓展性强,使其迁移到其他图片数据上的泛化性非常好,到目前为止,VGGNet依然经常被用来提取图像特征。因其官方网站上成功开源了VGGNet训练后的基础模型参数,提供了非常好的初始化权重,这些参数可用来在特定的图像分类任务上进行再次训练,因此被广泛应用于在卷积神经网络迁移学习中。1.2.1VGG模型特点1.结构简洁:整个卷积层结构只有3*3的卷积核,连续的卷积层后使用池化层隔开;2.小卷积核和连续卷积层:连续的3*3卷积核增大感受野,减少参数量;1.小池化核:相比AlexNet使用3*3大小的池化核,VGG则全部采用2*2大小的池化核;4.通道数更多使特征图更宽:通道数的增加,可以提取出更多的有效信息;5.层数更深:使用连续的小型卷积核代替大的卷积核,使网络结构深度更深,对边缘进行填充避免因卷积计算导致图像尺寸降低;6.全连接转卷积:在网络测试阶段将训练阶段的三个全连接替换为三个卷积,将训练时的各个参数进行测试重用,使得测试得到的全卷积网络不受全连接限制,可以接收任意维度的宽或高图像作为待检测数据输入。1.2.2VGG模型结构VGG本质上是一个框架,目前共有6种网络配置,层数从浅到深分别为11层、13层、16层和19层。它并不具有固定的卷积层数,而是根据需要调整模块中层级结构数量,即调整卷积模块的卷积层数和卷积核大小,实现网络规模和性能间的平衡。网络共有5个卷积模块,每个卷积模块后面跟一个池化层,最后是3个全连接层,所有隐层的激活单元都采用RELU函数。VGGNet宏观结构如图所示:图3-1VGG网络宏观架构图3-2ConvNet配置以VGG16模型为例介绍ConvNet配置图[13]:conv3-64:进行第三层卷积后将维度变成64,同样,conv3-128指的是第三层卷积后维度变成128;input(224x224RGBimage):输入图片大小为224*244的彩色图像,通道数为3,即224*224*3;maxpool:最大池化,在vgg16结构中,池化层采用的是2*2的最大池化;FC-4096:全连接层中有4096个节点,而FC-1000则表示该层的全连接层有1000个节点;padding:对矩阵在外围填充n圈,padding=1表示矩阵外边缘填充1圈,对5*5大小的矩阵进行填充可得到7*7大小的矩阵;在进行卷积操作的过程中,处于中间位置的数值将被进行多次的提取,但是处于边界位置的具体数值特征却很少被提取到,为更好的把边界数值也利用上同时避免中间位置数值被过分提取,所以给原始数据矩阵的四周都补上一层0,维持矩阵大小不变;vgg16在每层卷积运算过程中的stride=1,padding=1;通过softmax函数输出1000个预测结果。1.2.3VGG模型优点VGG模型有以下优点[14]:1.层数深使得特征图更宽,更加适合于处理数据集较大的问题,该网络可以解决1000类图像分类和定位问题。2.卷积核大小影响了参数量和感受野,参数量关系到训练难易程度以及是否方便部署到移动端等方面,而感受野关系到参数更新、特征图大小、特征是否提取足够多及模型复杂程度。(VGG用较深的网络结构和较小的卷积核,既可以保证感受视野,又能够减少卷积层的参数,如将两个3*3的卷积层进行叠加等价于一个5*5卷积核的效果,3个3*3卷积核叠加相加相当于一个7*7的卷积核,而且参数更少,大约相当于7*7卷积层的(3*3*3)/(7*7)=0.55倍。通过三个卷积层的叠加,可以增强特征学习能力)。1.池化层:AlexNet的kernelsize为3*3,stride为2的max-pooling,而VGGNet的kernelsize均为2*2,stride为2的max-pooling,更小的池化核能够带来更为细节的信息捕获,得到更为详细的特征(当时也有采用averagepooling,但是由于maxpooling更加容易捕捉图像上的变化,带来更大的局部信息差异性,更好的描述边缘纹理等,在图像任务上使用max-pooling的效果更好,而用averagpooling可能会使图像模糊,类似于数字图像处理的高斯模糊)。1.3基于VGG的图片分类机制1.1.1图像预处理VGG16网络计算要求输入图像尺寸固定,首先裁剪待分类图像,尺寸大小固定为224*224,后续进行预处理原始图像:为解决数据集过小导致的过拟合问题,使用数据增强的方法对图像进行水平方向的翻转;对待评分图像进行归一化处理,将原始图像转换为固定标准形式,得到归一化图像,进行归一化操作可减少后期模型训练运算量,加速模型收敛速度,提高后续步骤可靠性[15]。1.1.2图片分类机制根据VGG16的宏观架构,该模型由13个卷积层、5个最大池化层和3个全连接层构建。利用卷积滤波器(kernel)即卷积核对输入的特征图进行卷积运算,对从数据集输入的各类图像进行特征提取,在卷积运算得到特征矩阵后对输出矩阵进行最大池化操作,减少特征映射大小,减少数据量并通过填充确保固定的输出大小,卷积的step和最大池化的step分别设置为1和2。全连接层对输出层采用soft-max函数,使模型可进行一定数量的类别预测[15]。进行图像分类任务时,输入VGG16网络模型的图像尺寸固定为224(宽度)*224(高度)*3(信道),输入层与64个3*3*3内核卷积得到(3*3*3)*64共1728个训练参数,第2次卷积继续用64个3*3内核进行卷积运算得到(3*3*64)*64共36864个训练参数,两次卷积后执行2*2最大池化生成layer3,尺寸大小变成112*112*64;第二个卷积模块进行两次卷积,卷积核大小为3*3,个数为128,经过最大池化操作后得到(3*3*128)*128=147456个训练参数,大小变为56*56*128;第三个卷积模块进行三次卷积,卷积核大小不变,个数为256,采用一次最大池化得到(3*3*256)*256=589824个训练参数,大小变为28*28*256;第四个卷积模块进行三次卷积,卷积核个数为512,进行一次最大池化产生(3*3*512)*512=2359296个训练参数,大小变为14*14*512;最后一个卷积模块进行三次卷积,卷积核个数为512,最后进行最大池化得到(3*3*512)*512=2359296个训练参数,大小变为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 200MW独立储能项目规划设计方案(范文)
- 2025年5月10日二级建造师《建设工程法规及相关知识》试题(网友回忆版)
- 风险管理工具在企业合规中的作用试题及答案
- 2025年JAVA学习的动力来源试题及答案
- 2025年C语言高效学习试题及答案
- C语言中的抽象数据类型试题及答案
- 深入了解2025年计算机二级ACCESS试题及答案
- 逻辑错误辨识与试题及答案
- 2025年JAVA基础编程试题及答案
- 逻辑在法律判断中的角色试题及答案
- 餐饮企业财务流程解析
- DB37T-九小场所消防安全管理要求
- 【MOOC】兽医外科手术学-华中农业大学 中国大学慕课MOOC答案
- 数控机床装调维修工(技师)职业技能鉴定理论考试题库(含答案)
- 金蝶云星空应用开发初级认证
- 《食品添加剂》课件
- 磁悬浮发动机研发进展
- 中医医术确有专长人员医师资格考核申报资料表
- 电网的电流保护课程设计
- 【课件】第七单元能源的合理利用与开发新版教材单元分析-九年级化学人教版(2024)上册
- 2024年认证行业法律法规及认证基础知识 CCAA年度确认 试题与答案
评论
0/150
提交评论