




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于深度学习的大米垩白分割算法研究邓杨 王粤 尚玉婷(浙江工商大学信息与电子工程学院,杭州 310018)摘要:大米质量安全关系到人们的生命健康,而含有垩白的大米因为缺少有助于人体代谢的成份,营养价值低,如何准确快速地检测出大米中的垩白信息就显得尤为重要。本研究提出了一个轻量级的语义分割网络IMUN,该网络由非对称型的编码与解码结构组成。编码结构基于改进的MobileNetV2,使用深度可分离空洞卷积,扩大感受野的同时,能获取更多特征信息。解码结构基于Unet的解码结构,将上采样过程中恢复的特征,与同层编码结构进行特征连接,有助于保留更多细节信息。该网络结构可以实现对大米上的垩白区域的像素级分
2、割,继而可以获取大米的垩白粒率和垩白度。实验结果表明,大米上的垩白区域的分割准确率可达到94.11%,在像素精度和交并比等方面优于FCN及大部分近年来新提出的网络。同时本网络结构参数少,网络模型小,非常适合于集成到嵌入式可移动的检测设备中。关键词:语义分割,卷积神经网络,空洞卷积,损失函数,垩白Research on Chalkiness Rice Segmentation Algorithm Based on Deep LearningDeng Yang Wang Yue Shang Yuting(College of Information and Electronic Engineeri
3、ng , Zhejiang Gongshang University , Hangzhou 310018)Abstract: Rice quality influence human health, thus it is important to detect the chalky rice accurately and fast. A lightweight semantic segmentation network named IMUN, it was proposed to measure chalkiness of rice in this paper. The IMUN consis
4、ts of an asymmetric encoding and decoding structure. The encoding part is improved by MobileNetV2, uses the deep separable hole convolution, which could expand receptive filed and thus obtain more feature information. The decoding part is based on Unet, and it connects the features recovered during
5、the upsampling process with the encoding structure to retain more detailed information. The network we proposed can obtain pixel-level segmentation of the chalk rice. Furthermore, when the network is used in the detection of the chalk rice, the higher accuracy of chalk rice rate and chalkiness degre
6、e can be obtained. The results show that the segmentation accuracy of the chalky block can reach 94.11%, which is better than FCN and most of semantic segmentation networks reported recently, in terms of pixel accuracy and intersection over union. At the same time, the network structure has fewer pa
7、rameters and smaller model fore, IMUN can be easily transplanted into mobile and embedded device.Key words: semantic segmentation, convolutional neural network, atrous convolution, loss function, chalkiness中图分类号:TP29 文献标识码:A大米的外观是关乎大米品质的一项非常重要的指标。正常大米呈白色透明状,垩白区域因大米含水分过高或水稻收割时未成熟而造成,呈白色不透明状,边界不清晰,通常位
8、于大米的腹部。含有垩白区域的大米因为缺少有助于人体代谢的磷酸烯醇式丙酮酸,营养价值低。大米质量安全关系到国人的生命健康,如何更加准确、快速的检测出大米是否有垩白,垩白度为多少就显得尤为重要。基于机器视觉的大米外观质量检测是农作物外观检测的热点问题,传统方法主要为基于阈值分割及支持向量机的算法。A.J.Cardarelli等1通过SVM算法,以大米图像的R、G、B平均分量值作为特征数据,对正常米粒和垩白米粒进行识别。侯彩云等2开发了一套用于稻谷垩白检测的图像处理系统,通过阈值的设定提取稻谷中的垩白区域,并计算垩白度和垩白粒率,但基于经验设定的阈值给检测结果带来了较大的误差。C.M.Sun等3根据
9、灰度值的差异提取垩白区域和普通米粒,再采用SVM算法对大米垩白区域进行分类。王粤等4用直方图不同的分布区分普通米和垩白米,采用改进的最大类间方差进一步分析米粒的垩白度、垩白率等信息。基于传统的机器视觉或机器学习的垩白米识别方法对光照条件,米粒上的划痕,以及胚芽部分的干扰等因素比较敏感,从而造成识别精度受到较大的影响。近年来,随着卷积神经网络在图像分类领域获得的巨大成功,基于卷积神经网络的语义分割也成为计算机视觉领域中另一个重要的研究热点。由J.Long等5在2015年提出的全卷积网络(Fully Convolution Networks,FCN)正式将卷积神经网络引入语义分割领域。随后的Seg
10、Net6、U-net7、DeeplabV3+8均取得了较好的分割结果。虽然这些网络有很好的分割效果,但大量的计算也还是限制了其在移动设备上的部署。Howard等提出了轻量级网络MobilenetV29,使用深度可分离卷积(Depthwise Separable Convolution)代替普通卷积,极大地减少了网络参数量。PASZKE等10使用轻量级语义分割网络ENet,实现嵌入式端的语义分割,且分割精度优于SegNet。YuWang等11提出了实时语义分割(Real-time Semantic Segmentation)网络LEDNet,编码结构中通过channel split and sh
11、uffle降低计算成本,同时保证分割准确度,解码器加入注意力金字塔网络(APN,attention pyramid network),减轻网络的复杂度。虽然语义分割在很多领域获得了较大的成功,但将其应用到农作物大米的外观质量检测中的研究并不太多。孙志恒12采用改进的全卷积神经网络FCN-8s,并结合超像素分割技术,对大米、大米垩白、大米胚芽进行分类识别,将深度学习应用到了大米垩白区域的智能检测中,但FCN-8s网络参数量较大,实时操作有难度。本研究提出了一个轻量级大米垩白米垩白区域识别网络IMUN,该网络不仅能实现对大米上的垩白区域进行精确像素级分割,同时网络模型小,适合于集成到嵌入式可移动设
12、备中。1 IMUN网络的构建语义分割网络通常由编码结构和解码结构组成,解码部分将编码结构中学习到的特征从语义映射到像素空间,从而获得每个像素的类别。为了获得较好的分类效果,通常采用VGGNet、ResNet、GoogleNet等网络,这些网络虽然有较好的分类性能,但参数量大、运算时间长,严重限制了语义分割在移动设备和嵌入式设备端的应用。考虑到农作物外观质量的检测通常都需要到现场实地检测,那么面向移动及嵌入式设备的轻量级语义分割网络就是很好的选择。因此,本研究编码结构采用了MobileNetV2网络结构,并做了以下改进:在倒残差冗余块的深度可分离卷积中注入空洞卷积,加大视觉感受野,获取更多特征信
13、息,同时,线性瓶颈结构(Linear bottlenecks)使信息的输出不经过Relu6层,从而更好地保留了特征信息。解码部分基于UNet的解码结构,上采样过程中获取的高层特征信息较为抽象,将上采样过程中恢复的特征,与同层编码结构进行特征连接,有助于恢复信息损失,并且能保留更多细节信息。模型整体设计呈非对称结构,极大地减少了网络参数,提高了训练效率。目前,大部分在移动端的深度学习任务都是依赖云服务器完成计算的,本研究模型的提出使得网络训练可以不通过云端,直接在移动设备本地完成,避免了系统延时和额外数据开销等问题。IMUN的整体网络框架如图1(a)所示,编码结构如表1所示。图1 (a)IMUN
14、网络结构; (b)倒残差空洞卷积冗余块1.1 编码结构表1 编码结构层数类型/步长滤波器输入1Conv/s23×3×3×32256×256×32Conv dw/s13×3×32dw128×128×323(f1)Conv/s11×1×32×64128×128×324Conv dw/s23×3×64dw128×128×645Conv/s11×1×64×12864×64×6
15、46Conv dw/s13×3×128dw64×64×1287(f2)Conv/s11×1×128×12864×64×1288Conv dw/s23×3×128dw64×64×1289Conv/s11×1×128×25632×32x12810Conv dw/s13×3×256dw32×32×25611(f3)Conv/s11×1×256×25632×
16、;32×25612Conv/s11×1×256×153632×32×25613Conv dw/s13×3×1536dw32×32×153614Conv/s11×1×1536×6432×32×153615Conv /s1/r21×1×64×38432×32×6416Conv dw/s1/r23×3×384dw32×32×38417Conv /s1/r21
17、15;1×384×6432×32×38418Conv /s1/r21×1×64×38432×32×6419Conv dw/s1/r23×3×384dw32×32×38420Conv /s1/r21×1×384×6432×32×38421Conv /s1/r21×1×64×38432×32×6422Conv dw/s1/r23×3×384dw32
18、215;32×38423Conv /s1/r21×1×384×6432×32×38424Conv /s1/r21×1×64×38432×32×6425Conv dw/s1/r23×3×384dw32×32×38426(f4)Conv /s1/r21×1×384×6432×32×384如图1所示,网络的编码结构由11个块(Block)组成,网络的输入图像为256×256×3的米粒
19、图像。首先经过1次3×3的普通卷积,并对其做标准化(BatchNormalization,BN),激活函数采用Relu6函数;接着通过5次深度可分离卷积,表1中的Conv dw即为深度卷积(Dwpthwise Convolution,DW);当DW卷积完成后,再利用1×1的PW卷积(Pointwise Convolution,PW)做通道调整,对其做标准化(BatchNormalization,BN),激活函数采用Relu6函数。接着,进入5个倒残差空洞卷积冗余块,结构如图1(b)所示。MobileNetV2延用了MobileNetV1的深度可分离卷积,并加入了倒残差冗余块
20、,先对输入信息做1×1卷积升维,再通过DW卷积和PW卷积。倒残差冗余块的引入增强了梯度信息的传播,同时减少了推理所需内存。此外,加入线性瓶颈结构直接对结果进行线性输出,防止Relu6层带来的信息丢失,保留了特征的多样性,提高了网络的鲁棒性。网络中在第一个倒残差结构中不对结果做加法输出。实际检测中,米粒图像的像素分辨率较低,大量的卷积会导致小物体的特征信息无法重建,也会导致空间级化信息丢失,对分割的准确度有一定的影响。而空洞卷积则可以在不损失空间信息的情况下,很好的保留全局信息,使得每个卷积输出都包含较大范围的信息。因此,本研究在f3之后均采用了倒残差空洞卷积冗余块,改用膨胀系数为2深
21、度可分离空洞卷积,从而使网络在扩大感受野的同时,能捕获到更多的特征信息。 1.2 解码网络表2 解码结构类型/步长滤波器/连接输入Concatenate11(f3)32×32×64Conv3×3×320×25632×32×320Upsampling2×232×32×256Concatenate7(f2)64×64×256Conv3×3×384×12864×64×384Upsampling2×264×64
22、215;128Concatenate3(f1)128×128×128Conv3×3×192×64128×128×192Upsampling2×2128×128×64Conv3×3×64×4256×256×64Softmax本研究的解码结构如表2所示,与编码结构呈非对称,在一定程度上减少了网络参数量,加速了推理过程。首先将编码网络的f3、f4特征层连接,作为解码网络的输入,经过卷积和上采样操作,与f2特征层的信息进行连接,再通过卷积和上采样与f1特
23、征层连接,最后做卷积和上采样操作,输出与输入图像尺度相同的图像。1.3 损失函数的优化 为了得到更准确的分割结果,需要选择合适的损失函数减少预测值和真实值之间的差距。交叉熵损失函数是语义分割多分类问题中最常用的损失函数,但是这种方法在样本不均衡的情况下表现得并不好。在一些语义分割场景中,往往一幅图像中的目标像素比例较小,加剧了网络训练的难度。在本研究中,垩白和胚芽部分的像素点相对较少,仅仅选择交叉熵作为损失函数无法进行准确的分割。Tversky loss可以用来描述真实区域和预测区域的相似程度,在目标不均衡的场景下有较好的表现。针对语义分割多分类任务,本研究提出一种融合了交叉熵损失函数和Tve
24、rsky系数损失函数的方式,通过交叉熵计算全部类别的损失值,再通过Tversky loss计算米粒和垩白区域的损失值,这两个损失值的加权作为整个网络的损失值。具体定义如下: (1) 其中p(x)为预测值,q(x)为对应的真值,TP(True Positive)表示实际为正样本预测正确的样本,TN(True Negative)表示实际为负样本预测正确的样本,FP(False Positive)表示实际为负样本预测错误的样本,FN(False Negative)表示实际为正样本预测错误的样本,是控制FP和FN的权重因子,为控制交叉熵损失函数和Tversky系数损失函数权重因子。2 材料与环境2.1
25、数据集采集本研究选取了市面上比较常见的米粒作为样本,分别选择正常粳米、籼米(无垩白区域的透明完整米),垩白粳米、籼米(带垩白区域完整米)以及碎米(由于加工、运输等原因造成的米粒破损)。使用大恒HV1341UC相机,25 mm真彩色高清摄像镜头,俯视角度拍摄,配合环形光源,尽可能保证采集样本不失真,背景托盘采用了黑色无纹路面板,方便后续对采集到的样本进行一系列预处理。采集样本在图像分辨率为1024×768,共采集300幅米粒图像,每幅图像约含15粒米,拍摄样例如图2所示。图2 米粒拍摄样本2.2 数据集制作考虑到用于深度学习的米粒数据集中最好是多幅单个米粒的图像,因此,上节获得的米粒图
26、像需要做预处理,对其进行自动切割,由于样本是随意放置在拍摄台上的,米粒之间可能会出现粘连,必须要通过一定的切割算法,让其自动形成单个米粒的多幅图像。本研究根据王粤等13提出的粘连米粒的分割算法,首先获取米粒的轮廓线,然后,根据轮廓线上的各像素点的曲率方向判断米粒是否有粘连,若有,则寻找并计算最佳粘连点对,实现米粒的粘连分割,由此可以获得每颗米粒的完整轮廓线。之后就可依据每颗米粒的轮廓线信息,获取对应的米粒的图像信息,这样,上节采集到的图像中的每粒米都可对应生成一副新的背景为黑色的图像。通过对粘连米粒的分割,得到2 000幅单个米粒样本,其中包括936粒正常米,1 049粒垩白米,15粒碎米。为
27、了防止样本数据太少造成的训练结果过拟合,对分割后的的2 000个米粒样本进行数据增强,分别进行镜像、旋转等操作,并随机选取样本进行颜色抖动,最终得到10 000幅训练样本,其中8 000幅为训练集,1 000幅为验证集,1 000幅为测试集。使用开源工具Labelme,对采集到的大米图像中的无垩白区域米粒、垩白区域及胚芽三个部分进行标注,数据集中共有米粒、垩白、胚芽、背景四个类。图3为分割后的米粒样本与其对应的标签。图3 米粒原图及标注图像2.3 实验环境本研究基于Ubuntu 16.04操作系统,处理器为2颗8核Inter E5-2620V42.0Ghz,128G内存,2 400 MHz,G
28、PU为2块NVIDIA TITAN XPPASAL。模型的搭建与训练验证通过Python语言实现,基于Keras2.1.5深度学习框架,并行计算框架使用CUDA 9.10版本。Batch_size设置为16,初始学习率(Learning Rate)设置为0.0001,训练40代(Epoch),通过ReduceLROnPlateau调整学习率,当评价指标不再提升时,减少学习率。3 实验结果及分析3.1 不同权重因子对分割结果的影响为了验证损失函数的有效性,寻找更合适的权重因子,得到更高准确度的分割结果,本研究做了九组对比实验,如表3所示。从实验结果可以看出,当控制Tversky loss的权重因
29、子=0.9,控制MLoss的权重因子=0.7时,垩白区域的Intersection Over Union(IOU,交并比)值最高,达到94.11%,同时Mean Intersection Over Union(MIOU,平均交并比)达到92%,Pixel Accuracy(PA,像素准确精度)和Mean Pixel Accuracy(MPA,平均像素精度)分别为98.61%和96.34%。当=0.9,=0.7时,网络在迭代30代之后,训练集的训练精度呈稳定状态,接近99.5%,验证集的训练精度在98%99%之间波动;训练集的损失值最后稳定在5.415.92,验证集的损失值在迭代了35代之后逐渐
30、稳定。表3 不同权重因子下的评价指标参数=0.3=0.7=0.9PA%=0.398.7398.0298.77=0.598.9498.5198.26=0.798.3398.5698.61MPA%=0.396.5694.596.98=0.597.2596.0395.12=0.795.0496.1896.34IOU%=0.393.3693.3193.89=0.592.1293.593.76=0.793.0793.9994.11MIOU%=0.391.1291.2391.96=0.590.2591.4192.25=0.791.4291.81923.3 与其它语义分割网络的结果对比本研究模型旨在尽可能保
31、证准确度的同时,降低模型参数量。本研究的IMUN与其它各种网络结构的比较结果如表4所示,可视化结果如图4所示。基于MobilenetV2网络和基于VGG16网络的解码结构与本研究模型均选择了Unet,由表4可以看出:二者的参数量分别为本研究模型的3倍和14.8倍,即便是参数量较少的MobilenetV2-Unet模型,IOU和MIOU也比本研究模型低了2.65%和2.55%。而LEDnet和Enet作为经典的轻量级语义分割网络,参数量虽然比本研究模型少,但IOU比本研究模型低了3.55%和6.37%,MIOU低了3.82%和5.16%;Segnet和基于Xception的DeeplabV3+有
32、较好的分割效果,垩白区域的IOU分别达到95.97%和97.45%,但参数量分别为本研究模型的4.9倍和19.7倍,虽然获得了较高准确率,但参数量较大。表4 不同模型下的评价指标模型PA%MPA%IOU%MIOU%模型大小参数量MobilenetV2-Unet95.892.7491.4689.4525.3mb6.3mVGG16-Unet96.8089.9168.5677.3124.6mb31.1mLEDnet96.2395.2490.5688.184.5mb0.95mEnet95.4295.1587.7486.842.3mb0.37mSegnet98.9997.4295.9794.5346.3
33、mb10.2mDeeplabV3+(Xception)99.2498.2397.4596.56166.1mb41.3mIMUN本研究模型95.6196.3494.11928.9mb2.1m 图4 不同分割方法的可视化结果4 结论本研究提出了一个轻量级的语义分割网络IMUN,与参数量较大的经典语义分割网络相比,在几乎不损失准确度的情况下减少了网络参数量;与轻量级语义分割网络相比,参数量在同一量级,但对垩白区域的分割能力更为突出。接下来的研究将对网络进一步优化,提升大米垩白区域的分割准确度;并以本网络结构为核心,添加图像采集、图像预处理、图像粘连分割等模块,从而能实时在线检测包括垩白度和垩白率在内
34、的各种大米外观信息。参考文献1CARDARELLI A J , TAO Y , BERNHARDT J L , et al. High resolution machine vision for non-destructive internal inspection of damaged rice grainC . 19982侯彩云,王一鸣,凌云,等. 垩白米粒的计算机图像识别J . 农业工程学报,2002,18(3):165-168HOU C Y, WANG Y M, LING Y, et al. Discernment of chalky rice kernel with image pr
35、ocessing systemJ . Journal of Agricultural Engineering, 2002,18(3):165-1683SUN C, LIU T, JI C, et al. Evaluation and analysis the chalkiness of connected rice kernels based on image processing technology and support vector machineJ . Journal of Cereal Ence, 2014, 60(2): 426-4324王粤,李同强,王杰. 基于机器视觉的大米垩
36、白米的检测方法J. 中国粮油学学报,2016, 31(5): 147-151WANG Y,LI T Q,WANG J. Detection method of chalk rice based on machine visionJ . Journal of Agricultural Engineering,2016,31(5): 147-1515LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentationC. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 34313440 6BADRINARAYANAN V , KENDALL A , CIPOLLA R . Segnet: a deep convolutional encoder-decoder architecture for image segmentationJ. IEEE Transactions on Pattern Analysis & Mac
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 木竹浆在环保型胶粘剂中的应用考核试卷
- 设计类课程全攻略
- 2025办公室租赁合同范本办公室租赁合同格式
- 珍爱生命 预防溺水-小学生防溺水安全教育
- 2025南京汽车租赁合同范本2
- 2025版权合同模板
- 2025标准简易建筑工程承包合同范本
- 2024-2025湘科版科学一年级下册第一单元测试卷及答案
- 幼儿园大班剪纸《窗花》课件
- 2025高中生物学教师课标考试模拟试卷及参考答案 (二套)
- 栽树劳务合同协议
- 2025年不动产登记代理人《不动产登记代理实务》考前必刷题库(含真题、重点440题)含答案解析
- 酒馆加盟代理协议书
- 加油站站长试题及答案
- 环境突发事件应急预案演练记录
- 外研版(三起)(2024)三年级下册英语Unit 3 单元测试卷(含答案)
- 人教版中职数学拓展模块一:6.2复数的运算课件(共24张课件)
- 2024年同等学力申硕《英语》试题真题及答案
- 公共资源交易知识培训
- 《危机管理案例》课件
- DB13-T5687-2023负压封闭引流术护理规范
评论
0/150
提交评论