基于双神经网络模型的智能零售柜设计与实现_第1页
基于双神经网络模型的智能零售柜设计与实现_第2页
基于双神经网络模型的智能零售柜设计与实现_第3页
基于双神经网络模型的智能零售柜设计与实现_第4页
基于双神经网络模型的智能零售柜设计与实现_第5页
免费预览已结束,剩余8页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    基于双神经网络模型的智能零售柜设计与实现    曾敏 吴圣健 李坊 陈直摘要:近年来,基于深度学习模型的图像识别技术已成为智能零售柜的主要解决方案。设计了一种新的基于双神经网络模型的智能零售柜系统。该系统与单模型设计比较,除检测召回率和分类准确度有显著提升外,还大大降低了因增加新品种而导致的模型再训练时间。首先,利用faster rcnn模型完成商品大类(按包装分类)的分类检测任务,以提高检测召回率;其次,利用resnet50模型完成商品小类(按品种分类)的分类任务,以提高分类准确度。与此同时,还在最难分品种集上进行了多种数据增强消融实验研究,以

2、改进该难分品种集所属大类数据集的分类准确度。关键词:深度学习;图像检测;图像分类;智能零售柜;神经网络模型中图分类号:tp181      文献标识码:a文章编号:1009-3044(2021)26-0009-05开放科学(资源服务)标识码(osid):design and implementation of intelligent retail cabinet based on double neural network modelzengmin1,wu sheng-jian2, li fang1, chen zhi1(1. dept. of communica

3、tion and information engineering, shanghai technical institute of electronics & information, shanghai 201411, china;2. finvolution group, shanghai 201203, china)abstract:in recent years, image recognition technology based on deep learning models has become the main solution for intelligent retai

4、l cabinets. a new intelligent retail cabinet system based on dual neural network model is introduced. compared with the single model design, this system not only significantly enhances the detection recall rate and classification accuracy, but also greatly reduces the model retraining time caused by

5、 the addition of new varieties. first, the faster rcnn model is used to complete the rough classification and detection task of commodity categories (classified by packaging) to improve the detection recall rate; secondly, the resnet50 model is employed to complete the fine classification task of co

6、mmodity categories (classified by variety) to improve classification accuracy degree. at the same time, some data augment ablation experiments were conducted on the most difficult-to-classification variety set of this project to refine the fine classification accuracy of the commodity categories (cl

7、assified by variety) to which the difficult-to-classification variety set belongs.key words:deeplearning; image detection; image classification; intelligent retail cabinets; neural network model近年来,无人零售作为一种便利的零售新业态,在我国许多城市得到了长足发展。根据前瞻产业研究院发布的中国新零售行业商业模式创新与投资机会深度研究报告预测,2022年无人零售用户可达2.45亿人,交易额将超1.8万亿元

8、1。无人零售的快速增长,得益于多种技术的发展和融合,特别是移动支付的普及和人工智能、云计算等高新技术的应用落地2。目前,我國无人值守零售柜有4种技术实现形式3,5,分别是以“友宝公司”为代表的机械式自动售卖机。其发展较早,技术难度低,产品成熟,但制造成本较高,购物流程相对烦琐;以“每日优鲜”为代表的rfid(radio frequency identification)零售柜。其技术成熟,市场占有率高,但rfid标签制作成本也高;以“京东到家”为代表的重力感应零售柜。其依靠重力感应来识别商品的品类和价格,商品可自由摆放,空间利用率高,但对称重传感器的灵敏度要求高;以“深兰”“购呀”为代表的视觉

9、识别零售柜。其主要利用图像识别技术,能适应复杂多样的消费场景,是未来零售智能化的方向6。视觉识别零售柜又分为动态和静态两种,其中深兰以3d动态视觉技术见长,其takego与amazongo类似,识别率的提高除采用较大神经网络模型外,还需要相应的纠错算法来降低诸如用户单手取多件商品等行为的识别误差,设备成本和计算量相对于静态识别都较高,扩大市场规模的难度较大;购呀目前专注于做静态识别零售柜,其设备简单,成本低,易于扩大规模3-4。但这种低成本的无人值守零售柜的技术难点是如何提高所售商品的检测召回率和分类准确度。为此,本文设计了一种新的基于双神经网络模型的智能零售柜系统,其售卖流程见图1所示:通过

10、手机扫码开门,客户自助取货;关门后系统智能识别,结算扣款。该系统力图在有限的硬件支持下,利用双神经网络模型,使其所售商品的检测召回率和分类准确度达到落地商用的要求。1 原理及设计框架目前,业界有许多先进的图像检测、分类模型,除端到端的一阶段模型(如yolo5系列、efficientnet6系列等)外,还有二阶段模型,如fasterr-cnn7等。本项目初期使用了faster r-cnn单模型来完成所售商品的检测分类任务。在实施过程中我们发现有三个问题,一是模型最终的分类准确率为90.9%,特别是在最难分品种集上的分类准确率只有82%;二是模型会出现漏检现象,漏检率为7%;三是每当增加一个新品种

11、时,都需对整个模型进行再训练,训练时长约为7h。随着商品种类的不断增加,模型再训练的时间成本较高。为有效解决上述三个问题,我们在图1中的“云端处理”模块,设计了一个双神经网络模型。其工作原理是:基于深度学习的图像识别技术,通过在云端比对开门前与关门后,各层摄像头拍摄的图片,来识别售出的商品,进而计价,完成扣费。其中识别过程是两个神经网络模型,模型i按包装形式(如易拉罐、纸盒、瓶装等)对售出商品进行图像检测,完成包装大类的检测任务,其目的是为了降低漏检率;模型ii根据大类检测的结果,调用对应的小类分类模型,确认售出商品的品种,如易拉罐大类中的“零度可乐”等,其主要任务是提高售出商品的分类准确度。

12、双模型设计的另一个目的是当新增销售品类时,如果其外包装属于已有大类,系统就不需重新训练大类检测模型,只需训练相应的小类分类模型,从而相对于单模型可以节省大量的再训练时间。不仅如此,双模型的选择还可以根据应用场景、数据规模以及设备配置等因素的不同进行灵活调整,并辅之以针对性的数据增强方法,以期达到更优的性能。2 实验及讨论分析本节基于腾讯云gpu计算型gn7.large20,对上述双模型智能零售柜设计框架进行了详细对比分析,实验结果验证了双模型设计的优势和可行性。2.1模型i零售商品大类(外包装)检测模型商品大类检测模型的主要目的是减少漏检数,提高召回率。本项目目前约有85个品种,其中易拉罐有1

13、1种,纸盒包装有30种,瓶装有26种,快餐面有18种。在单模型检测中,我们观察到,之所以出现漏检是因为:如果某个售出商品w的网络模型输出向量中的85个类别分量值都不高(各分量值之和为1),低于设定阈值,其检测框就会被筛选掉,因而出现漏检。于是我们设想,如果模型只对4种包装(大类)进行检测,w的输出向量中的4个类别分量值就会显著加大,漏检率就会大大降低。实践证明这个设想是合理可行的。与按85类检测相比,faster r-cnn模型按4大类检测的召回率(ar)和准确度(ap)都有所提高,特别是在中等目标(medium)上的提高更为明显,分别从93.1%和90.9%提高到97.9%和96.2%。表1

14、比较了faster r-cnn模型在这两种分类检测标准上,大、中、小三种检测目标的ap与ar值。2.2模型ii零售商品小类(品种)分类模型商品小类分类模型的主要目的是提高售出商品的分类准确度。从项目初期的单模型实施过程中,我们发现有几个品种的检测图像特别相似,如图2中易拉罐大类的“零度可乐”、“青岛王子1”和“青岛王子2”这三个品种的顶部抠图极难区分,模型容易张冠李戴。因此,提高易拉罐分类模型的准确度,就成为我们选择、改进零售商品小类分类模型的一个突破口。2.2.1模型选择易拉罐大类(allyilaguan)包括“芬达”“红牛1”“红牛2”“可乐”“零度可乐”“芒果小酪”“青岛王子1”“青岛王

15、子2”“屈臣氏香草”“王子牛奶”和“雪碧”共11種易拉罐饮料,分别用“class0”-“class10”表示,训练集(allyilaguan_train)和验证集(allyilaguan_val)分别有6336和1216份样本。基于腾讯云gn7.large20(gpu4g)的算力,我们分别用resnet50,efficientnetb2b6等6个预训练模型,对易拉罐大类进行了25epoch的模型对比训练。训练结果比较见图3和表2。从图3中6个模型的对比训练图表,可以看出这6个模型的loss收敛趋势基本相同,6个模型之间的训练精度差小于1.8%,验证精度差小于4.5%;efficientnet系

16、列模型的训练时间都明显多于resnet50。因此,考虑到项目孵化阶段的算力限制,以及新品种频繁增加的需求,我们折中选择了以resnet50为backbone构建小类分类模型。这是因为新品种的增加,意味着小类分类模型训练次数的增加,模型单次训练时间过长显然不利于业务的迅速开展。2.2.2模型改进在小类分类模型初步确定后,为进一步提高分类准确度,我们仔细分析了resnet50在allyilaguan数据集上训练的roc(receiver operating characteristic)图和混淆矩阵(confusion matrix),见图4和表3。从图4中可看出“class4(零度可乐)”和“c

17、lass8(屈臣氏香草)”的auc(area under curve)得分相对较低,分别是0.980和0.981;进一步对比分析表3的11种易拉罐饮料预测值与真值的混淆矩阵,不难发现,模型对“零度可乐”“青岛王子1”“青岛王子2”“屈臣氏香草”和“芒果小酪”五种商品的误判率较高,但对其他品种的误判率较低。于是我们将“零度可乐”“青岛王子1”和“青岛王子2”确定为本项目的最难分品种集hardgroup(因“屈臣氏香草”不再上架销售,故其和“芒果小酪”不包含在hardgroup集中),并构建最难分品种训练集nan3trainset、验证集nan3valset和测试集nan3testset,分别包括

18、2483、625和431份样本。开始着手通过数据增强技术,进行模型的消融比较实验8。首先,确定数据增强方法。数据增强是提高模型性能的有效途径,且方法较多。通过仔细观察分析货柜周边的环境、商品摆放的位置以及镜头成像的效果后,我们发现货柜内外的光线变化会降低图片清晰度、镜头成像时长会造成图片色温和亮度变化、不同高度商品临近摆放会造成商品有效识别区的阴影遮挡、图片检测框区域的高度相似会导致模型“认敌为友”。为减少这几种现象对分类精度的影响,我们针对性地选择了色彩抖动(colorjitter)、随机遮挡(randomerasing)和图片混叠(mixup)作为本轮消融实验的三个数据增强方法。色彩抖动是

19、指在模型训练过程中,通过对图片的亮度、饱和度以及对比度进行调整,用以增加样本多样性、提高模型泛化能力的一种数据增强方法。随机遮挡是在模型训练过程中,以一定的概率对数据集中的图片,通过随机生成的掩码区块来遮挡图片,动态增加样本多样性,提高模型泛化能力的一种数据增强方法。图像混叠也是一种数据增强方法,它可以提高模型对反例样本的鲁棒性9。其原理是在模型训练过程中,对两张图片的像素以一个随机比例0, 1 进行相加形成一张虚拟图片作为训练样本(x,  y),如式(1)(2)。x=xi?+1-xj?             

20、                 (1)y=yi?+(1-)yj?                               (2)l(x)=l(f(xi?),yi?)+l(f(xj?),yj?)     (3)其中xi,xj是两个随机样本,yi,yj分别是xi,xj的标签,f(xi),f(xj)分别是xi,xj的预

21、测值,l(x)是loss函数。图像混叠通过线性插值法扩展了训练数据的分布,提高了模型对反例样本的鲁棒性。其次,实施消融实验。我们先将上述已在易拉罐大类allyilaguan数据集上训练好的resnet50模型在最难分品种测试集nan3testset上进行第一轮推理测试,并将其结果作为消融实验的比较基准。再将上述三个方法组合成6种数据增强策略,重新加载resnet50,分别在数据集nan3trainset和nan3valset上,再训练100epochs。然后将训练后的模型再分别在nan3testset上进行第二轮测试,结果见表4。从表4可以看出,三种数据增强方法对提升resnet50在本项目最

22、难分品种数据集上的预测准确度都有一定的作用,其中图像混叠方法的提升效果更为明显。最后,模型迁移推理10-11。先构建与易拉罐大类实际数据同分布的测试集allyilaguan_test,即包括11种易拉罐饮料,共812份样本。再在其上加载上述在最难分品种数据集上经过三个数据增强方法混合训练后的resnet50(即表5中序号6模型),进行推理测试,结果见表5。从表5中可以看出,经过在最难分品种数据集上进行三种数据增强方法训练后的模型,能较大提高该大类的细分类准确率,从94.09%提高到98.64%,接近目前市场上典型智能零售柜的性能。同样地,我们按照以上方法,在其他3大类(纸盒、瓶装和快餐面)数据

23、集上也做了相應的比较研究,其结果也验证了上述结论,并且由于这3大类商品的检测抠图辨识度相对较高,所以模型误判率较低,各大类的细分类准确率都大于99%,已与目前市场上典型智能柜的性能相当。3 总结本文利用深度学习技术实现零售货柜的智能化。在实施过程中,针对智能零售柜普遍存在的检测漏检率和分类准确度两个技术难点,基于“腾讯云gpu计算型gn7.large20(gpu4g)”,进行了实验和讨论,给出了相应的解决方案。首先利用双模型设计代替原单模型设计,相较于单模型,双模型设计的检测召回率(从93.1%提高到97.9%)和分类准确度(从90.9%提高到96.2%)都有了明显提升,并且大大减少了因新增商

24、品后模型再训练时间(从7h缩短到1h)。与此同时,通过3种针对性的数据增强方法,在本项目最难分品种数据集上进行了6种消融实验,其训练后的模型不仅能提升最难分品种数据集上的分类准确度(从85.85%提高到88.40%),而且能明显改进其所属大类的小类分类准确度(从94.09%提高到98.64%)。整个解决方案采用“扫码开门、自助取货、智能识别、关门结算”的方式,形成一个销售闭环,真正实现了“拿了就走,关门即付”的简单高效的购物体验;不论是柜体成本,还是运维成本都相对较低,易于扩大规模。参考文献:1 前瞻产业研究院.中国新零售行业商业模式创新与投资机会深度研究报告(2020-2025)r. 202

25、0.2 林付春,张荣芬,何倩倩,等.机器视觉中的智能无人零售系统设计j.电子技术应用,2018,44(9):96-98,103.3 付振华,纪祥,赵坤旭.基于yolo算法的智能交通灯控制系统模型j.单片机与嵌入式系统应用,2019,19(9):12-13,17.4 li f,zeng m,xiao j,et al.active learning for image preparation of automatic vending machine (avm) employing transfer learning methodj.journal of physics:conference series,2020,1684:012114.5 redmon j,farhadi a.yolo9000:better,faster,strongerc/2017 ieee conference on computer vi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论