下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于仿射变换锚点的文本检测网络的设计
文本检测是计算机视觉的重要组成部分,也是文字识别的必要过程。自然场景下的文字检测目前依然面临很大的挑战,主要是因为自然场景图像中的文字在亮度、模糊、形状、方向等方面有很高的随机性,导致文字检测的难度较大。近年来,研究者提出了很多的文字检测方法1模仿射击变换锚点1.1锚点形状的控制RPN可以进一步加速区域提议的生成过程,采用残差网络(ResidualNetwork,ResNet)RPN使用尺度和宽高比两个参数控制锚点的大小和形状,以便更好地适应不同尺寸的文字。尺度决定锚点的大小,宽高比决定锚点的形状比例。在文字检测中,尤其是自然场景下的图像,文本通常都以非常规形状表现,如果只使用RPN产生的水平锚点,对于场景文字检测来说鲁棒性较差。为了提高网络检测的鲁棒性和准确率,有必要建立一个适应文本形状的检测框架。1.2仿射变换区域议题提取本文所提网络的整体框架使用ResNet101的卷积层进行特征提取,增加仿射变换参数的RPN对最后一层卷积的特征图进行区域提议。图1为仿射变换区域提议网络结构。首先,从场景图像上的预测文本实例中生成适应方向和变换的提议,然后对提议进一步回归边界框来适应真实文本区域。由回归层和分类层输出的回归提议信息和分类分数计算回归和分类损失,最终汇总为多任务损失。兴趣区域(Region-of-Interest,RoI)池化层将带有仿射变换的提议映射到特征图上。最后,通过两个全连接层组成的分类网络将RoI特征区域分为前景文字区域和背景。1.3培训组处理训练时,图像上文本实例的位置形状坐标由标注真值框4个角的坐标(x1.4锚点生成和分类传统的水平锚点不能进行很好的文字检测,因此本文设计了具有仿射变换的旋转锚点,并且进行了相应的调整和改进。图2所示的是仿射变换锚点位置形状参数的固定值。其中有6个方向的参数,分别是:训练数据经过预处理步骤后,一个提议锚点中有6个参数(x,y,h,w,θ,trans_x)。对于特征图上的每个点,生成3×3×6×5共270个锚点。在每个滑动窗口经过的位置上分别生成6×270共1620个输出,分类层生成2×270共540个输出。根据仿射变换锚点网络在宽度为W、高度为H的特征图上滑动,总共生成H×W×270个锚点。训练数据所给的坐标真值数量较少,如果直接选择为训练结果,容易产生过拟合现象。由于RPN中锚点数量多、形状变化大,因此将锚点作为RPN的候选框进行正负样本分类时,网络会学习这些具有仿射变换属性的锚点。通过计算文本坐标真值框与仿射变换锚点的面积交并比(Intersection-over-U-nion,IoU)来判断检测效果的好坏。正样本定义为:最高的交并比或交并比大于0.7,锚点的方向角度与文本坐标真值的旋转角度小于π/121.5回归损失误差RPN在候选框生成完成后,还需要使用Faster-RCNN的全连接层对这些候选框进行准确检测。检测过程分为回归网络和分类网络两个部分,损失函数分为分类损失和回归损失:分类损失是指候选框在前景背景分类时的误差;回归损失是指候选框与标注真值框的几何参数的误差。对于仿射变换锚点,网络采用了多任务损失函数,定义为式中:p———softmax函数计算的类的概率,p=(pl———分类标签的指示符,l=1为文本,l=0为背景,对于背景不进行回归;v———文本标签预测出的参数组,v=(vL分类损失与回归损失之间由λ权衡。其中将分类损失定义为对于边界框回归,背景RoI被忽略。文字RoI采用了smoothL候选框形状参数元组v和v式中:x,xvθwwk———任意整数。仿身变换区域提议网络可以提供大量不同形状的锚点,针对任何仿射变换形状的文本实例都可以在合适范围内拟合形状。1.6锚点锚点形状设计由于引入了仿射变换形状的锚点,在计算IoU时相交面积不再是矩形,因此可能会造成IoU计算不准确,影响网络训练学习。针对新的锚点形状,设计了一种求解任意形状四边形相交面积的IoU算法。输入锚点和标注框的6个坐标形状参数(x,y,h,w,θ,trans_x)转化为4个角的点坐标,通过4个角的点坐标求出凸包形状,即仿射变换锚点和标注框的形状,通过这两个图形分别求出各自的面积和重叠面积,最终可以得到两个仿射变换形状的IoU。2仿射变换偏值检测本文在文字检测公共竞赛数据集ICDAR2015实验使用一块TITANX显卡,显存为12GB,CPU为IntelCorei5-2320@3.00GHz×4,内存为15.6GB。实验中,网络在前200000次迭代中的学习率为10训练时,锚点形状参数中的倾斜角度(θ)和仿射变换变换值(trans_x)由输入训练图片的标注坐标真值求出。在输入文本框水平时,当左上点坐标的x坐标值大于文本框最小外接矩形左上点x坐标值,则仿射变换偏移值取正;当右下点坐标的x坐标值小于文本框最小外接矩形右下点x坐标值,则仿射变换偏移值也取正,如图3所示。图3中,X是指某一段的偏移量。训练时生成的仿射变换变换值(trans_x)就由左上点坐标的偏移值与右下点坐标的偏移值取平均值得到。使用ICDAR2015的训练数据集进行训练,该数据集包含1000张图像和10886个文本实例。检测的结果如下:召回率为0.62;准确率为0.81;F与同类方法在标准数据集上进行了对比,结果如表1所示。由表1可以看出,由于本文方法带有仿射变换属性,可以更好地检测到真实场景图片中的文字目标区域,检测出的文字框形状与文字真实形状更加贴合。图4为检测过程模拟及检测结果。由图4可知,相比水平检测方法和带角度的矩形检测方法,具有仿射变换形状的检测方法对于图片上的文字区域能够更好地框选出来,不会像普通检测算法一样框选出很多不需要的背景区域,从而提高了检测精准度。另外,检测出来的文字框具有仿射变换参数,可以轻松地将文字区域反求转换成矩形正面字体,方便后续识别等操作。3仿射变换锚点文本检测网络的实验验证针对现实场景图片中的文字大部分具有仿射变换和多方向的形状,以及传统水平锚点检测无法很好检测场景图片中文字的问题,本文设计了一个带有仿射变换锚点的文本检测网络。利用网络中较高卷积层的文本位置信息,结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 网球拍球童拍行业销售工作总结
- 金属矿产行业技术工作总结
- 《澳门国际机场》课件
- 药店卫生消毒标准
- 采矿行业人事工作总结
- 翻译行业服务员工作总结
- 《列车环境与卫生》课件
- 2023年河北省唐山市公开招聘警务辅助人员辅警笔试自考题2卷含答案
- 2021年山东省东营市公开招聘警务辅助人员辅警笔试自考题2卷含答案
- 2024年湖北省武汉市公开招聘警务辅助人员辅警笔试自考题2卷含答案
- 停车场管理系统说明书
- 医院药剂科年终总结
- (2024年)AED(自动体外除颤器)使用指南
- 麻醉药品精神药品管理
- 抽错血标本护理不良事件
- 科技成果转化培训资料
- 社会稳定风险评估 投标方案(技术标)
- 生产线能耗分析报告模板
- 上海市松江区2023-2024学年高一上学期期末质量监控数学试卷 (解析版)
- 校外安全教育课件
- GB/T 43474-2023江河生态安全评估技术指南
评论
0/150
提交评论