![基于最大稳定极值区域的自然场景文本检测_第1页](http://file4.renrendoc.com/view/c3baa4645c7506a5f280a43be886d7b8/c3baa4645c7506a5f280a43be886d7b81.gif)
![基于最大稳定极值区域的自然场景文本检测_第2页](http://file4.renrendoc.com/view/c3baa4645c7506a5f280a43be886d7b8/c3baa4645c7506a5f280a43be886d7b82.gif)
![基于最大稳定极值区域的自然场景文本检测_第3页](http://file4.renrendoc.com/view/c3baa4645c7506a5f280a43be886d7b8/c3baa4645c7506a5f280a43be886d7b83.gif)
![基于最大稳定极值区域的自然场景文本检测_第4页](http://file4.renrendoc.com/view/c3baa4645c7506a5f280a43be886d7b8/c3baa4645c7506a5f280a43be886d7b84.gif)
![基于最大稳定极值区域的自然场景文本检测_第5页](http://file4.renrendoc.com/view/c3baa4645c7506a5f280a43be886d7b8/c3baa4645c7506a5f280a43be886d7b85.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于最大稳定极值区域的自然场景文本检测摘要:近些年来,科技发展迅速,相机、手机等拍摄设备应用变得十分广泛。人们可以从相片中获取很多信息,相片中的文本信息包含很大的商业价值及应用价值,比如马路上的红绿灯会拍摄到很多违反交通规则的车辆,可以利用文本检测技术识别出车辆的车牌号,从而避免了耗费人力去观察这些车辆,所以,近年来国内外文本检测技术越来越多。本文提出用最大稳定极值区域的方法对自然场景中文字部分进行检测,以便于后续工作的开展,实验证明,该方法有效可行。关键词:自然场景,MSER,文本检测ABSTRACT:Inrecentyears,scienceandtechnologyhavedevelopedrapidly,andcameras,mobilephonesandothershootingequipmenthavebecomewidelyused.Peoplecangetalotofinformationfromphotos.Textinformationinphotoscontainsgreatcommercialvalueandapplicationvalue.Forexample,trafficlightsontheroadcancapturemanyvehiclesthatviolatetrafficrules.Textdetectiontechnologycanbeusedtoidentifythelicenseplatenumberofvehicles,thusavoidingwastingmanpowertoobservethesevehicles.Therefore,textdetectiontechnologyhasbecomemoreandmorepopularathomeandabroadinrecentyears.Inthispaper,themethodofmaximumstableextremumregionisproposedtodetectthetextpartofnaturalscene,soastofacilitatethefollow-upwork.Theexperimentprovesthatthemethodiseffectiveandfeasible.Keywords:naturalscene,MSER,textdetection目录TOC\o"1-3"\h\u17530第一章绪论 4188451.1自然场景文本检测的意义 447481.2国内外研究现状 4171291.3常用文本检测方法 550611.4MSER的优点 5125561.5本文章节安排 518581第二章最大稳定极值区域理论 659012.1最大稳定极值区域 67332.2最大稳定极值区域定义及性质 613942第三章最大稳定极值区域的文本检测 71273.1检测流程图 7213903.2MSER检测过程详述 9215143.3检测结果 1119721第四章检测结果分析 129984.1结果分析 1215904.2存在问题 169536第五章总结与展望 1717952参考文献 18绪论1.1自然场景文本检测的意义在如今的时代,科技飞速发展,有各式各样的电子通讯设备供人们使用,手机、电脑、平板等,微信、微博等众多的自媒体正在深入到我们的生活中,人们可以任意利用这些自媒体来记录生活中的点滴,保存身边的有用信息,因此产生了大量数据要去处理。而人工处理的工作强度很大,自然场景的文本检测将有用的信息提取了出来,对于人们而言有很大的商业价值。自然场景中的文本信息包含着丰富的逻辑性的言语信息。1.2国内外研究现状对于自然场景中的文本检测,国内外都对此进行了非常广泛的研究。Hasan[1]和Park[2]采用了形态学处理方法。Ephtein[3]已开发出一种基于内容的图像分离方法,即笔宽转换。它提取宽度稳定的字符。颜色规范也被认为是字符提取的标准。移动视觉搜索越来越吸引人们关注高性能和低成本电话的可用性。近年来,已经为诸如产品识别和地标识别的应用开发了视觉搜索系统。在这些系统中,图像的局部特征是从相机上捕获的图像中提取的,并且与大型数据库一致:使用视觉单字索引。尽管事实上视觉搜索的现代技术已经达到一定的成熟度,但它们很大程度上忽略了经常在图像中观察到的信息特征类型:文本。实际上,文本特别有趣,因为它出现在图像上。考虑到大量基于文本的搜索引擎,使用上载的图像提供了有效的附加视觉搜索引擎。在自然场景中对文本的研究始于我国,但研究速度较快。胡小平,周勇,叶庆泰[4]提出一种将纹理和连接区域结合起来的文本分离方法,该方法包括简单的边缘特征,为了避免复杂的运算,将文本区域进行了分离。最后,用两种颜色多边形的算法,利用通信字段的特征生成绑定字段以检查文本段,以提高文本段的准确性和区域框的准确性。郑庆庆、桑农[5]等人提出了一种分离文本图像的方法,主要原理是区域合并,从图像中提取文本特征。1.3常用文本检测方法常用的文本检测方法有以下几种:一、基于纹理:一般的纹理特征有:局部强度、文本较强边界、离散余弦变换。二、基于成分:先通过某些方法提取候选成分,再通过滤波或某种算法去掉非文字部分。MSER;SFT(basedonSWT):解决SWT边界点错误匹配问题,用颜色连贯性和局部边缘点的约束关系得到更好的检测结果;MSCRs(maximallystablecolorregions)等方法。三、目标检测常用网络结构:MSER+CNN、PVANe、FasterRCNN、SSD。1.4MSER的优点通常自然场景里的文本与拍摄背景的对比很强烈,且整体字体内部颜色基本不变。例如车牌,背景是蓝色,而字体为白色。MSER是一种仿射特征区提取算法,这种算法主要针对文本和背景对比强烈的图像。自然场景下拍摄的图片由于拍摄位置不同、拍摄角度不同导致同一场景下的文字识别可能有所不同。而MSER具有以下特点:仿射不变性、稳定性、多尺度检测。所以MSER用于提取自然场景中的文本是十分契合的。1.5本文章节安排本文对最大稳定极值区域检测自然场景下的文本做了简单介绍并设计了算法,具体安排如下:第一章绪论。阐述了自然场景文本检测的意义,简述了国内外的研究现状,并简单介绍了几种文本检测的方法。第二章最大稳定极值区域理论。具体阐述了MSER的定义、实现原理,并介绍了其性质。第三章最大稳定极值区域的文本检测。首先简单介绍了本文检测文本区域的流程图,然后具体分析了本文所使用的算法,最后介绍了检测的过程并展示了检测结果。第四章检测结果分析。分析了检测的结果,并用不同视角的检测结果进行了对比,然后分析了本文使用算法所存在的一些问题。第五章总结与展望。最大稳定极值区域理论2.1最大稳定极值区域最大稳定极值区域(MaximallyStableExtremalRegions)[6][7]是由Matas等人[8]在2002年提出,这个方法可以用来在图像中进行斑点检测,可以寻找不同视角图像的对应关系。这种方法有助于宽基线匹配、物体识别算法,从图像中提取全面的元素对应关系。2.2最大稳定极值区域定义及性质MSER数学定义[9]:假设图像I为灰度到区域S的映射,,其中S为满序列,即0→255。像素间邻接关系,使用4邻域,,则p,q相邻,记为pAq。区域:是的连通子集,即对于q,pQ,都有为连通路径,其中。区域边界:。与至少有一个相邻但并不属于。极值区域:对于所有的,满足,称为极大值区域,对于,称为极小值区域最大稳定极值区域MSER:设是一组相互嵌套的极值区域,则满足在处取得局部最小值,表示第i个连通区域的面积[10],阈值的变化量用Δ指出,当小于给定阈值时认为该区域为MSER。MSER处理图像的大致原理是将彩色图像先转化为灰度图像,然后用阈值0-255依次遍历所有区域,其灰度值小于阈值的区域显示为黑色,其余显示为白色。遍历过程中会出现黑点,然后逐渐扩大为一个连通区域。在遍历过程中,连续变化数个阈值而连通区域不变,或者变化不大,肉眼几乎看不出来,这些区域就是MSER。在整个过程中,刚开始出现的会是一幅全白的图像,然后出现黑点,出现一片连通的区域,最后变为全黑。这有些类似于分水岭算法[11]。就像从天空俯瞰大地,地球会分为陆地和海洋两种区域,如果将海洋里的水全部抽干,就会全是陆地,就像MSER处理图像刚开始阈值为0的时候,然后逐渐向这些陆地添加水,会慢慢出现湖泊,这就如同处理过程中出现的黑点,剩余陆地就像白色区域,其中黑白相接的位置就是分水岭,即图像的边缘。随着水位升高,海洋会出现,即在阈值变大过程中会出现我们所需要的连通区域。最后如果海平面没过了最后一片陆地,地球上充满了水,没有一块陆地,就像阈值增大到255,图像变为全黑。在这个过程中,某一时间水平面的升高是不会导致陆地面积变小的或者变小的面积微乎其微,这个阈值下出现的连通区域就是MSER。但是MSER与分水岭算法还是有所区别的,分水岭算法是在一个稳定阈值下对图像进行分割,且分割图像的边缘并不是很稳定,阈值过小时图像边缘不明显,阈值过大则可能会消去微弱的边缘。但MSER可以在多个稳定阈值下选定相互嵌套的连通区域,不存在边缘微弱,不稳定的问题。MSER具有以下性质[12]:1.仿射不变性:图像在进行仿射变换的时候,不同视角下的MSER不会变化。这也是MSER用来进行自然场景文本检测的最大优势。2.稳定性:MSER在进行阈值变换时候,在某一阈值范围内变化,所提取的区域是不变或者变化微乎其微,几乎可以忽略的,因此该极值区域是稳定的。3.多尺度检测:处理图象时,图像尺度变化,不需要进行任何平滑处理而可以得到相同的MSER。基于以上三点可以看出,MSER用来检测自然场景中的文本有许多优点。首先,生活中记录同一时刻,同一地点的不同视角的图像,由于MSER的放射不变性得到了很好的解决;其次,根据其稳定性,不用担心检测不清楚的问题;最后由于拍摄设备的不同,图像的尺寸,即同一幅图像中的像素点会有所不同,由于MSER的多尺度检测性质,这个问题也相应得到了解决。最大稳定极值区域的文本检测3.1检测流程图本文使用的是Windows操作系统的MATLAB实验平台,版本号为2019a。首先更新图片库,因为要进行带有文字的自然场景图片的处理,而MATLAB自带的图片库里几乎没有符合要求的,所以需要我们自己将要处理的图片放入图片库。MATLAB图片库位置为:C:\ProgramFiles\matlab\R2019a\toolbox\images\imdata。首先将图片拖入该位置,但这样系统还是识别不到,然后要在MATLAB命令窗口输入rehashtoolboxcache来刷新图片库,接下来就可以正常进行实验了。实验大致流程如下:输入图像输入图像图像预处理图像预处理MSER提取MSER提取粗滤除粗滤除细滤除细滤除文本检测区域文本检测区域图3.SEQ图3.\*ARABIC1MSER文本检测流程图首先是输入一幅图像,先进行灰度化预处理,然后提取MSER区域。经过灰度化以后,结果或许会产生细微的变化,但是灰度变化并不能使极值区域的位置产生改变,所以可以接受。然后将灰度图像转化为二值图像,再做MSER区域提取,就会得到以下结果(这里图片直接用了MATLAB工具箱中自带的),可以看到提取后的图像中有绿色的方框,而且这些方框有的相互独立,有的会纠缠在一起,但是所有的文字都被框了起来。(a)(b)(c)(d)图3.2MSER检测前后图像。(a).(c)为原图像,(b)(d)为检测后图像首先对MSER检测后的图像进行连通域分析,粗滤除明显的非文本区域,然后对滤除后的图像闭运算[13],再对图像进行细滤除,得到最后结果。3.2MSER检测过程详述首先读入输入图像,利用imread或者uigetfile创建对话框来打开文件都可以,但是由于要分析的图像为彩色图像,而最大极值稳定区域要求输入图象是灰度图像,这里可以利用rgb2gray函数,输入彩色图像,输出灰度图像,具体效果如下:图3.3为原图像与转化为灰度图像后的对比这时候就可以进行MSER的提取了。提取出MSER后将该区域内像素值分块排列,这里利用cell2mat函数,然后将这些宽度一致的分块后的矩阵依次排列起来,利用vertcat函数,就会得到一个排列在一起的大的矩阵,这个矩阵包含了MSER的所有像素点的信息,接下来要做的就是对这个矩阵进行处理,滤除掉非文本区域,将文本区域留下来。先将这些像素点标记出来,然后将相应系数的地方赋值为真,其余地方赋值为假,将MSER区域取出来,这里利用了size函数。接下来就是对这些区域进行筛选了,这里我们定义了一个新的函数conComp_analysis,这个函数用来过滤那些明显的非文本区域。在粗滤除函数中首先用size返回图像的长宽信息[x,y],然后计算整幅图像的面积,即像素点的多少,用来在以后的算法中计算连通区域的占比。接下来用bwconncomp寻找并定位连通区域,再用regionprops函数提取出这些区域的相关信息,这里我们只需要面积,包围连通区域的最小矩形以及质心坐标,其中最小矩形会以一个一行四列的矩阵形式给出(四个量分别是矩形左上角的横坐标、纵坐标、矩形宽度、长度),方便以后的计算。得到所需的全部信息后,就要排除明显的非文本区域,利用for循环依次将各个像素点过一遍,将面积小于50、面积大于整幅图像百分之30、长宽之比小于0.1或大于2的全部排除,即将相关区域的索引下标赋值为0,最后利用rectangle函数将剩余区域框起来,返回一个二值图像。在这里area是包含像素的区域的面积,由于在自然场景里,文本一般与背景对比起来面积是很小的,所以选择将大于整个图像面积百分之30的连通区域去掉,赋值为0;而有的连通区域面积过小,在这里我们认为它是噪声,也一起赋值为0。还有宽度与高度的比值小于0.1的我们也认为是噪声,而宽度与高度的比值大于2的则不认为是文本,将他们一起滤除。这样就基本滤除了非文本区域。粗滤除之后不能得到理想的区域,所以又定义了一个细滤除函数f_conComp_analysis。这个函数与粗滤除函数类似,只是处理对象变成了粗滤除之后的连通区域,并且在滤除区域的参数上有一些细小的调整,在这个函数里我们保留了原本图像的色彩,灰度的文本词图像。3.3检测结果检测过程中我们发现由于目前手机拍摄设备的发展,拍摄出来的图片比预想中的大太多,拍摄一张的大小是40323024,占空间2.3MB,像素点太多也导致计算机处理起来十分缓慢,所以将图片压缩了10倍,变成了403302,这样处理起来也会方便许多。(a)(b)图3.4粗滤除图像(a)为原图,(b)为粗滤除图像可以看出,图3.4框出了MSER,其中就包含了文本区域与非文本区域。在图3.4中可以看出已经滤除掉了明显的非文本区域(左上角空白处)。图3.5为细滤除之后的图像可以看出,经过细滤除之后图3.5所框出的MSER只剩下了文本区域,而且图像原本的色彩也显示了出来,不再是粗滤除之后的二值图像。检测结果分析4.1结果分析由图3.4和图3.5这三张实验过程及结果图可以看出确实检测到了我们所需要的文字区域(由于缩小的图片的尺寸导致绿色线条看起来不明显)。但这只是其中一个角度的结果,如果换个角度是否能再次正确检测到相同的区域,于是我们从另一个角度再检测了一次,结果如下:(a)(b)(c)图4.1另一角度MSER检测处理图(a)原图像,(b)粗滤除后的图像,(c)细滤除后的图像可以看出,换个角度依然可以检测到相同的文本区域,这也是MSER的优点:多角度检测。为了验证算法的实用性,本文还检测了以下几幅标牌图像:(a)(b)(c)图4.2外文标牌检测结果图(a)原图像,(b)粗滤除后的图像,(c)细滤除后的图像(a)(b)(c)图4.3中文标牌检测结果图(a)原图像,(b)粗滤除后的图像,(c)细滤除后的图像可以看出,对于一些自然场景的中、外文标牌所包含的文本信息都可以检测出来。4.2存在问题图4.4细滤除后三处存在疑似文本的地方这里可以看到还有三处疑似文本的地方并没有被检测出来,原因可能有以下几点:这里的图片是10倍压缩以后的,导致图片质量下降。我们将图片放大后可以看见。由于图片压缩导致这几处像素点变得很少,以致于图片模糊,甚至字迹已经看不清楚了,所以被算法当作噪声率除掉了。在第三幅图中,由于文本与地面(即背景)颜色一样,导致处理时连通域与背景在一起,构成了一个不规则的连通域,在粗滤除时被当作噪声处理掉了。本文算法在滤除阶段是采用连通域的宽度与高度之比、连通域大小来进行滤除的,导致一些不规则字体检测不出来,还有在像素点比较多的图像中,一些字体较大的文字可能会被当作背景而滤除。在一些文本与背景对比度很小的自然场景里,可能造成连通域划分时文本与背景连在一起而导致文本检测失败。总结与展望本文在Windows操作系统的MATLAB平台进行,完成了最大稳定极值区域的自然场景文本检测,可以对同一位置不同角度的图像进行文本检测。首先是提取MSER这些区域里有我们所需要的文本区域,也有背景和噪声,接下来是将这些不需要的背景和噪声滤除,这里本文采用的主要是像素点的多少与连通域宽度与高度之比,然后保留了图像原本的色彩。刚开始进行实验时在滤除阶段总是不太理想,通过不断修改参数使得效果理想。相较于传统的文本检测技术,MSER算法检测出来的区域一定是完整的文字,因为MSER是用文字内部的灰度来进行提取的,只要是同一幅图像中的文字,就一定会在粗滤除之前被检测出来。最大稳定极值区域也有缺点,比如检测出来的连通域,由于和文本非常接近而无法滤除;在遇到一些不规则字体时在粗滤除阶段就会被滤除。文本检测技术在当今世界发展潮流里必不可少,可以为人们节省很多时间。基于MSER区域检测方法在近年来已经成为文字检测的主流方式,但本文在这方面还有一些不足,在以后的学习研究中将会逐步解决这些问题。
参考文献Y.M.YHasanandL.J.Karam."MorphologicalTextExtractionfromImages''InIEEETransactiononImageProcessing,Vol,9,No.11,November2000.C.J.Park,K.A.Moon,andW,G.Oh,andH.M.Choi."AnEfficientExtractionofCharacterStringPositionsUsingMorphologicalOperator''InIEEEInternationalConferenceonSystems,Man,andCybernetics,2000.B.Epshtein,E.Ofek,andY.Wexkr,'TJetcctingTextinNatureSceneswithStrokeWidthTransfbrm/'InProc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年第8课中国古代的法治与教化-勤径学升高中历史选择性必修1同步练测(统编版2019)
- 高利贷借款合同在2025年的法律地位分析
- 2025年居民共同租赁居住环境协议
- 2025年甲氨蝶呤项目提案报告模板
- 2025年数字电视有条件接收设备项目申请报告模式
- 2025年全屋定制用品合同样本
- 2025年专利共有权策划协议样本
- 2025年中学生实验操作安全协议
- 2025年碳酸丙烯酯项目提案报告模板
- 2025年会议中心使用协议
- 外科手术及护理常规
- 北师大版五年级数学下册教材分析解读课件完整版
- 学校开学教师安全培训
- 出口潜力分析报告
- 晋升的述职报告
- 档案盒(文件盒)标签模板(正面、侧面)
- 消防工程施工进度计划横道图+进度网络图
- 微信视频号运营技巧攻略详解全套
- 2023CSCO非小细胞肺癌诊疗指南解读
- 人教版九年级英语全册期末复习完成句子专项练习
- 干部选拔任用程序
评论
0/150
提交评论