(计算机科学与技术专业论文)复杂背景图像中的文本定位算法研究.pdf_第1页
(计算机科学与技术专业论文)复杂背景图像中的文本定位算法研究.pdf_第2页
(计算机科学与技术专业论文)复杂背景图像中的文本定位算法研究.pdf_第3页
(计算机科学与技术专业论文)复杂背景图像中的文本定位算法研究.pdf_第4页
(计算机科学与技术专业论文)复杂背景图像中的文本定位算法研究.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(计算机科学与技术专业论文)复杂背景图像中的文本定位算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

r e s e a r c ho nt e x tl o c a t i o na g o r i t h mi nc o m p l e xb a c k g r o u n d i m a g e b y z h e n gb i ju a n b e ( p u t i a nu n i v e r s i t y ) 2 0 0 8 at h e s i ss u b m i t t e di np a r t i a ls a t i s f a c t i o no ft h e r e q u i r e m e n t sf o rt h ed e g r e eo f m a s t e ro fe n g i n e e r i n g c o m p u t e ra p p l i c a t i o n i nt h e g r a d u a t es c h o o l o f n i n g b o 肼2删82 609 胛啪丫 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研 究所取得的研究成果。除了文中特别加以标注引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。 本人完全意识到本声明的法律后果由本人承担。 作者签名:郑碧攻瓦 日期:御j 1 年,月订日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印 或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 l 、保密口,在年解密后适用本授权书。 2 、不保密团。 ( 请在以上相应方框内打“”) 作者签名: 导师签名: 日期:弦1 1 年f 月订日 日期: 2 0 ! 。年s 月1 多日 复杂背景图像中的文本定位算法研究 摘要 目前,从复杂背景图像中快速而准确的识别出文本区域仍旧是国内 外学者关注的热点问题。由于在很大程度上,系统的识别效果往往取决 于图像文本区域定位的准确性,故图像文本定位是图像文本识别中非常 关键的一步,文本定位的好坏将直接影响系统的识别结果。鉴于文本信 息定位的出发点不同,待解决的问题针对性各样,且目前的文本定位算 法还没有一个通用的标准数据库和评价准则,故要提出一个高检测率、 低漏检率和低误检率的文本定位算法仍需要学者进行大量的深入研究工 作。 本文结合现有的图像文本定位技术,提出了一种基于边缘和滤波的形 态学文本定位方法。利用边缘和滤波知识来提取初始文本块,对初始文 本块进行增长以得到候选文本区域,再采用垂直s o b e l 算子提取笔画边缘 并用边缘密度连接笔画边缘形成矩形区域,并引入垂直投影和水平投影 来对候选文本区域进行初步定位。最后,再根据形态学限制和连通域分 析准确定位出文本区域。实验结果表明,本文定位方法具有很高的精确 度和提取率,文本定位区域准确且定位速度快。 同时,针对图像中文本区域字符的角点信息较为丰富、分布密集且相 对有序的特点,本文又提出了基于自适应h a r r i s 角点检测的文本定位算 法,由于检测到的角点为像素点且文本区域中所含的角点多于非文本区, 故本文引入像素点在某一区域面积中的占有率这一重要特性来判断最后 得到的连通区域是否为文本区域。实验结果表明,该算法可以避免阈值 的选择,有效地克服了因阈值选择不当而造成的角点冗余或丢失,提高 了角点检测的精度,从而实现了文本区域的快速准确的定位。 关键词:文本定位;边缘密度;形态学;自适应h a r r i s 角点检测;连通区 域 n a b s t r a c t a tp r e s e n t ,am e t h o dh o wt oq u i c k l ya n da c c u r a t e l yr e c og n i z ec h a r a c t e r f r o mai m a g ew i t hc o m p l e xb a c k g r o u n di ss t i l lah o t s p o t st h a tm a n ys c h o l a r s f t o mh o m ea n da b r o a dc o n c e n d r et oal a r g ee x t e n t ,t h es y s t e mr e c o g n i t i o n p e r f o r m a n c e0 f t e nd e p e n d s o nt h ea c c u r a c yo f t h ei m a g et e x tr e g i o n l o c a t i o n s ot h et e x tl o c a t i o ni sac r i t i c a ls t e pf o rt e x ti d e n t i f i c a t i o n ,w h i c h d i r e c t l ya f f e c tt h ei d e n t i f i c a t i o nr e s u l t so fs y s t e m i nv i e wo fd i f f e r e n tt e x t l o c a t i o nt a r g e t sa n dd i f f e r e n to u t s t a n d i n gi s s u e s ,m o r e o v e r ,t h ee x i s t i n gt e x t l o c a t i o n a l g o r i t h m l a c ka g e n e r a l s t a n d a r dd a t a b a s ea n de v a l u a t i o n c r i t e r i o n ,s om a s s i v ei n t e n s i v es t u d ys h o u l db e e nd o n eb ys c h o l a r st og e ta t e x tl o c a t i o na l g o r i t h mw i t hah i g hd e t e c t i n gp r o b a b i l i t y ,l o wu n d e t e c t e d r a t ea n df a i s ed e t e c tr a t e 一 - c o m b i n e dw i t ht h ee x i s t i n gi m a g e t e x tl o c a t i o nt e c h n o l o g y ,a m o r p h o l o g i c a lt e x tl o c a t i o nm e t h o db a s e do ne d g ea n df i l t e r i n gi sp r e s e n t e d i nt h i sp a p e r u s et h ek n o w l e d g eo fe d g ea n df i l t e r i n gt oe x t r a c ti n i t i a lt e x t b l o c ka n de n l a r g et h ei n i t i a lt e x tb l o c kt og e tt h ec a n d i d a t et e x ta r e a ,t h e n u s et h ev e r t i c a ls o b e lo p e r a t o rt oe x t r a c ts t r o k ee d g ea n dt h ee d g ed e n s i t yi s c o n n e c t e dw i t hs t r o k ee d g et oe x t r a c tr e c t a n g l ee d g e ,i na d d i t i o n ,i n t r o d u c e t h ev e r t i c a la n dh o r i z o n t a l a r e a ,a tl a s t ,a c c o r d i n gt o p r o je c t i o nt oa c c u r a t e l yl o c a t e t h ei n i t i a lt e x t m o r p h o l o g i c a ll i m i ta n dc o n n e c t e d d o m a i nt o a c c u r a t e l yg e tt h et e x tr e g i o n e x p e r i m e n t a lr e s u l t ss h o wt h a tt h i sm e t h o d h a sh i g hp o s i t i o n i n ga c c u r a c ya n de x t r a c t i o nr a t e ,m o r e o v e r ,i t h a sa a c c u r a t et e x tl o c a t i o nr e g i o na n dr a p i dp o s i t i o n i n gs p e e d m e a n w h i l e ,i nv i e wo ft h ef e a t u r e st h a t c o r n e ri n f o r m a t i o no ft e x t r e g i o nc h a r a c t e r si sa b u n d a n c e ,d e n s ea n dr e l a t i v e l y i no r d e r ,t h i sp a p e r a l s op r o p o s e da n o t h e rt e x tl o c a t i o na l g o r i t h mb a s e d o na d a p t i v eh a r r i s c o r n e rd e t e c t i o n s i n c ed e t e c t e dc o r n e rm o s t l yi sp i x e l sa n dt h ec o r n e r s a p p e a r e d i nt e x tr e g i o ni sm o r e t h a nn o n t e x tr e g i o n , as i g n i f i c a n t c h a r a c t e r i s t i ct h a tt h eo c c u p a n c yh o wm a n yp i x e l si nac e r t a i nr e g i o na r e ai s b r o u g h ti n t h i sp a p e rt oj u d g ew h e t h e rt h eg o tc o n n e c t e dr e g i o n i st e x t r e g i o n e x p e r i m e n t a lr e s u l t ss h o wt h a tt h i sa l g o r i t h mc a na v o i dt h ec h o i c e o ft h r e s h o l d e f f e c t i v e l yo v e r c o m ec o r n e rr e d u n d a n c ea n dm i s s i n gc a u s e d h l 复杂背景图像中的文本定位算法研究 b yw r o n gt h r e s h o l dc h o s e ,a n di m p r o v ea c c u r a c yo fc o r n e rd e t e c t i o n ,t h u s a c h i e v et h eq u i c ka c c u r a t el o c a t i o no ff o l l o w u pt e x tr e g i o n k e yw o r d s :t e x tl o c a t i o n ;e d g ed e n s i t y ;m o r p h o l o g y ;a d a p t i v e h a r r i s c o r n e rd e t e c t i o n ;c o n n e c t e dr e g i o n 硕:上学位论文 目录 学位论文原创性声明和学位论文版权使用授权书i 摘要i i a b s t r a c t i i i 目录v 插图索引v i i 附表索引v i i i 第1 章绪论l 1 1 课题的研究背景与意义1 1 2 文本定位的研究现状1 1 3 存在的问题与难点3 1 4 本文的研究内容3 1 5 本文的组织结构4 第2 章文本定位算法综述5 2 1 引言5 2 2 图像文本的分类5 2 3 图像中文本的特征6 2 4 图像文本定位流程“8 2 4 1 文本特征选择8 2 4 2 文本特征提取8 2 4 3 连续区域获取9 2 4 4 候选文本区域提取9 2 4 5 文本区域验证10 2 5 图像文本定位算法的分类综述1o 2 5 1 基于连通域的方法1o 2 5 2 基于边缘的方法1 1 2 5 3 基于纹理的方法1 2 2 5 4 基于压缩域的方法1 4 2 5 5 基于学习的方法15 2 5 6 基于角点的方法1 6 2 6 小结l7 第3 章图像处理相关基础知识l8 v 复杂背景图像中的文本定位算法研究 3 1 算术均值滤波18 3 2 中值滤波1 8 3 3 形态学图像处理1 9 3 4 边缘检测法2 1 3 4 1c a n n y 算子基本原理2 2 3 4 2s o b e l 算子基本原理“2 2 3 5 投影法2 3 3 6 基于l a p l a e i a n 算子的图像增强2 3 3 7 角点检测2 5 3 8 小结2 5 第4 章一种基于边缘和滤波的形态学算法2 6 4 1 引言2 6 4 2 图像文本区域检测算法的框架2 6 4 3 初始文本块的选取2 7 4 4 文本块增长一_ o i 3 0 4 5 初步获取文本区域位置3 0 4 6 根据形态学限制和连通域分析准确定位3 2 4 7 实验结果及其讨论3 3 4 8 小结3 8 第5 章基于自适应h a r r i s 角点检测的文本定位算法39 5 1 引言3 9 5 2 基于角点检测的文本定位算法框架3 9 5 3 自适应h a r r i s 角点检测算法4 0 5 3 1h a r r i s 角点检测原理4 0 5 3 2h a r r i s 算法的优点与不足4 1 5 3 3 改进的自适应h a r r i s 角点检测算法描述4 2 5 4 角点合并和连通域分析4 4 5 5 实验结果及其讨论4 5 5 6 小结5 0 结论51 参考文献5 3 致谢5 7 附录a 攻读硕士学位期间所发表的学术论文目录5 8 附录b 攻读硕士学位期间所参与的项目5 9 v l 硕士学位论文 插图索引 图2 1 场景文本6 图2 2 人工文本6 图2 3 图像文本定位的一般步骤8 图3 1 算术均值滤波3 3 大小的卷积模板18 图3 2s o b e l 边缘检测算子2 2 图3 3l a p l a c i a n 边缘检测模板2 4 图4 1 图像文本区域检测算法的基本框架2 7 图4 2 原始图像2 8 图4 3 初始文本块选择的说明图2 9 图4 4 初始文本块2 9 图4 5 从不同方向得到的候选块3 0 图4 6 候选文本区域。3 0 图4 7 初步得到文本区域位置3 2 图4 8 文本定位结果3 3 图4 9 文献【l9 】方法与本文对比3 4 图4 1 0 文献【1 9 ,4 4 】方法与本文对比3 5 图4 1 1 目标与背景分布不平衡图像3 6 图4 1 2 背景复杂图像3 7 图4 13 场景文本图像3 7 图5 1 自适应h a r r i s 角点检测的文本定位算法的基本框架4 0 图5 2 中心为4 的l a p l i c i a n 模板4 2 图5 3 单一语种的图像角点检测结果4 3 图5 4 多语种的图像角点检测结果4 3 图5 5 背景复杂的图像角点检测结果4 4 图5 6 文本区域分散的图像角点检测结果4 4 图5 7 文本区域分散的图像文本定位4 6 图5 8 复杂背景图像中的文本定位4 6 图5 9 语种不一的文本定位4 7 图5 10 复杂背景图像中的场景文本定位4 8 图5 1 l 兼有水平与垂直排列的文本定位4 9 图5 12 倾斜排列的场景文本定位5 0 v 表2 1 表4 1 表4 2 表5 1 表5 2 附表索引 各种文本定位的文本特征及特征提取与分类技术9 本文方法与已有方法检测结果对比3 5 本文方法与已有方法的性能对比_ 3 5 基于自适应h a r r i s 角点检测的文本定位算法检测结果4 7 基于自适应h a r r i s 角点检测的文本定位算法的性能分析4 7 v i i i 硕士学位论文 第1 章绪论 1 1 课题的研究背景与意义 随着计算机、多媒体以及通讯技术的飞速发展,手机、数码摄像机的大量普 及,人们拍摄生活中的图像越来越容易,因此相当数量的文字信息正迅猛的以图 像的形式出现。提出一个基于图像内容的快速有效的方法来管理和检索这些多媒 体资源是个迫切的任务【l 】。由于图像中的文本是图像内容的一个重要来源,它携 带着大量的高级语义信息,这些信息是人类声音、活动、表情、场景等信息中难 以获得的,所以如果这些文本能自动地被检测、分割、识别出来,则对图像语义 的自动理解、索引和检索是非常有价值的。鉴于文本信息提取的出发点不同,待 解决的问题针对性各样,且目前的文本提取算法还没有一个通用的标准数据库和 评价准则,故要提出一个快速而准确的文本定位算法仍需要人们进行大量的深入 研究工作。 从复杂背景的图像中提取和识别字符一直是数字图像处理领域的热点问题, 虽然已有许多学者对图像文本识别做了深入研究,o c r 技术也经过了多年的发 展,达到了实用的要求,很多公司甚至推出了这方面的商业软件包。但照目前情 况来看,文本识别领域还没有公认的标准库,且识别效果远没有达到人们的期望: 肉眼一样的阅读速度和准确性【2 l 。这其中最重要的一个原因,就是文本定位的准 确性在很大程度上影响了整个识别系统的效果【2 】。所谓文本定位,就是要找到刚 好包围文本的矩形区域,或者找出图像中文本区域所在的位置,它是文本识别非 常关键的一步。因此本文研究的主要问题是如何从复杂的背景图像中快速而准确 地定位出文本区域。 1 2 文本定位的研究现状 随着多媒体技术的飞速发展以及对基于图像内容的多媒体检索的需求,图像 中的文本识别已成为研究的热点。由于文本是嵌入在复杂的背景图像中的,图像 中蕴含着丰富的文本信息,要想能够很好的识别出文本必须首先进行文本区域的 提取,而通常从图像中提取文本区域都需要先定位出包含文本的区域,但由于文 本在颜色、大小、字体、排列方式上变化多端,图像对比度低、文本背景复杂, 且许多应用场合还要求算法要具有一定的处理速度,这些都增加了从图像中准确 的提取文本的难度。因此,产生了复杂背景图像中文本定位的问题,国内外许多 学者已对此展开了大量的研究,成果颇丰,如: 复杂背景图像中的文本定位算法研究 a n i lk j a i n t 3 】提出了一种通用文本定位算法,适用于二值图像、网页、彩色 图像和视频。该算法首先对图像进行颜色约减( c o l o rr e d u c t i o n ) ;然后对图像进 行分解得到多个前景图像,同时对各个前景图像进行相同的操作:基于连通域分 析和文本定位模型的处理:最后将得到的处理结果进行融合以获取真正的文本区 域。该方法只提取字体较大且文本方向为水平的文本区域,且对质量不是很好的 图像其提取的结果不理想。 j u ny e 4 】提出了使用局部二值模式( l b p ) 的纹理特征分析方法来进行视频图 像中的文本定位。使用l b p 提取图像中文本区域的纹理特征主要是基于文本是 由笔划构成的,其类似于由l b p 操作产生的特征。该算法首先使用改进的l b p 算法提取出纹理特征,然后根据l b p 的值得到直方图,并根据直方图的值对图 像进行分块;最后使用多项式神经网络( p n n ) 对特征向量进行分类,再通过启发 式规则进行验证,并将相邻的候选文本块进行合并,以定位出准确的文本区域。 该算法检测效果良好,但较费时。到目前为止,仍未有任何一种特征纹理能够很 清晰地将文本与非文本分离开来。 图像文本中文字区域的最大特点就是具有强烈的空间频率变化,故不少文本 检测算法是基于边缘检测的,且基于边缘的检测算法能够获得较好的检测效果, 并且在时间复杂度上比纹理分析的方法要低,因此近年来基于边缘的检测算法获 取了广泛而深入的研究。张引 5 1 利用文本与背景有较大对比度且笔画边缘变化频 率高这样的空间频率特征,使用颜色边缘对图像进行文本检测。首先提出一种 c o l o r e d g e 算子用来提取图像边缘,此算子形成的二值边缘图像的文本区域轮廓 清晰完整,具有高精度的图像边缘定位和较强的噪声抑制能力;然后再采用形态 学膨胀方法形成候选文本区域图像,对候选区域使用轮廓跟踪和一些启发式规则 将虚假块从候选文本块中删除以得到真正的文本块。由于实际中背景的彩色分布 往往不均匀,文本区域与背景区域的对比度有时又很接近,这给图像分割增加了 一定的难度。欧文武【6 】首先使用s o b e l 边缘检测和边缘密度对图像进行前处理, 对所得到的图像进行形态学开、闭运算,并进行连通域分析与合并得到候选文本 区域;然后用g a b o r 输出的方差作g a b o r 的能量特征以提取出候选文本区域的特 征向量;最后采用b p 网络进行训练以得到文本区域。由于该方法中前处理算法 只采用了边缘信息,故对于那些边缘信息不突出的文本常常容易被遗漏。但由于 复杂背景图像中,图像的背景也可能含有非常多的边缘,如果仅仅利用边缘则很 难有效的区分文本区域和背景区域。 鉴于背景的复杂性和多样性,当前的求解算法普遍存在提取文本精确度不高 或者时间复杂度高等缺点。至今,尚未有任何一种算法能对所有的图像有效。现 有的研究中,国内外学者提出了大量的文本定位算法,这些算法要么提出并使用 多种多样的纹理特征,要么使用不同的文本区域属性,在下一章节中本文将对相 2 硕l 学位论文 关的文本定位算法进行分类综述。 1 3 存在的问题与难点 人眼有着非常强的识别能力和反应力,当人眼看到一幅图像,就能很快地定 位出文本区域并识别出这些文字。但对计算机而言,要完成这个过程相当困难, 因为计算机只能依靠诸如水平边缘、垂直边缘、纹理特性等可以量化的视觉特征, 而文字的特征远不止这些。图像文本定位的研究涉及到图像处理、模式识别等, 和其它的检测技术、计算机人机交互领域等都有着十分密切的联系。复杂背景图 像中的文本定位问题仍旧是一项极具挑战性的研究热点,主要有如下几个因素制 约着: 1 、图像上字符的大小变化范围很大,目前大部分文本定位算法都对字符大 小很敏感。如何找到大小不一的文本区域成了一个难点。 2 、在复杂背景图像中,图像的背景也可能含有非常多的边缘,如果仅仅利 用边缘很难有效的区分文本区域和背景区域。由于背景的复杂性和多样性,使得 任何一种算法都不能对所有的图像有效。 3 、在当前的求解算法中普遍存在着提取文本精确度不高或者提取时间过长 等缺点。 1 4 本文的研究内容 本文首先介绍了滤波和边缘检测原理,接着分析了文本区域字符的特点,然 后利用边缘和滤波知识来提取初始文本块,对初始文本块进行增长以得到候选文 本区域,再采用垂直s o b e l 算子提取笔画边缘并用边缘密度连接笔画边缘形成矩 形区域,并引入垂直投影和水平投影来对候选文本区域进行初步定位。最后,再 根据形态学限制和连通域分析准确定位出文本区域。实验结果表明,本文定位方 法具有很高的精确度和提取率,文本定位区域准确且定位速度快。最后将本文算 法与目前存在的几种文本定位算法进行了详细的对比分析。 针对图像中文本区域字符的角点分布密集且相对有序,又提出了基于自适应 h a r r i s 角点检测的文本定位算法,由于检测到的角点为像素级的,故对所检测到 的角点进行合并操作,即使用一个w h 的窗口对角点检测到的图像进行处理,以 得到候选文本区域,再进行连通域操作。又因为文本区域中所含的角点多于非文 本区,故本文又引入了像素点在某一区域面积中所占的比率这一重要特性来判断 最后得到的连通区域是否为文本区域。实验结果表明,该算法可以避免阈值的选 择,有效地克服了因阈值选择不当而造成的角点冗余或丢失,提高了角点检测的 精度,从而快速而准确的定位出文本区域。 复杂背景图像中的文本定位算法研究 1 5 本文的组织结构 本文具体章节的内容安排如下:, 第一章为绪论部分,详细的阐述了图像文本定位这一课题的研究背景和意 义,探讨了文本定位的研究现状,并列出了现今为止文本定位方法中存在的几个 问题与难点,最后介绍了本文主要的研究内容。 第二章对图像的文本进行分类,又细致的描述了图像中文本的重要特征,分 析了图像文本定位的五个组成步骤,并详尽的对现有的图像文本定位算法进行了 归纳总结。 第三章详细介绍了本文算法中所要用到的数字图像的基础知识,包括均值滤 波、中值滤波、形态学图像处理、边缘检测法、投影法、基于l a p l a c i a n 算子的图 像增强、角点检测等。本章的知识点,是本文提出的复杂背景图像中的文本定位 算法的重要基础。 第四章首先介绍了滤波和边缘检测的特点,接着分析了文本区域字符的特 点,然后利用边缘和滤波知识来提取初始文本块,对初始文本块进行增长以得到 候选文本区域,再采用垂直s o b e l 算子提取笔画边缘并用边缘密度连接笔画边缘 形成矩形区域,并引入垂直投影和水平投影来对候选文本区域进行初步定位。最 后,再根据形态学限制和连通域分析准确定位出文本区域。实验结果表明,本文 定位方法具有很高的精确度和提取率,文本定位区域准确且定位速度快。最后将 本章算法与目前存在的几种文本定位算法进行了详细的对比分析。 第五章针对图像中文本区域的角点分布密集且相对有序的特点,又提出了基 于自适应h a r r i s 角点检测的文本定位算法。本章首先介绍了角点特征及角点检测 方法,又探讨了基于角点检测的文本定位算法,然后提出了自适应的h a r r i s 角点 检测算法,最后将提取到的角点进行合并与连通域分析,准确且快速的定位出图 像中的文本区域。实验结果表明,该算法可以有效的避免阈值的选择,克服了因 阈值选择不当而造成的角点冗余或丢失,提高了角点检测的精度,从而得到准确 的文本定位结果。 最后,对全文进行了总结并指出了下一步工作方向。 4 硕士学位论文 2 1 引言 第2 章文本定位算法综述 从复杂背景的图像中提取出文本区域一直是数字图像处理领域的热点问题, 虽然国内外已有许许多多的学者对图像文本定位算法做了深入研究,但到目前为 止,文本定位要达到人类视觉一样的阅读速度和准确性,还是一个难点问题。因 此如何从背景复杂的图像中快速而准确地定位出文本区域是本文研究的课题。本 章先叙述了图像文本的分类,又细致的描述了图像中文本的重要特征,分析了图 像文本定位的五个组成步骤,最后对国内外学者提出的文本定位算法进行详细的 归纳描述。 2 2 图像文本的分类 一 按照图像中文字所在的层次不同i 、可将图像文本( i m a g et e x t ) 分为场景文 本( s c e n et e x t ) 和人工文本( g r a p h i c a r t i f i c i a lt e x t ) 。如图2 1 和图2 2 所示。 场景文本是指实际场景中所包含的文本,随同拍摄场景一起被拍摄到图像 中,它属于场景的一部分,它们或是对当前场景的地理位置、场景名称的注释和 说明,或是含有对当前的场景的提示和警示信息。比如路牌、告示牌、车牌等, 通常难以检测和抽取它,因为它能以无限种方向、大小、形状和颜色出现。 人工文本是指使用图像处理软件对通过手机、扫描仪、数码像机等工具捕获 到的图像进行编辑,在图像中添加一些相关的文字信息的结果。这些文字信息一 般与图像内容相关,用来解释或者补充说明当前图像内容的文本,最常见的就是 电影电视中的视频字幕。人工文本是拍摄后期添加的结果,是人为嵌入到图像中 的,而非拍摄场景中的一部分,它一般较为容易被检测到,因为它有简单的风格, 而且是为了便于观看者阅读而产生的。 相对于场景文本,人工文本与背景存在很大的对比度,其内容的指向性很明 显,故对表达图像的语义起着比较大的作用,且不需要复杂的计算就能够直接通 过文本获知图像的内容,因此人工文本是图像中的文字信息抽取的重点,也是本 复杂背景图像中的文本定位算法研究 ( a ) 图2 1 场景文本 ( a ) 2 3 图像中文本的特征 ( b ) 图2 2 人工文本 ( b ) 通常图像中的人工文本包含着非常丰富的、复杂的特征,而且这些特征对于 文本的定位起着关键的作用。归纳起来主要有以下几个重要特征: ( 1 ) 文字的布局特征 图像中的文字可能出现在图像的各个位置,比如上方、底端或者中间等。一 般来说,文字的布局对图像来说并不是很重要。文字大多分布集中,即一个文本 区域一般包含多个字符,且大多为水平或垂直排列,也会有少数文本是倾斜排列 的,比如场景文本,其不仅仅是水平或垂直排列,也可以与水平方向呈任意角度 排列,因此在字符识别前需要进行倾斜校正操作。 ( 2 ) 文字的尺寸特征 图像中字符的大小变化范围很大,如i c d a r 上提供的图像中字符高度从1 0 6 硕上学位论文 到l2 0 0 个像素不等,有的单一字符占整幅图像面积的1 2 以上,而有的不到 1 1 0 0 0 。字符一般要大于一定的尺寸,因为太小的字符比较难以识别故不进行定 位。对于图像中的文本字符,当字符的高度小于8 个像素或者宽度小于1 6 个字符 时,人眼就很难识别了。 ( 3 ) 文字的颜色和亮度特征 图像中添加的人工文本主要是为了便于人们阅读,所以一般情况下,文本与 背景之间会有一定的颜色差异,且处于同一个文本区域的字符都具有相似的颜色 和亮度,或者沿着某个方向渐变,除了一些特意的艺术字体。 ( 4 ) 文字的对比度特征 图像中文本的制作人通常会选择与当前图像背景存在较大反差的颜色来作 为人工文本的颜色,而对于诸如广告牌、汽车牌照、指路牌等场景文本,其文本 颜色与背景颜色同样具有较高的对比度。但对于从视频特定帧中获取的图像,文 本与背景的颜色的对比度偶尔会比较低,因为视频中的背景是在空间上不断切换 的,有可能会出现视频字幕的颜色与背景颜色相似的情况,当然这种情况一般持 续的时间会比较短,否则视频字幕就失去了存在的意义了。 ( 5 ) 文字的间隙特征 不论是人工文本亦或是场景文本,为了便于人类视觉的观看,文字与文字间 或多或少都存在着一定的间隙,即文字相互之间不会出现粘连现象,文字的宽度 和相邻文字间的间隙存在着一定的比例关系。但在背景非常复杂,或者是有噪声 影响时,文字间可能会出现粘连现象。 ( 6 ) 文字的纹理特征 不论文字被嵌入的图像内容如何,文字相对于背景的灰度对比度来说总是很 高的,而且文字一般由短小的笔画组成的,这便构成了一种有周期性的纹理,这 种文本图像与一般图像在纹理上的差异相对明显,因此根据纹理特征来提取图像 中的文本区域也是文本定位常见的方法。 ( 7 ) 文字的笔画边缘特征 大多数文本其笔画颜色和背景颜色之间有着较明显的差别,笔画边缘较清 晰,在空间上表现出很强的粘连性,且当许多字符排列在一起形成一个文本区域 时,一般以水平和垂直方式排列,笔画边缘比较规则,而且垂直笔画边缘有相近 的高度。因此文本区域的笔画边缘信息比非文本区域丰富,可通过检测笔画边缘 并用边缘密度来连接相邻的笔画边缘,以得到规则的矩形区域来提高文本定位的 性能。 ( 8 ) 文字的背景特征 图像背景内容复杂多样,通常包含有丰富的颜色信息,因此造成文字背景复 杂,这给文本检测和识别带来了很大的困难,容易给检测带来很高的误检率和漏 7 p 簟。 f , 。带 复杂背景图像中的文本定位算法研究 检率。 ( 9 ) 文字的角点特征 角点是图像的重要特性,是图像中亮度变化剧烈或图像边缘曲线上曲率极大 值的点,它决定了目标的轮廓特征。这些角点在保留图像特征的同时,可以有效 地减少信息数据量,从而提高了图像处理的速度和准确度。角点在整个图像中所 占比例小,却包含丰富的信息,使得实时处理成为可能。因此,被广泛应用于目 标识别、虚拟场景重建、运动估计、图像配准与匹配等f 7 1 。由于图像中的文本区 域蕴含着十分丰富的角点信息,因此可把角点特征作为定位文本区域的一个重要 依据。 2 4 图像文本定位流程 复杂背景图像中的文本定位算法一般由五个步骤组成:特征提取、特征分类、 特征聚集、候选文本区域提取和文本区域验证【引,如图2 3 所示。 选择区 特 侯 文 分文本 文征 选 本 与背景 本聚 文 甸目录 区 的特征 特 集 本 域 ( 支本 征形 区 验 特征选 提成 域 证 择) 取区 提 域 取 图2 3 图像文本定位的一般步骤 首先选择如2 3 节所介绍的文本特征来区分文本区域与背景区域;其次采用 某种算法对文本特征进行提取:接着将相邻特征点汇集起来以形成区域;然后使 用文本的某些特征去除那些不可能是文本的区域,以得到候选文本区域;最后采 用文本的特征对候选文本区域进行验证以得到真正的文本区域【3 】。 2 4 1 文本特征选择 文本具有大小、布局、颜色、亮度、语种、边缘、纹理、对比度、背景复杂 性等特征,应选择容易把文本与背景区分开来的特征,使得在特征空间内文本与 背景类间距离较大而类内距离较小。不同的文本定位方法选取的文本特征不同, 如表2 1 所示。 2 4 2 文本特征提取 不同的文本特征需要采用不同的图像处理技术来提取,各种文本定位方法采 3 硕士学位论文 用的文本特征提取与分类技术如表2 1 所示。 表2 1 各种文本定位的文本特征及特征提取与分类技术 2 4 3 连续区域获取 图像中的文本特征通常是分散的像素点、线段和小区域,需要将这些分散的 文本特征聚集起来以形成连续的区域。常用的方法有:投影法、形态学运算、连 通成分分析和排列分析。投影法分为水平投影法和垂直投影法,分别统计的是图 像水平与垂直方向的文本特征值,然后对投影曲线进行分析,以得到较准确的文 本区域;形态学膨胀运算利用边缘点或小区域之间的空隙来形成连通区域:连通 成分分析和排列分析将排列方向相同、大小相似的相邻连通成分合并起来以形成 连通区域。 2 4 4 候选文本区域提取 由文本特征所聚集形成的区域里存在着有一些明显不可能是文本的区域,这 需要依据一些启发式规则来滤除掉这些噪声区域。 9 复杂背景图像中的文本定位算法研究 2 4 5 文本区域验证 由于所得到的候选文本区域对文本区域的限制条件不严,因此该区域中还可 能存在着非文本区域,为了提高文本定位的精确性并降低文本的漏检率,则需要 对所提取到的候选文本区域进行进一步的验证。可采用更严格的限制条件,比如 对候选文本区域的长、宽、长宽比、面积大小、像素点占有率、饱和度等进行文 本区域验证。 2 5 图像文本定位算法的分类综述 采用如本章2 3 节所介绍的文本特征,可以将文本区域定位技术细分为六大 类:基于连通域的方法、基于边缘的方法、基于纹理的方法、基于压缩域的方法、 基于学习的方法、基于角点的方法,下面对这六大方法进行分节详细描述。 2 5 1 基于连通域的方法 假设每个文本的像素有着相似的颜色,把文本作为满足特定启发式规则的单 色区域来检测;根据文本具有相近或相同的颜色、文本与背景间存在较大的对比 度等特性,再采用图像分割、颜色聚类、连通域分析等方法来将字符从背景中分 割出来:然后再使用区域的尺寸或长宽比等类似的简单启发式规则,对分割的区 域进行进一步的筛选以得到字符。基于连通域的方法一般分为五步: ( 1 ) 预处理; ( 2 ) 连通区域的产生; ( 3 ) 滤除非文本区域; ( 4 ) 连通区域聚集形成文本区域; ( 5 ) 文本区域的验证。 p h a n 等【1 6 】提出基于骨架化的任意方向排列的文本定位方法。首先使用拉普 拉斯算子突出文本与背景的差异,计算图中每个像素的最大梯度值( m g d ) ,使用 k 均值将所有像素分为两类:文本区域和非文本区域。然后,对文本区域提取骨 架,再依据骨架化后图像中交点的总数来将各个区域分成简单的连通域( 单一的 文本区域) 和复杂的连通域( 多个文本行彼此连接) 。为了得到各个文本行,基 于骨架段将复杂连通域中的连通域分离。最后,使用文本行的笔直度和边缘密度 去滤除非文本区域。该方法可检测出多方向的图像文本,但误检率容易受骨架化 中交点个数的影响, l i e n h a r t 等【4 0 】假设文本区域的字符是单色的,且文本区域与背景的对比度 大。首先,由于字符颜色相似,故将其分割成相同灰度的连通区域,用分离和合 并( s p l i ta n dm e r g e ) 算法对图像

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论