(计算机应用技术专业论文)基于笔画内容的视频检索方法研究.pdf_第1页
(计算机应用技术专业论文)基于笔画内容的视频检索方法研究.pdf_第2页
(计算机应用技术专业论文)基于笔画内容的视频检索方法研究.pdf_第3页
(计算机应用技术专业论文)基于笔画内容的视频检索方法研究.pdf_第4页
(计算机应用技术专业论文)基于笔画内容的视频检索方法研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

p 冀 _rr, 0, 。、敢,k, ,o, :“ |t* 、,-囊。一 0 :、-毫f ,h, ,:,哆譬 。 学位论文版权使用授权书 f删|fff|fii f y18 , , , | 9 lj l | l | 5 l | l l a l 3 j l j i i 8 i l l | 1 5 i i f l i | 。 江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊( 光盘版) 电子杂志社有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、 缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致, 允许论文被查阅和借阅,同时授权中国科学技术信息研究所将本论文编入中国 学位论文全文数据库并向社会提供查询,授权中国学术期刊( 光盘版) 电子杂 志社将本论文编入中国优秀博硕士学位论文全文数据库并向社会提供查询。 论文的公布( 包括刊登) 授权江苏大学研究生处办理。 本学位论文属于不保密。 学位论文作者签名:王娟 矽1 年6 月f 日 指导教师签名: 勿刀年易月夕日 分类号皿到! 生 u d c q 垒生! 金 江蒜大擎 硕士学位论文 密级店丑 编号一哪d 8 t i 8 田6 基于笔画内容的视频检索方法研究 r e s e a r c ho nv i d e or e t r i e v a lt e c h n o l o g yb a s e do ns t r o k e c o n t e n t s 指导教师 作者姓名 张建明教授 王娟 申请学位级别硕士学科( 专业) 计算机应用技术 论文提交日期 2 0 11 年5 月 论文答辩日期2 0 11 年6 月 学位授予单位和日期江苏大学年 月 答辩委员会主席 筐苤翌 评阅人 2 0 1 1 年5 月 i 钆 江苏大学硕士学位论文 摘要 随着互联网技术的迅猛发展,数码产品的普及以及存储器容量的提升,视频 数据量呈现出指数级增长,如何对海量视频数据进行有效的检索已经成为一个亟 待解决的问题,于是基于内容的视频检索就成为了当前多媒体领域的研究热点。 本文在综合分析已有基于内容的视频检索方法的基础上,提出基于条件笔画 密度提取的文本定位方法,基于蚁群与k - 均值聚类相结合的文本分割方法和一 种基于多模板字符匹配与b p 神经网络相结合的字符识别方法,并设计实现相应 的原型系统。具体内容如下: ( 1 ) 把条件密度引入到笔画提取中,提出基于条件笔画密度提取的文本定位 方法。该方法首先根据文本笔画的特征对视频图像中的文本进行初步定位,然后 用基于条件密度的方法滤除一部分非文本区域,最后再利用动态形态学对提取的 文本区域精确定位和进行优化得到最终的文本区域。该方法能滤除大部分非文本 信息,得到相对精确的文本区域,并且定位效果较好。 ( 2 ) 针对当前视频中文本区域分辨率较低且受光照影响较大的问题,为了在 提高文本图像精度的同时减少光照对文本图像的影响,提出一种基于蚁群与k - 均值聚类相结合的文本分割方法。该方法充分发挥蚁群算法的全局优化特征和 k - 均值算法的局部寻优能力,克服k - 均值聚类算法易受孤立点影响的缺点,利 用两种方法可以优缺互补的特性,对视频图像进行文本分割,取得了较好的分割 效果。 ( 3 ) 提出一种基于多模板字符匹配与b p 神经网络相结合的字符识别方法, 先建立字符模板库,不仅考虑字号大小,而且还结合了不同字体混排的现象,来 扩充模板库;然后通过b p 神经网络对由字符分割得到的字符进行训练识别并输 出,最后采用字符区域分割匹配的方法与字符模板库进行匹配,得到识别结果。 该方法充分利用了两种方法的优势,使实验结果较好。 ( 4 ) 采用面向对象的思想设计并开发基于笔画内容的视频检索原型系统。该 系统包括文本检测、文本定位、文本分割、字符识别等功能模块。并通过实验对 比验证上述方法的有效性。 关键词:文本检测,文本定位,动态形态学,蚁群算法,文本分割,字符识别 江苏大学硕士学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e tt e c h n o l o g y ,t h ep o p u l a r i t yo fd i g i t a l p r o d u c t s a n dt h ee n h a n c e m e n to fm e m o r yc a p a c i t y ,m u l t i m e d i ad a t ah a v eb e e n i n c r e a s i n ge x p o n e n t i a l l y t h e nh o wt or e t r i e v et h em u l t i m e d i ad a t ae f f e c t i v e l yh a s b e c o m ea nu r g e n tp r o b l e m c o n s e q u e n t l y ,c o n t e n t - b a s e dv i d e or e t r i e v a lh a sa l s o b e c o m eah o tr e s e a r c hf i e l do fm u l t i m e d i a i nt h i sw o r k , w ef i r s t l yd i s c u s st h eb a c k g r o u n do fo u rr e s e a r c ha n dt h e na n a l y z e t h em a i ne x i s t i n gc o n t e n t - b a s e dv i d e or e t r i e v a l a l g o r i t h m s ,w ep r o p o s eat e x t l o c a l i z a t i o n a l g o r i t h m b a s e do nc o n d i t i o n a ls t r o k e d e n s i t ye x t r a c t i o n , a t e x t s e g m e n t a t i o na l g o r i t h mb a s e do ns w a r mi n t e l l i g e n c ea n dk - m e a nc l u s t e r i n ga l g o r i t h m a n dam e t h o do fc h a r a c t e rr e c o g n i t i o nb a s e do nm u l t i t e m p l a t ec h a r a c t e rm a t c h i n g a n db pn e u r a ln e t w o r ki sp r o p o s e d a n dt h e nw ed e s i g nt h ep r o t o t y p es y s t e m ,t h e d e t a i l sa r ea sf o l l o w s : ( 1 ) b yi n t r o d u c i n gt h ec o n d i t i o n a ld e n s i t y i n t ot h es t r o k ee x t r a c t i o n ,w ep r o p o s ea t e x tl o c a l i z a t i o na l g o r i t h mb a s e do nc o n d i t i o n a ls t r o k ed e n s i t ye x t r a c t i o n a c c o r d i n g t ot h ef e a t u r e so ft e x ts t r o k e ,w ef i r s t l yo b t a i nt h ev i d e oi m a g e so ft h et e x t si n i t i a l p o s i t i o n ;t h e nf i l t e ro u tt h ep a r t o ft h en o n t e x ta r e a b yt h em e t h o db a s e do n c o n d i t i o n a ld e n s i t y ;f i n a l l y ,t h ee x t r a c t e dt e x ta r e ai sp r e c i s e l yp o s i t i o n e db yt h e m e t h o do fd y n a m i cm o r p h o l o g y ,a n dt h e nw ec a no b t a i nt h ef i n a lt e x ta r e a e x p e r i m e n t a lr e s u l t s s h o wt h a tt h i sm e t h o dc a nf i l t e ro u tm o s to ft h en o n t e x t i n f o r m a t i o n ,g e tr e l a t i v e l ya c c u r a t et e x ta r e a ,a n dt h ep o s i t i o n i n gi sb e t t e r ( 2 ) b e c a u s et h et e x ta r e a s r e s o l u t i o no fc u r r e n tv i d e oi sv e r yl o wa n di se a s i l y a f f e c t e db yt h el i g h t ,w ep r e s e n tat e x ts e g m e n t a t i o nm e t h o dw h i c hb a s e so nt h e c o m b i n a t i o no fa n tc o l o n ya n dt h ek - m e a n sc l a s st oi m p r o v et h ea c c u r a c yo ft e x t i m a g e sa n dr e d u c et h ee f f e c t so fl i g h to nt h et e x ti m a g e t h em e t h o dn o to n l ym a k e s f u l lu s eo fg l o b a lo p t i m i z a t i o nc h a r a c t e r i s t i c so fa n tc o l o n ya l g o r i t h ma n dl o c a l s e a r c h i n gc a p a b i l i t yo fk - m e a n sa l g o r i t h m ,b u ta l s oo v e r c o m e st h ed i s a d v a n t a g e so f k - m e a u s c l u s t e r i n ga l g o r i t h ms u s c e p t i b l e t oi s o l a t e d p o i n t s b y u s eo ft h e i r 基于笔画内容的视频检索方法研究 c o m p l e m e n t a r yc h a r a c t e r i s t i c so ft h e s et w om e t h o d s ,w es e g m e n t e dt h ev i d e ot e x t i m a g ea n d h a v ea c h i e v e d9 0 0 ds e g m e n t a lr e s u l t s ( 3 ) a m e t h o do fc h a r a c t e rr e c o g n i t i o nb a s e do nm u l t i - t e m p l a t ec h a r a c t e r m a t c h i n ga n db pn e u r a ln e t w o r ki sp r o p o s e d f i r s t l yw ec r e a t eac h a r a c t e rt e m p l a t e l i b r a r y i no r d e rt oe x p a n dt h et e m p l a t el i b r a r y ,w ec o n s i d e r e db o t ht h ef o n ts i z ea n d t h ep h e n o m e n o no fd i f f e r e n tf o n t s t h e nt h ec h a r a c t e rw a st r a i n e da n do u t p u tb yb p n e u r a ln e t w o r kw h i c hw a so b t a i n e db yt h ec h a r a c t e rs e g m e n t a t i o n a tl a s ti no r d e rt o o b t a i nt h er e c o g n i t i o nr e s u l t s ,w eu s ec h a r a c t e rr e g i o ns e g m e n t a lm a t c h i n gm e t h o dt o m a t c ht h ec h a r a c t e rt e m p l a t el i b r a r y t h i sm e t h o dm a k e sf u l l 嗽t h ea d v a n t a g e so f t h et w om e t h o d s ,a n dt h er e s u l ti sb e t t e r ( 4 ) t h ep r o t o t y p es y s t e mw a sd e s i g n e da n dd e v e l o p e db yo b j e c t o r i e n t e da n d b a s e do nt h ev i d e or e t r i e v a ls t r o k e t h es y s t e mi n c l u d e sm a n yf u n c t i o nm o d u l e ss u c h a st e x tr e t r i e v a l ,t e x tl o c a t i o n ,t e x ts e g m e n t a t i o n ,c h a u r a c t e rr e c o g n i t i o na n ds oo n a n d t h ee f f e c t i v e n e s so ft h ea b o v ea l g o r i t h m sh a sb e e np r o v e dt h r o u g ht h ee x p e r i m e n t c o n t r a s t s k e y w o r d s :t e x tr e t r i e v a l ,t e x tl o c a t i o n ,d y n a m i cm o r p h o l o g y ,a n tc o l o n ya l g o r i t h m , t e x ts e g m e n t a t i o n ,c h a r a c t e rr e c o g n i t i o n i v 江苏大学硕士学位论文 第一章绪论 目录 l 1 1 课题研究背景和意义1 1 1 1 研究背景1 1 1 2 研究意j 江1 1 2 国内外研究现状3 1 2 1 国内研究现状3 1 2 2 国外研究现状4 1 3 论文的研究内容及主要工作6 1 4 论文的结构7 第二章文本定位及提取的相关技术9 2 1 文本基本特性9 2 1 1 文本的分类9 2 1 2 文本的特征1 0 2 1 3 文本的提取流程。1 1 2 2 文本提取方法1 2 2 2 1 基于边缘的方法1 2 2 2 2 基于纹理的方法。1 3 2 2 3 基于区域的方法。1 3 2 2 4 基于学习的方法。1 4 2 2 5 基于压缩域的方法1 4 2 2 6 基于时空分布特征的方法。1 5 2 3 月、结1 5 第三章条件笔画密度提取和动态形态学处理1 6 3 1 条件笔画密度提取1 6 3 1 1 笔画特征1 6 3 1 2 笔画密度1 7 3 2 动态形态学处理1 8 3 2 1 膨胀与腐蚀。1 8 3 2 2 膨胀与腐蚀试验对比1 8 3 3 实验结果与分析1 9 3 4 小结2 2 v 基于笔画内容的视频检索方法研究 第四章基于蚁群与k - 均值聚类的文本分割 4 1 蚁群算法2 3 4 2k o 均值聚类算法2 4 4 3 基于蚁群与k - 均值聚类的文本分割2 5 4 3 1 蚁群聚类算法2 5 4 3 2 基于蚁群与k 均值聚类算法2 6 4 4 实验结果及分析2 7 4 5 ,j 、结:z 9 第五章基于多模板匹配和b p 神经网络的字符识别一3 0 5 1 字符图像预处理3 0 5 2 基于字符特征的识别方法3 1 5 3 模板匹配法3 3 5 4 神经网络方法3 4蠕 5 5 改进的模板匹配与神经9 明络的识别方法3 5 5 5 1 改进的模板匹配法3 5 5 5 2b p 神经网络3 6 5 5 3 字符识别3 8 5 6 实验结果及分析3 8 5 7 d 、结3 9 第六章原型系统的设计与实现 6 1 概述卓o 6 2 原型系统的主要框架4 2 6 3 核心类的设计与实现4 2 6 4 原型系统实现4 7 6 5 小结5 0 第七章总结与展望 7 1 总l ; 5 2 7 2 展望5 3 参考文献 致谢 发表论文 5 4 5 4 6 0 江苏大学硕士学位论文 1 1 课题研究背景和意义 1 1 1 研究背景 第一章绪论 随着信息数字化技术和多媒体技术的广泛应用,各行各业的大量信息都在以 多媒体信息的方式被数字化,面对海量的视频数据,人们希望能从中方便快速地 获取所需的信息。然而,目前对多媒体信息的检索还处于起步阶段,在一定程度 上并不能满足人们的需要。视频是最为广泛和基本的多媒体信息,因而对视频的 检索已成为当今计算机领域的研究热点。 视频检索可分为两类:基于描述和基于内容。基于描述事实上是借助文本索 引技术,根据视频图像文件的内容将其标注为一系列关键字,并对相应关键字建 立索引。因而基于描述的视频图像检索一般就是对视频图像的标题、大小、关键 字等这类信息进行检索,其优点是技术简单,易于实现。而基于内容的视频检索 是对视频内容的视觉特征如文字、颜色、纹理、形状等进行检索,通过对内容的 视觉特征和上下文联系的分析,提取出视频图像的内容特征作为索引来实现较高 层次的检索。 目前视频检索所采用的特征基本上是低级视觉特征,如颜色、纹理和形状等, 并且往往需要人工加入关键词和描述信息,以便于信息的组织,这不仅增加了工 作量,而且还易于引入主观因素,不利于视频的检索,而且这类方法还要求使用 者具备模式识别的基础知识,并且在一定程度上依赖特征估计的准确性,对大多 数非专业人士来说,这个要求是难以满足的。基于以上原因,人们迫切需要更为 直观的视频检索方法,来满足日常生活的需要,如像基于视频中的文本的检索方 法。 1 1 2 研究意义 图像中所含的文本信息在一定程度上反映了该图像的部分重要内容,通常会 是对图像内容的简练描述或说明。例如,新闻图片中的文本能够说明发生的事件、 时间、地点;在复杂文档的自动处理中,如股票证书的自动登记处理,可以通过 提取文档中特定的文本信息进行股票登记;医学图像中标注的病情、日期、病人 姓名、病例号可以方便医学图像快速查阅;视频字幕中的人物对话能提供重要的 主题信息;对车辆牌照的提取和识别,其结果可广泛应用于智能交通领域;这些 基于笔画内容的视频检索方法研究 对于帮助人们理解图像的内容,检索相关图像的信息都有着重要的作用。如果这 类视频中以图像格式存储的文本能够被自动检测的话,那么就可以借助比较成熟 的文本检索技术对这些文本进行标注和检索,从而为基于内容的图像和视频检索 提供一种较为便捷的查询途径。 视频图像中的文字识别可以借助于现有的商用识别软件( o p t i c a lc h a r a c t e r r e c o g n i t i o n 简称:o c r ) 技术,但与文档不同的是,这种嵌入在视频中的文本 其出现位置是未知的,并且还会嵌入在其它背景中,因此在进行识别时,需要进 行一个文本检测并提取的过程。这样,文本检测与提取就成为视频图像检索内容 中最为关键的一步,对视频图像内容的分析、理解和基于内容的视频检索具有重 要的意义。 大量的文献资料显示,目前视频图像中的文字提取技术主要存在以下困难【1 】: ( 1 ) 图像,特别是视频图像的分辨率较低,噪声种类较多,图像质量相对较 差的情况下的图像; ( 2 ) 文本,特别是场景文本所处的背景比较复杂的情况; ( 3 ) 字符的颜色、尺寸、字体、排列方式等复杂多变的情况; ( 4 ) 在视频图像中,处于运动状态的文本,其背景会显得更为复杂。 因此,若能够找到解决这些问题的方法,并能构造出相应的文本定位和提取 模型,对于基于内容视频检索技术的发展,具有重要的实用价值和理论意义。 基于视频的文本提取技术大致有以下几个应用领域: ( 1 ) 基于内容的视频检索:从视频中提取出来的文本可以用来建立索引和注 释,这样可以大大提高数字图书馆、视频数据库等系统的运行效率1 2 , 3 1 。正如在 数字图书馆中通过关键字可以迅速搜索到相关的图书信息;在体育比赛中,可以 通过抽取运动员的号码、姓名和球队名达到对其在比赛画面中进行注释和索引的 目的。 ( 2 ) 实时车牌定位:通过摄像头捕获高速公路上的车牌图像,经过车牌识别 系统进行分析和处理,可以起到对交通情况进行实时监督,实时识别出交通事故 涉及车辆的车牌号的目的,从而提高运输监管部门的工作效率。 ( 3 ) 可佩戴视觉系统:随着计算机技术的迅速发展,可佩戴计算机已经成为 现实。将可佩戴计算机技术和视频文本分割技术相结合,可以形成可佩戴视觉系 统1 4 5 1 ,实现如帮助盲人识别路标等复杂的功能。 ( 4 ) 基于内容的视频编码:m p e g 4 标准支持基于对象的编码【6 】,把视频中 的文本区域分割出来作为一种对象,可以有效地提高视频的压缩比和视频的质 且 亘o ( 5 ) 机器人视觉:有时候人们希望把一些危险的任务交给机器人去完成。如 2 江苏大学硕士学位论文 最近波士顿动力公司为美国陆军成功研制军用机器狗,这种机器狗具有自主视 力:它的头部装有一个立体摄像头和一部激光扫描仪,可以感知地面上的状态并 调整相应的动作指令。专家预测,在未来几年内,自理能力增强的“大狗”随时可 以在战场上驰骋。 ( 6 ) 零件实时识别:通过摄像头捕获视频,自动识别带有文字的零件,实现 在生产线上的机器自动装配零件等功能川。 ( 7 ) 网络过滤:一些不良网络信息的提供者将文本镶嵌到视频图像文件中, 或者直接以视频图像文件的形式显示文本以绕开网络过滤系统。基于视频图像内 嵌文本的语义分析可以实现基于图像内容的检索和过滤功能,进而可以优化网络 环境。 1 2 国内外研究现状 对于视频图像中蕴藏的丰富的文本信息,国内外的许多研究单位对此都展开 了研究。 外国的研究机构有:卡耐基梅隆大学( c m u ) 计算机系 s a l 、瑞典联邦工学 院【埘、i n t e l 研究中心1 1 1 1 、哥伦比亚大学多媒体研究中一l , 1 2 , 1 3 1 、韩国s o o n g s i l 大 学信息工程系【1 4 1 、韩国y o n s e i 大学计算机系【1 5 1 、荷兰g r o n i n g e n 大学【蚴、德国 s i e g e n 大学【1 7 1 、英国利物浦大学计算机系【堋、密西根大学的a n i l k j a i n l l 9 1 、微 软亚洲研究院【刎等。 国内的研究机构:香港中文大学信息工程系【2 1 l 、浙江大学【2 2 】、中国科学院 计算技术研究所【捌、诺基亚研究中心视觉通讯实验室刚、清华大学【2 5 】、中国科 学院自动化研究所陶、南京大学【韧等。 1 2 1 国内研究现状 黄晓东【冽等人综合利用小波变换和颜色聚类技术来提取视频帧中的字幕区 域,首先通过小波变换计算视频图像中的局部能量特征,能量高的区域作为候选 字幕区域,然后利用字幕颜色一致的特性,进行8 领域颜色聚类算法,从背景中 分离出字幕,最后利用字幕属性特征消除噪声,但该算法易受到颜色一致物体的 干扰,同时采用这种方法所需的处理时间较长。 张引刚等人将s o b e l 算子扩展到r g b 颜色空间的三个分量上,提出 c o l o r s o b e l 算子,使用数学形态学运算对c o l o r s o b e l 边缘图像进行处理,得到候 选文本区域,然后根据候选文本区域的尺寸大小、水平、垂直投影以及候选文本 区域内的边缘像素密度等信息来淘汰虚假文本区域,该算法可以提取出灰度值和 3 基于笔画内容的视频检索方法研究 背景接近但颜色和背景不同的文本,但该算法是基于单帧的,没有很好地利用文 本在视频中多帧重复出现的特点来提高系统效率,所以速度比较慢。 王勇【刈等人提出一种基于边缘点密度的视频字幕自适应检测算法。采用基于 边缘检测的方法,结合文字图像区域本身的特点,在对原图像进行边缘检测和形 态学膨胀后,对其在水平和垂直方向的边缘密度投影采用一种自适应的检测算 法,得到字幕图像区域,该算法的优点是可以检测出不同大小、不同字体的文本 行,但该方法不能提取灰度值及与背景接近的文本。 x i f e i w a n g l 3 1 1 等人提出一种基于笔画提取和条件形态学相结合的视频文本 定位方法,当局部区域内像素点的密度大于一个确定的膨胀系数时进行膨胀,小 于一个确定的腐蚀系数时进行腐蚀,但该方法对于像素点密度不同的局部区域采 用统一的膨胀或腐蚀系数,这样在增强文本信息的同时一定程度也加强了噪声, 在消除噪声的同时一定程度上也减弱了文本信息,因此该方法不能达到精确定位 的效果。 田破荒【3 2 】等人提出基于文字穿越线和笔画连通性的视频文本提取方法,该方 法可以检测出多种语言的文本信息,但其缺点是只能检测出单行文本信息,不能 用于多行文本的检测。 庄越挺【3 3 】等人首先将图像分成固定的子区域,并进行人工训练标识各个区域 为文本或非文本,然后引入支持向量机对每个子区域进行特征向量提取,并构造 分类器,再将测试图像分成若干同样尺寸的子区域,利用分类器对各个子区域进 行判断,最后将相邻区域合并,形成文本区域,该算法使用金字塔模型,即将图 像分辨率逐步递减,在每个不同分辨率图像上进行处理,最后对处理结果进行融 合。该算法能检测出不同大小、不同字符的文本,但不能提取灰度值与背景接近 的文本。 何家颖【州等人利用形态学运算确定背景区域的种子像素,再对种子点执行区 域生长算法,得到前景区域,这些前景区域就是字符的候选区域,用多尺度 k - m e a n s 算法对每个字符的候选区域进行色彩聚类,最后进行连通元形态分析得 到真正的字符。用5 0 幅网页上的广告图像进行测试,算法的检出率为8 5 。该 算法对英文字符的检出率高于对中文字符的检出率,对于由多个分离笔画或部首 组成的中文字符,此算法只能检测到这些字符内形态比较复杂的部分,从而使一 些中文字符出现笔画缺损的现象。 1 2 2 国外研究现状 g l l a v a t a 3 5 l 等人通过对原始图像的三个高频子图的投影直方图统计及差分曲 线分析,提取方差作为k 均值聚类的特征矢量,并根据对边缘图像的直接投影, 4 江苏大学硕士学位论文 从而最终确定文本像素的位置。由于所处理的视频帧中可能不存在文本,为避免 聚类时产生错误,每处理一帧图像时都提前加入一行文本。 l i e n h a r t l 3 6 1 等人设计的算法主要是针对背景为黑色或文本对比度高的情况。 利用文本颜色的单一性、文本区域的长宽约束、同一文本会出现在多个连续视频 帧的相同位置等特点,对文本进行提取。首先使用分裂合并算法对视频帧灰度图 像进行处理,按灰度值将视频帧分解为多个具有相似灰度值的连通区域:然后通 过对每个连通区域进行运动分析、对比度分析、形状尺寸分析等淘汰非文本区域。 该算法中,视频文本的定位和分割同时进行,简化了文本提取的步骤,但其没有 利用图像的颜色信息,当文本与背景亮度相似时效果不理想,而且要对每个视频 帧进行处理,视频中生成的连通区域大部分都不是文本,因此该算法复杂度较高。 g a r a c i a 3 7 1 等人用d e r i c h e 边缘检测器提取图像的边缘,接着用形态学的开和 闭操作除去噪声和填充高对比度的区域,然后用大小与最小字符尺寸相关的窗口 来扫描边缘图像,当窗口内的边缘强度与边缘方向角的标准方差之积大于一个经 验值时,则认为此窗口属于文本区域,合并距离和上下边界相似的文本,再根据 文本块的水平投影重新确定文本区域的上下边界,最后用文本区域的一些几何尺 寸限制剔除一些虚假文本区域,进而得到真正的文本区域。此方法不太适合处理 与非文本对象边缘对比度较高的情况。 s h i m 蚓等人利用文本在视频序列中是静止的特点及文本区域灰度的同一性 进行文本定位。首先将视频帧中灰度相近的像素进行合并,大的区域视为背景, 将其去除,剩下的区域进行一些形状分析,去除非文本区域。该算法的缺点是要 对每一个视频帧进行连通元生成,生成的连通元绝大部分都不是文本,其复杂度 太高,系统效率较低,而且视频中还有可能出现运动的文本,如滚动新闻消息, 这种算法对运动的文本则失效了。 k i m 3 9 1 等人首次提出将s v m ( 支持向量机s u p p o r tv e c t o rm a c h i n e ) 方法应 用于文本定位。支持向量机通过在有限的样本中集中训练,可自动选取且更有效 地区分文本区域的特征向量。首先将视频帧分成7 * 7 的子块,然后用支持向量机 来判断每个子块是否为文本块,最后合并相邻的文本子块,从而定位出文本区域。 由于支持向量机输入是灰度图像中提取的特征,因此不能很好地提取灰度值与背 景接近的文本。 h a s e 4 0 l 等人提出一种提取彩色文档中文本图像的方法,假设每个字符为单一 颜色,像素值转换为l a b 空间,采用颜色直方图选取代表颜色,然后把图像分为 几幅二值图像,用松弛方法从二值图像中提取字符串,并合并从每个二值图像中 提取的所有字符串,最后使用置信度来提取真正的字符串,字符串的置信度由字 符排列( 包括框内黑色素的比例) ,用字符宽度的标准差来定义。与其他文本定 5 基于笔画内容的视频检索方法研究 位方法相比,该方法对滤波阶段给予了更多的注意,其结果是可以处理阴影下及 弧形排列的字符,但字符串置信度难以精确定义,这可能会带来文本的丢失和虚 假的文本产生的负面影响。 h y e r a n 4 1 】等人提出一种数学形态学分析的算法来检测视频中的文本区域。首 先对视频帧进行灰度拉伸,然后用数学形态学的腐蚀操作去除噪声,再利用膨胀 操作将相邻的像素连接起来,生成候选连通区域,最后通过形状分析去除非文本 区域。但该方法的缺点是不能去除一些宽度类似于文字笔画的物体。 c h e n h 2 1 等人首先用边缘检测算子检测视频中的边缘,然后用数学形态学膨 胀操作将相邻的边缘连接成候选文本区域,最后用支持向量机来检测候选文本区 域,去除虚假文本区域。但该方法在去除虚假文本区域的同时容易把文本区域也 一并去除。 l i 【4 3 l 等人将视频文本定位看作是一个二类模式分类问题,首先将视频帧分割 成图像子块,然后通过神经网络来判定每个子块是否为文本块。该算法中神经网 络输入的是从灰度图像中提取的特征,因此不能很好地提取灰度值与背景接近的 文本。 w a n 9 1 4 4 1 等人提出一种从图像中提取场景文本的算法。首先对图像像素的颜 色值进行多尺度聚类,提取出多个不同的颜色图层,然后对每个图层进行连通域 搜索,将不同图层的连通域进行融合得到候选文本区域,最后通过设定的文本区 域尺寸阈值和平均识别置信度淘汰虚假文本区域。该方法中尺寸阈值的设定对文 本提取影响很大。 1 3 论文的研究内容及主要工作 本文在广泛阅读国内外现有的基于内容的视频检索技术相关文献的基础上, 比较和借鉴现有的视频检索生成方法,对相应的视频检索的关键技术进行改进和 完善,同时提出自己的算法,并开发出基于内容的视频检索原型系统。论文主要 的研究内容和工作包括以下几方面: ( 1 ) 基于条件笔画密度的文本提取方法 为解决视频检索中文本定位精确度不高的问题,提出一种基于条件笔画密度 提取的文本定位方法。首先根据文本笔画的特征对视频图像中的文本进行初步定 位,然后用基于条件密度的方法滤去一部分非文本区域,最后再利用动态形态学 对提取的文本区域进行精确定位,并对其进行优化得到最终的文本区域。 ( 2 ) 基于蚁群与k - 均值聚类相结合的文本分割 针对视频文本分割中常规聚类算法存在收敛速度慢,易陷入局部最优的局限 6 江苏大学硕士学位论文 性,本文基于蚁群信息素的k _ 均值聚类方法,提出一种基于蚁群与k - 均值聚类 相结合的文本分割方法,来解决视频文本的分割问题,该算法利用蚁群算法得到 文本分割的初始聚类个数,再利用k _ 均值算法得到初始聚类中心,最终得到具 有全局分布特性的最优聚类。 ( 3 ) 基于多模板字符匹配与b p 神经网络的字符识别 提出一种基于多模板字符匹配与b p 神经网络的字符识别方法,先建立字符 模板库,不仅考虑字号大小,而且还结合了不同字体混排的现象,来扩充模板库; 然后通过b p 神经网络对由字符分割得到的字符进行训练识别并输出,最后采用 字符区域分割匹配的方法与字符模板库进行匹配,得到识别结果。该方法充分利 用了两种方法的优势,实验结果较好。 ( 4 ) 设计实现视频检索的原型系统框架 采用面向对象编程方法,选用c 撑和m a t l a b 作为开发工具在w i n d o w s 环境下, 实验并开发了基于内容的视频检索原型系统。通过实验验证上述方法的有效性。 1 4 论文的结构 论文内容共分为六章,各章节内容安排如下: 第一章绪论:介绍课题的研究背景和研究意义,概述视频检索中的文本检测 所涉及的研究领域及其潜在的应用领域,综述国内外的研究现状,对现有方法从 理论上给出比较,同时分析和提出本文的主要研究工作。 第二章文本及文本定位与提取方法:先简要地介绍文本提取与识别系统的结 构和原理,并对目前存在的一些文本定位和提取算法进行分类综述和比较,简单 分析字符识别的原理,并介绍三种常用的字符识别方法。 第三章基于条件笔画密度提取的文本定位方法:对于中文图形文本,可根据 图像的笔画信息来确定候选文本区域。首先用条件笔画密度对文本信息进行检 测,然后利用动态形态学对初步检测到的文本进行精确定位,得到候选文本区域, 并根据规则进行区域的验证。 第四章基于蚁群和k - 均值聚类的文本分割方法:本章首先简单介绍蚁群聚 类算法,分析其特点,接着介绍k - 均值聚类算法及其特点。然后提出基于蚁群 和k - 均值聚类相结合的文本分割方法,最后给出该方法在视频文本分割中的实 验结果和分析。 第五章基于多模板匹配和b p 神经网络的字符识别:本章首先简单介绍了几 种常用的字符识别方法,并分析各自的优缺点,提出了基于多模板匹配和b p 神 7 基于笔画内容的视频检索方法研究 经网络相结合的字符识别方法,最后给出本文方法的实验结果及分析。 第六章原型系统实现:采用面向对象思想,设计并开发视频检索原型系统 第七章总结与展望:总结全文工作,并对下一步工作进行展望。 8 江苏大学硕士学位论文 第二章文本定位及提取的相关技术 视频图像中的文字、标题以及各种符号在不同程度上反映了视频图像内容的 重要信息。但是要将这些文本内容从视频中提取出来,首先面临的一个问题就是 确定相应的文本信息在视频图像中的位置,即文本的定位。所谓文本定位是指在 实际拍摄的视频图像中确定文本区域的位置,以便分割提取出文本区域。文本的 快速准确定位是字符识别系统中非常关键的一步,也是典型的图像分割问题。 如何准确、可靠地检测与定位视频图像中的文本区域是一个很困难的课题。 首先在一幅图像中,不同位置的文本之间字符尺寸的变化范围可能很大;其次, 不同位置文本之间的字体可能不同,而且在视频内容相同的不同视频图像帧中, 同一文本的位置可能是不断变化的,文本的排列方向也会变化等。因此要实现一 个理想的、能够检测所有视频图像背景下,以任何形式存在的文本区域的定位方 法,在目前还很困难。 在本章中我们主要介绍目前存在的视频图像文本定位和提取算法,并对各分 类方法进行分析和讨论。 2 1 文本基本特性 2 1 1 文本的分类 图像和视频中的文本根据其来源可以分为两类:一类称为场景文本( s c e n e t e x o ,另一类称为图形文本( g r a p h i ct e x 0 。 场景文本是指在场景内出现并由记录设备记录下来的文本,包括汽车照片中 的牌照字符,视频画面中的广告牌、商店的招牌及运动员球衣上的号码等,这些 文字对诸如机器人视觉,视频监控等方面具有非常高的应用价值。但是由于光照 不均匀、拍摄角度不合适、曝光不足,文本载体污染等原因,使得这些文本字符 在大小、角度、形态、光照上变化很大,所以这很难被提取和识别。 图形文本是指人为地加入到视频中以便对视觉或听觉内容进行补充的文本, 具有较为规范的特征,例如电视新闻标题、电影字幕对白等。由于图形文本是人 工加入到图像或视频中的,所以这些文字的内容指向性就非常明显,包含丰富的 高层

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论