图像文本定位_第1页
图像文本定位_第2页
图像文本定位_第3页
图像文本定位_第4页
图像文本定位_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、图像文本检测参考文章:图像文本定位技术研究-黄治虎图像与视频中的文本定位技术研究综述-廖佳,王红梅,牛晓东图像中的文本定位技术研究综述-晋瑾 ,平西建, 张涛, 陈明贵自然场景中文本检测技术研究综述-戴津图像和视频中的文本包含丰富、明确的信息。 如果这些文本能被自动地提取出来,则对图像高层语义的自动理解、索引和检索是非常有价值的 图像中的文本提取可概括为两个步骤:文本定位。 即找出图像中文本所在的位置或刚好包围文本的矩形区域。 文本识别 对定位出的文本区域进行二值化、增强处理, 再送入光学字符识别系统 (OCR)中进行字符识别。文本定位是文本识别的前提, 是文本提取的关键文本类型性能评价文本定

2、位应用文本特征文本定位的方法文本类型:1、人工添加文本人工文本通常出现在视频帧图像中,如在新闻视频中由人工加入的新闻标题、时间等,体育赛事中人工加入的分数记录等,访谈节目中对话的脚本字幕等,通常有重要的提示作用2、自然场景文本场景文本是指拍摄场景中所包含的文字,如人们使用数码相机、数码摄像机、扫描仪等拍摄的自然场景的文本图像。因自然文本所处的图像或视频背景复杂,受光照、拍摄角度、拍摄场景等因素影响,自然场景文本定位是一个具有较大难度性和挑战性的研究课题性能评价:1、文本定位矩形框的精确度由标定的矩形与Ground-truth 矩形的重合度来衡量,两者的重合度越高,文本定位精度越高2、统一的样本

3、图像库现在大多用ICDAR推出的样本图像库来评定。该图像库主要是通过数码相机拍摄得到的场景图像,以门牌、广告、指示标识为主查准率:文本区域数 / 所有区域总数查全率: 正确定位的文本区域数 / 图像中所有文本区域总数文本定位应用:1、图像、视频检索2、网络图像过滤3、智能交通4、邮件分拣等文本的特征1.颜色特征大多数情况下,同一区域中同一行文字,其颜色、色调、亮度等属性相同或相似,与图片背景有较大的对比度。人工文本尤其如此。但也有特殊情况(艺术)。2.字符的大小同一行文字,字符大小基本一致。但同一图像中的文字大小,可能差别很大,大的可能占到图像面积的80%以上,而小的则只有几个像素。由于太小的

4、字符,识别率不高,像素低于10 的字符通常被删除。3.字符的边缘由于字符与图像背景间具有一定的对比度,因而字符与背景间都有较突出的边缘,这为通过边缘检测进行文本定位提供了依据。边缘包含边缘强度和边缘方向两个要素。不同的文字,边缘的方向不同,如英文和汉字的边缘方向集中在水平、垂直和45方向,而拉丁文的边缘方向集中在垂直方向。4.文字的结构典型文档图像的布局都是经过精心设计,相对固定以便于读者阅读。这就降低了文本区域的分割的难度。但是对于自然场景当中的文本,它可能出现在图像的任意位置,并且往往字符稀疏,字符对齐方式没有严格要求。但是对于同一文本块内,文字的字体和字号往往保持一致,汉字在同一字体和字号下,其高度和宽度以及粗细一致,线条平直。5.纹理特征纹理是一种反映图像中同质现象的视觉特征,它体现了物体表面的具有缓慢变化或者周期性变化的表面结构组织排列属性。纹理具有三大标志:某种局部序列性不断重复、非随机排列、纹理区域内大致为均匀的统一体。纹理不同于灰度、颜色等图像特征,它通过像素及其周围空间邻域的灰度分布来表现,即:局部纹理信息。局部纹理信息不同程度的重复性,即全局纹理信息。文本定位

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论