(信息与通信工程专业论文)印刷体数学公式识别系统的研究与实现.pdf_第1页
(信息与通信工程专业论文)印刷体数学公式识别系统的研究与实现.pdf_第2页
(信息与通信工程专业论文)印刷体数学公式识别系统的研究与实现.pdf_第3页
(信息与通信工程专业论文)印刷体数学公式识别系统的研究与实现.pdf_第4页
(信息与通信工程专业论文)印刷体数学公式识别系统的研究与实现.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(信息与通信工程专业论文)印刷体数学公式识别系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院硕士学位论文 摘要 书籍是人类文明的载体,是人类社会进步和发展的重要媒介。随着信息和通 信技术的迅速发展,以及互联网的广泛普及,电子形式的书籍和文献资料已经成 为重要信息载体,信息资源尤其是包含大量数学公式的科技文献的电子化成为了 一项重要的工作。如今,o c r 技术逐步发展成熟,可以快速、高效地完成大部分 书籍资料的电子化。虽然o c r 技术对中英文字和数字等都有很好的识别效果,但 其在数学公式的识别方面效果并不理想。其原因在于数学表达式具有复杂的二维 结构,字符之间的逻辑关系复杂多样,难以界定。正确的数学公式识别不但要求 对单个数学符号进行正确的分割和识别,同时还要求对公式结构进行准确的分析。 本文设计了一个数学公式识别系统,实现了对印刷体数学公式的识别。系统 的输入为以图片形式存在的数学公式,经过图像预处理、字符分割、字符识别和 结构分析等处理过程后,将其转化为以l a t e x 语言表示的文本输出。 论文所完成的主要工作包括: l ,图像预处理。公式图像中存在噪声干扰和数据冗余,为了达到后端处理要 求,需要先对其进行滤波、二值化、细化等预处理操作。 2 ,公式字符识别。主要包括字符分割和字符识别两部分。前一部分从公式图 像中提取出单个字符及其空间坐标信息,在此部分中联合采用了投影分割法和连 通域分割法;后一部分通过模板匹配方法对每一个字符进行识别,在此部分中提 出了一种基于辐射线交点数的特征提取方法。 3 ,公式结构分析。在字符分割和识别的基础上,确定字符之间的空间关系, 进而得到对公式整体结构的描述。在此部分中提出了一种分块树结构分析方法, 该方法首先对待处理公式进行分类,将其划分为若干种类型的子模块,再对每一 个子模块进行处理。该方法具有很强的可扩展性,对嵌套类型的公式具有较好的 处理效果。 4 ,数学公式的显示。利用l a t e x 语言对字符识别和结构分析的结果进行描述, 得到文本形式的公式,完成数学公式识别的全过程。 块树 关键词:数学公式二值化细化结构分析字符分割特征提取字符识别分 第i 页 国防科学技术大学研究生院硕士学位论文 a b s t r a c t b yt h ed e v e l o p m e n to fi n f o r m a t i o na n dc o m m u n i c a t i o nt e c h n o l o g ya l o n e 谢t l lt h e w i d e l ys p r e a do ft h ei n t e r a c t ,t h ee l e c t r o n i cv e r s i o no fp r i n t e db o o k sa n do t h e rl i t e r a t u r e b e c o m em o r ea n dm o r ei m p o r t a n t t h u s ,t h ee l e c t r o n i z a t i o no fi n f o r m a t i o ns o u r c e e s p e c i a l l yt h es c i e n c el i t e r a t u r ew h i c hi sf u l lo fm a t h e m a t i c a le x p r e s s i o n sb e c o m e sa l l i m p o r t a n tw o r k n o w a d a y s ,谢mt h eo c rt e c h n o l o g y , w ec a ne a s i l ya n de f f i c i e n t l y t r a n s f o r mm o s to fb o o k si n t oe l e c t r o nv e r s i o n a l t h o u g ht h eo c r t e c h n o l o g yc o u l d a c h i e v ev e r yg o o dr e s u l t si ns i n g l ec h a r a c t e rr e c o g n i z i n g ,i td o e s n tg e tt h e & h l l ee f f e c t i nm a t h e m a t i c a le x p r e s s i o nr e c o g n i t i o n ,n l er e a s o nl i e si nt h a tt or e c o g n i z ep r i n t e d m a t h e m a t i c a le x p r e s s i o ns u c c e s s f u l l y , i td o e s n to n l yn e e dc o r r e c ts e g m e n t a t i o na n d r e c o g n i t i o no fe v e r ys i n g l ec h a r a c t e ri nt h ee x p r e s s i o n , b u ta l s ot h ea c c u r a t ea n a l y s i so f e x p r e s s i o ns t r u c t u r e i nt h i sp a p e r , ap r i n t e dm a t h e m a t i c a le x p r e s s i o nr e c o g n i t i o ns y s t e mi sd e s c r i b e d m s y s t e mi n p u t sa r em a t he x p r e s s i o ni m a g e s ( i nt h ef o r mo fb m p ) ,a f t e ras e r i e so f p r o c e s s e s ,i tt u r n st h ee x p r e s s i o ni n t ol a t e xt e x t s 1 1 1 em a i nw o r k sd o n ei nt h ep a p e ra r ea sf o l l o w : 1 ,i m a g ep r e p r o e e s s i n g i n0 1 1 1 7s y s t e m , 枷t h em a t he x p r e s s i o n sa r ei nt h ef o r mo f i m a g ew h i c hi n c l u d e sr e d u n d a n c ea n dv a r i o u si n t e r f e r e t h u s , t og e te n o u g h i n f o r m a t i o nf o rs t r u c t u r ea n a l y s i s ,w ed i ds o m ep r e p r o c e s s i n ga b o u tt h ee x p r e s s i o n i m a g e s i ti n c l u d e si m a g ef i l t e r i n g ,b i n a r i z a t i o n ,s l a n tc o r r e c t i o na n di m a g et h i n n i n g , e r e 2 ,c h a r a c t e rs e g m e n t a t i o na n dr e c o g n i t i o n a f t e ri m a g ep r e p r o c e s s i n gi tf o l l o w s c h a r a c t e rs e g m e n t a t i o na n dr e c o g n i t i o n i nt h es e g m e n t a t i o np a r t , am i x e da p p r o a c h w h i c hc o m b i n e st h e p r o j e c t i o nm e t h o dw i t ht h e c o n n e c t i o nr e g i o nm e t h o di s p r o p o s e d i nt h er e c o g n i t i o np a r t ,af e a t u r ee x t r a c t i o nm e t h o db a s e d0 1 tr a d i a ll i n e i n t e r s e c t i o nn u m b e ri s p r e s e n t e d 1 1 :l i sf e a t u r ei st h e nu s e di nt h ec h a r a c t e rt e m p l a t e m a t c h i n g 3 ,s t r u c t u r ea n a l y s i s ,n l i sp a p e rp r o p o s e sas t r u c t u r a la n a l y s i sa p p r o a c hf o r m a t h e m a t i c a le x p r e s s i o n sb a s e do nt h ep a r t i t i o n e dt r e et r a n s f o r m a t i o na p p r o a c h e s 皿硷 a p p r o a c hf i r s t l yd i v i d e t h em a t h e m a t i c a le x p r e s s i o ni n t os e v e r a l s u b - e x p r e s s i o n s , a c c o r d i n gt oi t s i n t e r n a ls t r u c t u r a li n f o r m a t i o n t h e n ,w i t hat r e et r a n s f o 咖a t i o ni t d i s p l a y st h es p a t i a lr e l a t i o n so fa l lt h ec h a r a c t e r so fe a c hs u b e x p r e s s i o n i nt h i s a l g o r i t h m ,t h es p a t i a lr e l a t i o nt y p e si sg r e a t l ys i m p l i f i e d ,a n di tc a nd e a lw i t ht h e e x p r e s s i o nw i t hn e s t e ds t r u c t u r e m o r e o v e r , i tc a l lb ee a s i l ye n h a n c e dt os u i tf o r d i f f e r e n tk i n d so fa p p l i c a t i o n s 4 ,e x p r e s s i o nd i s p l a y i nt h i sp a r t , w eu s el a t e xa st h el a n g u a g et od e s c r i b em a t h e x p r e s s i o n s a tt h ee n do ft h i sp a r t ,a 1 1i n f o r m a t i o ni nt h es t r u c t u r et r e ei st r a n s f o r m e d 第i i 页 国防科学技术大学研究生院硕士学位论文 i n t ot e x tm o d e ,a n dt h e nd i s p l a y e dt h r o u g hl a t e xt o o l s a n dt h ew h o l er e c o g n i t i o n p r o c e s s1 so v e l k e yw o r d s :m a t h e m a t i c a le x p r e s s i o nr e c o g n i t i o n b i n a r i z a t i o n i m a g e t h i n n i n g c h a r a c t e rs e g m e n t a t i o nf e a t u r ee x t r a c t i o nc h a r a c t e rr e c o g n i t i o n p a r t i t i o n e dt r e e 第i i i 页 国防科学技术大学研究生院硕士学位论文 表目录 表3 1 字符分割测试结果统计表3 2 表3 2 字符识别测试结果统计表3 3 表4 1s r 划分测试结果统计表4 1 表4 2 字符属性表4 5 第1 v 页 国防科学技术大学研究生院硕士学位论文 图目录 图1 1 数学公式识别过程4 图2 1 滤波前公式图像一7 图2 2 邻域平均滤波后公式图像7 图2 3 中值滤波前公式图像8 图2 4 中值滤波后图像8 图2 5 滤波前图像的像素值9 图2 6 滤波后图像的像素值:9 图2 7 滤波前图像的像素值9 图2 8 滤波后图像的像素值1 0 图2 9 原始图像的像素值1 0 图2 1 0 叠加白噪声后的图像的像素值1 0 图2 11中值滤波后图像的像素值。1 0 图2 1 2 公式图像二值化。1 4 图2 1 4 极坐标参数与直线倾角示意1 6 图2 1 5 倾斜图像及倾角示意1 7 图2 1 6 校正后图像1 7 图2 17 八邻域分与分布序列位置关系图18 图2 1 8 细化模板分布图1 8 图2 19 细化前公式图像19 图2 2 0 细化处理后公式图像2 0 图2 2 1 毛刺示意2 0 图2 2 2 毛刺消除后2 1 图3 1 待投影数字图像2 3 图3 2 垂直投影结果2 4 图3 3 上下边缘投影结果2 4 图3 4 公式图像2 5 图3 5 上下边缘投影后结果2 5 图3 6 水平方向投影后结果2 5 图3 7 连通域法实现字符分割2 7 图3 8 交线示意图31 图3 9 交点数特征向量。3 1 图3 1 0 网格像素比例向量3 2 第v 页 国防科学技术大学研究生院硕士学位论文 图4 1 井字型空间关系划分3 9 图4 2s r 基准线示意图3 9 图4 3s r 门限划分示意图4 0 图4 4 字符属性处理算法流程图4 3 图4 5 分块结构示意图4 4 图4 6 分块结构树。4 4 第页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的 研究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教 育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:毒童婆l日期:纱矽年,月咕咱 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文 档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书。) 学位论文作者签名:善兰l日期:勿。夕 年 月o y 日 作者指导教师签名:尘宁日期:加年,月r 日 国防科学技术大学研究生院硕士学位论文 第一章绪论 1 1 数学公式识别技术产生的背景 书籍是人类文明的信息载体,是人类社会进步和发展的重要媒介,它涵盖了 人类历史、文化、艺术和科学技术等方方面面的内容。随着造纸术和印刷术的发 明,一千多年以来,纸制书籍和文献得到了广泛的应用,它使得信息的传承和传 播变得十分便利,极大地推动了社会的进步和技术的变革,是人类社会繁荣兴旺 的基础。然而,纸张本身的固有特点,也为纸制书籍带来了一些不可避免的缺陷。 纸制书籍较为笨重,占用空间大,容易破损和遭到腐蚀,这些都为其长期保存带 来了困难,因此也经常会造成重要信息的流失。2 0 世纪中期以来,计算机技术和 互联网技术相继出现并得到迅速发展,电子形式的书籍和文献资料随之出现。电 子文档具有占用空间小,成本低廉,易于保存、修改和复制,并可以通过网络快 速传播,可进行加密存储等诸多优点,它的出现弥补了纸制书籍的不足。目前, 电子文档已经得到了广泛的应用,数据和信息的电子化逐步成为一种趋势,并且 将已有的纸制书籍转化为电子形式的书籍成为了其中一项重要的工作,由于纸制 书籍纸张和内容量都十分巨大,如果单靠手工完成需要相当庞大的工作量,因此 o c r 技术应运而生。 o c r 是光学字符识别技术的简称。o c r 技术近年来得到了快速的发展,并且 日渐成熟,当前运用o c r 技术可以高质量的识别中文、英文、俄文、日文、希腊 文、朝鲜文、阿拉伯文字等几乎所有类型的文字,并且其识别能力也由印刷体字 符识别扩展到了手写体文字符的识别,极大地方便了书籍和文献的电子化。 然而,尽管在文字识别方面o c r 技术具有很高的效率和准确度,它对数学公 式的识别却显得力不从心,原因在于o c r 技术主要致力于识别单个字符,无法辨 别数学符号之间的空间结构关系。为解决这一问题,人们提出了“数学公式识别” 的概念。 1 2 国内外相关研究发展与现状 数学公式识别技术的研究始于上世纪6 0 年代,它属于o c r 技术的一个分支, 公式识别理论最早是由a n d e r s o n 提出的,他在1 9 6 8 年完成的博士论文为该领域 的发展奠定了基础。然而,a n d e r s o n 的论文只是粗略描述了数学公式识别的概念, 没有给出较为完整的理论和试验数据,同时由于图像识别和计算机技术的限制以 及数学公式自身的复杂性,在随后的将近十年的时间内数学公式识别技术发展缓 第l 页 国防科学技术大学研究生院硕士学位论文 慢,相关的论文较少,没有任何有效的应用成果问世。 直到上世纪9 0 年代,随着o c r 技术的日益成熟,图像识别和匹配技术的快 速发展,以及计算机运算速度的大幅提升,使得公式识别有了更为坚实的理论和 设备基础,也开始受到了更多的关注。在这一时期【2 】,共有数十篇相关论文相继发 表,其中涉及到的内容十分广泛,既包括前端的图像预处理和字符分割、识别, 同时又包含了结构分析和错误检测等。并且,在传统的印刷体公式识别基础上研 究人员又提出了手写体公式识别的概念。而所采用的研究技术也不再局限于单纯 的图像处理和分析,而是引入了神经网络和统计分析等许多新兴的技术。总之, 公式识别技术正在逐步发展和完善起来。 进入2 1 世纪以来,应用需求的不断增长,更为数学公式识别技术的发展提供 了强劲的推动力。公式识别技术继续受到较多的关注,成为了新兴的研究热点。 然而,数学公式结构复杂多样,并且其所包含的数学符号种类繁多、数量庞大, 这些都给公式识别带来了重大的困难。到目前为止,在该领域仍然没有形成一个 能够完全满足实际需要的成熟理论体系,大多数的算法要么在识别率方面难以达 到要求,要么在识别的公式类型和字符数量上有限。数学公式识别技术中最关键 的两个部分是字符识别和结构分析,前者完成对单个字符的辨认,后者通过字符 之间的空间位置关系反映公式的整体结构特征,而字符识别的效率又会对结构分 析产生一定的影响。因此,现阶段有关数学公式识别的研究主要致力于如何提高 字符识别的正确率和结构分析的准确程度。 现有的数学公式识别系统,较为成熟的主要有我国汉王公司的“汉王手写公 式 以及微软公司的“手写数学工具识别器 ,这些系统都是针对手写公式识别 而设计的;在印刷体公式识别方面,比较突出的是由南开大学的靳简明【4 3 】m 等人 所设计的m a t h r c a d e r 公式识别系统,该系统可以识别3 3 0 个符号,识别率达到 9 8 6 6 ,在其所定义的1 1 种公式类型基础上,公式的整体识别率达到9 8 1 3 。 1 3 数学公式识别分类 根据识别的原始数据形式,数学公式识别可以分为印刷体公式识别和手写体 公式识别两种。 1 3 1 印刷体数学公式识别 印刷体数学公式识别的目的在于将以图片形式存在的不可编辑的公式,通过 图形图像处理,字符分割,字符匹配以及结构再现等一系列的处理过程,转化为 以文本形式存在的可再编辑的公式。其输入数据属于离线数据,离线数据是以图 第2 页 国防科学技术大学研究生院硕士学位论文 片形式存在的数据,如b m p 图、j p e g 图等,一般通过对文档的扫描而得到。离 线数据是对排版文档最常用的处理形式,它依赖于扫描的质量以及原始数据的字 体等。离线数据中没有表示字符书写顺序的时间信息,它被认为是静态数据。印 刷体数学公式识别的优点在于,可以将任何形式的已有文档转化为可被处理的格 式。 1 3 2 手写体数学公式识别 手写体数学公式识别p 】的目的在于通过寻找适当的算法,利用计算机系统实现 手写体公式到对应电子文本公式的快速转化。传统的公式输入多采用间接方式, 包括特殊语言法( 如l a t e x ) 和图形界面法( 如m a t h t y p e ) 等,这些方法使用繁 琐,输入速度慢,效率低;而手写公式识别则属于直接输入,通过手写板以及配 套的识别算法,即可一步实现全部公式的输入,简单,快捷。 手写公式识别的数据形式既可以是离线的也可以是在线的,在线识别的原始 数据是字符的笔划,它是指一次下笔和提笔之间的那些点的集合。笔划中的每个 数据点所包含的信息包括该点的坐标位置和书写时间。在线数据有时也被称为“数 字墨水,是手写字符的一种动态表示。 与离线情况相比,在线数据要求在书写过程中或者是书写完毕后马上进行处 理。在线数据的优点在于它包含了每一点书写时的时间,因此可以提供丰富的笔 划轨迹信息,进而满足不同的识别需要。例如,如果在书写过程中有字符发生了 空间位置重叠,那么就可以根据时间信息将其分离开来,从而减少识别误差;另 外,也可以通过笔划的书写速度等特征来反映书写人的某些心理或情绪特征。 本文主要研究印刷体数学公式的识别。 1 4 印刷体数学公式识别流程 印刷体公式识别的目的是实现数学公式由图片形式到文本形式的转化。一般 来说,包括以下五个步骤【4 】: l ,图像预处理。原始的公式图像可能含有多种噪声干扰,预处理过程通过对 公式图像进行滤波、细化以及阈值分割等一系列的前端处理,去除冗余数据,得 到能够反映公式表达式特征的二值化的公式图像。 2 ,字符分割。字符是数学公式中最基本的元素,字符分割即是通过对二值化 的公式图像进行分割处理,从其表达式中提取出单个字符的过程。 3 ,字符识别。该过程通过对待识别字符的特征值进行提取,并与标准的字符 数据库进行比较,寻找最佳匹配结果,从而实现对字符的辨认识别。 4 ,结构分析。结构分析是数学公式识别的关键环节,结构分析过程以字符的 第3 页 国防科学技术大学研究生院硕士学位论文 空间位置等信息为基础,通过特定的结构分析算法计算出字符之间的相互关联, 并将字符之间的关联以属性值的形式表示出来( 具体描述见第四章) ,将几何形 式的数学公式结构进行数字化再现。 5 ,公式显示。将分析识别的结果转化为以l a t e x 表示的文本公式,并进行显 示,完成公式识别全过程。 其流程如图1 1 所示: 图1 1 数学公式识别过程 1 5 本文工作描述 论文所完成的主要工作包括: l ,图像预处理。首先对输入图片进行滤波操作,采用的方法包括中值滤波法 和邻域平均滤波法;接着进行二值化阈值分割,采用o t s u 二值化方法;在通过 h o u g h 变换对图像进行倾斜检测和校正后,采用索引表模板匹配法对公式进行细 化操作。 2 ,公式字符识别。包含字符分割和字符识别两部分。前一部分从公式图像中 提取出单个字符及其空间坐标信息,在此部分中联合采用了投影分割和连通域分 割法;后一部分通过模板匹配方法对每一个字符进行识别,在此部分中提出了一 种基于辐射线交点数的特征提取方法。 3 ,公式结构分析。在字符分割和识别的基础上,确定字符之间的空间关系, 进而得到对公式结构的整体描述。在此部分中提出了一种分块树结构分析方法, 该方法首先对待处理公式进行分类,将其划分为若干种类型的子模块,再对每一 个子模块进行处理。最后得到树型的公式解析数据,实现公式结构的数字化表示。 4 ,数学公式的显示。首先对l a t e x 的数学公式描述方法进行介绍,接着利用 l a t e x 语言对公式识别的结果进行表示,得到文本形式的公式描述。 第4 页 国防科学技术大学研究生院硕士学位论文 1 6 论文章节安排 第一章为绪论部分。主要介绍了数学公式识别技术产生的背景,发展历程及 现状。 第二章为图像预处理部分。该部分主要对数学公式识别中相关的图像处理技 术进行描述,包括图像滤波增强、二值化阈值分割、细化骨架提取以及公式的倾 斜校正等。 第三章为字符的分割和识别部分。实现了对单个字符的提取和识别,在字符 分割部分混合使用了连通域法与投影法,而在字符识别部分提出了辐射线交点特 征提取法。 第四章为结构分析部分。结构分析部分以字符空间关系为基础,采用分块树 方法,对整个公式表达式的结构进行解析,得到可以反映字符之间相互关联的字 符属性值。 第五章为数学公式的文本化部分。首先介绍了l a t e x 数学公式的显示基础,接 着描述了识别结果的文本化过程。 第六章为总结和展望部分。在对全文内容进行总结和分析的基础上,提出了 下一步的工作方向及目标。 第5 页 国防科学技术大学研究生院硕士学位论文 第二章字符图像预处理 印刷体数学公式识别以公式图片作为输入数据,因此图片质量的好坏会直接 影响到公式的识别效果。 一般来说,这些输入的图片来源于文档的照片或是扫描图片,由于设备中电 磁干扰以及纸张表面不规则反射光的存在,公式图片中难免会引入噪声,从而降 低图片的质量;此外,公式中各个字符大小不一、字体多种多样,字符的笔划粗 细也不同,这些因素会导致数据的冗余,增加处理时的计算量,甚至影响识别率。 因此,为了避免干扰和冗余,增强识别的效果,在对公式进行识别之前必须 对图像进行预处理操作。本章结合我们的工作,详细讨论预处理方面的相关内容。 2 1 除噪声滤波 印刷体数学公式处理中输入端的图片大多是通过对纸制书籍文档的扫描而得 到的。首先,图像采集设备会带来自噪声干扰;其次j 纸张表面的粗糙反射可能 引入椒盐噪声;另外,被扫描公式本身也可能存在模糊或划痕等缺陷。考虑到以 上几方面的影响,就必须先对图像进行滤波处理,去除干扰,增强图像中所含的 公式信息比重。 这里我们采用的是空间域滤波f 5 1 ,包括邻域平均滤波法和中值滤波法。 下面分别对这两种滤波方法进行简要介绍。 2 1 1 邻域平均滤波法 邻域平均滤波法是一种局部空间域处理的算法。该方法的主要思路是,对于 二维图像平面内的某一像素点,利用其周围邻域内若干个像素点的平均灰度值来 代替该点的灰度值,这样即可以减小图像像素点之间的灰度值变化的速度,得到 较为平坦的灰度图像,从而达到除噪的目的。 设一副灰度图像f 阮y ) 为m x n 的阵列,滤波后的图像为g ( x ,y ) 。则对原图像 所有点邻域内几个像素点的灰度取平均值,得到滤波后图像。其表达式如下: 1 g ( x ,y ) = 专f ( i ,j ) ( 2 一1 ) 。、j ) e s 其中,x = l ,2 ,m , y = l ,2 ,n ,s 表示像素点( x ,y ) 的邻域,k 是邻域内 总的像素点数。 设噪声e ( x ,y ) 是加性白噪声,均值为0 ,方差为仃2 ,而且噪声与图像舡,y ) 第6 页 国防科学技术大学研究生院硕士学位论文 互不相关。 则受到噪声干扰后的图像为: g ( x ,y ) = f ( x ,y ) + p ( 五y ) ( 2 2 ) 经邻域平均处理后的图像为: g ( 训) = 专州,j ) + 专p ( f ,歹) ( 2 3 ) a ( ,。j ) e sa ( f ,) e s 处理后残余噪声的平均值为: 研专e ( i ,j f ) 】= o ( 2 4 ) o 、( f 。j ) e s 残余噪声的方差为: d 咳1 。磊s 啦朋2 壶矿( 2 - - 5 ) 上式表明:邻域平均滤波处理后,残余噪声的方差减少为原来的1 k 。 在邻域平均滤波的过程中,对邻域的选取通常有“4 邻域 和“8 邻域 两种, 然而也可以根据实际需要选取合适的邻域大小。 邻域平均滤波使得图像中的目标轮廓或细节特征变得模糊。其处理效果如图 2 1 和图2 2 ,爹“_ ,。,。+ ? _ , , 。,。 图2 2 邻域平均滤波后公式图像 图2 1 为受到椒盐噪声和白噪声干扰的图像,图2 2 为采用邻域平均滤波后得 到的图像,其中采用8 邻域作为滤波器参数。通过对比两幅图可以看出,滤波后 噪声明显减少,但同时图像的细节也变得模糊。 第7 页 国防科学技术大学研究生院硕士学位论文 2 1 2 中值滤波法 中值滤波【5 】是一种非线性的滤波方法,该方法在实际计算过程中并不需要图像 的统计特征,不需要计算均值或方差,使用起来较为方便。 中值滤波的思路是,首先选取奇数个像素点作为一个滤波窗口,在窗口内比 较各个像素点的灰度值,按灰度值的顺序对所有像素点进行排序,然后选择其中 问值,并用它来代替窗口中心像素点的灰度值。 该方法的原理在于,图像中大部分的数据是以面积相对较大的“图像块 形 式存在的,而噪声则是以那些面积相对较小的“孤立点”的形式存在的,因此通 过上面描述的方法进行滤波可以对面积有限的孤立点进行消除,而对于图像数据 本身不会产生太多影响。 中值滤波效果如图2 3 和图2 4 所示。其中,前一幅图为受到噪声干扰的图像, 后一幅图为采用中值滤波处理后得到的图像,这里滤波器窗口选择3 3 的矩形窗 口。 通过对比两幅图可以看出,滤波后噪声点明显减少,同时图像的细节和边缘 特性得到了较好的保持。然而,对于图像中某些较为细小的部分,滤波后却破坏 了笔划的连通性,另外中值滤波对白噪声的处理效果也并不好。 6 _ _ 一 一 t 图2 4 兀( i - a ,) j = l 中值滤波后图像 第8 页 国防科学技术大学研究生院硕士学位论文 中值滤波方法可以克服在采用诸如最小均方、邻域均值滤波等线性低通滤波 器消除噪声时,会将图像细节模糊掉的缺点。它对于滤除脉冲干扰及图像的扫描 噪声效果较好。但是,对于一些细节多,特别是点、线和尖端较多的图像,中值 滤波效果并不理想。 下面以灰度矩阵形式的图像作为处理对象,对中值滤波的特性及处理效果网 进行具体说明: 1 ) 中值滤波的边缘特性: 图2 5 滤波前图像的像素值 图2 6 滤波后图像的像素值 原始图像具有中间灰度值较大,两侧灰度值小的特点。比较滤波前后两图数 据可以发现,中值滤波对图像的边缘具有保持特性。 2 ) 对孤立点的消除作用: l l 1 5 1 l l l l l 1 8 l i 图2 7 滤波前图像的像素值 l 2 5 l 1 l l 第9 页 国防科学技术大学研究生院硕士学位论文 0 l l l l 0 lili】 llli】 llil i llil】 liill llll】 图2 8 滤波后图像的像素值 0 1 1 1 l l 0 原始图像中存在3 个灰度值较大的孤立像素点。比较滤波前后两图数据, 以发现中值滤波可以有效去除图像中的孤立点。 3 ) 对高斯白噪声处理失效: 0 i 0 5 0 1 0 0 0 0 1 0 0 0 0 0 8 5 5 7 1 0 0 0 0 1 0 0 0 0 0 7 i 8 7 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 8 4 7 0 i i l l l l 图2 9 原始图像的像素值 0 7 1 1 1 0 9 8 3 7 0 9 2 6 1 o 8 1 1 4 1 0 0 0 0 1 0 0 0 0 0 8 7 7 8 0 8 1 0 7 0 9 4 4 9 1 0 0 0 0 0 8 0 9 0 0 7 3 1 4 0 9 7 3 2 0 9 8 融 i 0 0 0 0 0 8 6 6 8 0 9 6 6 5 0 9 0 2 8 0 9 8 2 3 1 0 0 0 0 0 8 6 4 4 0 6 9 8 t 1 0 0 0 0 0 7 9 8 0 图2 1 0 叠加白噪声后的图像的像素值 ( 噪声的均值为0 ,方差为0 0 5 ) 1 0 0 0 0 0 8 5 9 7 1 0 0 0 0 i 0 0 0 0 0 9 5 4 5 0 5 4 0 6 可 图2 1 l 中值滤波后图像的像素值 图2 9 为分布均匀的原始图像,图2 1 0 是在原始图像上添加高斯白噪声后得 到的图像,而图2 1 l 为对手噪声干扰图像进行中值滤波处理后得到的图像。 对比图2 1 0 与图2 1 l ,显然中值滤波对自噪声没有明显的滤波效果,滤波后 的图像仍然保留了大部分噪声。 第1 0 页 国防科学技术大学研究生院硕士学位论文 2 3 3 混合滤波 如上所述,邻域平均滤波器和中值滤波器有着各自的滤波特性,前者适合处 理受白噪声干扰以及细节较多的图像,而后者则适合用来去除孤立点、线干扰以 及椒盐噪声等颗粒状的干扰。 由于印刷体数学公式识别中遇到的噪声主要包括均匀的图片背景噪声和比公 式细小的少量的孤立点或细线条,针对这一实际情况,本文混合使用中值滤波和 邻域平均滤波两种滤波方法。 。 在混合滤波方法中,利用中值滤波消除图像中的孤立点、线干扰;利用邻域 平均滤波器去除白噪声干扰。通过这两种滤波器的联合处理,再对图像进行二值 化变换即可除去大部分的干扰,得到较为满意的效果。 事实上,在对公式图像进行预处理的过程中,邻域平均滤波的作用不仅仅在 于消除均匀白噪声。通过邻域平均滤波可以得到模糊化的图像,模糊过程使得图 像中干扰像素的灰度值变化程度大于公式字符灰度值的变化,因此两者之间的灰 度值差别变得更加明显。这样在进行其后的二值化操作( 具体内容见2 2 节) 时, 通过适当的阈值选取,可以在保留公式字符的同时去除干扰,这样既可以实现滤 波增强作用,又不会影响字符笔划的连通特性。 2 2 公式图像二值化- 、,剐孙_ l 邑r u 2 2 1灰度图像二值化原理 二值化又称为灰度分划或阈值分割,图像的二值化处理就是通过适当的阀值 选取对像素点进行划分,将原灰度图像上灰度值低于该阂值的点的灰度置为0 ,而 将高于该阈值的点的灰度值置为1 ,也就是将整个图像呈现出明显的黑白效果。 在数字图像处理中,二值图像占有非常重要的地位,以二值图像处理实现而 构成的系统很多,要进行二值图像的处理与分析,首先要把灰度图像二值化,这 样在对图像做进一步处理时,图像的集合性质只与像素值为o 或1 的点的位置有 关,而不再涉及像素的多级值,使处理变得简单,进而减少数据的处理和压缩量。 实际应用中采用的二值化方法【7 】彳艮多,这里将其归为4 种主要类型,一种是阈 值固定不变的全局阈值法,一种是变化阈值局部阈值法,一种是自适应的动态阈 值法,另一种是其他的扩展方法。 1 ) 全局阈值法 全局阈值法【8 】是根据图像的直方图或灰度空间分布确定一个阈值,并以此对整 幅图进行划分。其中全局阈值法又可分为基于点的阈值法和基于区域的阈值法。 阈值分割法的结果很大程度上依赖于对阈值的选择,因此该方法的关键是如何选 第1 1 页 国防科学技术大学研究生院硕士学位论文 m 择合适的阂值。 全局闽值法实现较为简单,对于目标和背景明显分离、直方图分布呈双峰的 图像效果较好,但它不能兼顾图像各处,无法克服突发噪声和图像阴影等的影响, 对于对比度小的图像容易丢失边缘信息,适用于图像内部区分较为明显,特征分 布较为均匀的情况; 典型的全局阈值方法包括平均灰度值方法、o s t u 方法、最大熵方法 9 1 等。 2 ) 局部阈值法 局部阈值法【7 】【1 0 】根据不同的应用情况,首先将图像划分为若干子块,然后分别 为每个子块选取适当的阈值进行划分。局部阈值法一般用于识别干扰比较严重、 品质较差的图像,较整体阈值方法有更广泛的应用,但其算法复杂、处理速度较 慢。比较典型的有多阈值的梯度强度法、基于纹理图像的方法、最大方差法等。 3 ) 动态阈值法 动态阈值法【1 1 1 【1 2 1i n s 】阈值的选择不仅取决于像素阈值以及其邻域像素的灰度 值,并且与该像素点的坐标位置有关。动态阈值法的时间复杂度和空间复杂度比 较大,它适合处理细节较为丰富的图像,并且具有较好的抗噪声效果,能够处理 品质较差的图像。 j ) 其它扩展方法 k r l l e a n s 法【1 4 l ;d i t h e r 矩阵法;2 d - - o t s u 1 5 】法等。 2 2 2 大津法图像二值化原理 大津法( 即o t s u 法) 又称“最大类间方差法,它是由日本学者大津展之在1 9 7 9 年提出来,由此得名。该方法是在判决分析的基础推导出来的,是一种基于一维 灰度直方图的自动阈值分割法。大津法是基于整幅图像的统计特性,来实现阈值 自动选取的。其基本原理是首先用某一灰度值将图像分割成两部分,分别计算这 两类的像素点数和灰度平均值,然后计算它们的类间方差。当被分割成的两类类 间方差最大时,此灰度值就作为图像二值化处理的阈值。 大津法计算简单,使用范围广,不论图像的直方图有无明显的双峰,大多数 情况下都能得到较满意的结果,虽然不是最佳的,却是最为稳定的一种方法,因 而应用十分广泛。 此方法的不足之处在于:若目标与背景之间灰度差不明显,可能出现大块黑 色区域,甚至丢失整幅图像的信息:当图像中有断迹现象或者背景有一定噪声时, 可能无法得到预期效果。 考虑到本文实际情况,通过滤波处理后的图片背景和公式字符之问灰度对比 较为明显,并且图像的细节并不复杂,另外,综合考虑运算量及稳定性等因素,采 第1 2 页 国防科学技术大学研究生院硕士学位论文 用o t s u 法。 o t s u 二值化算法的具体描述如下 t 6 1 : 设数字图像的灰度级为g ( 1 ,2 ,l ) ,灰度级i 的所有像素个数用z 表 示,像素总数为n ,则有= i - i z 。图像点灰度级为i 的概率为z5 努,则有: 霉o ,p = 1 ( 2 6 ) 通过灰度级阈值t 将图像中的点划分为两类,c o 和c l 。其中, c o = 1 ,2 ,吩,( 2 - - 7 ) q = 0 + 1 ,t + 2 ,l ) ( 2 - - 8 ) 这两类点出现的概率分别为: w o = e , ( c o ) - - 只= 川) ( 2 9 ) 嘲= p ( q ) = 名= 1 - w ( t ) ( 2 1 0 ) 各类的灰度均值分别为: = 善t =百ip(2-11ie,(ilco)11)i=l = = 了 扭t”o = 毫刚i c l ) = 壹鲁= 篙( 2 - - 1 2 i = t + l j t , ,= f “ 一r 7 v , 其中,吻= 材( 三) = 僻,u ( t ) = z i p ,w p ) = p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论