




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 基于图像模式识别的数字图书资料修复及应用 王帆摘 要:图书内容的电子化和网络化发展就是图书资料的数字化过程,图书资料实现了数字化之后,就会存储在专业的数据库服务系统中,读者只需要通过网络就可以在线阅读或者下载,文章阐述了图形模式识别技术在数字图书资料修复中的应用情况,即通过对图书资料进行扫描、二值化和图像的重建等方法对不清晰的图形进行自动修复,最终实现数字图书资料的数字化处理。Key:图像模式识别;数字图书;资料修复;1图书数字化处理的基本要求图书资料的数字化是图书内容的电子化和网络化,数字化的图书资料脱离了传统的媒介载体纸质材料。图书经数字化处理后,存储于专业管理的数据库服务器中,读者通过
2、网络进行在线阅读。在我国,当前以“清华同方”、“维普资讯”的学术文献数据库的建立与使用为代表;大量的传统图书已被制成以光盘为主要存贮形式的电子图书,如书生之家;“数字图书馆”(“虚拟图书馆”)的建设和发展等都离不开图书的数字化处理这一关键技术。虽然这两种媒介(网络媒介和纸质媒介)表达文献的方式不一样,但都是同样内容的呈现,图书数字化的基本要求是经处理后,电子图书能客观地再现纸质图书的原有真实内容。2传统修复过程中存在的问题对图书资料进行数字化处理,首先要进行数据收集,即将相关的数据输入计算机;而后,会显示出一个长方形方框;对这个长方形方框进行图像预处理之后,就要对区域内的图像进行模式识别。通过
3、这种方法能将图书资料中的文字清晰而又准确地反映出来,为图书资料的修复提供参考意见。这一系列过程完成之后,就可以实现图书和档案的数字化。目前,二值化方法是图书数字化中使用最多的方法。因为在数字图书资料的修复过程中,需要对大量的数据进行处理,而使用二值化的方法就能满足这种需求。二值化方法具有工作效率高的特点,这也是其最大的优势。数字图书资料经过二值化的处理之后,所得到图像的对比度会高于原有图书资料中的图像,给识别和阅读提供方便的同时也会带来一些新的问题,例如:二值化处理会使原来图像中本来就不清晰的部分字符变得更加模糊,不能进行准确识别。这个问题不能解决,就会给图书资料的数字化工作带来巨大的负面影响
4、。如果连数字化处理的基本要求都无法达到,就会迫使图书管理人员放弃对这一部分资料进行修复。此外,通过图像采集系统摄入的图像通常都会自动生成BMP格式并存放在计算机中,但计算机显示出来的却是灰度图像。在各种因素的影响下,图像会出现模糊,笔画断开、粗细不均衡等现象,而且图像中大量孤立噪声的存在,也会使提取字符的难度加大。针对数字图书资料修复中存在的这些问题,笔者在传统二值化处理的基础上,引用了局部二值化的处理方法,主要是为了对不清晰的数字图书资料进行修复,从而实现图书资料的数字化。3模式识別技术的原理及方法分析模式识别指的是对表征现象或事物的各种形式的信息进行分析和处理,以达到对现象或事物进行描述、
5、辨认、分类及解释的一系列过程。3.1局部二值化的原理局部二值化就是将大块图像分割为若干个小块图像,分别对各个小图像进行二值化,进而形成完整的二值化图像。讲二值化的问题分解为“分割”、“块副二值化”及“合并”三个步骤来进行,以达到对图像进行二值化处理的目的。3.2图像分块的确定在图像分割时,将图像分割成正方形和矩形,首先将图像进行若干正方形的分割,其余的部分也就形成了若干的小矩形,阈值选取方法的普适性与时间开销是息息相关的。4数字图书资料的修复方法图书资料的数字化过程中,经扫描得到的图像要经过图像预处理、提取图像中的字符信息、图像局部的二值化处理等过程,图像局部的二值化是图书资料修复过程的关键。
6、4.1图像预处理在图书或档案数字化过程中,由于扫描系统(如CCD摄像头)、光电转换装置、工作环境(光)等因素,常常导致图像不均匀、对比度不足等问题,使图像的清晰度差、还原度和可视性降低;另外由于光电敏感元件载荷粒子随机运动所产生的噪声、传输通道的干扰等原因,数码化后的灰度图像含有一定的噪声,因此,在图书、档案图像二值化前,要对图像进行预处理。当前主要采取的措施有:灰度变换和平滑滤波。灰度变换是对图像像素灰度值进行修正,实现图像处理后成像均匀,对比度饱和;平滑滤波是在图像处理中,在平滑图像中的加性噪声。4.2图像中字符信息的提取采集系统摄入的是24位的灰度图像,其有224(16777216)个灰
7、度等级。图像上的点(x,y)的灰度值设为f(x,y)。对此灰度图像进行二值化就是将图像转换为只有两个等级(黑、白)的二值图像。依据图像区域的相似性和不连续性,取图像灰度平均值为阈值N,二值化处理可表示为:小的点,其值设置为1。像素的集合为背景区域;小于或等于此阈值N的像素设置为黑,像素值为1,这样就得到了只有黑白两色的二值图像,将图书档案中的字符信息就凸显了出来。数字图书资料的背景色一般为浅色,字符为深色,多数情况下,纸质图书资料的背景为白色、字符为黑色,因此,采用纸质图书资料的24位位图,像素点的亮度作为灰度等级值。通常采用图像的二值化方法是把整个图像亮度的平均值N作为阈值。当局部颜色较浅时
8、,字符信息和背景的亮度都大于N,二值化后,这部分的值都为0,全部都将被视为背景上的点,这样很容易丢失图书资料中退色的部分信息。为了解决这个问题,文献提出了图像全局均值和局部方差方法、文献提出了小波分析法,在文献中,先采用开关中值滤波消除噪声干扰,然后利用迭代算法实现图像的二值化分割。这些方法都涉及复杂的计算,在此采用局部二值化方法,取阈值为各个块亮度的均值。3.3二值化图像的再处理图像局部二值化后,得到了各个小块图像的“值点”,这样避免了因某个小块由于颜色淡而整体无“值点”的情况,但是同时产生了一个新问题,这样的二值化图像中含有较多的噪音,在进行图像重建之前必须去除。平滑化处理可以去除噪音,在
9、此采用了文献的高斯滤波方法进行平滑化处理。图像重构。通过前面的处理,得到完整的原始数字图书资料的二值化图像,可以构造出增强字符信息的图像文件,还原出比原来数字图书资料效果好的图像,便于阅读和处理的数字图书资料,可以构造其BMP位图文件,也可以打印出比原来效果好的纸质图书资料,达到了修复有损数字图书资料的目的。模式识别。除了用重建数字图书资料的图像的方法之外,还可以根据实际问题的需要进行后继处理,如文献中,使用模式识别方法分割字符、归类识别字符、手工修正、重新输出原图书资料的内容,对表格字符的识别和图像重构可参见文献。总结:模式识别技术在现代图书信息和档案处理中有着广泛的用途,文章阐述了图形模式识别技术在数字图书资料修复中的应用情况,即通过对图书资料进行扫描、二值化和图像的重建等方法对不清晰的图形进行自动修复,最终实现数字图书资料的数字化处理。Reference:1吕俊哲.图像二值化算法研究及其实现J.科技情报开发与经济,2004(12).2贾昔玲.基于图像模式识别的数字图书资料修复及应用研究J.数字技术与应用,2010(10).3化明艳.高
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度工地施工安全培训责任免除协议
- 2025年度城市绿化景观土地使用权转让与维护合同
- 2025年度大学实习生实习期间权益保护与职业规划合同
- 2025年度婚嫁婚前财产继承与分配协议
- 健身房装修合同标准
- 2025年度矿山地质灾害防治投资合作协议
- 2025年度宅基地使用权转让与农村旅游基础设施建设合同
- 2025年度山林林业生态补偿租赁合同
- 2025年度家具加工厂转让协议
- 2025年湖北生态工程职业技术学院单招职业技能测试题库及答案1套
- 【课件】Unit+6+section+B+1a~2b+课件人教版七年级英语上册
- 牛买卖合同范本
- 钉钉操作指南培训教育课件
- 人音版九下级下册音乐 5.2.2报花名 教案
- 金庸人物课件
- 2024年农业农村基础知识考试题库(附答案)
- 相互批评意见500条【5篇】
- 再生资源门店加盟协议书
- 2023新一代变电站二次系统技术规范第3部分:综合应用主机
- 2024年高考真题-英语(新高考Ⅰ卷) 含解析
- TSHJX 061-2024 上海市域铁路工程施工监测技术规范
评论
0/150
提交评论