数字图像的文件格式实用教案_第1页
数字图像的文件格式实用教案_第2页
数字图像的文件格式实用教案_第3页
数字图像的文件格式实用教案_第4页
数字图像的文件格式实用教案_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章 古籍文本(wnbn)的采集扫描扫描(somio)(somio)技术技术第1页/共49页第一页,共49页。扫描仪 扫描仪是电脑的一种输入设备,它根据光电转换原理将图片、照片、胶片以及文稿资料等书面材料或实物的外观扫描后输入到电脑。 扫描仪作为光电、机械一体化的高科技产品,自问世以来以其独特的数字化“图像”采集能力,低廉的价格以及优良的性能,得到了迅速的发展和广泛的普及。 扫描仪已成为继键盘、鼠标之后(zhhu)(zhhu)的第三件最主要的计算机输入设备。第2页/共49页第二页,共49页。扫描仪的组成(z chn)结构 从外型上看,扫描仪的整体感觉十分简洁、紧凑,但其内部结构却相当复杂:不

2、仅有复杂的电子线路控制,而且还包含精密( jngm)的光学成像器件,以及设计精巧的机械传动装置。它们的巧妙结合构成了扫描仪独特的工作方式。 第3页/共49页第三页,共49页。扫描仪的组成(z chn)结构第4页/共49页第四页,共49页。扫描仪的组成(z chn)结构 1上盖 2原稿台 3光学(gungxu)成像部分 4光电转换部分 5机械传动装置第5页/共49页第五页,共49页。上盖 上盖主要是将要扫描的原稿压紧,以防止扫描灯光线泄露。 目前随着三维实物扫描功能的逐渐普及,为了能够更加方便、更高质量地扫描三维实物,许多(xdu)扫描仪在上盖的设计上都“绞尽脑汁” 。 第6页/共49页第六页,

3、共49页。原稿(yungo)台 原稿台主要是用来放置扫描原稿的地方,中间为透明玻璃,称为(chn wi)稿台玻璃。 稿台玻璃的损坏会影响扫描仪内部的其他器件(如成像部件),尤其是稿台玻璃的破损会使灰尘及杂质直接侵入扫描仪内部,使扫描品质下降,严重时会造成扫描仪的损坏。第7页/共49页第七页,共49页。光学(gungxu)成像部分 光学成像部分俗称扫描(somio)头,即图像信息读取部分,是扫描(somio)仪的核心部件。包括部件:灯管、反光镜、镜头以及电荷藕合器件(CCD)。第8页/共49页第八页,共49页。光电转换(zhunhun)部分 光电转换部分是指扫描仪内部的主板,虽然扫描仪的光电转换

4、部分主板就这么一小块,但它却是扫描仪的心脏。主要完成光信号的处理,以及控制各部件(bjin)协调一致地工作。第9页/共49页第九页,共49页。机械( jxi)传动装置 机械传动部分主要包括步进电机、驱动皮带、滑动(hudng)导轨和齿轮组如图。 第10页/共49页第十页,共49页。扫描仪的工作(gngzu)原理 扫描仪的原理就跟我们平时照镜子一样,当它扫描图像时,光线从物体(wt)反射回来,通过透镜射进感光元件,将光线转换成模拟信号,再将模拟电压信号转换为数字信号,最后传输到计算机里。第11页/共49页第十一页,共49页。扫描仪的分类(fn li)(fn li) 按扫描原理分:以CCDCCD为

5、核心(hxn)(hxn)的平板式扫描仪、手持式扫描仪、光电倍增管为核心(hxn)(hxn)的滚筒式扫描仪 按扫描图像幅面的大小分:小幅面的手持式扫描仪、中等幅面的台式扫描仪、大幅面的工程图扫描仪 按扫描图稿的介质分:反射式(纸材料)扫描仪、透射式(胶片)扫描仪、可扫反射稿又可扫透射稿多用途扫描仪 按用途分:用于各种图稿输入的通用型扫描仪、用于特殊图像输入的专用型扫描仪、加条码读入器、卡片阅读机等等。扫描仪有很多种,按不同的标准可分成(fn chn)不同的类型第12页/共49页第十二页,共49页。各类扫描仪手持式扫描仪诞生于1987年,手持式扫描仪扫描幅面窄,难于操作和捕获精确图像,扫描效果也差

6、。96年后相继停产。馈纸式扫描仪诞生于20世纪90年代初,随着平板式扫描仪价格的下降,这类产品也于1997年后退出了历史舞台。鼓式扫描仪又称滚筒式扫描仪,在专业印刷排版领域应用最广泛,其感光器件是光电倍增管,性能远远高于CCD类扫描仪。平板式扫描仪又称平台式扫描仪,这种扫描仪诞生于1984年,是目前办公用扫描仪的主流产品,扫描幅面一般为A4或者A3大幅面扫描仪一般指扫描幅面为A1、A0幅面的扫描仪,又称工程图纸扫描仪。底片扫描仪又称胶片扫描仪,英寸甚至更大,光学分辨率一般可以达到2700dpi的水平,更高精度的产品则属于专业级产品。 第13页/共49页第十三页,共49页。各类扫描仪的特点(td

7、in)(tdin)笔式扫描仪外形与一支笔相似,扫描宽度约四号汉字大小,使用时贴在纸上一行一行的扫描,主要用于文字识别。 条码扫描仪又称为条码阅读器,其中一种与笔式扫描仪外形相似,主要用于条码的扫描识别,不能用来扫描文字和图像。实物扫描仪其结构原理类似于数码相机,它拥有支架和扫描平台,分辨率远远高于市场上常见的数码相机,只能拍摄静态物体,扫描一幅图像所花费的时间与扫描仪相当。3D扫描仪结构原理也与传统的扫描仪完全不同,生成的文件是能够精确描述物体三维结构的一系列坐标数据,输入3DMAX中即可完整地还原出物体的3D模型,无彩色和黑白之分。 第14页/共49页第十四页,共49页。各类扫描仪第15页/

8、共49页第十五页,共49页。各类扫描仪第16页/共49页第十六页,共49页。各类扫描仪第17页/共49页第十七页,共49页。扫描仪的连接(linji) 扫描仪与计算机之间采用的接口类型 EPP接口。 就是我们常说的打印口(并口)。扫描仪速度较慢,扫描质量稍差,但安装方便,兼容性好,大多采用EPP接口的扫描仪后部(hu b)都有两个接口,一个接计算机,另一个接其他的并口设备(一般是打印机)。 第18页/共49页第十八页,共49页。扫描仪的分类(fn li) 2、SCSI接口。SCSI接口的扫描仪需要一块SCSI卡将扫描仪与计算机相连接(所需的SCSI卡一般在扫描仪中自带) 优点(yudin)是传

9、输速度较快,扫描质量高; 缺点是需要开机箱安装一块SCSI卡,要占用一个ISA或PCI槽以及相应的中断,安装相对复杂,有可能和其他配件发生冲突。 第19页/共49页第十九页,共49页。扫描仪的分类(fn li) 3、USB接口( ji ku)。现在普遍采用的接口( ji ku)形式,现在的主板都带有USB接口( ji ku)。 优点是速度较EPP快,可带电插拔,即插即用,较新的USB扫描仪可直接由USB口取电,无须另加电源。 第20页/共49页第二十页,共49页。扫描仪的技术指标 1、扫描精度 就是我们常说的分辨率,是衡量一台扫描仪档次高低的重要参数,它所体现的是扫描仪在扫描时所能达到的精细程

10、度。 扫描精度通常以DPI(分辨率)表示,DPI值越大,则扫描仪扫描的图象越精细。 扫描分辨率分为光学分辨率和最大分辨率两类,前者是硬件形式的,后者是软件形式的。 光学分辨率是指扫描仪的光学系统可以(ky)采集的实际信息量,也就是扫描仪的感光元件-CCD的分辨率。它的表示方式是用垂直分辨率和水平分辨率相乘表示。 DPI(dot per inch)意思是每英寸的象素点数。第21页/共49页第二十一页,共49页。扫描仪的技术指标 2、色彩位数 色彩位数表明了扫描仪在识别色彩方面的能力和能够描述的颜色(yns)范围,它决定了颜色(yns)还原的真实程度,色彩位数越大,扫描的效果越好、越逼真,扫描过程

11、中的失真就越少。从24位(bit)到48位不等,它决定了颜色(yns)还原的真实程度。24位的色深就是通常所说的“真彩色”。 3、灰度级 扫描仪的灰度级水平反映了扫描时提供由暗到亮层次范围的能力,具体说就是扫描仪从纯黑到纯白之间平滑过渡的能力。灰度级位数越大,相对来说扫描结果的层次就越丰富、效果越好。常见有8、10、12位(bit)3种灰阶度。第22页/共49页第二十二页,共49页。扫描仪的技术指标 感光元件是扫描图像的拾取设备,相当于人的眼球,其重要性不言而喻. 目前扫描仪所使用的感光器件有三种:光电倍增管,电荷偶合器(CCD),接触式感光器件(CIS或LIDE)。 CCD(Charge C

12、oupled Device,电荷耦合器件):是一种半导体芯片(xn pin)。使用CCD作为感光元件的扫描仪,需要通过由一系列透镜、反射镜等组成的光学系统将图像传送到CCD芯片(xn pin)上,所以体积一般较大。分辨率可以达到300 1200 或更高. CIS(Contact Image Sensor,接触式传感器件):是一种光电转换器件,它采用一列内置的LED发光二极管照明,直接接触在原稿表面读取图像数据。采用CIS技术的扫描仪没有附加的光学部件,移动部分又轻又小,整个扫描仪可以做得非常轻薄。分辨率为300 600. 第23页/共49页第二十三页,共49页。扫描仪的技术指标 4、扫描幅面。

13、是指扫描仪所能扫描的范围,也就是纸张的大小,一般有A4、A4+、A3等。 5、兼容性。几乎所有的扫描仪都可用于PC,很多SCSI和USB扫描仪标明(biomng)兼容MAC(苹果)。 6、系统环境。扫描仪工作是需要驱动程序的,这些驱动程序能在哪些系统下使用,比如WIN98、WIN2000、WINNT、XP等,另外有些SCSI和USB扫描仪还有FOR MAC (苹果)OS的驱动。 第24页/共49页第二十四页,共49页。扫描仪品牌(pn pi)第25页/共49页第二十五页,共49页。第26页/共49页第二十六页,共49页。古籍(gj)专用扫描仪零边距扫描仪第27页/共49页第二十七页,共49页。

14、古籍(gj)专用扫描仪零边距扫描仪第28页/共49页第二十八页,共49页。扫描仪的应用(yngyng)光学(gungxu)字符识别 (OCR)第29页/共49页第二十九页,共49页。 第30页/共49页第三十页,共49页。 OCR是“光学字符识别”(Optical Character Recognition)的英文缩写。扫描仪等光学输入设备可以将各种报刊、书籍、文稿、票据及其它印刷品的文字转化为图像信息,它要依赖扫描仪等硬件。而利用OCR文字识别技术却可以将图像信息转化为可以进行编辑的文字,是一种计算机输入技术,主要是通过软件实现。 OCR文字识别软件是与扫描仪配套的主要软件,属于(shy)非

15、键盘输入范畴。近几年随着扫描仪逐渐普及和OCR技术的日趋完善,OCR己成为大多数扫描仪用户的得力助手,扫描仪厂商现在已把专业的OCR软件搭配自己生产的扫描仪出售。 中文OCR是针对汉字信息高速输入计算机的问题,致力于解决困扰汉字使用者低速信息输入与高速信息处理的矛盾,从而提高整个计算机系统的效率,比手工输入要快几十倍。此时,用户只需要用扫描仪将整页的文本或图像扫描输入到计算机,OCR软件就会自动产生可以编辑的文本文件。 一、OCR 简介(jin ji)第31页/共49页第三十一页,共49页。二、OCR 的基本原理和工作(gngzu)流程(一) OCR 的基本原理 简单地说,就是通过扫描仪将一份

16、文稿的图像输入给计算机(或者说是计算机通过扫描仪获取图像),然后由OCR软件取出每个文字的图像,并将其转换成文字的编码(bin m)。其具体工作过程是,计算机OCR软件接受文稿的数字图像,然后利用各种模式识别算法分析文字形态特征,判断出文字的标准编码(bin m),并按通用格式存储为计算机的文本文件格式。其中文字识别是OCR的核心技术。第32页/共49页第三十二页,共49页。(二) OCR 的工作(gngzu)流程二、OCR 的基本原理和工作(gngzu)流程第33页/共49页第三十三页,共49页。 常用的OCR软件(run jin) 尚书OCR 方正OCR 紫光OCR 汉王OCR三、常用(c

17、hn yn)OCR 软件第34页/共49页第三十四页,共49页。 现在几乎所有的平板式扫描仪都捆绑了OCR 软件,多数机型的随机软件中不仅有中文版OCR 还有英文版OCR,其实大部分中文版OCR 都兼有识别英文的功能。目前市场比较成熟的中文版OCR 软件有清华文通、尚书、蒙恬、汉王等。这里以清华TH-OCR XP为例,介绍OCR软件的使用。 清华TH-OCR XP 能够适应超过一百种Windows字体,识别全部简体国标一二级6763个字符,繁体13000多字符。在文档识别过程中,对于每个区域可以设定不同的字体,例如一篇文档中的大段(d dun)英文可以设为英文识别,以提高识别率。TH-OCR

18、XP 支持多任务,可以在识别一篇文章的同时扫描或编辑其它文档。 四 、清华(qn hu) TH-OCR XP 软件的使用(一)OCR 软件(run jin)简介 第35页/共49页第三十五页,共49页。 在所购买紫光扫描仪的随机光盘中,有清华 TH-OCR XP 的安装程序。打开相应(xingyng)的文件夹,双击 setup.exe 文件开始安装,首先进行语言设置,如下图所示(实际安装)。四 、清华 TH-OCR XP 软件(run jin)的使用(二)清华 TH-OCR XP 软件(run jin)的安装第36页/共49页第三十六页,共49页。 清华TH-OCR XP的窗口如其他Windo

19、ws程序窗口一样,简洁明快、布局合理、容易上手。窗口分为标题栏、菜单栏、工具栏、工程管理区、图像和识别操作区、状态栏,如下(rxi)图所示(结合实际窗口介绍)。 四 、清华(qn hu) TH-OCR XP 软件的使用(三)清华(qn hu) TH-OCR XP 的窗口第37页/共49页第三十七页,共49页。 完整的文字识别操作过程包括:设置(shzh)、扫描、版面处理、识别、编辑修改、输出六个基本步骤,如下图所示。四 、清华(qn hu) TH-OCR XP 软件的使用(四)清华 TH-OCR XP 软件(run jin)使用的基本流程第38页/共49页第三十八页,共49页。 说明:为了方便

20、,这里使用已经扫描好的图片(tpin)供OCR 。实际操作时,也可以在OCR软件中扫描文稿并直接加载扫描获得的图片(tpin),然后进行识别。四 、清华(qn hu) TH-OCR XP 软件的使用(五)实际使用(shyng)清华 TH-OCR XP 软件(处理几个文件)1 打开清华 TH-OCR XP 软件,并装入要识别的图片(或通过扫描获得)。2 进行版面处理,包括倾斜校正、版面处理等。3 进行识别。4 后处理。5 导出。第39页/共49页第三十九页,共49页。 在使用OCR软件进行文字识别时,必须认真学习OCR有关知识和理论,特别是系统设置、版面处理和编辑修改的理解和具体操作,并结合实践

21、不断积累经验,摸索出切实可行的解决方案。下面是一些有价值的提示,要认真理解和体会。 1在扫描仪中一定要放正原稿,不能位置倾斜,否则扫描出来的原稿也会是倾斜的,从而造成OCR软件无法正确识别。另外,在放置扫描原稿时,把扫描的文字材料一定要摆放在扫描起始线正中,以最大限度地减小由于光学透镜导致的失真。 2选择适当的分辨力也是很重要的,一般来说,使用200300dpi的分辨力进行扫描比较合适,如果分辨力太高也没有太大意义,只会增加扫描时间和文件的大小。 3在扫描识别报纸或其他半透明文稿时,背面(bimin)的文字透过纸张混淆文字字形,对识别会造成很大的障碍。遇到该类扫描,可以在扫描原稿的背面(bim

22、in)附盖一张黑纸,并增加扫描对比度,即可减少背面(bimin)模糊字体的影响,提高识别正确率。四 、进行文字(wnz)识别时的注意事项第40页/共49页第四十页,共49页。 4对扫描后生成的图像,用图像处理软件擦掉图像污点,包括原来版面中的不需要识别的插图、分隔线等,使文字图像中除了文字没有一点多余的东西,这可以大提高识别率并减少识别后的修改工作。 5版面分析。如果需要识别的原稿包含多种字号、多种字体的文字、多个文本(wnbn)区块、图文混排等复杂版面,就需要进行版面分析,将要识别的内容划分为一个块,这样OCR软件才能正确识别。 6多页批识别功能 。若需识别的文章有多页组成,使用OCR的批量识别功能十分方便。首先将多页文件以TIF的格式按页面顺序依次扫描后存盘。而后再打开它们,一次性进行批量识别,好处是速度快,效率高。一般来说,批量识别的文件版面不要太过复杂,文件页数也要根据计算机配置适量控制。另外,在进行大批量文稿扫描时,必须对原稿进行测试,找到最佳的阀值百分比。 四 、进行文字(wnz)识别时的注意事项第41页/共49页第四十一页,共49页。数字图像的文件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论