




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 OCR是“光学字符识别”(Optical Character Recognition)的英文缩写。扫描仪等光学输入设备可以将各种报刊、书籍、文稿、票据及其它印刷品的文字转化为图像信息,它要依赖扫描仪等硬件。而利用OCR文字识别技术却可以将图像信息转化为可以进行编辑的文字,是一种计算机输入技术,主要是通过软件实现。 OCR文字识别软件是与扫描仪配套的主要软件,属于非键盘输入范畴。近几年随着扫描仪逐渐普及和OCR技术的日趋完善,OCR己成为大多数扫描仪用户的得力助手,扫描仪厂商现在已把专业的OCR软件搭配自己生产的扫描仪出售。 中文OCR是针对汉字信息高速输入计算机的问题,致力于解决困扰汉字使用
2、者低速信息输入与高速信息处理的矛盾,从而提高整个计算机系统的效率,比手工输入要快几十倍。此时,用户只需要用扫描仪将整页的文本或图像扫描输入到计算机,OCR软件就会自动产生可以编辑的文本文件。 一、OCR 简介二、OCR 的基本原理和工作流程(一) OCR 的基本原理 简单地说,就是通过扫描仪将一份文稿的图像输入给计算机(或者说是计算机通过扫描仪获取图像),然后由OCR软件取出每个文字的图像,并将其转换成文字的编码。其具体工作过程是,计算机OCR软件接受文稿的数字图像,然后利用各种模式识别算法分析文字形态特征,判断出文字的标准编码,并按通用格式存储为计算机的文本文件格式。其中文字识别是OCR的核
3、心技术。(二) OCR 的工作流程二、OCR 的基本原理和工作流程 现在几乎所有的平板式扫描仪都捆绑了OCR 软件,多数机型的随机软件中不仅有中文版OCR 还有英文版OCR,其实大部分中文版OCR 都兼有识别英文的功能。目前市场比较成熟的中文版OCR 软件有清华文通、尚书、蒙恬等。这里以清华TH-OCR XP为例,介绍OCR软件的使用。 清华TH-OCR XP 能够适应超过一百种Windows字体,识别全部简体国标一二级6763个字符,繁体13000多字符。在文档识别过程中,对于每个区域可以设定不同的字体,例如一篇文档中的大段英文可以设为英文识别,以提高识别率。TH-OCR XP 支持多任务,
4、可以在识别一篇文章的同时扫描或编辑其它文档。 三 、清华 TH-OCR XP 软件的使用(一)OCR 软件简介 在所购买紫光扫描仪的随机光盘中,有清华 TH-OCR XP 的安装程序。打开相应的文件夹,双击 setup.exe 文件开始安装,首先进行语言设置,如下图所示(实际安装)。三 、清华 TH-OCR XP 软件的使用(二)清华 TH-OCR XP 软件的安装 清华TH-OCR XP的窗口如其他Windows程序窗口一样,简洁明快、布局合理、容易上手。窗口分为标题栏、菜单栏、工具栏、工程管理区、图像和识别操作区、状态栏,如下图所示(结合实际窗口介绍)。 三 、清华 TH-OCR XP 软
5、件的使用(三)清华 TH-OCR XP 的窗口 完整的文字识别操作过程包括:设置、扫描、版面处理、识别、编辑修改、输出六个基本步骤,如下图所示。三 、清华 TH-OCR XP 软件的使用(四)清华 TH-OCR XP 软件使用的基本流程 说明:为了方便,这里使用已经扫描好的图片供OCR 。实际操作时,也可以在OCR软件中扫描文稿并直接加载扫描获得的图片,然后进行识别。三 、清华 TH-OCR XP 软件的使用(五)实际使用清华 TH-OCR XP 软件(处理几个文件)1 打开清华 TH-OCR XP 软件,并装入要识别的图片(或通过扫描获得)。2 进行版面处理,包括倾斜校正、版面处理等。3 进
6、行识别。4 后处理。5 导出。 在使用OCR软件进行文字识别时,必须认真学习OCR有关知识和理论,特别是系统设置、版面处理和编辑修改的理解和具体操作,并结合实践不断积累经验,摸索出切实可行的解决方案。下面是一些有价值的提示,要认真理解和体会。 1在扫描仪中一定要放正原稿,不能位置倾斜,否则扫描出来的原稿也会是倾斜的,从而造成OCR软件无法正确识别。另外,在放置扫描原稿时,把扫描的文字材料一定要摆放在扫描起始线正中,以最大限度地减小由于光学透镜导致的失真。 2选择适当的分辨力也是很重要的,一般来说,使用200300dpi的分辨力进行扫描比较合适,如果分辨力太高也没有太大意义,只会增加扫描时间和文
7、件的大小。 3在扫描识别报纸或其他半透明文稿时,背面的文字透过纸张混淆文字字形,对识别会造成很大的障碍。遇到该类扫描,可以在扫描原稿的背面附盖一张黑纸,并增加扫描对比度,即可减少背面模糊字体的影响,提高识别正确率。三 、进行文字识别时的注意事项 4对扫描后生成的图像,用图像处理软件擦掉图像污点,包括原来版面中的不需要识别的插图、分隔线等,使文字图像中除了文字没有一点多余的东西,这可以大提高识别率并减少识别后的修改工作。 5版面分析。如果需要识别的原稿包含多种字号、多种字体的文字、多个文本区块、图文混排等复杂版面,就需要进行版面分析,将要识别的内容划分为一个块,这样OCR软件才能正确识别。 6多页批识别功能 。若需识别的文章有多页组成,使用OCR的批量识别功能十分方便。首先将多页文件以TIF的格式按页面顺序依次扫描后存盘。而后再打开它
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 制盐公司基金管理办法
- 冬天暖棚蜜蜂管理办法
- 公益互助基金管理办法
- 单片机驱动电梯控制系统设计
- 畜禽肌内脂肪沉积与代谢调控基因的研究进展
- 民企退休人员管理办法
- 体检信息保密管理办法
- 目标设定:投资发展部绩效考核指标
- 北京首个露营管理办法
- 工程突发事件应急处理
- 湖南长沙长郡中学高一分班考试化学试卷
- 衡水市武强县事业单位考试历年真题
- 髋臼周围截骨术治疗成人髋关节发育不良
- 各科门诊诊所技术操作规程
- 新教材人教版高中化学选择性必修1全册课时练习及章末检测含解析
- 浙江省建设工程施工费用定额相关费用计算程序表及费用取费费率换算表【实用文档】doc
- 《Windows网络操作系统》教学教案
- GB/T 23280-2009开式压力机精度
- GB/T 20041.21-2008电缆管理用导管系统第21部分:刚性导管系统的特殊要求
- GB/T 17213.4-2015工业过程控制阀第4部分:检验和例行试验
- 教师师风师德培训 课件
评论
0/150
提交评论