




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
图像魔术师●汉字OCR发展沿革我国使用汉字的历史源远流长,汉字的识别远比数字、西文要棘手,主要体现在以下三个方面。1.数量庞大2.结构复杂汉字的结构性很强。汉字可以看作是部件的组合,称之为偏旁、部首或字根,是笔画的有意义的组合。笔画和部首的排列组合,构成了结构异常复杂的汉字。3.相似字多很多汉字之间差别很小,有些仅表现为某一个笔画位置或形态的微小变化。这些汉字即使由人来识别也容易出错,机器识别的难度可想而知。●传统汉字OCR原理目前现存大量传统汉字OCR软件的技术线路如下图所示。1.文件管理通过扫描仪、手机、相机等仪器采集需要识别的文字图片。2.图像增强图像增强即是对图像的成像进行修正,特别是手机、相机拍摄的图片,如果不进行修正,将极大地影响文字识别率。处理过程包括灰度化、二值化、几何变换(透视、扭曲、旋转等)、畸变校正、图像增强和光线校正、图像平滑、行字切分等。(1)灰度化我们得到的文字图片大多是彩色的,无疑会有很多干扰信息,对文字识别很不利。通过灰度化处理,将原本由三维描述的像素点映射为一维描述的像素点,可以排除多余的干扰。(2)二值化所谓二值化,就是把灰度值图像信号转化为只有黑和白的二值图像信号,将汉字从图像中分离出来。通常先确定像素的阈值,然后用像素的值和阈值比较,确定这个像素点为1或0。如果阈值太小,保留的信息过多,许多无用信息就会干扰以后的处理;如果阈值太大,则会丢失正常的信息,最终使得文字信息不完整,无法准确识别。(3)行字切分传统OCR主要采用模式匹配来进行汉字识别,所以要将图像中的文字首先切分成行(列),再将单个汉字抠出来,以和模式库中的文字进行比对。3.汉字识别汉字识别的关键是建立一个科学的特征库,通过图像预处理后,提取出汉字的特征,再和特征库进行比对,匹配上就完成了汉字的识别。汉字有哪些特征可供提取呢?(1)结构特征结构特征包括抽取笔画法和松弛匹配法。抽取笔画法是利用汉字的结构信息来进行汉字的联机识别;松弛匹配法是基于全局特征的匹配方法,抽取边界线段,将这些边界线段组成临近线段表,然后用松弛匹配操作,完成边与边的匹配。(2)统计特征①特征点:主要是利用字符点阵中一些有代表性的黑点、白点作为特征来区分不同的字符。特征点包括笔画骨架线的端点、折点、歧点和交点。这个方法能压缩特征库的容量,识别的适应性强、直观性好。②笔段特征:汉字笔画由笔段组成,笔段可以看作是一定方向、长度和宽度的矩形段。利用笔段之间的关系组成特征对汉字进行识别,对多体汉字的识别效果较好。当然,汉字的多样性和图像的不同特点决定了在汉字识别过程中,提取特征要根据实际情况来选择或者组合几个特征,以达到更好的效果。目前的OCR都无法达到百分之百正确识别,通常识别完以后,都要提供一些方法对文字进行编辑修改。一般OCR软件都会提供对照修改或自动修改功能。对照修改就是观察识别错误的文字,将光标定位到错误处,界面会同时显示对应的图像位置,从而根据图像来修改文字。自动修改则是基于语义理解,结合上下文信息进行校正。语义理解是人工智能领域一个亟待突破的难点,目前的自动修改还只能作为一个参考来使用。通过编辑的文字最终可以导出到文本文件(TXT)或RTF文档中。如果只需要文字进行排版,可以导出到文本文件中,如果想保留更多的格式信息,则RTF文档是一个不错的选择,从而可以在Word等软件中进一步编辑。●PC机实用OCR软件指南随着人工智能技术在OCR领域的普及,深度学习使得OCR从传统的印刷体光学字符识别走向了场景文字识别。一些开源小软件通过调用互联网大公司提供的接口提供OCR服务,能非常方便地解决某些领域的难题。1.汉王PDFOCR汉王集团除了OCR搭上了人工智能的快车,在手写识别、自然语言识别、人脸及生物特征识别等方面也得到了很大的发展。OCR方面,除了印刷体字符识别外,还在手写体字符识别、自然场景拍照识别、公式字符识别、复杂表格识别、卡片识别、票据识别等方面具有一定的优势。如果我们需要把大量纸质文件数字化,汉王PDFOCR还是非常快捷方便的。①输入:点击“文件”菜单,可以直接打开图像文件,或者选择联机的扫描仪扫描纸质文件。③版面分析:在“识别”菜单下有“版面分析”功能(快捷键F5),对图像中的文字进行切片。如果识别有错误,可以手工拖动红框进行修改。如果版面比较复杂,可以点击选中相应的板块,在“识别-修改栏属性”中设置相应的栏目为图像、表格、横排、竖排,为接下来的文字识别提供更好的识别率。④文字识别:单击菜单“识别-开始识别”(快捷键F8),就会在中间栏显示识别结果,速度很快。⑥输出:点击“输出-到指定格式文件”,有TXT、RTF、HTML、XLS四种格式可以选。如果要保留原来的排版,输出成RTF格式,然后就可以用Word打开,继续完成排版工作。比较遗憾的是,虽然版式能大体保留下来,但每一行文字会作为一个段落。可以选中一个自然段,通过Word的“替换”功能(组合键Ctrl+H),在“查找内容”输入“^p”(或在下面的“特殊格式”中选中“段落标记”,会自动输入“^p”),让“替换为”留空,单击“全部替换”,就会把本段中多余的换行去掉。汉王PDFOCR虽然较长时间没有更新,但还是能满足大量扫描文件识别的要求,如教材的数字化等。同时,软件还提供直接打开PDF文件,并能直接将文字化的PDF转化为RTF文件的功能,除了每行后会有一个段落标记外基本上能比较完美地复原PDF文档的版式。2.天若OCR天若OCR是一款开源软件,它本身并不具备OCR功能,而是通过调用各大OCR公司提供的接口来进行文字识别。因为要调用网络上提供的接口才能识别文字,所以它必须联网才能工作。它的最大用处是将计算机屏幕上能显示的文字识别出来,而不管这些文字是真正的文字(如各种网文、文库)还是图片、PDF文档,只要屏幕上能显示,都可以将其变为可编辑的文字。天若OCR软件非常简洁,启动后只有一个浮动工具栏和一个类似空白记事本的界面。按“F4”键(或单击浮动工具栏的“T”),鼠标变成一个“十”字,右下将放大鼠标所在位置的图像。按下鼠标左键,拖动鼠标选中需要识别的文字,松开鼠标以后,识别结果就出现在主界面中,可以进一步修改。最后点击“docx”按钮,就能将文字导出到一个Word文档中,印刷体的识别率几乎达到百分之百。和汉王等传统OCR软件相比,天若能准确进行段落识别,再也不会在每行后面多出一个段落标记。它的缺点是对排版格式保留得不是很好,不适合于纸质文档数字化。有了这款软件,我们可以解决几个主要问题:①复制某些不方便复制的文档。我们在网上找到某些有用的文字时,经常被限制复制,需要注册会员、VIP等。有了这款软件,可以轻松完成复制文字任务。②PDF转文字。微软Office2013以后的版本都支持编辑PDF,可很多计算机还停留在Office2007甚至Office2003的版本。通過这款软件,不管是文字还是图片格式的PDF文档,都可以轻松转换成可编辑文本。③图片文字识别。这个是OCR软件的基本功能,可以直接打开图片进行识别。④表格、公式、竖排文本等复杂文本识别。复杂文本识别需调用收费接口或专用接口,需要下载天若
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 仓房买卖合同协议书
- 的聘用合同年
- 银行解除借款合同
- 《苏武传》教学设计 2024-2025学年统编版高中语文选择性必修中册
- Unit 1 How can I get there?PartA(教学设计)-2024-2025学年人教PEP版英语六年级上册
- 山东医学高等专科学校《物理化学B(下)》2023-2024学年第二学期期末试卷
- 山东华宇工学院《土木工程材料》2023-2024学年第二学期期末试卷
- 山西药科职业学院《财务大数据决策》2023-2024学年第二学期期末试卷
- 内蒙古电子信息职业技术学院《有色冶金设备》2023-2024学年第二学期期末试卷
- 曲阜师范大学《水墨语言探索》2023-2024学年第二学期期末试卷
- 哈弗汽车品牌全案策略及营销推广方案
- 04J008 挡土墙(重力式 衡重式 悬臂式)
- 《哈佛经典谈判术》读书笔记思维导图
- 质量管理小组活动准则TCAQ10201-2020
- 扶梯人行道检验验收作业指导书
- GB/T 41855-2022小型游乐设施转椅
- 2023年苏州卫生职业技术学院高职单招(英语)试题库含答案解析
- GB/T 20308-2020产品几何技术规范(GPS)矩阵模型
- 男孩女孩动起来健康运动知识PPT模板
- 体育原理课件
- 铁路道岔知识课件
评论
0/150
提交评论