OCR 分析报告_第1页
OCR 分析报告_第2页
OCR 分析报告_第3页
OCR 分析报告_第4页
OCR 分析报告_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、OCR定义OCR(Optical Character Recognition)即光学字符识别,是指电子设备(如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法 将形状翻译成计算机文字的过程:即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率, 是OCR最重要的课题,衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。目前项目使用需求项目名称:吉凯随访系统;项目甲方:吉凯基因技术有限公司;。需求目标:吉凯随访系统中规划的OCR技术需

2、求范围:利用OCR技术功能模块,解析用户所上传的病历文档图片(包含病历、医嘱、检查、检验等文书),将图片转换为计算机可识别的文字语言;根据转换的结果进行分析、统计等应用;对所建议开发的软件基本要求如下:l 病例图片文字识别;l 识别率90%以上,识别时间小于10分钟;l 输出病例相关内容,需要按照病例格式输出,否则无法判断最终结果;l 患者上传相关病例文档图片,上传之后后台识别反馈结果给患者或者医生。;l 数据词库自己训练,需要程序自动带有学习功能;l 开发周期两个月。现状目前市面上OCR技术应用于医疗行业的APP及软件如下:汉王OCR(PC端软件):汉王OCR是一个带有 PDF&#

3、160;文件处理功能的 OCR 软件;具有识别正确率高,识别速度快的特点。有批量处理功能,避免了单页处理的麻烦;支持处理灰度、彩色、黑白三种色彩的BMP、TIF、JPG、PDF多种格式的图像文件;可识别简体、繁体和英文三种语言;具有简单易用的表格识别功能;具有TXT、RTF、HTM和XLS多种输出格式,并有所见即所得的版面还原功能。新增打开与识别PDF文件功能,支持文字型PDF的直接转换和图像型PDF的OCR识别,既可以采用OCR的方式将PDF文件转换为可编辑文档,也可以采用格式转换的方式直接转换文字型PDF文件为RTF文件或文本文件; 实际测试汉王OCR后发现其受图片质量

4、、图片格式、图片灰度、图片大小等因素影响,实际对于病历文档的识别率不到30%,不能满足项目需求;但其可接受定制化需求,定制化需要额外付费,初步估计在10W以上一个病历模板,目前病历的模板种类数量非常大,项目成本将无法预估;易道博识北京易道博识科技有限公司(简称“易道博识”)成立于2013年,由来自中科院、清华大学、北京大学的多名顶尖的模式识别专家共同组建。创始人朱军民获得了国家科技进步二等奖等多项业界成就。核心技术包括:3D人脸识别、银行表单识别、增值税发票识别、支票识别、各类证照识别、一维码识别、二维码识别、联机手写识别等。实际测试该公司OCR产品后发现其OCR对于证件识别率较高,但达不到9

5、0%。识别病历图片的准确率达不到20%。但其可接受定制化需求,定制化需要额外付费,基础功能起步价10W,病历模板定制10W一个。项目成本无法预估。泰比(ABBYY)泰比(ABBYY)是一个在文档转换、数据捕获和语言软件领域领先的供应商。泰比(ABBYY)研究和发展的关键领域包括文档识别技术及应用语言学。泰比(ABBYY)的识别技术和产品为人们越来越多的资料信息提供了强有力的工具,使他们能够:从纸张和图像上获得信息,自动获取数据,处理和存储有用的信息。利用识别和数据采集产品,人们能够在数据输入方面节省大量的金钱和精力,并能以一种更新和更有效的方式来获取信息和资料。我们的语言产品帮助打破语言障碍,

6、促进交流和沟通变得更容易和更清晰。经过电话咨询,该公司主要专注于产品的研发,如有需要定制费用相当之昂贵,具体价格没有提供。捷速OCR捷速OCR文字识别软件:是一款可以直接识别文字,将图像转化成文字的工具。很多时候我们需要一款软件能够直接把扫描文件上面的文字的变成直接可以编辑的文字,这样我们工作就方便很多了,可以直接使用扫描仪扫描书籍和相关的文档,然后使用捷速扫描文字识别软件,就可以编辑这些文字,能够节省我们办公人员很多的时间,这些软件特别是对那些处理文档的人员和相关的从事编辑行业的人员特别适用,可以广泛的应用,并且软件识别正确率高,可以批量的转换扫描的文件。实际测试该公司OCR对图片文字识别率

7、较高,识别率50%左右。识别病历图片的准确率达不到30%。但其可接受定制化需求,定制化需要额外付费,基础功能起步价3W,病历模板定制价格没有具体给出。项目成本无法预估。百度云OCR文字识别企业版、云识别、LEADTOOLS等等其它OCR产品价格都比较昂贵。医疗行业OCR类型APP易随诊:病例识别时间需要一天左右,识别率90%左右,后台人工识别校正。拍医拍:病例识别时间10分钟左右,识别率90%左右,各大论坛评论为后台人工识别校正。医库嘟嘟医生可行性调研重新开发OCR无相关开发经验人员,开发周期一年以上,还需训练词库,词库量越大识别率越高,训练周期长。开源OCR无相关技术支持,识别率低,不能满足病例文档识别的要求,安全性低,维护成本高,二次开发成本高,开发周期半年左右。也需要训练词库,训练周期长;第三方OCR收费,成本高,需要定制,定制的模块多(1份文档格式即1个模块,其量非常大),但有相关技术支持。调研结论综上所述,重新开发OCR,使用开源OCR,购买第三方OCR都有各自的优缺点,但都不适用于目前吉凯的项目;但就目前市面上产品而言,其他厂商的APP或软件也使用了其他的方法来规避该问题来避免识别率低而造成的使用问题;目前而言,虽然项目合同中和技术方案中就此块内容没有明确的要求,从技术及其他厂商的产品调研来看,单纯的OCR技术无法达到实际使用的要求和积累;备选方案由于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论