版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、中文OCR软件分析报告一、 分析软件及测试环境本文选取当前支持中文识别较好的几款软件进行测试,相关信息具体见下表:名称测试环境识别语言开发方式简介TesseractJAVA源码中、英、法.源码开发Tesseract是Ray Smith于1985到1995年间在惠普布里斯托实验室开发的一个OCR引擎,曾经在1995 UNLV精确度测试中名列前茅。但1996年后基本停止了开发。2006年,Google邀请Smith加盟,重启该项目。它能识别一些简单的图片验证码,对于增加了复杂“噪音”验证码识别成功率较低。3.0版本后增加了对中文的支持百度OCR在线调用中、英在线调用百度自然场景OCR服务,依托百度
2、业界领先的OCR算法,提供了整图文字检测、识别、整图文字识别、整图文字行定位和单字图像识别等功能。ABBYY(泰比)本地window应用程序中、英、法在线调用本地开发ABBYY FineReader Professional 是一款真正的专业OCR,它不仅支持多国文字,还支持彩色文件识别、自动保留原稿插图和排版格式以及后台批处理识别功能,使用者再也不用在扫描软件、OCR、WORD、EXCEL之间换来换去了,处理文件会变的就像打开已经存档的文件一般便捷。汉王本地window应用程序和在线调用中、英在线调用本地开发汉王科技股份有限公司成立于1998年,是全球文字识别技术与智能交互产品引领者,多年来
3、,通过不断自主创新,在联机手写识别、光学字符识别(OCR)、数位绘画板等领域拥有多项具有自主知识产权的核心技术,综合技术水平在国内外均处于领先地位,手写汉字识别获得国家科技进步一等奖,OCR获得国家科技进步二等奖。二、 功能测试2.1 外文识别功能例子1:简单外文短句Tesseract百度ABBYY汉王aaoqunkai lankygao qunhai lennygaoqunkai lenkyNULL例1分析:此图片为自制图片,图片句子简单清晰,Tesseract出现一字母错误。说明对于分自带示例字库Tesseract还需要进一步优化训练,字体稍有变化识别率就下降。ABBYY识完全正确识别。百
4、度OCR确识别出所有字母,但是对字母组合错误切分单词。汉王无法识别。例子2:Tesseract自带例子Tesseract百度ABBYY 汉王The (quick) brown fox jumps!The ( quick ) i brown foxx jumps!The (quick) brown fox jumps!The(quick)fbrown】foxjumps 1Over the $43,456.78 #90 dogOver the s43 , 456.78 # 90 dogOver the $43,456.78 #90 dog 0ver the$43,45678#90 dog& duc
5、k/goose, as 12.5% of E-mail& duck / goose , as 12.50 % of Email 1& duck/goose, as 12.5% of E-mail&duckgoose,as 1250f Emailfrom aspammer is spam.To in aspar nine rca website . corn is span ,from aspammer is spam.itom aspammerwebsitecorn is spamDer ,schnelle” braune Fuchs springtDer ,schnelle braun Fu
6、chs spring tDer ,schnelle” Sraune Fuchs springtDer,schnellebraune Fuchs springtber den faulen Hund. Le renard brunuber den fallen Honda Le renard bruiiber den faulen Hund. Le renard brunliber den faulen HundLe renard brunrapide saute par-dessus le chienrapid ed saute par - dessus le chienrapide saut
7、e par-dessus le chien“rapidesaute par-dessus le chienparesseux. La volpe marrone rapidapress eux La volpe marrone rapid aparesseux. La volpe marrone rapidaparesseuxLa volpe marrone rapidasalta sopra i cane pigro. El zorrosalta sopra il cane piero . el zorrosalta sopra il cane pigro. El zorrosalta so
8、pra 11 cane pigroE1 zorro marrn rpido salta sobre el perromarion rapido salta sobre el perromarron rapido salta sobre el perromatron rapido salta sobre el perroperezoso. A raposa marrom rpidaperez oso . A raposa marro in rapid aperezoso. A raposa marrom rapida saltaperezosoA raposa marrom ripidasalt
9、a sobre 0 C50 preguieoso.salta sobre o cao pre gui cososobre o cSo preguigoso.salta sobre 0 c鑫0 preguiqoso 例2分析:此图片为Tesseract自带图片。对于此种词库,Tesseract应该已经进行了非常完善的训练,因此识别率很高,仅有一两处错误。ABBYY测试非英语外文时,未指定具有语言,默认为简体中文和英文。ABBYY识别效果也很优秀,字母都正确识别,只有字母上标丢失。当选择正确的语言(法语)后识别率超过Tesseract。对于非英语外文,百度OCR识别比较差。可以看出百度在识别字母后
10、,算法将字母参照正确的英文单词拼写进行组合切分。汉王外文识别效果最差。2.2 中文识别功能例子1:简单中文Tesseract百度ABBYY 汉王甲华人民其和国中华人民共和国中华人民共和国NULL例1分析:该图片为为自制中文图片,图片句子简单清晰。Tesseract对标准常见文字识别率不理想,只有71%正确率,当前训练中文词库模型准确率较低,不能满足实际使用。百度OCR和ABBYY均正确识别。汉王无法识别。2.2 抗旋转功能例子1:自带例子旋转Tesseract百度ABBYY The (quick) brown fox jumps!乱码The (quick) brown fox jumps!Ov
11、er the $43,456.78 #90 dogOver the $43,456.78 #90 dog & duck/goose. as 12.5% of E-mailduck/goose, as 12.5% of E-mail fromfrom aspammer is spam.aspammer is spam. Der ,.schnelle” braune Fuchs springtDer”schnelle” braune Fuchs springt uberber den faulen Hund. Le renard brunden faulen Hund. Le renard bru
12、nrapide saute par-dessus le chienrapide saute par-dessus le chienparesseux. La volpe marrone rapidaparesseux. La volpe marrone rapidasalta sopra i cane pigro. El zorrosalta sopra il cane pigro. El zorromarrn rpido salta sobre el perromarron rapido salta sobre el perroperezoso. A raposa marrom rpidap
13、erezoso. A raposa marrom rapida saltasalta sobre o co preguicoso.sobre o co preguigoso.例1分析:此图片为Tesseract自带文字旋转图片,当调用旋转判断方法后,Tesseract可以通过列宽关系计算整体文字倾斜角度,然后给与旋转识别。ABBYY同样会自动识别文字文字整体旋转。百度OCR无旋转识别功能。例子2:外文短句旋转Tesseract百度ABBYY汉王NULLNULLNULLNull例2分析:该图片为单行倾斜30,所有软件均无法正确识别。参阅Tesseract处理倾斜方法源代码,只有当识别效当行数大于
14、20行后才可以正确旋转文字。三、 性能测试3.1 多文字处理性能例子1:简单病例无表格 1-90010480869 11.jpgTesseract百度ABBYY汉王 郑州大学第一附属医阮) 入 院 记 录泵三趟 咐他 3014m_m -,-1;, 叹侧乳腺低怕脯绗节 叫 RADS :蓼芒 初步诊断: l 呱侧; 1 双乳纤绯瘸Zl 双乳增悱l 洲刚川帧_半_l郑州大学第一附属医院入院记录:姓名性别:女年龄:32岁f院号0002061480彩超(本院,2041013)示:双侧乳腺低回声结节(BIRADS3类)!初步诊断:双乳月中块1,双乳纤维瘤:2双乳增生症:Wj狄I:I第3页郑州大学第一附属医
15、院入院记录姓名:_性別:女_年龄:32岁_fl:院兮:()2(副480彩超(本院,2014. 10.丨3)示:双侧乳腺低回声结节(BI-RADS 3类)初步诊断:双乳肿块1.双乳纤维瘤2.双乳增生症屯治医师:朗获第3页姓名郑州大学第一附属医院入院记录儿川:丘 ,f龄:靶岁辛j超(水院201 41 0J:)示:双恻乳腺低口声结节IRADS:j燮)初步诊断:舣乳肿块1设乳纤维埔2双乳增牛“胄眨帅:栅J虢例1分析:该图片为病例实例。Tesseract中文和数字关键信息缺失严重,无法提取有用信息。汉王识别也不理想。ABBYY与百度OCR在文字和数字识别正确率相近,可以正确识别出病症、性别等有效信息。3
16、.2有表格文字处理性能例子1:有表格和较多文字 1-90010480869 病例9.jpg Tesseract百度ABBYY 汉王 郑州大学第一附属医院入 院记录烨名: 忡刑= 女 年龄: 32岁 住皖韫 0002064480性/H 性别: 烫年龄: 32岁 饯族: 汉族婚姻: 已婚 蒲贯= 测南省驻印肝市职业: 一彗业技术人员 身份证号:住址: 坤 工作单位: 联系电话: 入院情况: 一般入院肘间: ZUM 3l 7:U6 病史采集肘胁 204一】0_3I |7:39病史陈述籼 患者本人 病史可靠性z 叫靠联系人姓名: 联系人电话=联系人地址: 联系人与患者关系: 配偶过敏史= 无 孚L腺夕
17、卜科_第盲】次入院记录主 诉= 发现驭乳肿块3年余现病史: 3年余前于我院就诊. 彩超发现双乳肿块 朱见- 告) , 给予 “乳嘛散结” 口 丑服、 效果不详 庸定期复查, 肿块大小尤明显变化, 半月前荼我院复衡彩趟示= 双侧乳腺低回声结节 B卜RDS 3类 , 建议手术 门诊以 “双乳肿块” 收入、 发病以来 梢神好, 食欲正常, 屁眠币常, 大小偃正常 体班无减轻”既往史= 无高血压、 心脏病史 无糖尿病、 腩血管疾病病史 无川炎、 结核、 疟疾病史. 预防接种史不讯 尤手札 外伤、 愉血史( 尤食物、 药物过敏史(个人史: 生听河南省驻马店市 久居本地v 无疫区、 疫情、 摧水碳触史 无
18、牧区、 矿山、 高氟区、 低碘区居住史, 无化学性物质、 放肘性物顶、 有蒯勿质披触典 无吸毒史y 无吸烟、 饮油史, 否认冶游史。婚姻史= 26岁结婚 爱入体他 夹妻夷系籼胞 5星月经生育史= 26犬 2M年H闫 蛳索月经规律- 量巾鞭 无血愤块. 华2产1、 足月顺产 蚓乳喂养 流产l次家族史: 父母体健, l妹体健、 I女休健, 尤与患者类似掖麻 雁冢族牲逍传疝史=体 格 捡 查体涮3仿0”C 脉搏0次/分 呼吸23次/分 删7/铡咖旧g 第页_一_一_ 郑州大学第一附属医院:入院记录姓名性别:女,年龄:32岁住院号:0002064480姓名性别:女,年龄:32岁:民族:汉族:婚姻:已婚
19、籍贯:河南省驻马店市职业:专业技术人员!身份证号:住址工作单位联系电话:入院情况:一般入院时间:20M03117:06:病史采集时间:204103117:39病史陈述者:患者本人:病史可靠性:可靠:联系人姓名:联系人电话:联系人地址:联系人与患者关系:配偶!过敏史:无:乳腺外科第1次入院记录主诉:发现双乳肿块3年余现病史:3年余前于我院就诊,彩超发现双乳肿块(未见报告)给予“乳癖散结”口j服,效果不详,后定期复查,肿块大小无明显变化,半月前至我院复查彩超示:双侧乳腺低:回声结节(BlRADS3类),建议手术,门诊以“双乳肿块收入。发病以来,精神好,食。欲正常,睡眠正常,大小便正常,体重无减轻既
20、往史:无高血压、心脏病史,无糖尿病、脑血管疾病病史,无肝炎结核、疟疾病史,预防接种史不详,无手术、外伤、输血史,无食物、药物过敏史。个人史:生于河南省驻马店市,久居本地,无疫区、疫情、疫水接触史,无牧区、的山、高氟区、低碘区居住史,无化学性物质、放射性物质、有毒物质接触史,无吸毒史,无:吸烟、饮酒史,否认冶游史,婚姻史:26岁结婚,爱人体健,夫妻关系和睦5天月经生育史:1326天2011年10月11日、平素月经规律量中等,无血凝块孕2产!足月川贝下流产1次家族史;父母体健,1妹体健,1女体健,无与患者类似疾病,无家族性遗传内史。体格检查:体温360:脉搏00次分1呼吸23次分:血:压107/9
21、|mIHg:第顶郑州大学第一附属医院入院记录姓名:忭别:女年龄:32岁住院号;0002064480姓名:性别:女年龄:32岁酿:汉族 丨婚姻:已婚籍贯:河南省驻马ffi市 |职业:专业技术人员.身份证号:住址;工作单位:联系电话:入院情况:一般入院时间2014-10-31】7:06病史采集时间|: 2014-10-3】. 17:39病史陈述者:患者本人病史可靠性:可靠联系人姓名::_11联系人电话: 1联系人地址.联系人_患者关系:配偶过敏史:X乳腺外科一笫:1次入院记录主诉:发现双乳肿块3年余现病史:3年余前于我院就诊.彩超发现双乳肿块(未见报告),给P “乳癖散结”口 服,效果不详,后定期
22、复查,肿块大小无明显变化,半月前至我院复资彩超示:双侧乳腺低 回声结节(BI-KADS 3类),建议T术,N诊以“双乳肿块”收入u发病以来,精神好,食 欲正常,睡眠常,大小便正常,体重无减轻。既往史:无高血m、心脏病史,无糖尿病、脑血管疾病病史,无肝炎、结核、疟疾病 史预防接种史不详,无手术、外伤、输血史无食物、药物过敏史。个人史:生f河南省驻马店市,久居本地,无疫区、疫情、疫水接触史,无牧区、IT 山、高氟区、低碘区居住史,无化学性物质、放射性物质、荇奪物质接触史,无吸迤史,无 吸烟、饮酒史,否认冶游史。婚姻史:26岁结婚爱人体健,夫妻关系和陸。5天月经生育史:13涵天2014年10片11日
23、,f素H经规律,量中等,无血凝块.孕2产 1足月顺产,降乳喂养,流产1次。家族史:父母体健,1妹体健,1女体健,无与患者类似疾病_,无家族性遗传病史。体格检査休温3fi. 0C脉傅100次/分呼吸23次/分 llUl:U7 / 94mmHgWm 一郑州大学第一附属医院入院记录姓名: 性剧:女 年龄:32岁 住院号:0002064480性靠: 忭州:红 年龄:弛岁 心腹:阪旌 婚娴:已婚 删捌:洲南省聃码聃市 职业:0j_J,技术人员 身份汪号: 能址: 工作单位: 峨系l电话: 入院情况:一般 入院刚间:2J 4 103I 1 7:】; 墒史震m时删:24一lO一3l I 7:39 璃史陈述程
24、:患行小人 俩止可靠中生:”J尝 lfj6系人娥=二: 朕系人电话: 联系人地nL: 联系人j忠哲关乐:配偶 过敏史:无 乳腺外科一第J次入院记录 主诉:发现烈乳肿块3年余 现病史:3年余前于找院就诊彩越发现坝乳肿块(来见报告),给予“乳瓣散结”口,效果不详,J再定期复查,肿块大小正J判显变化,半月前下哉院复向彩超示:双侧乳腺低刚声结节(BIRDs:类),建议手术,珍以“双乳肿块”lI父入。发j商咀米精神好,食欲正常,H鲫强肛常大小便正常,体讯无减轻。 既往史:无商【n压、心胍病史,无糖尿病、腑m管妖病痛史,无IjI炎、结核、疟疾病史预防接种l生不j!F,厄手术、外伤、输m殳尢食物、药物过敏!
25、延。 个人史:,lj r河南省驻马店市久届木地,无疫区、疫情、疫水接触史,无牧区、lflllli高氟区、低碘区居住史,无化学惜物质、放射性物顺、有舔!吻质接触坐,畦吸毒史,无暇烟、饮浒殳,甭认冶游史。 婚姻史:26岁结婚爱人体嵌=8,夫妻关系和睦。 j噩月经生育史:I:26天2nl 4年lI】Hl】日、1j隶H鲶规律量一钆龙叭疑块孕2产1足月顺产吲:乳Il;i养,流产【次, 家族史:父母体健,1姝体健,1女体健,尤与忠。苛类似捩痫厄京媛陀越传蜥史 体格检查 体瓣360 脉搏100次分 呼吸23敬分 lm慷1(J7柚【lI!B镍l页例1分析:该图片为病例实例。Tesseract中文和数字关键信息
26、缺失严重,无法提取有效信息。ABBYY与百度OCR在文字和数字识别正确率相近,规范清晰表格识别正确,在日期识别ABBYY略优于百度OCR,二者基本都可以达到后期文字处理要求。汉王对表格识别很好,但是中文和数字关键信息丢失较多,效信息提取困难。3.3低质量复杂图像处理性能例子1:不清晰多复杂表格病例 20-90010828560 6.jpgTesseract百度ABBYY 汉王页面129一 首都医科犬学附属 茸匕 京 2LJ 童 医 F完绚织机构代码: 40058876-4) _二雇住 院 痛 案 首 页 _熹_-第 l 次入院 )000237036 痫案们朐们 _ _l 2 2 2 仲寸丽m辜
27、函月m日 年22 6月 二 国籍 中闺二_ _ 耕生儿入院体耍 /克 罡民族 汉族 一 】 222_己姻 丧偶2 离229 2222一 _ _ 22政编码 枣勇垡 一呈乱政编吗 宋提供 .叠 州政编码 未提供 2二伦221 双耳重度瞎音神经性耳聋唧矾诊断 主要诊断 极重度醴音裨经性耳聋 (22_ _ _ _1_ 2 _ 2_ 【2 入2唰占: i 化 2 临抓2砚崔 2 22224 22 2. 2 _ 22222221 伪 帅叫岫膈萧 无 _ ;_ 】 二 熹 一 二. . 2翼_1_1茎B)1八B】小i_b 2、r 22【2J楂 22122222. 哺4.木俺 暑嚏 _ 宛2|!|xi 22
28、帅 陈敏_ 薯叹 l渝2川j 主华_ _._丽_互_?/具K_ . . .“-)2乃12 2122 2湟吻。 萍 22叮 侈/日_刀 _ _ _亳. “_崛淘=踵麟鳙【鳌薹晶鳙【腻 页面129首都医科大学附属北京儿童医院G纱!完(么1织机构代码:400688764) 4;费方式:住院病案首页健康下没 IS i i 232 neil , idf 00023 7003 6病案号:63907 :!:3::处名性别别L男2女出生L期j2013年04月10日年龄6国籍中国(年:龄不足周岁的)年龄新生儿出生体重:克新生儿入院体职;克1人族汉族!身份证号未提供:职业散居儿童婚嫂们1,木婚2已婚3,丧偶4,离
29、婚9其他!现代址河南省河南省周口市: iL:否.邮政编码未提供;勹1地址河南省河南省周口市邮政编码未提供!作:许复信及地址:未提供1北政编码未提供联系人姓名身份证号未提供电话联系地址河南省周口市关系父母5?:识2ff:512.喜3:r:父亲姓名身份证号未提供电话作的位汽修斗求姓名身份证号电阅 作;的位汽车配件入嘴院途径订1,急诊2,门诊3其他医疗机构转入9其他入院H期j20310291114入院科别五官科病房耳鼻喉病房实际住院7天,1!1院1门孽201311050943j!院科别五官科病房耳鼻喉病房转不斗来斗别9晚欠!院(0至1岁在北京出生的患者)1;iL北省1!按清源社区妇幼保健院1j(急诊
30、诊怎1双耳重度感音神经性耳聋疾病编码出!院诊断疾师跑!营!入院:车专1院诊断疾病编码!入院转: 1/Ji!1主要诊断:极重度感音神经性耳聋(双二 :1|1!1: 。 叶验33,5,k之:v3,t得.多-Pig:y入院病情“1有,2临床太确定,3情况不明,4人;1车专归:1治愈,2:好转:3:李愈:治愈,2好转3未愈,4死心,9其他T!11他_损伤、;中毒的外部原因无疾病编码:98喜曾23-1.基yE_jjj:里1诊断:无疾病编码病迎去约!物过敏ml无2有,过敏药物:死亡患者户检三1是2否AB()和;型后1.AZ.B3()4N35.不详6,不、个.RH迎K!2.1,iyjZ.的|3不详一4水查不
31、斗1,任张杰不班影1一3:有:(M!ji了)医川陈敏1改夜L流长川J理少华a:院医j计1王桂香香甜秀主诊次川;责任护;十:,哥像么进:修iy:1!3实习医jl编码员、7h质网网狗玄夜用力急莫A3态。一11路5多等首都医科大学附属学附属北京儿童医院健康下没: ) i i 232 neil , ID : 00023 7503 6别日1男2女出生期j2013年0明的旦年2红明!1生地河南省:籍贯河南省民族汉族:身份iE号未提供职业散居儿童:婚嫂们1木婚2已婚3丧偶4离婚9其他!t!现代址河南省河南省周口市:;门1地图河南省河南省周口市!竹:许复位及地址:未提供:山,话无!目破编码未提供2ff512善
32、+3:t.r: 11:单位汽修: 电话 作:单位汽车配件:心还1页 III 1 299首都医科大学附属 北京儿付奴/A: &WM 1:-#%瓤_ _:姓名k屮龄小足周岁的)年龄住院病讲1次入院童医院(纟丨丨织机构代码:4_8876-4)案首页10:0002373036 病案号:613907性别 ., -_ - _w警.|1.刃2.女山土彳期2013年04月0日年龄6月藝翻_參 *_新免儿山少休屯:国籍中国I出7丨池河南省Ji_新生儿入院休里:/克k族汉族4份证兮未提供 * _ ,观彳丨:址河南省河南省周口市 mm 籲審 fM I地址河南省河南省周口市鳞 _ 鲁_丨作电位及地扯未提供 JiX紙人
33、姓名:职业散居儿童婚妫 1.木婚2.己始3.丧偶4.离婚9. K他 _ _* 礫讀 . _ _- 屯 _邮政编码未提供邮政编码未提供邮政编码未提供分份证”未提供幌眠系池址河南省周口市:/、系父母分份证4未提供I請 雞争參籲I作中位汽修參_參鲁,泰Iv #* * * % _ I怍心位汽车配件入院途找1愁诊2门诊:丨孔他也化机构转入9其他 入院HW 2013-10-29 11:14入院科别五官科病耳鼻雙病房 ;出院卜:明2013-11-05 09:43山院科別五官科视从耳虽喉病房分娩紀这()节十:北而 m*_ _ “ _ - * 零n (2)冷冷渐双耳重度感音神经性耳聋miirn 实际仆:院7天1
34、 一转科科别疚病编码病估!Hrnm主要诊渐:极重度感音神经性耳聋(双坎焫编码|入院I入蝻怙:i.仏2临床未确定,3-怙况+明4无 mm _ 曹 _ 丨丨_ * % 0 % mm - 损你、屮毐的外部原因无. * _ I _ _ _ ” _ _ , ” 痛极嫂诊断:无I钤!n: I.治氮2,奸较,1米愈,4处亡,9其他代物过敏!D 1.尤2/灯.过敏約物- .r 1 VMM#春 * * * p-WAROHI:. T l.A 2.B a.O 4. A136.RII (2抖 K(T:张杰1:任(副 V* I _ . * #* 馨 疚仏知丨码 i疾蜗编码 1 j锅理巧:无 | .J1死亡患荇尸检Eli
35、.迻2.沂 1 ” w* - . *f1,阴2. m Hi节4尜汽 |丄治鉍帅王华1 进任护十 _ *- * 歸眷響曹1 i编质控my片 / id p 首都医科走学附属j匕京J乙 首都医科走学附属a巳 小 u勰篙回 孽I襞入毒蜒埭卜吁:- _; f,:八阮页面1 29童医院(m叭十i:H妈:巡幽I幽)案首 页 1I):0002373036 稍棠啦6l 3907矗卜赢警磐量罗生渊gvt-篙鬻窖等唧旦-年糍ji丽署#L一一 I盼diht-删岁的)年龄一 儿;_:体呕:兜 研,上儿人阮侨坐:,觅 :她河南省 勰“f iiili省 K族双族 观f”河南省河南省_”。-鳇居一一生,i一一世,一_一业坚型
36、9褒曼曼ti:i ;,l itlt Jt J河南省河南省周Izltfi 剐:政编码未提供 If;制,及地址未提供 。u,i无 邮政编码禾提供 jt最凡桃私 盥份“jj未提供 IUi !瞄基地tt河南省周口市 笑系父母 父泉矧:鼻一一暨!氇!查罂供一 一生蛆 一一一一 :一弘似汽修 一一 一 一 一 一 一 一 采业!:“ 身份证qb话一j例1分析:该图片为病例实例。图片质量差,组织结构复杂Tesseract和汉王都无法完成有效识别。ABBYY与百度OCR在文字和数字识别正确率相近,在日期识别ABBYY略优于百度OCR。对于此类图片ABBYY勉强可以提取住院出院日期,百度OCR可以识别出文档标题
37、,在处理复杂表格结构百度OCR略好一些。3.4 关键信息日期提取性能例子1 1-90010480869 13.jpg 图片中日期Tesseract百度OCRABBYY汉王2014年10月31日204介二刁3l2014年0月31日2014樂丨0月:2011和:Ifl J=l:H2014年11月07日2014年扣7口204年11月07日2014年】U107日20ld年11川07口2014年11月04日24年月04日204年11月04日f 2014年11月04120】4年11月叫日例子2 1-90010480869 15.jpg图片中日期Tesseract百度OCRABBYY汉王2014-11-04
38、2014l_0420141104214-】卜4】1-042014-11-0420 _04 2014U04110821/1-()41201- 1】-042014年11月04日ZOLFIl月U4门204年11月04日2:014屯11均()4门24年i1 F104例子3 1-90010480869 25.jpg图片中日期Tesseract百度OCRABBYY汉王2014/11/062U删/12014/11/06!2014/11/06NULL2014/11/0620蛔/06201411/062014/11/06NULL注:汉王NULL表示在线或者本地软件处理均无法给出结果。例子4 1-90010480
39、869 29.jpg图片中日期Tesseract百度OCRABBYY汉王2014-11-042014_11一 042014日1042014-11-04NULL2014-11-07201q一11_07201411072014-11-07NULL201411-07201q一11_072014110720111-7NULL例子5 2- 90010980260 6.jpg图片中日期Tesseract百度OCRABBYY汉王2014年09月28日NullNullNullNULL2015年05月19日NullNull2015年05月19日NULL2015年05月28日2015年05月28日Null2015
40、年05月28日NULL2015年05月28日20l5年05月28口Null2015年05月28日NULL例子6 2- 90010980260 9.jpg图片中日期Tesseract百度OCRABBYY汉王2015年05月192015年05月19Null2015年05月192015年05月192015年05月192015年05月19Null2015年05月192015年05月19例子7 3-90010932756 8.jpg图片中日期Tesseract百度OCRABBYY汉王2015-04-232015_04-23Null2015-04-232015-04-232015-05-082015年05
41、月19Null2015-05-082015-05-082015年04月23日2015年4月 23 日Null20】5年4月23日2015年4月23日2015年04月25日25年4月 25 日Null2015年4月25 RNull例子8 4-90010554075(不清晰) 8.jpg图片中日期Tesseract百度OCRABBYY汉王2014年06月04日NullNull20 U年06月04Null2014年06年06日NullNull20 U年06月04Null例子9 5-90010562332 7.jpg图片中日期Tesseract百度OCRABBYY汉王2014-12-0820夏4-12082014120810192014-12-08Null2014-12-092014_12-:92014121910002014-12-19Null2014.12.820互412-82042
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 箱式变电站选购技巧
- 2024无固定期限简单劳动合同范本
- 2024桌椅购销合同
- 2016年江苏公务员考试申论真题A类及答案
- 市场营销与广告策略分析考核试卷
- 泊寓退房合同模板
- 油炸店面转让合同模板
- 仪器仪表制造业中的智能供应链管理考核试卷
- 兽用药品批发商的供应链金融考核试卷
- 作业现场职业危害及其安全防护考核试卷
- 2022年送教下乡活动方案送教下乡活动方案
- Monkey Fishes The Moon(英语演讲ppt猴子捞月)
- 气雾剂制备设备
- 人工智能课件完整版
- 小学古诗考级15级、特级打印版
- YY/T 0299-2022医用超声耦合剂
- YY/T 0471.3-2004接触性创面敷料试验方法 第3部分:阻水性
- GB/T 5177-2008工业直链烷基苯
- GB/T 20671.5-2006非金属垫片材料分类体系及试验方法第5部分:垫片材料蠕变松弛率试验方法
- GB/T 1958-2017产品几何技术规范(GPS)几何公差检测与验证
- GB/T 193-2003普通螺纹直径与螺距系列
评论
0/150
提交评论