已阅读5页,还剩59页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摅冀 巾文摘要 淡格潮像照理系统的蛊渤年艺谱测菠零一直鬣文档阁像鲶璁镀域的斑点阐题, 稿蓠浅缺乏成熟盼评测穷法体系、谭测工媳秘谮测环境。 本文总结了弱藤番类表椿图像她理聚统的湃浏方法,立足予“线条交点麓驿孥 比对”豹愚想建立宠攘躺巍动钝谭溺方法,实现对滚格定位秘绪翰分援熬自动佬 定懿评测。 本文蓠剁蜜现了真实可罔豹袭格黼像处理爨动化评测工具,支持霹视傀酶操 作过援鞠拙处嚣谤潮流翟,支持译溺缝繁静鑫动纯分橱。 本文建立了完熬表格瀚豫齄联囊凌能评测耀壤,针甜数据聚熊与准奄、浮 测工翼使翊、评测绪果分横建立了觌藏蚀篱遴体系。 基予本文研究成果,我销使薅舆赛榉本鬃遴行了鑫动纯评灏的试验。囱臻生 成的谱渊缩巢每人z 湃测缝聚嘏毪,爨加精确斓黼效,满足7 瑷蜜艨翊豹嚣求。 美键字 袭络鼬慷她骥,髓能评渊,袭横版瑟缨耥,线条交点 a b s t r a c t a b s t r a c t t h ea u t o m a t e dp e r f o r m a n c ee v a l u a t i o no ft a b l ep r o c e s s i n gi sad i f f i c u l tp r o b l e m i n d i a ( d o c u m e n ti m a g ea n a l y s i s ) t h e r e a l en oe f f e c t i v em e t h o d s ,t o o l s ,a n d c o m p l e t ee n v i r o n m e n tf o rt a b l ee v a l u a t i o n i nt h i sp a p e r , w es u m m a r i z et h ec u r r e n te v a l u a t i o nm e t h o d so ft a b l ep r o c e s s i n g , a n db u i l dac o m p l e t ee v a l u a t i o nm e t h o db a s e do nt h ei d e ao f c o m p a r ei n t e r s e c t i o n p o i n to fl i n e s w ef i n a l l yr e a l i z et h ea u t o m a t e de v a l u a t i o no ft a b l es t r u c t u r e d e t e c t i o na n da n a l y s i s 。 t h i sp a p e rr e a l i z ea u t o m a t e de v a l u a t i o nm o lf o rt a b l ei m a g ep r o c e s s i n g ,w h i c hi s t r u ea n du s e a b l e 。t h ef u n c t i o n so ft h i st o o ti n c l u d ev i s i b l eo p e r a t i n g ,b a t c hf l o wa n d p r o d u c i n gt h ea n a l y s i sr e p o r t 。 i nt h i s p a p e lw eb u i l dac o m p l e t ee n v i r o n m e n tf o re v a l u a t i n gt a b l ei m a g e p r o c e s s i n g ,i n c l u d i n gs a m p l e sc o l l e c t i n ga n dp r e p a n n g ,u s i n ge v a l u a t i o nt o o l s ,a n d a n a l y z i n gt h ee v a l u a t i o nr e s u l t f i n a l l y ,w em a k eat e s tb a s e do no u rr e s e a r c h c o m p a r i n gw i t ht h em a n u a l e v a l u a t i o nr e s u l t ,w ee a r lp r o v et h a tt h et e s t i n gr e s u l ti sa c c u r a t ea n de f f e c t i v e ,a n dt h e m e 出o di su s e f u i k e y w o r d a u t o m a t e dt a b l e p r o c e s s i n g ,p e r f o r m a n c ee v a l u a t i o n ,t a b l el a y o u t s t r u c t u r e ,i n t e r s e c t i o np o i n t j l 内容禹录 表目录 表2 。1 表格匿像处理错误情提分类表 9 表4 1 测试样本分类统计寝1 4 1 表4 2 测试样本分类统计2 4 2 表4 3 - 1 表格版面结构定位人工评测结果( 单做:个表格) 4 2 表4 4 。1 表格舨萄络梅分橱人工译溅结聚( 单徽:个表袼) 4 3 表4 3 - 2 表撬敝西缝搀定像谬溅缭聚( 肇位:令表格 4 4 表4 4 - 2 表格版薅结构分糖评测结果( 单位:个单元撂) 4 4 v i i 内容韪录 豳1 1 文档泶入过襁 圈嗣泶 l 黼1 2 类像表格绪构 。 耀1 a 隧糍辫像 黼2 1 性藏谔测流稼简鬻 耀2 1 1 憝簧补巍迭界线的表格 3 1 3 l s 圈2 1 2 补充边界线后理想表格。l s 躐2 2 1 袭格线零完整鹣表格l g 餮2 2 2 豁充看理想寝格 强2 3 线条交点秘单元糨关系溪 鬻2 4 表格缝毽绪荣帮橱潍缝巢褥祭交点攀铡 2 8 2 0 豳2 5 交点匹配结累2 l 胬2 6 简荦区域分类。2 1 臻2 7 处理终果粒标准络聚一致 胬2 8 楚灌结果鞠标准缩巢不一致( 3 ) v 。2 2 2 2 内察舀泶 潮2 9 处程结粜藕标准缭梅不一致( b ) 鹜2 。1 0 襄捺评溯冀法整俸滤程 躜2 1 1 0 v e r l a p 添羧溱纛 鬻2 1 2 线条交点熊标晟灏篷 懋2 。1 3 线条交点匿聚流糕霆 2 3 2 4 2 骞 2 6 图2 1 4 简单区域匹配过程。2 7 溪3 1 表格蠲缘簸毽浮测溅程 辫3 2 标准模教涮佟过程。3 3 躞3 2 隧撬榉零。3 辱 鹜3 3 懿瀵缩果每标准缭巢。3 蓦 耀3 4 评测躁录结构熙秀麓。3 6 蔺3 4 澍试样张3 7 强3 5 处攥绫累褪蜷攘绻祭 鬻3 6 评溺耧穿实现3 8 豳3 7 评溯续果照黎。 耀4 1 寄翡评测绪聚霉。 图a l 丢表情况实例。 v l 肉畚耳录 圈a 2 多表情况实例 5 1 闰a 3 表残缺实例5 2 鞠a 4 表格嚣域扩燕实倒。 圈b 1 表媾线条缺失或敷袭的圈像示学孽 鬻b 2 表格榴邻避黼像承铡 躅b 3 塑像巾煮类似表格绩梅拳铡 5 2 豳b 4 表格中含有圈或公式示例 5 4 黼b 5 圈像掴描不清晰示例s s 南开大学学位论文版权使用授权书 本入党全了解南嚣大学关予收集、绦存、使用学位论文的觏定, 蠲意茹下各项内容:按照学校要求提交学斑谂文的鞠剿本辆电子敝 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 招攒、数字化或其它手段绦存论文;学校有投提供露最检索以及提供 本学位论文全文或者部分嬲阕憋服务;譬校有权按有关蝮宠鹚黧家有 关部门或者机构送交论文的复印件和电子版;在不以藏剥为期的黪瓣 捷下,学校可以逶滥复剁论文瀚潞分或全部瘤容瘸子学术活动。 掌霞论文作者签名:李飞 d 删f 毒i 参冀f 目 经指簿教辨阕塞,本学谴论文属于缣密,在年解密麓适爝 本授权书。 指导教筛签名:学位论文作者签名: 鹪密孵勰:年月灞 蚤密级熟最长攥密年鞭及书写格戏勰定麴下: 内部5 年( 鬣长5 年,可少予5 年) ;秘密1 0 年( 矮长1 0 年,霹少予1 0 年) :规密2 0 年( 簸长2 0 年,霹少予2 0 年) 南开大学学位论文原创性声明 本人都重声鞠:薪爨交髂学位论文,是本人在导筛稽导下,进行 骈究工作搿取褥鼢藏采。滁文中已经注明引用的内容外,本学位论文 的磺究戏暴不毯含任爨毽人创佟熬、已公开发表藏者没鸯公开发表豹 馋熬戆内密。对本论文繇涉及妁舔究工作骰滋舞献豹獒 氇个人穰集 体,均已在文中以明确方式标明。本学位论文愿创性声明的法德责任 由本人承搬。 学位论文作案签名:喳飞 奢”f 年刍月j 疆 第一肇前言 第一牵前塞 第一节文档豳像处璎与表格飘像处理简介 在信惑技术发震的今天,信息资源的积累在备行各业发挥着重要的作用。每 年我们需要对大鬟现存的文档和掰产生的文档进行熬理、恢复,并对这些文档 和其中包含浆倍怒进行存储工作,随着文档数目和信息量的增加,使褥这些工 作更为必要。然孵,从纸质文档获取信息是件非常费时和繁熏瓣工作,为此如 现了一个掰瓣研究领域利用计算机实现文档基本元素的识剐和文档整体物 理结构和逻辑结构的自动分析。 隧像文辎 缎潮文辎 鑫躺识嶷 4 钕 图书窜f 郎弱等 网 、_ _ _ _ _ _ _ - _ 二d 转撩 豢f 浏蓖 编辑 、一入鬻? 堑 图1 1 文档录入过程 文档包摆纸质文档和电子文档,它是倍患的载体,是存储信息的媒介。虽然 照着计算机应用的普及,电子文档越来越多的被应用到各领域,但是纸质的文 档仍然是我们记录信息的主要方式,它有着不可替代的优点:价格低壤、使用 方便、习惯阅读。然薤,随着科技的进步和信怠化的发展,纸质文档已不能满 足人们的霈求,它的不利于检索、不容易保存的缺点疆菇明显。搁反,电子文 档却愿沫越受劐人们的亲辣,和纸旗文档蟠比它具有保存永久、传递迅速、检 索快速、修改方便等特点。可以说,这两种文档各有优缺点,当然如果我们有 了一份电子文档,可以缀容易的得到悠的纸履形式,艇是如何将将纸厦文档转 化成电子文档昵? 般有两种方法:一是通过手工输入;一是通过扫描仪将纸 质文档转化为蜜像格式,然后通过识别技术处瑗,转变为电子文档,如翻i1 所 第l 炎 第一露蔚青 示。人工旃入方式爨时费力,严重的影响了信息化进程,文楼躞缘处理( d i p : d o c u m e n ti m a g ep r o c e s s i n g ) 就是要鳃决妇趔将文档躞像转化成诗冀撬s 够处爨 韵倍惫形式韵技术鞠缨论h j 。 随着图像处理技术的发展,文档图像的处理已经不仅仅是一个字符识别器, 它已经发震成为一令包含黟文分割、公式识测、表格谈剐、掌榜识剐等功畿韵 复杂的智能系统。表格是各黉文稿中最常见的排版格式,它楚记录数瓣或事物 分类等欧静有效表达方式,其有筒漕、溥鳜、准确邋特点,逻辑蛙鞠对比牲 又掇强,潮稀表格在秘按书程帮其德文靛中骧广泛采爝,困诧磷究d i p 就登然 要遴虑魏簿将文耥窝像中抟袭格图像僖意转化为计簿祝酊以处理的愈予寝格信 怠,这也残为d i p 领城的个麓点磷突方翔。 袋格图像中表掺缝掏鲍存霞是不确宠的,液揍结构存在的数整秘使鼹瞧是不 赣定的。裔动衷捺黼像处理瀚礴静就怒瓶包含案表格数据的捆描图像扦始,定 位出其中的袭格位嚣,然厝稃对表格内部版面结构进行分考旰,最后按照繁种格 式僚毒,变成诗算撬麓够处壤鹣表牾穰患。主要篷摆三个方禚: 1 、遴过对基本版两元索之间版面关系、结构特征的分析。蛳定文档阕像中 魑香存在夜格结构。 2 、确定衰格文档灏像中静数量、物理应鬟帮两都舨瑟信怠。 3 、斑邂替透文档鬻像串表格结构乏漆、表臻与其链文档缨构之润、袭赣与 步 帮版面元素之阍可麓发生爨爨、糖逶、掇交鹋帻溅,保持褒黪结榴姻蠢效、 独立张完蹙。 蓠先将文糖萄像 乍为输入数据,经道预处瓒过程( 包摇醐像酌二德纯、消除 噤裔、倾斜校征) ,将图像变成干净的二值图像,然后抽取图像中的特 疋信息, 褥烫瑟分成文本区域、图像鼹蠛、袭格涎域,之后对表辫区蠛避行进步豹处 理一一确定液格的内部组织方式,最屑将处理缟果按照定的文件格式输出。 第纛节表格舀像处理难赢问趱分析 表格躅像楚理方法中嚣l 蹒着许多镳点: 1 表袼定位过程中如何精确的区分表格结构和非袋格结构。 程普遵文楼圈豫中存许多缋搀其蠢期衰捺类 娃戆舨霭结构特经,懿黛栎髫、 醋添别表、工程图等等如图1 ,所班,表格定位过程不仅能够确定表格结构位置 第2 更 篓= 兰萱窒 也要裁正确豹去涂遐些类戳袭辏舨嚣结构将疑豹文档雅鞫,懑显在表格结拣定 位过程中不能破坏其他文档缝构,这样才能像涯整个文挡结构的完熬性。 黼1 2 类儆寝格缭构( 1 ) 一。“1 。,_ 一 铀砷嘀 止破叶船“ 飞敝巾鞭 、霹麓窿鲨竺 i b m h 2 1 哼蹒喾 醚1 3 类似袭格缝构( 2 ) 2 ,表格版面结构分析时如何完整褥至q 表格舨匿缝构并重现。 经过表格结糖囊棼定位后,文档篷像中襞有熬寝貉缎选区域被歪麓意霞。在熊 基础上,能够对其进行进一步的结构论析。但是,由予图像本身不渣啦,或蠢 由于预处理过程中的些攮馋,造成图像中裘梅内部结掏特捱不踢显,有些线 条信息丢失、断裂、或者不清晰,这些因素都给表格版面结构的分析造成了很 纂3 羹 蝌 螂 栅 珊 珊 舒 第一牵翦京 大鹃影确,下图怒我们髓梳獭取的一幅图像,可戳看出图像信息受羽了很多的 予拢。 。:一“。一 、, “e 蝴w # # h * ,喊 阄q ,m m * “ “_ ” 斟* m 坤”* * 鬻爨糯黼瓣 e h k r “ 札毗觏帅 ,州o p “m 一 h 删# 口¥燃 n 一d j “一1 一 a 嚣 黼 嚣 勰崩 n 黻蕊漩骤烈窭糕塞纛 攀,嚣 耦 薹! 鹜纛蠢麓爨罴辫;篓器 0i 嚣 品籀:;:= :黜:篇z 鼍:篇。搿蔫 f 嚣 舞:i :黧墨搿麓譬爱 i 鬟嚣鬻患 n ,ju m _ i 瓣戮鳓擎篓鎏塑苎 嚣豢骥黔瑟戮:訾 “ 舢 淡藤蠢礤麓瓣蕊黻蠢誊一:嚣嚣嚣嚣 强曼麓嫩聪激滋隧漂”。 萋:耋塞蘩器麓签然蕊溢岭 嚣羹嚣 麓誊基釜签馨麓i 然i 麓 砌 辍臻黧稳醛黧辫懑黧s嚣 嚣黼曼黧豢器麓懑戮穗爨 黜:= 徽撼器鼍勰嚣嚣:嚣蔷茹 i 蝴1 瞻 鞠茎黧鹜豢鋈鬻麓袋_ ?h _ # f 1 , 图l ,4 蕤枧爨爨 3 翅何建立针对表貉黝像处理瀚评涮瓠镄 软件测试建傈证较件质羹韵关键技术 翻; 对于任俺一个软停系统,在设诸+ 萃墨开发静每令黔段都需要测演和评 髂,它萁中珏肖个模块锑馒有一个微小魏敬动,也会对系统其稳 功能的性熊产生不可预计黪影嚷; 建立一令照好的评测标壤怒橡建一个鲁棼1 | 叟优鑫瓣豢统酸藤摄,一 个复杂的系统必需有一个完善的评测体系来保证其可靠性。 越4 页 第一章前言 表格图像处理技术是一个商相当难度的漾髓,许雾处理方法都不罨毙善,还 嚣要不壤的探索秘改遴,秃谂是表格迩霞方法还是表椿内郝舨鬻结构分辑方法 都器要严格鞠浮溅私分橱,鞲蕊锌对表格箍瑗挂链豹洋渊方法豹磺究还寝多, 弼且评测效粜也不令人满意。目前的谔测方法主要有两穗:一秘是手工浮测; 秘是自动谔测。手工评测是壶评测人员用人琵来勰黎处理缠展分橱结果熬好 坏;自动评测是利用评测软件分析系统得处理性能,评测过程遐自动或者半自 动的。 第艇节本文内容组织 表格圈像处理黪磐个除段都毳要蠢效斡测试秘译悠。强懿蛰对表糖处理的秣 能评测还没有一个有效的实用的方法。本文针对表格版强结构定位与分析的性 能浮测问题展开研究,在魏人挺出的“线条交点矩酶”驱配的谔测机制基础上, 做了优化和改良,建立了完整的评测系统,包括配援究整的评测环境,实现快 速可靠的评溺算法,简单直观的结渠分析工其。最磊基于智髓艇r t k 系统,进 行了实际躺测试分乖斤,对该评溯系统褥出客观的评价。 本文约爱续章苓安臻麴下: 藜二露,蓄先辩袋掊楚壤缝能评测方法遴行了综述,包据评溅蘸难点耩理论 模型,最囊详细介绍本文实现的基予“线条交点”匹配瓣评测算法。 第三耄主要穷缨浮测环壤灼建设,包括榉本集选取、据礁缝祭利终、艇理熊 粱的转换、比对结果的分析。 第四奄,我们给出了用本文方法对表格敝馘结构定伎秘分析遴行漱能评测酶 结果,及其对结果的分析说明。 篱五蠢,对本文避行总缩,并捂穗下一步研究方向鞠趋势。 第5 页 第二牵表格图像理自动评测模型 第二章表格图像处理自动评测模型 一章麓溪奔缀了文挡鞠橡处理秽袭据强艨处理瓣璐状黎存在鲍鹚题,为了 解决这些阅题,我们建立了一釉对寝格图像处理自动评测的模型,在本灏将对 此模犁进行详细的撼述。 第一节性能评测综述 对予任掰一个餐缝系统 甄蠢,经憩评测工l 蕈帮是卡分重要携。耋个系统敝 本受瓤或纛怒修改其中的模块朦,霪甍对其憔能进行评测,以便比较修改前藤 的性糍差羚,性能谨测工馋不仅要镑辩整个系绞进彳亍,枣时嫉也要对系统的各 个模块性能评测,对各个模块提出有针对性的错误统计指出错误发生的位置, 绘开发人员霄指导往的帮助。我们知道评测分为人工评铡和岛动评测,人工评 测是用人限观察处理结果,进行分析,众所周知,人的思维方式和观察方式鼹 不阉的,这垡主蕊戮粢禳大程寝上罐戡保证评测标准的一致醺,因丽也无法镰 试评测结粟髓有效淮。只有寄渤评测才麓解决上述河懑 2 i 1t 陵巯弹测摹本概念 长期以来文档处理系统的性能评测主要魁针对字符识别率,很少涉及到其它 方面,表格施理系统韵评溺一囊是d i a 领域公开的难题,首先我们引入d i a 系 统评溯机制中使用的概念: 1 ,一睦链浮测( p e r f o r m a n c ee v a l u a t i o n ) :掰镖牲筑浮测就是壤摇系捌基毽 数摇对系统避行性髓溺试。性熊评测受运到三个稻酌: 改善系统镁髓帮康麓控铷; 两个或多个系统进行比较: 定义系统鹣绝对褴雒。 2 理想系统( i d e a ls y s t e m ) ;理想系统是相对实际特评测系统( r e a ls y s t e m ) 丽畜,是一个嫒想纯韵系统,聪予一定的输入,产生期麓的输斑。每一。 个实际系统都有一个相对应的理想系统,这个理想系统以最优的方式解 决了实际系统所要解决的问题。由于瓒怒系统是实际系统需要达到的目 标,所以,实际系统不断的向理想系统靠近。 鼙6 更 第二章表格强像理自动评测模型 3 + 测试撵本( t e s ts a m p l e ) :测试撵本是在系统测试或评测过程中鬟臻兹对 实际系统的输入。 4 ,溺试纂准( g r o u n dt m t h ) :测试基建赣怒标礁络粱,溅竣样本输入理恕 系统,褥到盼结果就是标准绻黎,这个标准缝聚戡可以作为测试綦准。 5 憝理缭巢( p r o c e s s i n gr e s u l t ) :将测试鏊准 睾为实际系统的输入,输爨 结果就是该吞绫毂处理结果。 6 + 译溅税i 麓( e v a l u a t i o nm e c h a n i s m ) :评溺辊铡毯括确定湃测内容、设计 评测方法、制定评测标准和评测参数、选择评测梯本、戮督浮测蜜燕、 分橱评测续聚。 2 1 2 表楱豳像处理谬测方法综述 黼着鬣像疑理投术瀚发攫,文裆黼像处理技术越来越复杂,黼像链琏静自动 评测瞧越表越蓬要,出予文档图像中袁掇结掇复杂,形势多样,受增龆了燃像热 璎弱髌度,掰以对于轰蝰篷稼照攫黪谔溅龙为重要。表糁躅缘照璎包捂袭黪豹定 位和版面缎构分析,那么对袭格处理的评测也要由这炳方面组成,其重爰的工作 就燕设计一个赢效公菠魄谔测方法,葜核心是如德实现处理结果积标准绉聚的快 速、精确的比较,由于表格结构和其他文本结构不同,对其处理方法的评溯也成 为了d i a 领域的一个黪点。 目前穰多研究人员对表格处理系统进行了大量的研究,在评测方面也掇出了 缀多箨法,饪楚进震工作傍然穰缓谩。2 0 0 1 年萋名静d i a 领域豹专家n a g y 和 朗讯疆尔实骏室的j i a n y i n g 王 u 等学者联合撰驾文章,阐述了表格图像殛建自动 谔测所瑟臻的困难。势黠表接激嚣缭搀鑫砖悫挝与分糖袭统露富,建宠一个辩 学、突冬、蘧效戆评渊系统魄建立懿毽系统本身还要爨滚强l 。德器的涎位学者 m a r k u sj u n k e r 和r a i n e ri t o c h 早在9 0 年代中期提出了用召咧率( r e c a l l ) 、糙 确率( p r e c i s i o n ) 和正确率( a c c u r a c y ) 寒评测文档图像处理算法的愚想,但是 没有提供更多的实用性方法1 6 。另两位德国学者vem a n n e r 和e k a r c h e r 则对 文橙图像跹理( d t a ) 评测的题的、方法榔评测的蜜麓避行了系统的论述【”。n a g y 针对d i a 系统的评测方法进行了研究,提出基子“数据查询”评测方法。j h u 帮r k a s h l 基予n a g y 的“数攥囊询”懋怒提穗j 探舒式隔匹配的表格处蠖评测 枫涮捌。惑浆澄来,锌对表格醋像蹙褒鹞评测,簿前有驭下凡稃方法: 筹7 夏 第二章表接熬像理爨动谔测模型 1 人工译鞠; 人互浮测楚翅a 痰跤鼹察楚疆络果,分掇结慕黪合理蝰。这是爨耱多数 d i a 系统评溅嚣褥瓣方法,毽怒由予这释方法耗时费力,浮测酶撵零榘审, 瓣且容翳受人的主观困素影响,所以评测缝累可傣艘不禽。 2 ,基于图匹配的方法: 在数据结构里,表格结梅应该魁一个树或图的形式,所以表格处媛的评 测可以转化为图旺酝或檄蹑配鼹算法,但是,由于它的效率比较低,实现起 来很繁琐,所以到目前为止,这种算法还不能应用到实际的祭统中。 土探针式图匿配评溺方法 d a n i e ll o p r e s t i 和g o r d o nw i l f o n g 提出了“自由圈探针法”来评测表格 识弼算法惶能。遮稀方法楚结合了n a g y 所掇出的“数据鸯询”的思想,它 不是将处联结栗与标准缩栗直接眈较,而是建立凡类数据探针集,将搽针指 麓处理结祭帮标准结果,送行数獬鸯询,黢疆比较蜜谗绣莱麓否一致。 4 蓦予“集台蓬酝”弱评测方法 华盛顿大学熬学者掇出了“集台匹配”救方法对裘捂处理进行浮测。蓄 麓疼表格缝穗器戏跫多释“鼗据嚣域”梅减豹集合,将表擦煞壤懿浮灏转讫 为“数据区域集会”的蹑配。表格的处理结聚看作是“目标数据区域嶷台”, 橼准结果嚣作跫“源数援逸域集合”,在评测鲢遵稷中,利用韵态嫂划( d p ) 等算法,将这两个数据集合进行匹配,得到评测结果,这种方法的缺点是只 鼹针对表格的局部结构分析评测,无法反映全局处理效果,也不能提供错误 的细节。 5 基于绫条匹配的评测方法 在靳简明博士以前的研究工作中捌,逸择了基子线条鳗配的评测方法。 满为表格楚鑫j 数据分害犄( 怠摇黑线黎自线) 和文率肉容搀戒酌,数撂分害 符反浃了袭梧的黻蕊结车旬,秘蹋这静线祭信怠进行沈较分析,可以定餐豹分 掇错误。但是,实际中的处理效果不是缀理怒。 6 。基予线条交点鳃阵医聪豹评测方法 在史广顺垮士的毕业论文中提出了悸 麟的评测奉几制”l ,以线条交点蠖 障寒表示袋接的敝甄结构姆廷,避过 e 较线袈交点戆边界蒋锤和内踯交点的 j ;嚣性特征柬分析袋格处理的性能,但是这种机制只停留在理论的阶段,没有 篇8 耍 第二= 章表格图像理自动评测模型 经过代码实现。本文就是凌理论的实践过程,_ 箨在窿瑰过程中对其进行完善。 第二苇嶷牾圉像处理锻误势类及评测目檬分辑 2 2 1 表穰墅像处理镶果阉鬏转掇 嗣前已经有很多袭格处理的有效算法,但怒邋过观察一定的样本输入和输出 缮泉,我们发溪这照鲶理算法中存在罄这样一黪趣嚣:在表格版瑟结暴定位中 存在裘表、多裹、表攥扩充,袋牾残缺、表格糕连静精凝,在袭捺舨露缝褐分 扳巾存在表格内部多线、表接内部少线等现象,参见默袋a 中t y p e r e a d e r 系统 处理魄几个实铡。分撬这些翔趣可以发现,奄懿属于袭揍定位镑误,鸯瓣剿属 于表格版面分析错误,所以,我们把袋格评测问题分解为两个方面的问鼷处理 一个是针对表格定位的评测、个是钟对表格版蕊结构分板的评测。表2 。i 列拦 了表格图像处理结果中存在的各种问题情况: 表2 1 袭格图德处淫错误情况分类裘 出锵情况分类出错情况描述产生原因 丢表已定义的袭椿没有识獭出。由于图像鹱量燕导致表格结构信息 不足;附近其他文档结构的干扰导 致丢表。 多装未定义豹表格识弱硪表格。翻像中存在类似裘格结,檎;整个硪 瑟存在文本框。 表揍扩充谖剩爨熬袭格诧鼹表格多裘播旁迭鞠 # 袭格缩稳干扰,造成 一部分。在抽取述遇体或线焱过程中表格区 竣扩大。 表格残缺识别如的农格比原表格少图像质精筹,边框线不完整: 一部分。 表格粘连两个戚多个袭格识别成一袭格距离过近,腿噪声过火。造成 个区域较穴酌表格。两表嵇连。 表格内部多线表格内部非分隔符结构被字符( 1 、i 、i 游) 误识为分隔符; 谖裂残线祭。较大静文本闫空黢误识黢分隔符。 表梅内部少线表裕内帮线条没有 ; 剩密。表格线条虢失。 第9 页 第二章表格豳像理自动浮测模型 2 2 2 表格图像处理性能评测目标分析 、表姆蚕豫凳疆性爱谱溪l 鑫静 同文档图像处理的评测一样,针对表格图像处理的评测也有三个目的: 分辑一袭揍建建系统嚣绝对牲栽; 目的是对表格图像处理系统进行评估,给出系统性能一个绝对数值,包括系 统处理速度帮系统娥惩效果,对该袭捺处理系缓在当麓的发裁隶乎绘嫩了一个 有效的评价,在一定程度上能有效的体现该表格处理系统和理想系统的性能差 距。 对几类表格处理系统的性能进行比较: 目的是对不同的处理系统进行比较,可以选出其中符合要求的一个系统来完 成某项任务。 对系统进行质量控制,改善系统的整体性能,或者版本丹缓。 上述的兰个评测目的都鼹对系统避行比较,或者是两个系统的比较或者是多 个系统的比较,比较褥执行都是以参考数据或者是基准数据( g r o u n d t r u t h ) 为依 据避行的。 二、表格处理性能评测内容 完整的表格评测视$ ( e v a l u a t i o nm e c h a n i s m ) 包括戳下雨容: 确定评测内容; 设计评溺方法,翎定评潮参数,建立评测标准; 选择评测所使用的工具,搜集评测所需的各种资源; 藏督并拣锎评灞过程的实施,傈诚评测过褪的科学性和客观性; 统计并分析评测得到的结果数据,根据评测基准和评测参数,得到 公正、客观的评测结果。 三、表格处理性能评测难点 要实现上述完整的表格处理的自动评测,我们还面临着许多圃难: 难点1 :评测数据( t e s ts a m p l e ) 的选择难 对于性能评测来说,输入数据的选择是菲常重要的,应该具有代表髋,必须 尽可能覆盖剿所有真实可能的情况。对于表格图像处理系统,这一点尤为重要, 第1 0 负 第二章表格黼像理自动浮测模型 它的对象怒现实中所遇到的各个领域的各种文档图像,所以必须要建立一个比 较大的测试样本集合,采集的样本鬟尽量包括各类型。而这是非常困难的,因 为不同的鳃台蒋会生成无穷多的文档匿像, 翘会生成无穷多的表格结构,我们 无法完全预计和估擞在将来的系统运行中,可能遇到什么图像。我们只能是把 榉张进行分类,诖我霄j 瘊选择嚣测试样奉覆藏这些类羽。 难点2 :评测标准( g r o u n dt r u t h ) 的制定难 善先在罄逶文橙嚣像中载表辏令数是不礴定懿。可l 舂一令或多令褒掇,也 可能没有表格,或者整幅图像就是个表格,这样我们就没有一个明确的目标, 只能是通过一种完罄露合理的探索枫制来搜寻到文档图像中鲍表撂结构。其次, 普通文档图像中的袭格结构是不确定的。和特定类型的文档圈像不同,普通文 档图像中表格结构的分析无法采用模板匹配浃,因为我们无法预先知道待处理 静文档图像中的表格结构。 难点3 ;谱测方法的选择 选择评测方法就是确定表格处理缩果和稀准结栗的比较方法。表稽的数据缩 构不同,比较方法也不同。w a t a n a b e 提出表格结构可以用树结构来表示【l ”,这 是一静有代表牲携袭示方法,另一静常用弱波捂结构袭示方法是寄离无巧圈结 构( d a g ,d i r e c t e da c y c l i cg r a p h ) 。由此可见,表格评测问蹶转化成了图匹配 或楗匹配弱涎嚣。遮强令越题一壹叛寒没有一个有效熬算法,嚣虽,罄嚣令表 格结构如果存在一个微小的涟别,可能对于描述它们的图结构或树结构来说会 存在很大魄差异。这不可置疑的会给表格评测带来很大敬困难。 难点4 :详测参数的制定 对于表格处理系统来说,不同的用户,需求是不样的,慰处理结果的接受 程度也不潮,所醴不能溺“甜”或“错”来简单的衡溪一个懿理结采的好坏, 而是应该用合理性来反映系统的处理性能,这增加了评测参数选择的嘲难。本 文参考攘标准度璧参数召鬻率( r e c a l l ) 秘精确率( p r e c i s i o n ) 圈l 塌稍定了完 整的表格版面结构定位与分析参数。 第三蒂袭牾囝像链毽憋镌浮溅流程 2 3 1 评测参数的制定 前面2 1 节介绍了一些袭格评测算法,包括图匹配、集合政配等,简单的讲 簿1 1 贞 纂二章表格图慷理自动评测模型 述了这些算法存谯的一些缺陷。本文提出以线条交点为比较对象,根据线条交 点和单元格的特征关系,将图匹配的闯题转化为一位线条交点序列的匹配问题, 不仅降低了评测的复杂度,而且能够对处理错误进行定量分季斤。 如何袭示复杂的表格处理系统的效果是评测实施过程中臻考虑的一个重要 溺题,我们不仅嚣要如道一个整理箨法的校能,委希望藐冁对魄不溺处理算法 的性能差异。本文中,我们使用召回率( r e c a l l ) 、精确率( p r e c i s i o n ) 和正确率 ( a c c u r a c y ) 或者锈浚率( e r r o r ) ( i n 为e r r o r = - 1 一a c c u r a c y ,蕊鞋我们只考爨a c c u r a c y ) 作为度量标准来计算表格图像处理系统的处理效果。 医为袭格评测黪走容分为两部分,一个袭掺定位性能评测,另一个是表格舨 瓶结构分析性能评测,因此,评测参数相应的也分成丽类,类是表格定位性 能评测参数,另一类是表格版面分柝性能评测参数,下面定义了在袭格版面维 搦定位评测中的参数及其淡量方法。 表格定位召回搴= n u m ( 处理结果中正酸表格结构) n u m ( 标礁结果表格 绪构) 表格定位正礁窭= n u m ( 处理结果中正确表格结梅) n u m ( 处瓒结果表格 结构) 表格定位精确枣= n u m ( 处理结果中定僚精确表捺结构) n u m ( 处理结果 中表格结构) 在袭格舨嚣分板性能谬测中,我们是以“单元格( c e l l ) ” 乍为缝计标准懿, 靓括单元格的召回率( c e l lr e c a l l ) 、单元格的正确率( c e i la c c u r a c y ) 、单元格 的抽取精度( c e l lp r e c i s i o n ) ,其中单元格的拙取精度同定位中使用的穰确率有 所不同,军 i 用单元格抽取翡几种错误情况所占眈例柬度量,分剐是“单元格增 加”、“单元格减少”、“单元格合并”、“单元格切分”,通过对这几种情况的发生 院铡,可以茇璃袭椿舨瑟结掏分秘模块兹设计酸疆。敝面结梅劳橱评溺参数诗 摊方法如下: 单元格召回章= n u m ( 齄理结巢中正确单元禧) n u m ( 标准结巢蕈元藉) 单元格正确率= n u m ( 处理结果中j e 确单元格) n u m ( 处理结果单元格) 单元格精确度包括单元格合并比例和单元格切分比例: 第1 2 页 第二誊表揍鞠像理自动评测模型 单元格合并比例= n u m ( 处理结粜中单元格合并) n u m ( 处理结粱单元格) 单元辏切分跑铡= n u m ( 整理结袋孛单元捺切分) n u m ( 楚理缍巢萃元稳) 说明:其中n u m 0 袭示表格的数目或者单元格的数目。召回率和正确率是从宏观 熊度对系绞洼嶷遴季亍描述,嚣精确窭是对表穆定寝秘分拆静慈麓进行受准赡黪 描述,比如表格版丽结构的定位精确率是指在定位识确的基础,卜去掉了区域扩 充强缡藏铹误后精确定位的表穆所占陡例;两在舨蕊结捡分撰中,则孀精确度 详细描述了各种不台理情况所占比例。这种定义参数的方法全面的描述了表格 处理的性能,使褥评测过程更为完善。 2 3 2 自动性能译测流程 为了鬟赢表格圈像处理畚绞鳃瞧缝,秘毙较各秘袭穆处瑾方法豹蛙麓,罴簧 犬规模的测试,因此我们需露构建个自动评测系统,不仅w 以定性的分析评 测系统两且可以定爨的分柝袁接处瓒系统,评测结果可以直腮的反映处理方法 中存在的错误,指出错误发生的位鬻,分析错误的原因。当然,这是相当困难 的。 麸蘸瑟的讨论,我们女g 遴为了对表格銎像经理进行性能评恼,我稍灞要有一 个衡量性熊的尺度,还需要标准数据和一个用来比较标准结果和处理结果的评 测实用算法,从焉褥壅洼g 评 砉懿终莱数据。黠这些数据进行统;卡激矮,将藏 终结果返回给开发者,可以帮助他们很快知道表格处理算法的效果,这些统计 结果之中慧括对错误鼢分类,黠诺谈严重程度戆馕冀,以及对镶误产生缀嚣约 分析,图2 1 简单描述了我们使用的表格处理性能评测的流程。 图2 1 性能评测流程简图 鞴1 3 页 第= 章表格图像理自动谬测模型 我们对这个流程的主要部分作简臻的说明: 标准结果是评测实际系统的一个标准,在我们的评测系统中,标准数据是每 个二维液格的所有线条和交点的集合,我们构建一个数据库,来存放每个表 格的正确结构。 实际系统是我们待评测的表格处理系统。 评测函数是自动评测的棱心,一个有效恧实用的t 乎测算法是真正馓到垒动评 测的关键,本文中我们采用了基于“线条交点”的评测机制,不仅从整体角 度对表壤版露结橡进鼋亍了评测,嗣对还能瓷接找到镄误的瓢因,为浅牾图像 处理的性能提高和完善掇供了指导信息。在2 4 节将详细介绍基于“线条交 点”戆拨心评测舞法。 性能评测结果是评测比较的结果,我们采用各种图形、表格和文字来描述评 测结果。 第四节表格图像处理性能评测模型 z 4 1 表格处理结槊及其表示 图像r # 的表格经过定位、舨匿结梅分板之羼,殴某种楱式保存就得到表接魄 识别结果。因此表格处理后的结果实际上等同于表格版面分析之后的结果。为 了便于描述袭格版面结构,首先我们来解释一犊相关概念: 表襁舨灏结褐( t a b l el a y o u t ) :捂可显示的表格匿像元素及定义在这些元素 上的关系所组戚的集合。 理想表格( i d e a lt a b l e ) :与嚣表楱含义糨藕,毽怒表格边赛器j 线条信息补 充完整的表格。 线条交杰( i n t e r s e c t i o np o i n t ) :袭接叛垂缝穆中东平窝竖壹数据分隔符提互 交会、贯通的位置,称为线条交点。线条交点反缺了数据分隔符的相交情况, 并记录了数据分隔籍的全局和局部版荫结构特挺i l l 】。我们把表稳中鲍线条交点 分成丽类,类是边界交点,另一类怒内部交点。 单元格( c e l l ) :袭格逻辑结构的基本单元,在表格版面结构中,由两条水平 线和和两条疆直线榴交维成的最小矩形区域。单元格不可再分。 简单区域( s i m p l er e g i o n ) :由封闭的行线和列线圈成的封闭的矩形区域, 篇j 4 贾 苎三篓至垫壁墼型璺翌矍型堡型 内部包含有效的数据信息”】。简单区域的特点是:一个简单区域可以魁一个单 元格,也可以是由多个单元格构成,一个表格也可以是一个简单区域。 罄 蓄 辫黧黛躲 粥5 b f 州m 赛 怒薷鼎毅一 ; 荣黧缀 器篇盘p “ 图2 1 。1 需要补充边界线的表格 i i i i i i i 一 图2 , 1 2 补充边界线后理想表格 一一a s - 4 | ? “竺,i 一! 竺巴竺型一! 围2 + 2 - 1 表格线不完整啤表格 菇1 5 页 第= 章表格圈像理自动评测模型 f 荨e 善e 荨l 孝j 士亨 表格的版面结构实际上就是由一个或多个简单区域构成的集合。实际表格的 类型非常复杂,图2 1 和图2 2 是薅个表格熙像及其皴象出来的表格版薅结毒每, 容翁发现,图像中的表格有线条信息不全,有的线条藩失,有的线条不完整, 在处理过程中,根据简单区域边界完艟的原则按照理想表格的框架将其不完整 的信息补全,有酶需要添蕊线条,有的需要将线条延伸( 图中虚线部分是补充 或延伸的线条) 。 在表轻的建理绪暴是銎c e l l 链表的形式采表示的,c e l l 链裳本身静燹活洼誊 效的记录了简单区域的位置特征和区域之间的逻辑关系。在本文中,我们将这 季孛续梅售崽转 二成了线条交点麴形式,鼹一绻黪线条交点集合表示表摄豹赝有 版面信息,这种方式不但简化了结构表格的复杂性,而且便于更高级操作。在 下一节将洋缨描述如何利用线条交点裘示表掺的版面续梅信息。 2 4 2 基手表格线条交点的性能详测模型 摄据2 3 节穷缨瓣鸯裁谱测漉程,我钠设诗了魄较篱法亲实菇上述谨溺方法, 根据表格处理的两个步骤表格版面结构定位和表格版面结构分析,比较算 法瞧分成薅夺部分一一表格版嚣结构定位性熊评测秘表格版藤缝构分撅性能弹 测算法。要构建这样的评测系统,关键有两点: 1 定义性能指标,即从那些方面评测表格处理结果的好坏。 2 设计有效的评测算法。 ( 一) 寝格版面缩构定位的性能评测算法思想 箫1 6 页 第二章表格图像理翻动评测模型 我们采用丁由粗到精的比较算法来对袋格版面结构定位性能进行评测。 首先介绍下评测算法中用到的术语: g t r ( g r o u n d t r u t hr e c t a n g l e ) :基准摸投静表格矩形区域序癸。 p r r ( p r o c e s s i n g r e s u l tr e c t a n g l e ) ;处理结果中的表格矩形区域序列。 我们遵循“由粗到精”的原则对表格定位性能进行评测,将表格定位的处理 结果0 p r ) 与标礁结果( g t ) 较,因为虽然袭椿蛉处理结蓉秘标准结果不跫建立在 一个空问坐称下,但是他们稠对位要是趣该相同的( 以榉张的右上顶端为坐标 原点) ,所以如果图像中存在一个表格,那么如果把这两个坐标重合,那么表格 的标准结果和处理结果的矩形区域一定存在着重叠,否则就存在识别锚误。我 翻敷此为标礁寒翔叛处理缝聚中表格是否已被定位。 粗匹配鹣过程箍述如下: 1 首先我们要确定表格处理结果矩形区域( p r r ) 中的某一个矩形区域与 标准结果矩形区域序列( g t r ) 中的哪一个区域对应。 2 。其次,确定了对应嚣域强后,我们舞衡量两个嚣域的对应程瀣,衡量豹 基准怒两个区域重叠区域面积的比例大小。我们设定了两个矩阵类型的 参数,根据参数矩降的值和一些判定规贝b ,可以确定“表格丢失”、“添 鸯羹表楱”、“表掊诱分”耪“表捂含劳( 或者稳为袭嵇餐连) ”嚣秘类鳖鸹 错误的发生情况。 下面我们介绍这两个参数的制定方法:令g = t g ,t c 2 ,t g m 表示橼准结票矩形送竣序捌,r = 铲l ,t r 2 ,t 巳 表示处瑗结鬟 矩形区域序列,值褥注意的是,! t i 不一定等子1 1 ,而且对于确定的i 值 r 。和t 8 也不必一定是对应的。其中我们定义了两个衡量准则: w = a r e a ( t o int r ) a r e a ( t 6 。) u n - - a r e a ( t 鼍n 善8 1 ) a r e a ( 1 8 ) 这墨1 基i 三m ,i 兰l j 蠹n ,a r e a ( a ) 表示a 的面积。a nb 表示a 区域和 b 区域霪合部分。上面连个衡量准则是两个矩阵w = ( w 。) 和u = ( u 。) 。 其中w 。表示的是铲,有多大比例的面积被中,所覆盖,而u 。袭示鲍是 t 气中存多大晓翻熬霹耪被严,鬃鹱燕。 细匹配避稷描述如下: 经过粗匹配之后,处理结果序列r 中的表格区域可以分成区域定位正确和定 第1 7 爱 第二章表格圈像理自动评测模型 位错误两种清况,其中定位正确静清况包括:“表格定位精确”、“表格合并”、“表 格扩充”、“表格残缺”四个炎型,定位错误的情况包括:“表格丢失”、“添加表 格”两静类型( 注慧,在这鬃_ 把表格狻鼗帮扩充情况 魏箨俸庭位正确。) 为了受 精确的统计表格区域扩充和缩减这两种错误的发生情况,还需要更进一步的匹 配过程,我髓稼为缨匹配过程。主要愚想如下: 在粗匹配之后,将处理结果序列r = t 8 1 ,1 1 r 2 ,t r 。 中错误的表格去 除,结果变成r 、= 下8 mt r x 2 ,t r n 的形式,其中t 8 ;代表定位正确鲍 情况,在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川电影电视学院《非法干扰、扰乱行为》2021-2022学年第一学期期末试卷
- 石河子大学《影视作品赏析》2022-2023学年第一学期期末试卷
- 石河子大学《歌曲与旋律写作常识(1)》2023-2024学年第一学期期末试卷
- 石河子大学《版画》2021-2022学年第一学期期末试卷
- 沈阳理工大学《数据结构》2022-2023学年期末试卷
- 沈阳理工大学《科技文献检索》2023-2024学年第一学期期末试卷
- 大学校医院工作总结
- 沈阳理工大学《化工原理》2021-2022学年第一学期期末试卷
- 规范合同管理流程的通知
- 合肥住房租赁合同
- DB32/T 4465-2023专利侵权纠纷行政裁决庭审规范
- DDI-高绩效辅导培训课件
- 外研版七年级上册英语思维导图各个单元的内容
- 基础护理生命体征测量
- 小升初个人简历模板-
- 糕点生产许可证审查细则
- XX银行信息系统软件版本管理办法
- 平果县采石场事故应急救援演练方案
- 写作《写出人物的精神》-部编版语文七年级下册
- YY/T 1429-2016外科植入物丙烯酸类树脂骨水泥矫形外科用丙烯酸类树脂骨水泥弯曲疲劳性能试验方法
- 烧结过程中氮氧化物生成机理及控制
评论
0/150
提交评论