(计算机软件与理论专业论文)用户驱动的特定领域自动文摘系统设计与实现.pdf_第1页
(计算机软件与理论专业论文)用户驱动的特定领域自动文摘系统设计与实现.pdf_第2页
(计算机软件与理论专业论文)用户驱动的特定领域自动文摘系统设计与实现.pdf_第3页
(计算机软件与理论专业论文)用户驱动的特定领域自动文摘系统设计与实现.pdf_第4页
(计算机软件与理论专业论文)用户驱动的特定领域自动文摘系统设计与实现.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机软件与理论专业论文)用户驱动的特定领域自动文摘系统设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着现代科技的高速发展,报纸、书籍、科技文献等以文字为载体的信息大 量涌现。尤其是在国际互联网络高速发展的带动下,每天都会有不断涌现的海量 信息。为了能从这些海量的信息中快速、准确的找到用户需要的信息,文章的自 动文摘成为越来越被关注的研究课题。 在研究比较了相关的自动文摘方法后,我们采用基于统计的自动文摘方法实 现了一个用户驱动的自动文摘原型系统,对其性能进行了测试。 指代是现实生活中比较常见的语法现象,在文章处理过程中也常常因指代 问题导致文摘生成结果不准确。针对自动文摘因指代问题产生的问题,本文结合 目前的研究状态,对篇章消解算法进行了简介,并提出一种类似于篇章消解算法 思想的特定领域的自动文摘系统的实现方法。通过分析原始文本中存在的指代关 系,重新计算词频和句子的重要度,来获得新的文摘结果。 本文详述了用户驱动的特定领域自动文摘系统实现方法,并通过实验验证 了类似篇章消解算法的应用对于文摘结果的改善。 为了验证所提出方法的可行性和有效性,本文采用内部评价方法对开发的 文摘系统进行评估。从论文库中抽取政治学科的1 0 0 篇论文,获取文摘,进行评 测,可以看出我们提出的类似于篇章消解算法的方法对特定领域自动文摘系统的 性能有所改善。 关键词:篇章消解算法、自动文摘、特定领域、用户驱动 a b s t r a c t i i lo r d e rt ob e n e f i tf r o mt h ev a s ta m o u n t so fi n f o r m a t i o nq u i c k l ya n da c c u r a t e l y f i n dt h en e e d e di n f o r m a t i o n , t o p i c so na u t o m a t i ca b s t r a c t i n gh a v eb e c o m em o r ea n d m o r ep o p u l a r c o m p a r e dw i t ht h et r a d i t i o n a la u t o m a t i ca b s t r a c t i n gm e t h o d s ,w ea d o p t e dt h e s t a t i s t i cm e t h o d st od e v e l o pu s e r - d r i v e na u t o m a t i ca b s t r a c t i n gs y s t e m s r e f e r r i n gi sac o m m o np h e n o m e n o ni nt h er e a l l i f e i nt h ep r o c e s so fp a p e r s h a n d l i n g ,r e f e r r i n go f t e nl e a d st oi n a c c u r a t er e s u l t s t os o l v et h ep r o b l e mc a u s e db y t h er e f e r r i n g c o m b i n e dw i t ht h ec u r r e n ts t u d i e s ,t h i sp a p e ri n t r o d u c e dr e s o l u t i o n a l g o r i t h m a n dt h e i m p l e m e n t a t i o n o fd o m a i n - s p e c i f i cu s e r - d r i v e n a u t o m a t i c a b s t r a c t i n gs y s t e m b a s e do nr e s o l u t i o na l g o r i t h m b ya n a l y z i n gt h er e f e r r i n g p h e n o m e n o ni nt h eo r i g i n a l t e x t ,t e r mf r e q u e n c ya n ds e n t e n c ei m p o r t a n c ea r e r e c a l c u l a t e dt oo b t a i nn e wa b s t r a c t i n gr e s u l t s t h i s p a p e r d e s c r i b e st h e i m p l e m e n t a t i o n o ft h eu s e r - d r i v e na u t o m a t i c a b s t r a c t i n 。gs y s t e mi ns p e c i f i cd o m a i n ,a n d t h ee x p e r i m e n tr e s u l t sv e r i f i e dt h e i m p r o v e m e n tc a u s e db yt h er e s o l u t i o na l g o r i t h m i no r d e rt ov e r i f yt h ef e a s i b i l i t ya n de f f e c t i v e n e s so ft h em e t h o di nt h i sp a p e r , t h ei n t e r n a le v a l u a t i o nm e t h o di sa d o p t e dt oe v a l u a t et h ea b s t r a c ts y s t e m 10 0p a p e r s i np o l i t i c a ls u b j e c t sw e r et a k e nf r o mt h el i b r a r yt oe v a l u a t ea b s t r a c t sm a d eb yo u r s y s t e m a c c o r d i n gt ot h ee v a l u a t i o nr e s u l t ,w ec a ns e et h a tt h es y s t e mb a s e d o no u r a l g o r i t h mi sm o r ee f f e c t i v et h a nt h es t a n d a r ds y s t e m k e yw o r d s :r e s o l u t i o na l g o r i t h m 、a u t o m a t i ca b s t r a c t i n g 、d o m a i n - s p e c i f i c 、 u s e r d r i v e n n 独创性声明 本入郑重声明:所提交的学位论文是本人在导师指导下独立进霉予研究 工作所取得的成果。据我所知,除了特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过昀研究成果。对本人的研究徽出重要贡 献的个人和集体,均已在文中作了明确的说明。本声明的法律结果由本人 承担。 学位论文作者签名:乒奠鑫l 匿期:立翌压业 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规 定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的 复印件和电子版,允许论文被查阅和借阅。本人授权东北师范大学可以将 学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其它复制手段保存、汇编本学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:琏 磊 甥:z 竺121 竺玎 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名:j 兰生 酲 期:之坚皇! 堑 电话: 邮编: 东北师范大学硕士学位论文 1 引言 1 1 课题研究背景及意义 科学技术的迅猛发展加速了信息的增长,加重了信息用户搜集信息的负担。 许多研究人员在承接某个课题之后,也意识到应该查找资料,但是他们以为整天 泡在图书馆“普查”一次信息就是信息检索,结果浪费了许多时间,而有价值的信 息没有查到几篇,查全率非常低。信息检索是研究工作的基础和必要环节,成功 的信息检索无疑会节省研究人员的大量时间,使其能用更多的时间和精力进行科 学研究 4 】。为了减小文档的存储空间和提高用户的信息搜集效率,自动文摘技 术应运而生。将信息全面的、简洁的文档直接呈现给用户,提高用户获取信息的 效率 2 0 】。 自动文摘就是利用计算机对文献编制的文摘。摘要是以提供信息内容梗概 为目的,不加评论和补充解释、简明、确切地记述信息重要内容的短文 2 4 】。随 着信息数量的飞速增长和计算机技术及网络技术的迅速普及,人们对于自动摘录 系统的需求也越来越迫切。 如何编写出一篇准确、简要的高质量摘要是一个尚未很好解决的问题。传 统的手工编制方法对于摘要员的基础素质要求较高,而且编织效率低、时差大、 编制出的摘要易出现主观性和片面性。因此,利用计算机等技术对各类信息进行 摘要编制已经成为必然的趋势。 当然,人们希望自动文摘的结果能够满足人们的需要。国际上对自动文摘 的研究可以说是与自然语言处理其他领域的研究同时起步的。由于计算机硬件限 制和自动文摘研究缺乏基础性技术,所以,自动文摘在2 0 世纪5 0 7 0 年代发展 相当缓慢;从8 0 年代末期开始,自动文摘技术才进人蓬勃发展、百家争鸣的时代。 不同领域的人员对资源的需求是不同的,为了满足某一领域用户的需求和 提高自动文摘系统的性能,特定领域的自动文摘系统的建立得到了研究人员的重 视。针对特定领域的术语、知识、文章特点等所建立的特定领域的自动文摘系统 将更具有专业性,而且,效率、质量也会大大提高。 随着计算机、网络和多媒体等技术的迅速发展,信息技术已被应用到了各 行各业,为它们的发展提供了技术支撑。教育领域也不例外,当前,教育信息化 工作得到了进一步的普及。一些教育机构和软件公司投入了大量的人力和财力来 开发教育软件和教学资源库。再先进的软件,如果没有高质量的教学资源库的支 持,它的价值很难得以体现。可见,教学资源库的建设工作变得越来越重要。随 东北师范大学硕士学位论文 着资源的迅速增多,大大增加了使用者的检索和浏览负担。为了提高使用者的利 用效率,为资源库中的文本类型的资源建立由用户来驱动的自动文摘系统是十分 必要的。所谓的用户驱动是指用户可以根据自己的实际需要来确定文摘的制定方 案,系统根据用户提交的文摘方案来返回相应的结果。东北师大理想信息技术研 究院是从事中小学教育信息化工作的主要机构。它所开发的教学资源库系统中需 要增加自动文摘系统。可见,建立一个用户驱动的自动文摘系统并将其应用到东 北师大理想信息技术研究院所开发的东师理想教育资源库系统中具有一定的理 论和应用价值。 1 2 国内外研究现状 从h e l u h n 提出自动摘要的思想到现在,自动摘要的研究已经走过了近半 个世纪的历程,其间也出现许多试验性系统,有些系统已经应用于实践。随着 i n t e m e t 的普及,自动摘要的应用将更加广泛,同时其技术也必将进一步完善 9 】。 有关自动摘要的研究成果已发表许多,但真正投入实际应用的系统还不是 很多,本节将简略介绍国内外几个有代表性的自动摘要系统。 1 9 5 8 年4 月,卢恩关于自动摘要的文章一一“t h ea u t o m a t i cc r e a t i o no f l i t e r a t u r ea b s t r a c t ( a u t o a b s t r a c t s ) 发表之后,引起了情报学界的巨大反响, 从此揭开了计算机自动摘要系统研究的序幕。卢恩自动摘要的思想起源于他 1 9 5 0 年在自动标引中的词频统计思想,从此为进一步研究自动摘要技术打下了 坚实的基础。 同年1 0 月,p b b a x e n d a l e 发表了一篇关于对科技文献进行标引实验的文章, 该文虽然没有直接对自动摘要进行讨论,但文中所得出的分析结论和标引的权重 分配对后来的自动摘要研究有着很大的启迪作用【5 】。比如,该文对2 0 0 个段落 分析得出:85 的段落主题句是段落的第一句,7 的为最后一句,并提示可 以将这些句子汇编成摘要。 v a o s w a l d 的自动摘要试验可以说是对卢恩思想的进一步发展【6 】。他不仅 仅考察了单一关键词的频率,而且认为由高频词组合在一起的词组更为重要。一 个句子是否能成为摘要候选句,完全视该句子含有高频词组的数量决定。 在20 世纪60 年代,h e e d m u n d s o n 发表了多篇与自动摘要有关的文章, 包括对上述三位学者研究成果的介绍,对当时自动摘要研究所面临的问题的文 章,还有综合了其他学者思想而提出的关于自动摘要新的技术与方法方面的文 章,这些方法使后来人们在进行自动摘要研究与实践中获益非浅。 自1 9 6 4 年起,l l e a r l 等人也开始他们的研究,该研究利用句法分析来 确定名词词组,并从名词词组中剔出功能词,然后确定高频词组,再根据句子中 包含高频词组的数量来确定是否被作为摘要句。 2 东f l l o i f i 范大学硕士学位论文 总之,2 0 世纪6 0 年代及以前,自动摘要的研究可视为探索、试验和理论研 究阶段。正如e d m u n d s o n 所述:“这个时期,在美国只有两三支队伍,十余个人 在从事自动摘要的研究,所获得的政府机构资助的比例很少,只从资助自动翻译 研究的数百万美元中分到十余万美元”。 7 0 年代后,自动摘要的研究逐渐走向实用,许多实用系统开始诞生,如俄 亥俄州立大学的a d a m 自动编写系统,该系统较具代表性,并且效果好。该系 统运用排除法设计了从原文中确定并排除不适合做摘要句的规则,已确定的摘要 句也不是简单的排列形成摘要,而是按一定规则润色加工并连句形成摘要,提供 了计算机编制的摘要的连续性和易读性。 美国m i c r o s o f t 公司首先将自动摘要系统进行了商品化,将其集成到了办公 软件o f f i c e 9 7 、o f t i c e 2 0 0 0 及以后的o f f i c e 系列中;俄罗斯的m e d i a l i n g u a 公司 也在网络上发布了英文文献自动摘要的演示版本,但这些系统的摘要结果并不如 人意。世界上主流的搜索引擎( 如y a h o o 、g o o g l e 等) 都有网络信息的自动摘 要功能,但生成的摘要要么必须经过手工修改后才能使用,要么只摘取文章的头 部,效果并不理想。 到目前为止,自动摘要的研究已经有近5 0 年的历史了,它的价值已经充分 显露了出来。这主要应该归功于电子出版系统和国际互联网络的蓬勃发展。当大 量机读形式的文献潮水般涌来的时候,人们想到了自动摘要。1 9 9 3 年1 2 月在德 国w a r d e n 召开了历史上第一次以自动摘要为主题的国际讨论会。1 9 9 5 年,国际 期刊i n f o r m a t i o np r o c e s s i n g & m a n a g e m e n t 出版了一期题为s u m m a r i z i n gt e x t 的 专刊,编者在序言中指出,这一期专刊的出版标志着自动摘要的时代已经到来。 我国从1 9 8 5 年开始介绍国外自动摘要方面的研究情况,从8 0 年代末开始 研究自动摘要实验系统。一些高校和研究所的专家学者开始指导研究生对计算机 自动编制中文文摘进行了一些研究与实践,取得了可喜的成绩。一些系统已被建 立,比如,上海交通大学的“自动文摘”o a 中英文自动摘要系统,哈尔滨工业 大学王开铸研制的基于篇章多级依存结构的h i t - 8 6 3 i i 型自动摘要系统 1 9 2 4 】 和复旦大学吴立德教授研制的f d a s c t 摘要系统等【3 0 】。此外,从事此项研究的 单位还有北京邮电大学、山西大学i b m 中国研究中心和中国微软公司等。 与手工摘要系统相比,计算机自动摘要系统可以产生出高性能、低成本的 摘要,研制自动摘要系统是必然的趋势【3 0 】。目前,自动摘要研究的主要方向是 基于理解的自动摘要。这是因为自动摘要系统主要是基于统计的摘录系统,不考 虑句子的含义和句子之间的关系,自动抽取必然导致摘要的准确率低、连贯性差, 并由此产生一系列问题,如主要内容缺失等。因此,基于理解的自动摘要系统是 今后发展的必然趋势。随着高性能的计算机的问世,以及自动摘要技术的发展, 自动摘要系统的前景是非常可观的,必将得到广泛的应用。 3 东北师范大学硕士学位论文 1 3 本文的研究内容和结构安排 自动文摘技术发展了很多年。2 0 世纪9 0 年代随着互联网的迅猛发展,信息 爆炸式的增长在满足人们对信息的需求的同时,也使人们快速、准确地找到真正 需要的信息变得更加困难。自动文摘是解决这一困难的一种非常有效的技术。在 众多的自动文摘方法中,基于句子抽取的方法是一种历史悠久、方法简单有效且 被广泛使用的自动文摘方法。这种方法是利用统计学的方法或者通过启发式的方 法从原文中抽取句子,然后按照长度要求将这些句子有机地结合起来形成一篇文 摘,使其尽可能多地保留原文中的信息。 目前,影响中文自动文摘系统性能的因素包括:分词现象,同义词现象, 汉语语法现象,省略现象,回指现象等。 分词就是将句子划分为一个一个的词语。汉语的书写不像英语,汉语的书 写词语之间是没有界限的。所以在进行汉语的自然语言处理就多了一个分词的过 程。而分词又往往不能达到百分百的准确性,这将对后继的处理带来很大的麻烦。 例如:“饮食和服装“这句话应该分为“饮食和服装 还是“饮食和服装”, 这就造成了分词的二义性。 汉语中一个词可以有很多意思,同样也有多个词表达同一个意思。这些都 增加了语言的表示对语义的依赖性,所以,汉语的句子成分的语法作用强烈依赖 于该成分的意义。 汉语口头语和书面语有很大的不同,同样在写作上,不同的作者写作风格 也不尽相同,不同领域的文章对于语言的运用也各有特色。这使得汉语的语法分 析很难对语义分析提供支持。 汉语的省略现象非常普遍,不仅主语、宾语可以省略,定于也常常省略, 甚至连中心词也省略。这使得汉语理解中更强调语境知识的应用。 汉语中回指现象比较严重,例如:“超级女生”若再出现会缩略为“超女 , 还有就是“他,它,他们”这些代词的回指。 以上这些因素给中文自动文摘,乃至中文信息的计算机处理带来了一定的 困难。在实际的自动文摘应用系统的研发上,近年来,国内外先后有多所大学和 一些研究机构开展了研究,建立了一批试验系统,但因为在自动语法、语义和语 境分析等问题的研究上还有一定的限制,影响了自动文摘系统的查准率和查全 率。根据我们的研究情况,采用领域术语库和同义词词典来解决分词和同义词 现象,采用了一种类似篇章消解算法的方法来解决回指现象,以提高特定领域自 动文摘系统的效率。 在教学资源库的应用中,不同用户对于文摘的生成有不同的要求,有的用 户需要摘出文章的中心句,有的用户需要摘出每一段的中心句,而有的用户希望 文摘与关键词密切相关,根据理想教学资源库用户的需要,在自动文摘系统中加 4 东北师范大学硕士学位论文 入用户驱动模块,给用户提供不同的选择方案生成最终文摘。 综上所述,以政治学科为例,我们采用基于统计的方法来开发原型系统。 然后,再采用统计和类似篇章消解算法的方法来实现一个用户驱动的自动文摘系 统。这个系统可根据用户的意愿提取任意比例的文摘。本文结构如下: 第一章引言,介绍了文本自动文摘的研究背景、相关概念,概述了文本自 动文摘的国内外研究现状。 第二章是文本自动文摘相关技术的介绍,阐述了当前文本自动文摘领域用 到的重要的模型及技术方法。 第三章提出基于篇章消解算法提取的中文自动文摘系统设计方案,设计一 个文摘系统,详细阐明了各个设计模块的功能与实现。这是本文的核心部分,对 于特征词语的选择模块,句子权重的打分,文摘句的提取模块,文摘输出模块作 了重点介绍。 第四章是系统的实现与评测结果分析,对文摘系统分别给出两组语料进行 测试,分析评测结果,了解基于统计的文摘方法在政治领域的文章所存在的问题。 第五章对全文进行总结并且对未来工作的展望。 5 东北师范大学硕士学位论文 自动文摘相关技术及原理 2 1 自动文摘的基本概念 文本信息摘要是指对文本信息内容进行概括,提取主要内容进而形成摘要 的过程。到目前为止,现有的文本自动摘要系统大致可以分为两大类,即基于统 计的自动摘要系统和基于理解的自动摘要系统。基于统计的自动摘要系统方法简 单,实现容易,但是产生的摘要结果不尽如人意。基于理解的自动摘要是在对文 本信息理解的基础上进行的,比较接近于人的思维和编制摘要的过程,所得到的 摘要一般较好,但实现难度较大。 文本信息摘要的研究可以根据自动摘要的两种类型而划分为两个阶段,第 一阶段为2 0 世纪5 0 年代末到7 0 年代初,即基于统计的自动摘要时期,后一阶 段是从2 0 世纪7 0 年代末到现在,即基于理解的自动摘要时期【8 】。除了这两种 自动摘要系统外,还有许多国内外学者提出了信息提取和基于结构的自动摘要系 统。 基于统计的自动摘要也可称为“自动摘录 ,同样基于理解的自动摘要可称 为“自动摘要”。自动摘录是根据各种文本信息中的统计指标设计计算机程序从 原始文本信息中选出具有代表意义的句子,并按它们在原始文本信息中出现的次 序加以组合构成摘要,即经过计算机处理后输出的结果只是一种“摘录”;自动 摘要则是指计算机模拟手工摘要人员编写摘要的过程,可以根据文本信息的内容 写出一篇文本摘要,其中的句子可能来自原始文本信息中的语句,也可能是根据 对原始文本信息的理解归纳总结出来的。 为了适应大规模真实语料的需要,自动文摘应立足于面向非受限域,不断 提高文摘质量【3 2 】。篇章结构属于语言学范畴,不触及领域知识,因而基于篇章 结构的自动文摘方法不受领域的限制。同时篇章结构比语言表层结构深入了一大 步,根据篇章结构能够更准确地探测文章的中心内容所在,因而基于篇章结构的 自动文摘能够避免机械文摘的许多不足,保证文摘质量。 2 2 自动摘要的分类 从多角度对自动文摘系统进行分类,这样的分类根据自动文摘的特点进行 的划分,是对自动文摘分类的一种总结,可以作为构造自动文摘系统和思考自动 文摘发展方向的参考和借鉴。 6 东北师范大学硕士学位论文 1 、按文摘面向的用户划分 按文摘面向的用户划分可以划分为通用文摘( g e n e r i cs u m m a r i z a t i o n ) 和偏重 文摘( b i a s e ds u m m a r i z a t i o n ) ,通用文摘和偏重文摘的区别在于是否考虑了用户的 兴趣 1 6 】。 通用型文摘是面向所有用户的,文摘内容不全面反映原文内容的文摘。它 是对全文信息的浓缩,是对原文所描述的主题、范围和结果的一种简洁概括。这 种文摘是面向原文中心思想的、静态的文摘,不能适应用户的个性化查询要求。 对于一篇长的文章,如果用户只关心某一方面或某一领域,这就涉及到了偏重问 题。 偏重文摘也称为用户聚焦文摘( u s e r - f o c u s e ds u m m a r i z a t i o n ) 、主题聚焦文摘 ( t o p i c - f o c u s e ds u m m a r i z a t i o n ) 或查询聚焦文摘( q u e r y f o c u s e ds u m m a r i z a t i o n ) 。它 可以根据用户的需要提供相应的有侧重点的文摘【4 】。偏重文摘的结果不仅仅决 定于原文的主题,也决定于用户的个性化要求。它能够把焦点放在用户关心的部 分,而不是把原文的每个部分平等对待。偏重文摘考虑了用户的兴趣,这是实现 用户个性化文摘必不可少的技术。 2 、按文摘处理的文本对象划分 按文摘处理的文本对象划分可以划分为单文档文摘( s i n g l ed o c u m e n t s u m m a r i z a t i o n ,s d s ) 和多文档文摘( m u l t i p l ed o c u m e n t ss u m m a r i z a t i o n ,m d s ) 【1 6 】。 单文档文摘处理的文本对象是单篇文章,它对单篇文章独立的生成文摘。 而多文档文摘处理的文本对象是有多篇文档组成的文档集,它对这个文档集生成 一个概括多篇文档内容的综合文摘。随着在线信息的快速增长,提供一些有效查 找和合理描述文本内容的机制正变得越来越重要。 多文档文摘就是从一个文档集中去除冗余,根据文档之间的关联性及文档 间的差异,产生一个浓缩的信息集。多文档文摘实际上是对单文档文摘的扩展, 与单文档不同的是,多文档文摘需要一些新的技术和方法来处理,多文档文摘生 成需要注意以下几个方面的问题:( 1 ) 需要一个高效地去除冗余的方法。( 2 ) 系列 文档时间及空间的可能发生变化。( 3 ) 文摘结果压缩比很大,通常在1 到1 0 左右。( 4 ) 发生在不同文档中的事件及实体,它们的关联、融合处理是一个难题 i 1 7 】。 3 、按文摘的制作方法划分 按文摘的制作方法划分可以划分为摘录型文摘( s u m m a r i z a t i o nb a s e do n e x t r a c t i o n , s b e ) 、基于理解的文摘( s u m m a r i z a t i o nb a s e do nu n d e r s t a n d i n g , s b u ) 、模板型文摘( s u m m a r i z a t i o nb a s e do nt e m p l a t e ,s b t ) ;f f l 基于结构的文摘 ( s u m m a r i z a t i o nb a s e do nd i s c o u r s es t r u c t u r e , s b s ) 。 7 东北师范大学硕士学位论文 摘录型文摘中大部分的句子都是直接或间接的选自原文,只有少数句子经 过加工整理而成。这种方法采用统计的方法绕过文章意义的理解问题,将文本视 为句子的线性序列,将句子视为词的线性序列。在进行文摘时,首先计算词的权 重,然后计算句子的权重,再从文章中挑选出权重大的句子,按照句子在原文中 的自然序列进行排列,加以修饰最终生成文摘输出。 基于理解的文摘方法是建立在人工智能、自然语言处理的基础上的,它利 用语言学知识对文章进行复杂的语法分析、语义分析和语用分析,最后进行文摘 的生成。 模版型文摘有预先定义好的框架,文摘的生成过程其实就是从原文中检索 出文摘模版所要求的内容,填到文摘模板中即可。 基于结构的文摘采用自上而下分析方法,首先对文章的结构进行分析,再 逐渐细化到段落、句子和概念,整个的分析过程是一个自上而下的过程,即由上 层分析逐渐细化到底层分析 4 、按照文摘是否需要学习样本划分 按照文摘是否需要学习样本划分可以分为有监督学习文摘和无监督学习文 摘。有监督学习的文摘包括学习和文摘两个过程。学习过程通过人工文摘进行学 习,从中找出进行自动文摘的参数。然后,在文摘过程中利用之前学习到的知识 或参数进行文摘。 而无监督学习无需对人工文摘的学习过程。一般说来,有监督学习的文摘 系统面向特定的领域,文摘质量和训练的样本质量有关系。 2 3 自动文摘方法。 2 3 1 基于统计的自动文摘方法 基于统计的自动文摘通过计算文本信息中关键词出现的次数,并以此为根 据选择摘要句,然后将选择出的摘要句按其在文本信息中出现的次序形成摘要 【2 2 】。基于统计的自动摘要是利用计算机编制文本信息摘要的突破口。 l 、基于统计的自动摘要一般过程 基于统计方法的自动摘要的过程一般比较简单,大致可以分为待摘文本信 息录入、词频信息统计、计算句子权重、选取候选句子、加工过程如下: ( 1 ) 待摘文本信息录入 待摘文本信心录入指按照按照计算机能够识别的标准格式输入原始文本信 息。文本信息录入的方法很多,比如:键盘输入、手写录入、文本扫描、图形识 别、语音识别等,方法多种多样。 ( 2 ) 词语权重计算 词语权重计算即是对待摘文本信息中出现的“重要词 进行词频统计,并 8 东北师范大学硕士学位论文 剔除“非重要词”。“重要词能在一定程度上反映文本信息的主题内容,一般该 词在相关文本信息集合中出现的频率较高,但“非重要词”却不能反映文献的主 题内容,所以应当剔除。 ( 3 ) 计算句子权重 计算句子权重就是根据句子中词频等信息计算出句子权重。句子的权重由 两方面的因素决定:句子的具体内容和句子在文本信息中具备的特征。计算句子 权重的标准主要有以下几点: 句子权重与句子中所含“重要词”的数量成正比,句子中所含“重要词” 越多,句子权重越高;反之,句子权重则越低。 文本信息中包含提示词的句子十分重要,包含这些提示词的词句的权重应 适当提高,例如:“s i g n i f i c a n t 、“i m p o s s i b l e 、“综上所述 、“笔者观点是等 【2 7 】。 文本信息中特殊位置上的句子往往十分重要,位于这些位置上的句子权重 应提升,例如首段、末段、段首、段末等。 如果句子中包含废弃指示词时,其句子权值就相应减小,比如“f o r e x a m p l e 、“例如 等。 句子的长度与句子的权重成反比,句子越长,其权重越小;反之则越大。 可以看出,句子的权值与句中重要词的数量、重要词的权重、句子位置及 句子长度等均有关系,可以用下面的式子计算句子权值: 叩 半 协。) 式( 2 1 ) 中,w ( s ) 表示句子s 的权值,w ( t i ) 表示句子中所含重要词 的权值,l 。表示句子的长度,p 句子所在段落的权值,段为句子的加权系统系 数,若句子含有提示词,则从 1 ,若句子含有废弃指示词,则0 从 1 ,其他 从= l ( 4 ) 选取候选句子 选取候选句子就是按照句子的权值高低,根据设定的阈值筛选候选摘要句 子,并按照句子在文本信息中出现的先后次序进行排序。 ( 5 ) 加工生成摘要 这是自动生成的最后一步,即将选取出来的候选句子进行组合,并对组合 后的结果进行润色处理,最终形成一篇摘要。 2 3 2 基于统计的自动文摘存在问题 9 东北9 币范大学硕士学位论文 基于统计的自动摘要所依据的是文本信息形式上的规律,可以说对于任何 一篇文本信息都在不同程度上符合这些规律,因此基于统计的自动摘要不受学科 领域的限制,这是他最为突出的优点。但是对于大多数文本信息常常在某些形式 特征上符合规律,却在某些部分违反规律,摘要的结果能否抓住原文的中心内容 要看文本信息在多大程度上符合规律。因此,自动摘录的质量很不稳定。当修改 句子权值函数时,总存在令人不满意的地方,也许对某一类文本信息的摘要效果 改善了,但有可能对另一类文本信息的摘要效果变差了 2 8 1 。此外,自动摘录还 存在以下三方面的不足: ( 1 ) 摘要内容不完整 基于统计的自动摘要方法生成的摘要有时仅包含了原文中的某个主题或部 分主题,但在包含多主题的文章中,常常会遗漏某些主题内容,从而影响了摘要 的完整性,不能全面表达原始文本信息的内容。这一点主要是由于统计的自动摘 要系统缺乏对文本结构分析和文本内容理解而造成的。 ( 2 ) 摘要内容不简洁 为了强调文本信息的中心内容,作者常常在文本信息中的不同位置用不同 形式的句子和词语对中心内容进行重复描述,以便加强读者对文本信息的理解程 度。这些句子往往都被取作关键句,这些句子在文摘中反复出现,易造成摘要内 容的冗余。作者在文本信息中对中心内容提及的次数越多,产生此类冗余的可能 性就越高。早期的a c s im a n t i c 自动摘要系统探讨了消除冗余的方法:首先对 摘要句集合进行必要的检查,当两个摘要句中的词有1 4 个以上是相同的,则删 除其中的一句。但是这种方法是很难识别出真正的同义词的,而且如果摘要中的 任意两个句子都要进行这种比较,那开销就太大了【1 6 。 ( 3 ) 摘要语句不连贯 基于统计的自动摘要系统是从原始文本信息中直接抽取句子,会漏掉文章 中起连接作用的词语或句子,当把文本信息中处在不同位置上的若干关键句连接 形成一篇摘要时,这些关键句往往由于脱离了上下文而难以准确地表达这样形成 的摘要连贯性较差。同时,句子之间由于缺乏逻辑次序而显得杂乱无章,难以形 成一篇通顺的摘要。用户在阅读这样的摘要时需要进行猜测和推理,不但加重了 负担,有时还可能得出与原始文本信息不相符的观点。 2 3 3 基于理解的自动文摘 基于理解的自动摘要系统的特点是在处理过程模拟了手工编制摘要的过 程,应用了部分词、句、段及篇章知识,与基于统计的自动摘要相比而言,基于 理解的自动摘要系统生成的摘要具有一定的连贯性,并且语句完整性和可读性较 高,但由于知识库建立的困难性,知识表示及处理的复杂性,使得目前的基于知 1 0 东北师范大学硕士学位论文 识的摘要系统大多受到学科领域限制,即只能面向某一学科或某些学科领域,而 且摘要质量并不能令人十分满意。 基于理解的自动摘要系统主要包括四步骤:1 、待摘文本信息录入;2 、文 本分析3 、文摘初稿生成;4 、摘要排版输出。基于理解的自动摘要系统核心在 于文本分析,第1 、3 、4 步与基于统计的自动摘要系统基本相似。文本分析是基 于理解的自动摘要最重要的环节,也是与基于统计的自动摘要的最大区另1 j 1 2 6 1 。 文本分析主要包括语法分析、语义分析和句法分析三部分。语法分析是借 助于知识库中的词典和文法规则对输入的文本信息进行分析,确定词形和词义, 切分句子并找出词间句法上的联系,以一种数据结构描述这些联系,如文法结构 树。语义分析就是将句子孤立于所处的环境而仅从字面上分析意义。句法分析主 要包括修辞、句法和语义知识及文献的话语结构属性的分析。这对知识库的要求 很高,目前只适用于特定领域。句法分析需要修辞、句法、语法结构知识和领域 知识,这些知识组成的一套规则语法系统基本上是语义的,经常用来表示一个特 殊的主题领域 2 3 】。 2 3 4 基于理解的自动文摘存在问题 基于理解的自动摘要系统同样也存在许多不足之处,最主要的是其受限于 特定的学科领域,其原因主要在于: 首先,面向大规模真实语料语义分析技术尚未完全成熟,因此如果想获得 高质量的语义分析结果,就必须将待处理的语料限制在某个范围之内。 其次,理解摘要方法的基础是框架等知识表示,框架需要根据领域知识预 先拟定,一次如果想把适用于某个领域的理解摘要系统推广到另一领域,则需要 重新拟定框架,这种填充和组织领域知识的沉重负担使理解摘要难以移植【1 8 】。 2 3 5 其它自动文摘方法 除了基于统计的自动摘要和基于理解的自动摘要之外,还有其他一些自动 摘要方法,如模板填写式自动摘要和基于结构的自动摘要,这些研究都从不同的 角度对自动摘要进行了探索。 ( 1 ) 模板填写式自动摘要 模板填写式自动摘要就是事先建立一个模板,然后从文本信息中抽取相关 的短语来填充模板。信息抽取方法首先对原始文本信息进行词频统计,再对文本 信息的语言结构和修辞结构等进行分析,然后选择设计好的该学科领域的摘要模 板,对文中有用的片断进行有限深度的分析,提取相关短语或句子填充摘要模板, 最后生成文本信息摘要。 摘要模板的编写依赖于特定的学科知识领域,因此模板填写式自动摘要的 东北师范大学硕士学位论文 方法也严格受限于学科知识领域,而且由于摘要是利用模板生成的,语言千篇一 律,比较呆板。 ( 2 ) 基于结构的自动摘要 将文本信息视为句子的关联网络,选择与很多句子都有联系的中心句即可 构成摘要。句子间的关系可通过词间关系、连接词等确定。对于篇幅较长的文本 信息,可将其视为段落的关联网络。但目前语言学对于篇章结构的研究还很薄弱, 使得基于结构的自动摘要到目前为止还没有一套成熟的方法。 i b m 公司的i n t e l l i g e n tm i n e rf o rt e x t 是一个成熟的文本挖掘产品,被选为 最佳的数据采集工具,并获得d m ( d a t am i n i n g ) 读者奖。i n t e l l i g e n tm i n e rf o rt e x t 在其文本挖掘的核心技术中用到了关联网络的思想。根据i d c 的统计, i n t e l l i g e n tm i n e rf o rt e x t 是目前文本挖掘领域最先进的产品【3 】。 用h e a r s t 提出的公式可以来实现关联网络思想,i b m 的i n t e l l i g e n tm i n e rf o r t e x t 的核心技术也是基于这个公式,公式如下: 。r11弋, z t l r l v 7 t b l v v t b 2 咖p ”6 2 卜西雨( 2 - 2 ) 式( 2 2 ) 中,w t b i 表示段落b i 中的关键词t 的权重,b i 代表段落i ( i = l , 2 ) 。 基于结构的自动摘要系统虽然有许多优点,但也存在许多自身难以解决的 缺陷,最重要的缺陷是这种方法并不能做到让计算机真正理解文本信息的主题内 容。这种方法只是在人工智能领域无法取得突破性进展而产生的一种替代方法。 这种方法比较适用于科技性文献和新闻,对于有隐含意义题材的文章比如散文、 诗歌和小说等并不适用 2 9 】。 1 2 东北师范大学硕士学位论文 3 用户驱动的特定领域自动文摘系统设计 3 1 用户驱动的特定领域自动文摘系统结构 目前生成文摘的方法主要有两种,一种是自动摘录的文摘方法,另一种是 基于理解的文摘方法,自动摘录的文摘方法历史悠久,方法简单且效果比较好, 因此至今仍然被广泛使用。 基本的自动文摘系统对原文本的处理包括预处理、统计分析、后处理部分, 下面给与简单介绍, 预处理包括分词和停用词过滤,以段落为基本单位对文本进行划分。 统计分析首先在文章初始化基础上进行词频计算,统计出文献中词语的 频率,找出文章特征词,面向特定领域的自动文摘还应对照特定领域专 业术语表,综合计算词语的权重,以句子为单位,计算句子在文章中的 权重,根据计算结果,将句子按权重由大n d , j 顿序排列,形成粗文摘。 后处理包括对粗文摘进行优化,生成准确率更高的文章摘要。 自动摘录的方法能够适用于非受限域是其突出的优点,但同时这种方法也 存在生成文摘不全面、不简洁、不连贯等方面的不足。基于理解的自动文摘方法 是以人工智能,特别是自然语言理解技术为基础而发展起来的文摘方法。这种方 法与自动摘录的明显区别在于对知识的利用,它不仅利用语言学知识获取语言结 构,更重要的是利用领域知识进行判断、推理,得到文摘的意义表示,最后从意 义表示中生成摘要。基于理解的文摘方法采用了复杂的自然语言理解和生成技 术,因此生成的文摘具有简洁精练、全面准确、可读性强等优点。但是这种方法 实现起来非常难:基于理解的文摘方法需要成熟的自然语言理解和生成技术的 支持,但这两项技术的工作难度很大且目前还不够成熟,因此无法满足其需求; 这种方法需要与原文相关的领域知识来进行判断和推理,受限于应用领域,不 够灵活。因此实现基于理解的文摘方法是非常困难的 1 2 】。 在自动摘录方法的基础上应用信息抽取技术,既可以解决自动摘录方法的 不全面、不简洁、不连贯等问题,技术上又比基于理解的文摘成熟。信息抽取虽 然不能像理想中的基于理解的方法那样利用领域知识进行判断、推理从而理解篇 章,但信息抽取可以抽取出用户感兴趣的、重要的信息组成文摘,其效率和灵活 性都高于基于理解的文摘【2 5 】。 基于以上的介绍,我们决定在自动摘录方法的基础上应用类似于篇章消解 算法的方法来弥补单纯的自动摘录方法的一些缺陷。 东北师范大学硕士学位论文 例如,做文章处理时,通常看到这样的句子i “针对搜索引擎存在的问题,我们引入自动文摘技术,这种技术将信息全 面的、简洁的文档直接呈现给用户 。 在这个例句里,“这种技术 指的就是前面提出的自动文摘技术,如果正常 进行分词,计算权值,会将这种指代忽略不计,这种现象在专业领域内尤为明显, 人们常用缩写或术语指代专业领域内的某一个知识点,例如“i r ”指代“信息检 索 、“d b ”指代“数据库 等等,正确识别这种指称关系对计算机正确理解篇 章至关重要。 在本文中,我们将类似篇章消解算法的方法运用到自动文摘系统中,在文 章后处理阶段提高系统的查全率和查准率。基于类似篇章消解算法的面向特定领 域自动文摘系统的流程图如图3 1 所示。 统计分?l + 粗 后处理 用 原 斗 预处理 - 一斗 户 最 始文 驱 终 文 摘 动 文 档摘 分停词句类词句文 词 用语 子似 语 子摘 词权权篇权权 生 过重重 豆 重重成 滤计计消计计 算算解算算 处 理 图3 1 基于类似篇章消解算法的面向特定领域的自动文摘系统流程图 图3 1 中的重点是类似篇章消解算法处理和用户驱动文摘生成部分。下面我 们分别介绍各个子模块。 3 2 粗文摘生成子模块 3 2 1 文章预处理 汉语与西文不同,它的词汇之间没有明确的分隔标记,因此汉语文献自动 摘要所面临的最大困难就是如何正确地分词。只有解决了分词问题才能将现已较 为成熟的西文自动摘要技术成功引入汉语文献的自动摘要中 3 1 1 。除了分词这一 难点以外,由于汉语语言的特殊性,实现自动摘要还面临着以下技术难点: 汉语词汇的含义非常丰富,在不同的学科领域和不同的时代及环境背景下, 同一词汇具有不同的含义,难以明确其在特定学科领域中的确切意义。例如, 1 4 东北师范大学硕士学位论文 中学课本中的“权起更衣 句中的“更衣 一词是指“上厕所”,而现在的 更衣是“换衣服的意思,两者皆然不同。 一汉语词汇的词形难以确认,在不同的语言环境下,同一个词语的词形不一定 会相同。例如,“学习一词在“学习的革

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论