[硕士论文精品]偏重摘要技术及其应用研究_第1页
[硕士论文精品]偏重摘要技术及其应用研究_第2页
[硕士论文精品]偏重摘要技术及其应用研究_第3页
[硕士论文精品]偏重摘要技术及其应用研究_第4页
[硕士论文精品]偏重摘要技术及其应用研究_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文摘要互联网技术的快速发展,使电子信息逐年爆炸式地增长,虽然搜索引擎技术的发展使人们可以快速地从网络上找到自己想要的信息,但随着网络信息的快速增多,人们花费在搜寻有用信息上的时间也越来越多了。在这种情况下,单纯的搜索引擎技术已经越来越难子满足人们迅速掌握有用信息的需求了。早在1958年,以LUHN发表的题为1KAUTOMATICCREATIONOFLITERATUREABSTRACTS的论文为起点,人们就开始了对自动摘要研究。文本摘要具有简洁,准确、清晰和高效的特点,而自动摘要不但具有文本摘要的特点,而且能够对海量信息进行快速处理,日渐成为人们快速掌握信息的有效手段。在自动文摘近半个世纪的发展历程中,人们在通用摘要方面取得了许多的研究成果。而依据用户需求生成相应摘要的偏重摘要技术,在最近几年才受到了国外许多学者的研究关注,由于偏重摘要不但易于对信息进行再处理,而且在信息检索、问答任务以及其它领域中都能发挥积极的作用,使其逐渐成为了自动文摘领域的研究重点。本文对自动摘要、通用摘要、偏重摘要等相关概念进行了较为深入的探讨。在回顾偏重摘要的研究状况之后,提出了基于关键词密度分布算法的偏重摘要系统的设计。该系统采用VISUALC60作为开发语言,SQLSGLVBEL“2000作为数据库,可以根据用户的查询需要,生成三种不同压缩比率的自动摘要。在对偏重摘要的应用性研究中,分别设计了两类不同实验进行对比,检验了偏重摘要在信息检索和问答任务中的实用性和有效性。实验结果表明,偏重摘要能够满足用户的查询特定信息的要求,实验中抽取的结果文摘的平均正确率分别达到了725和865。最后,在参考有关文本摘要自动评测相关文献的基础上,融合当前的两类不同评测方法的优点,提出了一种基于混合策略的中文文摘自动评测方法,并通过两类不同的对比实验对该评测方法进行了检验和验证。实验结果完全符合我们的预期设想,从而验证了该评测方法的可行性。同时,实验也显示了基于关键词密度分布算法的自动摘要系统较之于基于语句相似度的自动摘要系统在结果文摘的质量上得到了一定的提高。关键词自然语言处理;偏重摘要;自动文摘HTTP/INFO3DOUCOM/网络营销大连理工大学硕士学位论文STUDYONTHETECHNOLOGYANDAPPLICATIONOFBIASEDSUMMARIZATIONABSLRACTCORRESPONDINGWITHTHERAPIDDEVELOPMENTOFTHEINTERNET,WEA撑SURROUNDEDBYANIMM睨LSES铭OFINFONMTIONHOWTOGETACCURATEANDVALIDINFORMATIONFROMTHISVASTINFORMATIONSIS越IMPOAANTWORKININFORMATIONEXLRAETIONASPECIFICSEARCHENGINEC龇NOTSATISFYTHEACTUALAPPLICATIONSSOFARAUTOMATIC鲫TLNLARIZATION懈FIRSTSTUDIEDINLULMSPAPER”刀地AULOMATICCREATIONOFLITERATUREABSTRACTS”IN1958ANDHASBEENAHOTRESEARCHISSUEINTHEFIELDAUTOMATICTEXTSLMNATI刎ONSHOULDRIOTONLYBESIMPLE,EORLEISE,ACCURATE,ANDETTICIENT鹤TEXTSTMLMATIZ嘶ONS,BUTALSO锄DEALWITHMASSDATAQUI西DYITHASBECOME1111_IMPORTANTTOOLFORL,EOR,LETOOBLAININFORMATIONQUIDDYDURINGTHEPAST矗FIYYEARS,MANYPROGRESSESHAVEBEENMADEINGENERICSULNNLARI刎OLLANDTHEBIASED飘HNN垴LIZ砒IONHASATTRACTSMANYRESEARCHERSINRECENTYEMS,BECAUSEITMAKESTHERCLREATOFINFORMATIONMOLEEASYANDPLAYS1111_IMPORTANTROLEININFORMATIONRESEARCHOR,Q腻ANDALLSWERQAEREMBIASEDSULLMLARIZALIONISBECOMINGAHOTSPOTINAUTOMATICTEXTSUMLALIZ越IOLLSAUTOMATIC乳MMLA吼COMMONSUMM张,ANDBIASEDSUMMARYAREDISCUSSEDDEEPLYINTHE弘驴咒AFTERREVIEWINGTHEHISTORYOFBIASEDSUMMAAPRACTICEBIASEDSUMMARYSYSTEMISDESIGNEDANDIMPLEMENTEDBASEDONTHEALGORITHMOFTHEDENSITYDISTRIBUTIONOFKEYWORDSNLISSYSTEMISDEVELOPEDINVISUALC60ANDSQLSERVER2000,ANDPROVIDESTHREEAUTOMATICSUNLLTLALJCSINDIFFERENTCOMPRESSRATEACCORDINGTOUSERSDENMDONTHESTUDYOFTHEAPPLICATIONOFBIASEDSUMMARY,TWOC,OLLWDSTEXPERIMENTSARCRLLADET0TESTTHEPRACTICABILITYANDTHEEFFECTIVENESSOFTHESYSTEMONIRANDQATASKSN圮AXPERIMENTRESULTSSHOW,THESYSTEMSATISFIESTHEDEMAT,AOFSEARCHINGSOMESPECIALINFORMATIONANDTHEAVERAGECORRECTRATESOFTHETESTA咒725AND865RESPEELIVELYFINALLY,缸EVALUATIONMETHODISPROPOSEDBASEDONHYBRIDSTRATEGYANDTHECORRECTNESSANDVALIDITYOFTHISMDTHODISTESTEDBYTWODIFFERENTEXPERIMENTSN圮TESTL_ESTLLTCOMESUPTOWHATWEEXPECTITISALSODEMONSTRATEDTHATTHEQUALITYOFSUNMLFLLILOSCREATEDBYTHESYSTEMBASEDONTHEDENSITYDISTRIBUTIONOFKEYWORDSISBETTERTHANTHOSECREATEDONTHESIMILARITYOFSENTENCEKEYWORDSNATURED,NGUAGELROGR倒;BIASEDSUMMARIZATION;AUTOMATICTEXTSUMMARIZATIONIIL独创性说明作者郑重声明本硕士学位论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。作者签名J邀日期丝翌丕翻型圃作者签名主J丝丝日期超垒I因型岗HTTP/INFO3DOUCOM/网络营销大连理工大学硕士研究生学位论文大连理工大学学位论文版权使用授权书本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。作者签名1叠蹩丝导师签名叫月4日大连理工大学硕士学位论文引言在因特网的兴起和大容量、低价格存储介质快速发展的今天,带给人们的是爆炸式增长的海量信息。人们面对从海量的信息中搜寻自己所需要的信息的难题,迫切需要一种快速的寻找有用信息的方式方法。近年来,网络搜索引擎技术的发展在一定程序上缓解了人们快速检索信息的需要,并且带来了网络搜索引擎的研究热潮,使网络搜索引擎成为了人们上网查找资料的必备工具,但当前的搜索引擎还是不能够从根本上解决人们快速掌握信息的需求。致力于克服这一难题,一些自然语言处理的技术,如自动文摘、信息检索、信息抽取、问答系统、数据挖掘等受到了越来越多的研究关注。结合当前的搜索引擎技术,一些研究学者提出了个性化信息检索和智能信息检索等新的融合性的技术。而自动摘要技术顺应时代发展要求,以其自身对信息的浓缩和简洁清晰等特点,成为了当前研究的重点内容。按照自动摘要面向的用户和所生成目标内容的不同,可以将它划分为通用摘要和偏重摘要。通用摘要是面向的所用用户的,以生成包含文本主题内容为目标的文摘,而偏重摘要是根据需要或者用户的兴趣,以生成符合偏重要求的文本内容为目标的文摘。在信息检索中,人们关心更多的是有侧重点的内容,而偏重摘要正是满足于人们这一需求的。同时偏重摘要作为计算机自动文摘中的一类,同样具有文摘简洁性、准确性和清晰性的一般特点,而且偏重摘要以其对文本内容的针对性和对文档对象处理的一致性,使其成为文本数据挖掘的有效方式。文本自动摘要技术,从其实现过程的本质上来说,可以分为两个阶段一是内容转换阶段,即将文本内容转换为计算机可以处理的数据;二是摘要生成阶段,即通过一定的算法程序抽取或生成符合目标要求的摘要。在文本内容转换阶段,常常使用到一些数学模型的方法,如比较经典的向量空间模型方法。在生成文摘的方式方法上,局限于自动摘要的技术难点,当前的系统都以从原文中抽取语句来构成最后的摘要,而对于生成式的摘要目前还难以实现。通用摘要和偏重摘要的实现本质上也是相同的,只是偏重摘要在摘要生成阶段还加入了对用户偏重的考虑,需要采用一些不同的摘要生成技术。文本自动摘要技术从其实现的技术方法来说,主要有两种不同方式。一种是抽取式摘要,即以抽取原文中的相关语句来生成最后摘要的方式;另一种是生成式摘要,即由计算机生成原文中没有的新句来概括原文主题内容或相关偏重的知识点。由于生成式摘要技术难度大,目前还难于实现,而抽取式摘要在技术上易于实现,应用领域广泛,基于机械抽取方法生成的摘要内容不够简洁、语句不太连贯、主题不够全面。于是人们又利用各种知识和形式化理论,在理解文档语义内容的基础上来生成摘要,也就是理解摘要。它生成的HTTP/INFO3DOUCOM/网络营销偏重摘要技术及其应用研究摘要可读性好,但受语义分析和领域知识的制约,只能适用于某些特定领域,且难度大,系统效率不高。目前较好的自动摘要方法都是综合了机械摘要和理解摘要技术的方法。此外,由于人们对自然语言的理解和对文本内容的理解无不带有个人的主观因素,因而正确、客观地评测自动摘要系统成为一个非常困扰人们的难题。虽然国际上每年举办的一些评测会议不断地推动了自动文摘技术的发展,但要建立起一个统一的评测标准,还是有许多的工作要做。大连理工大学硕士学位论文1绪论11偏重摘要的概念表述摘要,也称为文摘,不同的研究者对其有不同的定义。如MANI认为,摘要就是从信息源抽取内容,用简练并且用户感兴趣的方式把最主要的内容呈现给用户I”。而一些较为权威性的定义有“以提供文献内容梗概为目的,不加评论和补充解释、简明、确切地记述文献重要内容的短文。”中华人民共和国国家标准文摘编写规则GB644786。某一文献内容的简要而准确的表达,不加解释和评测,也不区分这篇文献是由谁写的。”美国国家标准学厶ANSD文献编写标准“一份文献内容的缩短的精确的表达而无须补充解释或评论,且对写文摘的人来说没有差别。”国际标准文献工作一出版物的文摘和文献工作IS02141976E实际上,文摘的确难以被准确定义,国际著名的模糊数学大师LA。ZADEH在讨论自动摘要闯题时也认为文摘难于被准确定义。文摘在中文中也可以称为摘要、概要、提要、梗概、简介等,在英文中则有SUMMARY、MCF、COMPENDIUM、EPITOME、P廊IS等,这些术语和文摘ABSTRACT都有一些细微的差别,但使用什么术语并不十分重要,只要摘出的内容满足要求即可习。我们通常将摘要定义为摘要是准确全面地反映某一文献中心内容的简洁连贯的短文。而自动摘要就是利用计算机自动地从原始文献中提取摘要。自动摘要按其面向的用户不同,可以将其划分为通用摘要GENERICSUMMARIZATION和偏重摘要AIASEASUMMARIZATION两类PJ。通用摘要是面向所有用户的、文摘内容不带有任何侧重的、全面反映原文主题内容的文摘,它是对全文信息的浓缩,是对原文所描述的主题、范围和结果的一种简洁概括。这种文摘是面向原文中心思想的、静态的文摘,不能适应用户的个性化或查询要求。对于一篇长的文章,如果用户只关心某一方面,这就涉及到了偏重问题。偏重摘要是面向特定用户的,以符合一定需求的原文中的相关内容作为最后文摘内容的摘要。它可以根据需要或者用户的兴趣提供相应的有侧重点的文摘,其结果不仅仅决定于原文的主题,更决定于偏重需要的目标。它能够把焦点放在偏重需求部分,面不是把原文的各个部分平等对待。由此可见,通用摘要的目标只在于获取原文的主题内容;而偏重摘要的目标则在于获取原文中与偏重需求相关的内容。一3一HTTP/INFO3DOUCOM/网络营销偏重摘要技术及其应用研究依据偏重摘要的偏重需求不同,偏重摘要还可以细分为用户聚焦文摘COSERFOCUSCDSTMMMRIZATION、主题聚焦文摘TOPICFOCUSEDSUMMARIZATION或查询聚焦文摘QUAYFOCUSEDSUMMATIZADON等不同类别。偏重摘要除具备一般文本摘要的简洁性、清晰性、准确性的特点外,本身还具有两个特点,一是对文本内容提取的针对性,即对文本内容提取是有针对性、有选择地提取;二是在对文本对象处理方式可以有一致的处理方法,不需要区分单文本摘要或是多文本摘要。单文本摘要和多文本摘要是人们按自动文摘处理的文本对象的不同对其进行的划分。单文本摘要处理的文本对象是单篇文章,它对每篇文章单独地生成文摘。多文档摘要处理的文本对象是由许多文本组成的文本集。多文本摘要从多个文本组成的文档集中生成一个概括多篇文本内容的综合文摘。为此需要从文本集中去除冗余,并考虑各个文本之间相互的关联性及各自的差异性,以便生成一个浓缩的信息集。偏重摘要同样要处理单文本和多文本对象,其实现技术是基于通用摘要技术的,但又与通用摘要的处理方法不完全相同。这是因为从多文本摘要的本质上来说,它是对单文本摘要的一个扩展。通用摘要中对多文本的处理要比单文本更为复杂,也更为困难一些。而偏重摘要不需要对多文本的主题进行识别,它关心的只是各个文本中的热点区域,因此对单文本摘要和多文本摘要在处理方法上可以采用一致的方法。偏重摘要的提出至少有两个现实意义第一,偏重摘要便于满足用户特殊要求,成为用户个性化信息查询的手段;第二,偏重摘要比通用摘要和现有搜索引擎能为用户提供更为可靠和丰富的信息,便于实现智能化的搜索引擎。12偏重摘要与其他相关技术的区别偏重摘要是与问答任务、信息检索、信息抽取以及文本挖掘密切相关的,它们都是人们获取信息的方式,但它们之间的区别也是明显的。1与问答任务的区别问答任务可以看作是信息检索的一个特定方向,其返回结果只是一个简单的答案。而偏重摘要是对信息检索的补充,获得的结果是符合偏重的一篇摘要,而一些面向问题和答案的偏重摘要,在其生成的摘要中就可以包含答案,能够为用户提供多于一个答案的更多相关知识。2与信息检索的区别以功能而言,信息检索主要是从大量的文本集合中找到与用户需求相关的文本列表,而偏重摘要旨在从文本直接获取用户需求的文本内容;以实现技术而言,信息检索不像偏大连理工大学硕士学位论文重摘要那样需要对文本内容进行深入的分析理解,而通常利用统计和关键词匹配等机械文摘中常用的技术。3与信息抽取的区别从实现技术上来说,信息抽取往往采取的是模板填充的方法,是一种高度受限的信息处理过程;而偏重摘要不需要预先选定目标的特征,可以对多种多样的文本进行处理;从应用范围上来说,信息抽取一般都只能用于特定的领域,而偏重摘要可以有更为广泛的应用领域从生成的结果上来说,信息抽取的结果一般较偏重摘要的结果精确而简练,但相对而言,其包含的相关信息也就比较少了。4与文本挖掘的区别文本挖掘的目标是要从文本集中发现新的知识和模式,而偏重摘要是从文本中获得符合偏重需求的信息内容文本挖掘需要借助于偏重摘要的技术,是比偏重摘要更为深层的信息获取方法。13自动摘要发展历史回顾从20世纪90年代开始,随着INTEMET的迅速发展,和对统计方法的重新发现,人们再度热衷于自动摘要的研究,从而形成了自动摘要研究历史上的第三次高潮。自动摘要的最早起源可以追溯到1952年,时为MM公司研发工程师的LUTM开始研究通过计算机来为文本生成摘要的方法,经过6年多的研究,于1958年发表了其划时代的论文1KAUTOMATICCREATIONOFLITERATUREABSTRACTS,从此揭开了人们研究自动文摘的历史。回顾半个多世纪自动摘要的发展历程,从国外来看,对自动文摘的研究大体上有三个阶段第一阶段是1955年至1973年的初始抽取时期;第二阶段是从80年代开始的人工智能方法时期,其中在1961年到1979年兴起了语言学的研究;第三阶段是从90年代末到现在的复兴时期,主要是对统计方法的重新发现和对混合方法的研究。而国内自动文摘的研究起步较晚,在20世纪80年代,才有学者开始研究中文自动文摘。进入九十年代,参与研究中文自动摘要的单位增多,推动了自动摘要技术在国内的广泛研究。但由于中文不同与西文的特点,使之在自动摘要的研究中碰到的技术难题更多一些。131自动摘要的技术发展自动摘要的研究融合了许多相关领域的知识,也形成了各种自动摘要的方法,依据其不同的发展时期产生了多种不同的文摘技术。一5一HTTP/INFO3DOUCOM/网络营销偏重摘要技术及其应用研究在初始的机械文摘时期,主要有LULM,1955年提出的词频方法,EDMUNDSON,1969年提出的位置指示、索引词汇、转折词、转折段等方法51,MATHAIS,1973年提出的流聚合方法嘲。在上个世纪80年代开始的人工智能时期,主要有DEJONG在1982年研制的FRUMP系统,采用的是脚本语句方法,1985年的SUSY系统使用了逻辑和规则方法,1988年REINER和HAHN的TOPIC系统,使用了框架结构和语义网络方法,1989年RAN等人提出了混合表示法17J从20世纪90年代进入自动文摘的复兴时期,对统计学方法的重新发现以及其对其他人工智能方法的研究,使文摘技术呈现多样化,可以列出的就有利用语言学表示的方法,统计学方法,自然语言生成的方法,压缩和抽取的方法,多文本摘要方法,文摘中的叙述技巧,多语言文摘,文本压缩,多媒体摘要包括语音方面,利用信息抽取,研究和模仿人的摘要,提高摘要的一致性,概念融合,使用基于本体的方法以及可训练的摘要生成方法,应用机器学习方法,多知识方法等等圈。132自动摘要的研究成果在半个多世纪的研究发展中,人们基于不同的理论基础,研制出了多种不同的自动文摘系统。在机械文摘时期,有8个成果,它们是;LUHN的研究;MM的ACSIMOTIE小组的研究OSWALOL的研究;词的相关性研究;EDMONDSON和WYLLYS指导的TRW小组的研究;EARL的研究;前苏联的研究;RUSH的研究。在理解文摘时期,也有8个成果YALE大学DAJORG于1979年研究的FRUMP系统;J,ITALT的SCRABBLE系统;SCHENIK及其YALE大学的学生研制的SAM系统;意大利的DENILOFUM等1982年研制的SUSY系统;香港城市理工大学的中文摘要生成的研究;1990年PJAEABS和LPAN研制的联机新闻信息抽取系统SCISOR;FRUMP系统的研究。在国内的研究成果主要有哈尔滨工业大学王开铸设计实现了MATAS系统1992、HIT863I系统1992、肼一97I系统1997及HIT863II系统1999,北京邮电大学钟义信设计了CLANCE系统0993、NEWS系统099“、LADIES系统0997、LADLESNEW系统2000,复旦大学吴立德设计了FDASCT系统1996和文本自动综述系统2003,中国科学院李小滨设计了EAAS系统1990,其他如上海交通大学王永成SJTUCAA系统1988、东北大学姚天顺、清华大学罗振声、南京大学李明、山西大学郭炳炎、杭州大学姜贤塔等人在自动文摘方面都有一定的研究,并取得了一定的成果。一6一大连理工大学硕士学位论文133自动摘要的评测平台对于文摘的评测一直是自动文摘领域的一个难题,在人们开始研究自动摘要的同时就开始了对摘要的评测研究,至今已有多种不同的评测方法,虽然目前还难于制定一个统一的评测标准和一致的评测方法,但国际上一系列有组织的公开评测会议和网络工作平台极大地推动了自动文摘技术的研究发展。1AAAIAMERICANASSOCIATIONFORARTIFICIALINTELLIGENCESPRINGSYMPOSIUM在其1998年的会议上,将有关智能文本摘要的研究编辑成为一本专著AAAISPRINGSYMPOSIUMTECHNICALRCPOR0,总结了当时自动摘要研究的最新成果。C2DUCDOCUMENTUNERSMDILLGCONFCRENC既,文本理解会议这一会议包括了美国国防部高级计划研究署DARPA的TIDESTRANSLING砌INFORMATIONDE眦6EX廿ACFIONANDSUMMARIZATION计划和ARDAADVANCEDR船EANHANDDEVELOPMENTACTIVITY的ADVANCEDQU硎ONANSWERING计划和NISTNALIONALINSTIRLTEOFSTANDARDSANDTECHNOLOGY的麟RI故TRETRIEVALCONF锄NCES计划。其中TIDES从2000年开始研究自动摘要,成立了一个工作平台和一个专门的评论委员会来组织问答任务和自动文摘领域的框架研究和长期评测问题。DUC会议从2001开始研究自动摘要,至今已连续举办了6届。DUC200I到DUC2004对于自动摘要方面做的工作主要有对单文本摘要和多文本摘要的研究;对新闻语料的研究;对摘要比率的研究;对摘要分类方面的研究;对摘要质量进行自动评测的研究;对摘要质量评测标准的研究。DUC通过建立起适当级别的评测实验,促进了一系列自动文摘技术和评测方法的不断发展。3针对亚洲语种的NTCIRNTCIRNIINACSISTESTCOLLECTIONFORIRSYSTEMS,是日本国立情报学研究所NATIONMINSTITUTEOFINFONNATICS针对日语和其它亚洲语的文本检索、跨语言检索和相关的文本处理技术例如文本摘要、文本抽取等进行评测的研究组织。从2000年举办的NTCIR2中加入了对自动文本摘要的测评。称为TSCLTEXTS删ONCHALLENGE,主要是对日语文摘的测评,也有部分的英文、中文和韩文。之后又举办了两次对文摘的评测。由于NTCIR在自动文本摘要方面的研究重点是日文的多文本文摘和自动文摘的生成技术,但同时也有少量的中文和韩文方面的评测研究,因而促进了亚洲语种在自动摘要方面的研究与发展。HTTP/INFO3DOUCOM/网络营销偏重摘要技术及其应用研究14自动摘要的研究现状141国外研究现状1通用摘要在自动摘要第三次成为人们研究的热点时,经过许多研究人员的不断研究实验,提出了不少切实可行的新方法来提高自动摘要的质量。这些新方法扬长避短,融合了机械抽取的方法和基于理解的方法,并加入了更多的自然语言处理方法,更快地推动了自动摘要技术理论的进一步发展。基于语义资源的语义链方法由于统计方法只是根据词语的表层信息进行统计、分析,而不能从语义方面进行深层的分析,为提商摘要的精确度,一些研究人员在自动摘要中引入了语义资源。1991年,MORRIS和HIRST提出了语义链1EXICAICHAIN方法阴。他们基于ROGERSTHESAURUS同义词词典,引入了“链回归CHAINRETURNS”的概念来解决同一范畴的词汇交替出现的问题,但由于缺少电子版的词典,该算法没有在计算机上得到实现。1997年的时候,STONGE和HIRST首先公开发布了使用WORDNET来构造语义链的方法【L哪。他们将WORDNET中的关系和传递关系映射到了MORRIS和HIRST提出的词汇关系上,将在1991年就开始构建的WORDNET用作了语义资源。基于WORDNET,语义链技术的发展有了一个良好的发展平台。但事实上,WORDNET并不是语义词典,它只是一部电子词典的索引系统,它将其中的英语词汇包括名词、动词、形容词和副词划分成同义词集,每个集合代表一个内在的词汇概念,集合间根据不同的关系连接起来1L】。这种组织方式正是其可以被用作一个同义词词典的原因。同年,BARZILAY和ELHADAD第一次将语义链与WORDNET相结合并应用到自动摘要系统中【12L。他们使用语义链来衡量一个语句对于文档主题的贡献程度,即含有语义链词汇词语的多少来判定句子的重要程度,并以此来决定其是否可以作为摘要候选句。继他俩的研究之后,更多的学者加入到这一研究领域,如BRUNN、SILBER、ALEMANY,DORAN等人,他们都将WORDLQET作为语义资源,利用WORDNET中的语义层次概念,统计蕴含在词形之内的本质概念。他们的研究结果都显示出,引入语义资源以后,可以更深入地理解文本内容,从而最终较大幅度地提高了自动摘要的准确度。现在,这一方法已经被广泛应用在信息检索和自然语言处理中,如信息检索中的术语权重计算、拼写错误查找、超文本生成以及基于新闻流的主题探测等,但对这一方法的研究仍需深化,可以通过对大规模语料进行实验来进一步地评价这一基于语义资源的语义链方法。一8一大连理工大学硕士学位论文丰富的多文本摘要技术多文本摘要技术的研究工作最早开始于19世纪80年代,当时的研究是在受限领域中进行的德国康茨坦丁大学的HAHN在领域知识的基础上实例化层次框架中各子部分,并用泛化归类的方法来得出原文主题。哥伦比亚大学的RADEV和MCKEOWN对新闻报道中的同一件事或一系列事件采用多角度观察,分析文本片断中人物、言语的变化等信息差异的方法,来确定多文本摘要所要提取信息。在1997年以后,国外对多文本摘要技术的研究扩大到了非受限领域,采用了许多不同的技术方法。较为常见的有以下三种。第一种是使用统计技术来识别多文档间的相似和不同第二种是利用文本单元间的语义表示,以单词的重叠、语义的联系为依据,从多文本中提取相似文本单元生成文摘的方法。第三种是比较基于词汇的相似度,将特定相似域的段落连接形成“文本关系图”,选择与其它段落连接较多的段落。在这一时期,也取得了不少的研究成果,归纳起来主要有以下几个方面。一是哥伦比亚大学的MCKEOWN等人研制的用于新闻跟踪的NEWSBLASTER摘要系统,以及开发的可以依据不同文档集特点而采取不同综述策略的多文档摘要系统。但在这个系统中,对于文本集的特征,他们是通过手工方式获得的,文本集包括了单事件、传记、多事件以及其他松散型的文档【131。二是南加州大学的DANIELMATCU,CHINYEWLIN等人开发研制了NEATS系统。该系统采用了许多的多文本摘要技术,如以句子的开始信息和句子的位置信息来过滤句子;利用MMP,MAXIMALMARGHALRELEVANCE,最大边缘相关来消除冗余信息;对最后的文摘句进行一些合理的排序等114L。三是卡内基梅隆大学的JADEGOLDSTEIN等人基于“相关新颖度”概念来衡量信息冗余度,并结合MMR方法来生成多文档摘要。“相关新颖度”是衡量冗余度最小且相关性和不同性最大的一种尺度。他们将这一方法与MMR方法结合,形成IVLMRMD方法,从原文本中选择出与主题相关。但又彼此不相似的句子来形成摘要候选句,以达到消除冗余的目的I嘲。四是密歇根大学的DRAGOMIRILRADEV等人开发了MEAD摘要器,通过一个主题识别器的模块对新闻进行自动分类,然后对分类后的文本进行聚类,获取各个类别的中心信息,从而选择出与该类最相关的旬手嘲。一9一HTTP/INFO3DOUCOM/网络营销偏重摘要技术及其应用研究五是康奈尔大学的研究者借助于潜在语义索引的方法,判断相似的句子,将相似的句子聚到一起,从而消除冗余信息,这种方法依据上下文信息确定语义,提高了文本单元相似度计算精度旧。六是日本东京大学的研究人员,以词为研究单元,通过两个参数,计算出中心主题和局部主题的词,通过这些词找到以其作主语和宾语的句子,并把这些句子作为摘要旬,最后根据它们之间的联结关系来生成综述【181。后期处理的摘要平滑技术为提高所生成摘要的连续性,就需要一些对最后摘要语句进行平滑的处理。平滑的内容包括消除不明指代;减少层次关联关系对文摘句的可读性的影响;省略原文中的图表及插入成分;对文摘中的长旬进行压缩,而对一些并列性成分及短句进行扩充。而其中基本的问题就是要消除不明指代,即进行指代消解。最初的方法主要是基于语言学知识的方法,近来的研究多集中在基于机器学习的方法,而采用决策树学习的机器学习方法正被越来越多的学者关注。再有就是进行长句压缩和短语扩充的问题。这要求计算机能够深入理解文章的内容,就目前来说这些还难于计算机上实现。但一些学者提出了替代的方法,如采用概率噪音通道模型和决策模型方法等。2偏重摘要国外最早从20世纪80年代开始研究偏重摘要,开始时进展缓慢,进入九十年代后,一些学者开始关注于偏重摘要应用性方面的研究,发表了多篇研究文章,如PACHOURAS等人研究了运用偏重摘要来提高网页中查询精度的方法【191,SWEENCY等人研究了运用偏重摘要为WAP手机用户提供信息的意义刚,TSUTOMU等人提出了一个用于提高问答任务结果的偏重摘要方法LZLL。最近两年,随着互联网的快速发展,国外的学者对偏重摘要的研究逐渐增多,在他们的研究中,抽取偏重摘要的方法都是采用了与通用摘要相同的基于语句抽取的方法。142国内研究现状1通用摘要国内在自动摘要方面的研究起步较晚,最早在1985年,才有介绍国外自动摘要研究情况的文章出现,同时也开始了研究自动摘要实验系统。借鉴于国外的研究成果,发展速度比较快。在目前来看,研究的重点还是中文自动摘要的难点问题上,如中文分词、语义消歧、文本内容理解等。进入九十年代,在通用摘要方面取得了一些成果,单文本领域的成果主要有1997年大连理工大学硕士学位论文上海交通大学研制的OA中文文献自动摘要系统圆。80年代末,东北大学和香港城市理工大学联合开展的基于脚本知识的“中文全文自动摘要系统”的研究网。九十年代初,中科院软件所研制的实验系统E蚺SN班SHAUTOMATICABSTRACTSYSTEMP。1992年,哈尔滨工业大学研制的基于统计的HIT863系列自动摘要系统和基于理解的摘要实验系统MATAS251。北京邮电大学采用基于AGENT技术的摘要方法,开发出了GLAACE自动摘要系统及NEWS自动摘要系统等嘲。复旦大学研制的FDASCT自动摘要系统271。此外,山西大学、杭州大学隅冽也在开展自动摘要方面的研究。在多文本摘要领域,国内的研究还属于起步阶段。只有少数几所大学开展了这方面的研究。如复旦大学利用文本分段和文本聚类相结合的技术,来抽取代表段并生成综述,并在此基础上,又做了基于实体名识别的多文档摘要系统303”。哈尔滨工业大学的学者通过依存文法分析句子结构,进行语句相似度计算,再以合适的聚类算法获得文档的局部主题,最后生成综述网。大连理工大学的卢冶采用基于概念扩充的语义扩展方法进行了多文本摘要的研究印。2偏重摘要目前国内对于偏重摘要的研究甚少,除在2002年第一届学生计算语言研讨会上,上海交通大学刘功申等发表文章,提出了基于概念知识库构建偏重摘要的方法之外例,目前还没有其它的相关研究报道。15偏重摘要的发展前景文摘是随着信息的发展而快速发展的。人工的文摘最早起源于公元前三千六百年的苏美尔文化时期,当时是用楔形文字记载在湿粘土表面上,经烧结后保存下来的粘土板。而我国学术界从事“书目提要工作也有悠久的历史。19世纪80年代完成的四库全书总目提要就是我国文摘的典范。据有关统计资料显示,目前世界已有的文摘刊物已超过了三干五百种以上。而网络信息的快速发展使文摘的发展进入了电子信息时代。我国的自动摘要研究虽然起步晚于国外,但借鉴于西方学者的研究成果,获得了较快的发展,目前自动摘要已经应用在人们生活中的各个领域;如新闻广播领域,移动网络中的手机资讯,网络智能搜索引擎,网页信息的分类,信息抽取,数据挖掘,以及电子邮件群中信息摘要,网络会议等方面。在当前,偏重摘要的应用前景更为人们所看好。首先,偏重摘要是实现个性化信息的必要手段,偏重摘要技术的发展必将为构建个性化的信息检索平台奠定基础。其次,偏重摘要与搜索引擎的结合将成为下一代智能搜索引擎平台的基础。再有,偏重摘要能够在问HTTP/INFO3DOUCOM/网络营销偏重摘要技术及其应用研究答任务、信息抽取、文本挖掘等自然语言处理领域起到积极的辅助作用,帮助人们快速地掌控信息。可以说,偏重摘要技术的发展必将缓解人们当前从网络和海量文本中获取有用信息时面临的诸多困难,同时满足人们定制信息、获取个性化的信息服务的需求。基于文本的偏重摘要技术的快速发展必将极大地推动自然语言处理的研究和发展。而偏重摘要技术的更进一步发展,是与语音、声像等多媒体技术的结合,为实现计算机人工智能奠定基础。16课题研究的内容本文重点研究了偏重摘要技术及其应用,同时也对通用摘要技术做了综述研究。并基于改进的关键词密度分布算法,实现了一个偏重摘要实验系统。最后,在综合当前的文本摘要自动评测方法的基础上,提出了一个基于混合策略的中文文本摘要自动评测方法。在对通用摘要的综述研究中,从通用摘要的一般编制方法、所基于的数学模型以及所采用的主要技术三个方面进行了探讨研究。在对偏重摘要的研究中,重点介绍了基于密度分布算法的偏重摘要系统的实现原理、算法步骤和系统结构,并对偏重摘要在信息检索和问答任务中的应用做了相关的实验评测。在对自动摘要系统进行评测的研究部分,提出了一个基于混合策略的评测方法,这一方法混合了基于内容比较和基于数理统计两种不同策略的文摘自动评测方法。通过两组不同的对比实验,既对偏重摘要系统进行了评测,也检验了该方法的实用性和有效性。17论文的组织全文分六章阐述了偏重摘要研究的相关问题和偏重摘要系统的设计、实现与评价。第一章介绍了课题研究背景和自动摘要技术的发展史,并阐述了当前国内外在自动摘要技术方面的研究现状和偏重摘要的发展前景,之后说明了本课题的主要研究内容。第二章是对偏重摘要研究相关问题的概述,包括研究偏重摘要的基础问题和相关技术两部分内容。基础问题部分,包括自动摘要系统的一般处理流程、文本摘要的一般生成策略,摘要质量的一般评测方法等内容。相关技术部分包括中分文词和词性标注、语义分析、偏重获取等内容。第三章是对通用摘要系统的综述研究。分为通用摘要的一般编制方法、采用的一般模型和主要的技术方法三个部分。对通用摘要进行了较为全面、深入的分析研究。第四章是对偏重摘要系统的研究。阐述了基于密度分布算法的偏重摘要系统的设计与实现,包括系统的设计思想、体系结构以及系统实现的关键技术等内容。大连理工大学硕士学位论文第五章是对偏重摘要系统的应用研究。该部分通过两个实验研究了偏重摘要在信息检索和问答系统领域中的应用。内容包括实验的设计和对实验结果的分析。第六章是对文本摘要自动评测方法的研究。在综述了当前的文本摘要自动评测方法的基础上,提出了一个基于混合策略的中文文本自动摘要评测方法。并通过两组不同的实验对这一评测方法做了正确性的实用性的检验。最后的总结,概述了本课题研究的主要内容和所做的主要工作,并对实验系统的不足和下一步的研究方向做了阐述。HTTP/INFO3DOUCOM/网络营销偏重摘要技术及其应用研究2对偏重摘要的深入认识21对自动摘要系统的深入认识211自动摘要系统的一般流程从本质上而言,偏重摘要与通用摘要对文本的处理过程是相同的,都是一个对文本内容进行转换和分析的过程,其一般的处理过程可以划分为三个不同的阶段,即文本结构的分析、文本内容的转换、文本摘要的生成。文本摘要的一般流程如图21所示。圈21文本摘要的一般流程F培21COMMONFLOWFORDOCNENTSTANMARIZATION1文本结构的分析该阶段的主要工作是对文本内容进行一些结构和内容上的分析。其分析的一般内容有提取标题、起始句、一些特别的用语如英文中的大写字母缩写;文本内容的介绍如原文摘要、结论;一些特定类型的信息如原文关键词、事实描述段落、方法解释部分、实验结论等内容;文本内容的不同层次的小标题等。2文本内容的转换文本内容的转换有两步,第一步是文本的内部转换,即将文本转化为计算能够处理的数据。对于中文文本的处理,通常的处理是在进行全文分词、词性标注后,对特征词进行词频统计并抽取特征词。第二步是对转换后的数据进行处理,即将文本内容进行映射。这一步中通常的做法是建立空间向量模型,以向量映射文本内容。可以从词汇、句子、段落级别进行向量映射,进行不同处理,获取文本内容的内在含义。3文本摘要的生成大连理工大学硕士学位论文这一阶段,是自动文摘系统将转换后的数据进行处理,并根据要求对结果进行输出的过程。其中包含了一些后期处理,对文摘句进行平滑加工的步骤。偏重摘要由于需要对文本内容进行偏重处理,在结构分析、内容转换部分与通用摘要所采用的处理方法不同。在结构分析中,偏重摘要一般不必要对文本结构做深入分析;在内容转换部分,偏重摘要需要获取的是用户的兴趣区域,即与偏重要求是符合的内容,而不是文本内容的主题内容,因而需要采用不同于通用摘要的语句选择策略。212编制自动摘要的一般技术按照自动摘要系统处理技术的难度,可以将编制自动摘要的技术从实质上分为浅层技术方法和深层技术方法两类。1浅层方法浅层方法指不对文本内容进行深入分析,只从文本的表层语义上分析文本,生成摘要的方法。这种方法目前为大多数摘要系统采用,其生成的摘要都是摘录式的。即从原文本中抽取相关重要的语句来形成最后的摘要。但其最终的结果摘要中也可以包含原文中没有出现的新句子。只是这些新句子都是从原文中的句子进行平滑处理后得到的。这些新句子一般有两种;一种是对原文中的特征句进行适当转换后得到,如对原文语句进行指代消解后的新句;另一种是对原文长句的缩减或短句的扩充后得到的新句。由于浅层方法实现起来相对简单,得到了广泛的应用,而且近来的研究在浅层方法中引入了机器学习的方法,使自动摘要的技术得到了更进一步的发展。2深层方法深层方法是出于对文本内容的深入理解和对其背景知识进行深层挖掘的需要而提出的。其主要应用于生成式的摘要中,即在用深层方法所生成的结果摘要中包含了原文中没有的新句子,这些新句子不是原文中旬子的简单加工,而是经过自然语言处理后,由机器生成的对原文特定内容的高度概括和信息浓缩。这种新句是与浅层分析中的新句是有着本质上的区别的。深层方法都用到了自然语言处理的方法,在目前的研究中,可采用的方法主要有两种;一种是基于模板抽取的方法另一种是基于概念提取方法。由于建立模板或者概念库都需要针对特定的领域,所以不管采用哪种方法,它们的应用领域都是严格受限的,只能应用在某些特定的领域中。由于深层方法的领域受限,人们对于当前自动摘要方法的研究仍然普遍采用了浅层的方法。HTTP/INFO3DOUCOM/网络营销偏重摘要技术及其应用研究213自动摘要评测的一般方法人们在开始进行自动摘要研究的同时就开始了对自动摘要评测的研究。经过半个多世纪的研究,人们提出了许多自动摘要的评测方法如机器摘要与人工摘要专家摘要或作者摘要进行比较;几个机器系统之间相互比较;生成的摘要与原文进行比较等多种方法。这些评测方法对于偏重摘要的评测和通用摘要的评测是同样适用的。1998年,JONESKS总结这些方法,提出从广义的角度将自动文摘的评价方法大致分为基于内部评测的方法和基于外部评价的方法两类【3习。内部评价方法是一种直接的方法,通过对摘要质量直接评测来衡量系统的质量;而外部评测方法是一种间接的方法,通过对比摘要在特定任务中所发挥的功效来衡量系统的性甜36L。国外对于偏重摘要系统的评测研究最初多采用了基于外部评测的方法,但由于外部评测方法受限于特定的任务,使用的评测方法多种多样,难于统一,不利于标准化,因而近两年的研究多倾向于使用基于内部评测的方法。目前,基于内部评测的自动文摘评测方法常采用的评测方法是用机器摘要与“理想摘要”进行对比。以其与“理想摘要”的相似程度作为其评测结果。评测的方式有人工评测和机器评测两类,但由于人工评测的代价高昂,目前的研究都集中在机器评测方面,即对文本摘要的自动评测。评测中所采用的“理想摘要”,目前通常都是由一些专家以人工方式生成,称之为模板摘要。22对偏重摘要相关技术的介绍221中文分词和词性标注中文自动摘要与英文自动摘要在技术上实现要更难一些。最根本的一点是,中文的词语之间不像英文一样用明显的空格进行区分,要对中文文章进行基于词语的处理,就必须对文本进行分词处理。在需要词性进行处理的环节中,还必须对分词之后的文本进行词性标注。这两项技术是中文自然语言处理的根本技术。当前,基于不同算法的中文分词技术有了非常迅猛的进展,其分词的精度基本上都达到了9000以上,但将其应用到偏重摘要系统中,其未能正确划分的部分势必对摘要的最终处理带来影响。222语义分析语义分析就是运用知识库中的语义知识将语法结构描述转换成以逻辑和意义为基础的语义表示。对文本进行语义分析可以较大地提高文本摘要的质量。大连理工大学硕士学位论文在20世纪80年代,兴起了语言学的研究,激发了人们对自动摘要的语义资源的研究。最简单的语义分析方法,一般是借助于语义词典,如同义词、近义词词典;后来采用了基于知识库的方法,由于目前还没有一个完善的语义资源平台,一些研究学者采用了替代方法来获取语义资源,如将英文的WORDNET,中文的HOWNET当做语义资源库来进行相关研究。223偏重获取在偏重摘要中很重要的一步就是获取偏重。对于用户偏重的获取最简单的做法是将用户输入的查询词直接作为偏重内容进行摘要的生成。但这种方法并不能完全适应偏重摘要的要求。这是由于用户在查询中输入的往往是一个简单查询词,单纯依靠这些简单的查询词,难于准确界定用户查询的真正兴趣所在。当前,获取偏重的通常策略是对用户的查询进行概念语义方面的扩展。比较理想的扩展方式是采用通用的语义资源,但就目前而言,还没有一个可适用的通用语义资源。只能采用一些其他的替代方法,如采用同义词词典、近义词词典、语义词典等。在利用词典进行语义扩展时,需

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论