关于面向半结构化文本的知识抽取研究_第1页
关于面向半结构化文本的知识抽取研究_第2页
关于面向半结构化文本的知识抽取研究_第3页
关于面向半结构化文本的知识抽取研究_第4页
关于面向半结构化文本的知识抽取研究_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、关于面向半构造化文本的知识抽取研究半构造化文本是指以半构造化方式存储,凭借文本格式将其归纳成假设干名词的集合,具有格式性和自由性相结合的特点,能兼顾风格统一和内容灵敏。一方面,半构造化文本类别繁多,另一方面,半构造化文本广泛存在于现实生活中,各行各业中都能看到此类文本,不同的实际情况会产生不同形式的半构造化文本。这些文本都有一样的特点大量存在,更新速度快,存在对历史文本的分析和检索的需求等。为了更好地进步知识获取的效率,实现对半构造化文本的知识抽取、形成标准的格式并进展存储具有非常重要的现实意义。半构造化文本与构造化文本(如主题词表、数据表)、非构造化文本(如微博、新闻报道)相比,半构造化文本

2、的知识抽取受到构造与语义的双重约束。首先是构造不完备性,遵循的构造缺乏以直接解析相关内容,受文本载体形式制约较大;其次是语义相关性与复杂性,大量语义信息相关并隐含在句子级、篇章级文本中,内容表征复杂。基于此,本文在梳理和总结众多学者研究的根底上,以半构造化文本知识抽取的载体类型、内容和技术方法为视角,对面向半构造化文本的知识抽取进展了研究,从而为更好地实现该类文本信息的有效抽取提供思路。1半构造化文本知识抽取载体类型的划分及其相研究半构造化文本中,由于数据源比较复杂,涉及的对象比较多,并且表达形式丰富多样,因此形成了不同的知识载体类型,这些不同的载体存储内容的方式是不同的,导致对于不同的载体需

3、要采用不同的抽取形式与技术方法。目前,已有许多学者从不同的视角对知识抽取载体的类型划分进展了阐述,经过对先前研究的归纳与梳理,本文按照半构造化文本资源的表达形式将知识抽取载体类型划分为三大方面,即:科技文献、Web和其他类型。1)科技文献。科技文献的表现形式多种多样,如作战文书方面,代表人物有郭忠伟、周献中和黄志同等人,他们构造各类作战文书的Schema库,利用Schema上的修辞谓词抽取相应的知识,最终构造文书内容自然语言问卷方面,苏牧、肖人彬等人提出神经网络识别方法和宽度优先法可以将聚类后的各个语句进展知识形式的转换,从而完成由自然语言问卷到面向对象知识体系的知识抽取过程。大百科全书方面,

4、许勇、宋柔等人提出了一种基于隐马尔科夫模型的方法,即利用知识点在条目文本中的转移规律以及知识点的词特征分布来判断每个句子的知识点类别。在方面,丁君军、郑彦宁、化柏林等人对学术中的属性描绘进展了数量关系和情感信息方面的分析,然后对学术概念属性抽取系统进展设计和实现,刘一宁、郑彦宁、化柏林等人针对学术设计了一种学术定义抽取系统,通过混合使用形式规那么、语法规那么和词频统计以到达定义抽取的目的。2) Webo Web的表现形式主要有Wikipedia, Web对象,Semantic; Web, Social Networks等,各个方面都得到相关学者的关注和研究。Wikipedia方面,K. Nak

5、ayama等人将Wiki作为Web语料库,详细提醒了其特点,并描绘了锚文本链接在消除歧义和可义词抽取中的重要性。 Web对象方面,Nie Zaiqing等人认为W eb对象是一种有关某一Web信息的数据单元,可以用来搜集、索引和排序。他们的工程从W eb数据源中,能自动地实现大规模产品对象的抽取。Semantic; Web方面,U. Shah等人设计了一种从包含自由文本和语义标记W eb中检索文档的方法,并发现索引和语义标记的结合运用能进步检索效率。Sovial Network、方面,Tang Jie等人讨论了在ArnetMiner系统中的几个关键问题,目的是从学术社会网络中抽取和挖掘专家信息

6、。3)其他类型。主要有简历和表单等,简历方面,木百鹤等人通过对大量简历文本的分析,概括出了一种简历信息的本体模型,并提出了基于本体的知识抽取框架。表单方面,王振雷等人引人数据元字典和数据字典对报表业务逻辑进展了描绘,同时还完成了对表单业务逻辑的描绘。2半构造化文本知识抽取内容的界定及其相关研究内容是半构造化文本知识抽取的最终目的,是依附于载体而存在的,但同样内容的知识可以存储在不同形式的载体中。不同载体在表现形式上有一定的差异,但从知识内容表达的构成来看,知识抽取内容可以独立于知识抽取载体而存在。在载体分类的根底上,针对不同内容的构成进展相关知识抽取。因此,对知识内容进展界定与区分也是该领域重

7、要的研究部分。综合现有的学术成果,关于知识抽取内容界定及相关研究主要集中在术语、定义、情感倾向性与属性4个方面。2. 1术语抽取术语是指在特定学科领域内用来表示概念称谓的集合。术语作为特殊主题领域内对某特定概念的约定俗成的名称,具有意义单一、低歧义、高专指性、相对固定的上下文环境等特点,表述了领域内最重要的一些概念,并且构成了文献的语义特征。随着网络的飞速开展,新术语层出不穷,在此背景下术语抽取也越来越受到学者的关注。目前,国内对于术语的研究主要集中在可比语料库构建、多语言抽取、规那么过滤和自动、半自动术语抽取等方面。国外相关研究较为广泛和更为深人,主要集中于抽取模型、抽取算法研究等,这些都为

8、术语抽取作出了重大奉献。2. 2定义抽取在知识内容表达中,定义是指对于一种事物的本质特征或一个概念的内涵和外延确实切而简要的说明与术语抽取相对应的是,定义抽取是抽取有关术语的说明。国内较为成功的商业应用是CNKI,其提供对学术定义的快速查询,内容全部来源于CNKI全文库。使用学术定义搜索可以得到想要查询词汇的准确学术定义,并且可直接查询定义出处。不同于一般的网页和文献搜索等参考型搜索引擎系统,CNKI学术定义搜索是一部不断更新完善的学术定义词典,力求为用户提供最权威、最准确的学术定义。刘一宁等设计了一种定义抽取系统,详细介绍了系统中的各项关键技术,包括分词技术、抽取规那么导人技术、句子抽取技术

9、和加权词处理技术等,通过混合使用形式规那么、语法规那么和词频统计以到达定义抽取的目的困。国外众多学者也展开了相关研究。N. Lavrac等使用形态句法形式、自动术语识别和语义标注技术,提出了一种旨在从领域语料中抽取定义候选集的创新工作流,定义抽取工作可以被重复使用和向其他语言类型转换; P. Del(audio)等为自动定义抽取设计了一种完全依赖于机器学习的方法,探究了相关数据集不平衡的问题;Ferneda等以法律文书为载体,研究了法律定义词汇特定的标准性规那么,建立一个新的词汇表,利用规模样本训练SVM分类器,最终在一个测试语料中对该方法进展评价。2. 3情感倾向性抽取 各种文本资料中都存在

10、着两类混合在一起的信息:事实和观点。同时,在事实和观点中也大量充满着个人的情感情境,如何从这些信息中分辨、识别、抽取情感倾向是知识抽取领域的一个研究热点,主要围绕着产品评论和科技文献而展开。产品评论是用户对某种产品评价、使用感受的意见。N. Kobayashi等从Web文档中实现与微博情感倾向性研究类似,科技文献中隐含着作者对某一观点或事实的情感倾向性。丁君军等把此类情感信息划分为正面、负面和无态度的中性3种情感,但没有给出其评判标准和与微博、产品评论等其他类型的情感倾向性判别差异。2. 4属性抽取属性是指事物本身所固有的性质,是事物的一些根本特性,属性抽取可以帮助研究者更好地理解其特征、性质

11、等,主要包括人物属性抽取、产品属性抽取和概念属性抽取等。人物属性抽取可以抽取个人信息,如生日、爱好、职业等。王日芬等人针对当前专家库信息来源单一、检索技术简单且主观性强等问题,结合专家库中人物属性的特点,提出了基于社会网络的专家检索技术方案。产品属性抽取主要抽取互联网上产品的描绘、价格等信息。P.ohani等利用基于半监视学习的算法,设计了抽取出商品显性和隐性属性的抽取系统,通过对数据的标注来进展产品的检索和价格比照。go Wu等用贝叶斯定理训练方法确定属性的名称和属性的值在网页中的成对出现,并在3种不同产品的抽取实验中都获得了很理想的结果。概念属性的抽取包括通俗概念抽取和学术概念的抽取,大量

12、运用在文献、专利文献中。郭剑毅等研究了如何使用协作分类器协作使用条件随机场(CP-Fs)和支持向量机(svM)解决领域概念实例、属性及属性值的抽取以及它们三者之间对应关系预测的问题。丁君军等通过把不同学术文献中对于某一学术概念的属性描绘起来,对学术概念属性抽取系统进展设计和实现,并对系统抽取结果和人工标记结果进展了测评,准确率约为60%。3半构造化文本知识抽取技术方法的分类及其研究半构造化文本知识抽取技术方法的选择与使用关系到知识抽取的效率、质量与结果等。在当前面向半构造化文本的知识抽取技术中,机器学习和自然语言分析两大技术思路正在互相交融、互相借鉴,各自都得到了较大的开展。如基于机器学习的知

13、识抽取方法,有半监视学习方法、开放信息抽取等方法,并朝着人工智能的方向开展;基于自然语言分析的知识抽取方法有规那么发现方法、基于Ontology信息抽取等方法,并朝着语义和本体结合的方向开展。各种技术方法如表1所示。3. 1半监视学习方法半监视学习方法又称之为弱监视学习方法,它的根本思想是利用数据分布上的模型假设,建立学习器对未标签样例进展标签,其主要解决在标签样例缺乏的情况下进步对学习模型的泛化才能,可以在一定程度上弱化弊端,优化学习效果。目前常用于解决知识抽取领域中的分类、关系抽取等问题。半监视学习方法主要有直推式支持向量机法、自举法和远程监视方法等。1)直推式支持向量机。直推式支持向量机

14、是支持向量机的一种改进算法,可以将无标记样本中隐含的分布信息引人到支持向量机的学习过程中,从而使分类器的性能得到显著的进步。王安娜等将半监视算法与支持向量机结合,在迭代算法中将无标记样本与有标记样本结合,研究提出的样本能有效地利用大量的无标记样本,无标记样本的加人使用可以有效地进步分类准确率。为理解决人为指定样本数量N的问题, Chen Yisong提出了改进算法渐进直推支持向量机。张晓滨利用LIBSVM等软件工具,数据源采用路透社1987年的新闻专线,进展统计分析,结果显示渐进式直推支持向量机可以有效地处理有标记数据较少的文本分类。2)自举法。自举法是由Yarowsky在19%年提出的,S.

15、 Abney于2002年扩展了该方法的两个独立假设。自举法是一种典型的半监视学习方法,用少量标记过的训练样本就可以到达传统方法的大训练集训练的效果。伍星等提供少量的产品特征作为种子,从这些种子出现的语句中抽取文本形式,利用文本形式来发现新的产品特征,获得了较高的召回率和准确率,为大规模、自主机器学习提供了新的思路。A. Ittoo等利用Wikipedi。作为知识库,采用最小监视原那么,从半构造化文本中抽取可信任的部分一整体的关系,并将其作为抽取种子,进而抽取出领域内所有的部分一整体关系。3)远程监视方法。远程监视方法是在1999年被Cra-ven首次提出的,基于这样一种假设:假设两个实体存在特

16、定的语义关系,那么包含实体对的句子在某种程度上就存在表征二者语义关系的作用。其主要解决文本中的关系抽取等问题,近年来得到了学者们的广泛关注。B. Min等证明了当标记过程错误时,因为语料库的不完备性产生了大量的负面样本,在此情况下提出了只从积极和未标记的样本中学习的算法,获得了良好的效果. Puedel等认为当语料库与相关文本并不直接相关时,远程监视方法会产生干扰实验精度的噪音形式,为此提出了以约束驱动的远程监视方法,实验说明可以减少31%的实验误差叫。3. 2开放信息抽取开放信息抽取是美国华盛顿大学图灵中心提出的被称为新型抽取范式的一种知识抽取方法。它的目的在于促进领域无关的知识抽取应用,它

17、能从文本中抽取出大量关系对,并可被应用到各种类型和规模的Web信息抽取任务中。除需要标注的文档集外,开放信息抽取不需要任何其别人工输人,同时为保障在处理大规模文档集时的效率,只需要对文档集进展一次处理。开放信息抽取从底层来看,是将W eb尺度下的非构造化数据转换为构造化数据的有效技术,从高层来看,其应用前景也很广泛。Popeseu和Etzioni尝试进展开放信息抽取系统在意见挖掘方面的应用,Etzlonl那么展望了开放信息抽取对于搜索引擎和问答系统的宏大帮助和应用前景faa7。但是开放信息抽取的工作主要集中在英文上,在中文信息处理领域,开放信息抽取还没有比较有影响力的成果。3. 3规那么发现方

18、法规那么发现是通过对某种形式特定语法、语义规那么的提炼和总结完成对知识的抽取。基于规那么的方法主要利用规那么模板来进展,需要人工在大量总结既有知识规那么的根底上形成有效的规那么模板,优点是简单有效、本钱低,缺点是无法完成大规模数据量的知识抽取,并且依赖于专家经历。表现形式。规那么是对自然语言的语法、语义的规律总结,包括上下文、分词、语境等,其主要表现形式为正那么表达式,如表2为化柏林等提出的关于定义的规那么模板表现形式。3. 4基于Ontology的信息抽取方法Ontology(本体)作为一种知识重用、知识共享和建模的重要工具,可以对特定领域中的概念及概念之间的关系给子比较准确的描绘,从而为人机之间、机器与机器之间的互相理解提供了语义根底。这些语义信息给知识抽取提供了根据。领域本体可以大量应用于不同层次的抽取任务中,从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论