版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于动词的关系模式抽取方法摘要:本文提出了一种基于动词的关系模式抽取方法,旨在从中文网页语料中抽取高准确率的实体关系。使用ICTCLAS和实体表进行人名和岛屿岛礁实体识别,生成准确的句子实例,在此基础上构建基于动词的关系模式。实验结果表明该方法获得了良好的抽取性能。关键词:关系抽取;关系模式;实体识别一 引言信息抽取研究技术是人们获取信息的有力工具,是应对信息爆炸带来的严重挑战的重要手段。信息抽取的目标是从无结构自然语言文本中提取计算机可以理解的结构化信息,其中一种主要的结构化信息是实体关系。关系抽取是信息抽取的子任务,主要目的是提取句子中的实体关系1。Web已经成为包含人类社会各种知识的信息
2、库,其规模正在以指数级速度膨胀,容纳的信息中有各种实体关系信息,如人物社会关系、国家与岛屿之间的拥有主权关系等等。然而,现有的搜索引擎仅能返回与用户关心的相关信息网页,不能得到各种关系信息。本文以从中文网页语料中自动抽取实体之间关系为目标,提出一种基于动词的关系模式抽取方法。二 关系抽取语料中的实体包括八类:人名、地名、城市、岛屿岛礁、海域河域、组织机构、政府部门、军事机构,如图1所示。人名人名地名地名城市城市岛屿岛礁岛屿岛礁海域河域海域河域组织机构组织机构政府部门政府部门军事机构军事机构图1 实体关系表如何抽取这八类实体之间的关系、以构建关系模式是我们要研究的内容,本文以抽取人名和岛屿岛礁之
3、间的关系为例开展研究。我们提出的关系抽取策略包括句子实例获取、关系模式的构建。实体关系抽取原理如图2所示。中文网页语料(文本)预处理关系模式构建确定动词概念确定名词概念生成规则训练部分测试部分生成关系模式新实例抽取图2 实体关系抽取原理图(一) 句子实例获取将中文网页正文部分进行预处理,获取含有实体的句子作为关系抽取的句子实例。预处理包括分段分句、词性标注、命名实体识别等2。本文主要处理人物与岛屿岛礁之间的关系抽取任务,所以在分好的句子中使用ICTCLAS3识别出这两种实体类型,在句子中出现的人物以“1-人名XX”标注,岛屿以“23-岛屿名XX”标注。(二) 关系模式的构建传统的启发式方法对句
4、子实例进行词性标注,并用通配符替换实体对出现的位置来构建模式4,但通用性和准确性不足,例如“北京是中国的首都”的模式构建结果为“object是/v target的/u首都/n”,而从“北京是中国政治文化的中心”中得到的模式并未表示北京和中国之间的capital-of关系。 本文使用的关系模式抽取方法是从种子句中出现在实体前后的上下文来学习关系模式,在从种子句中学习抽取模式时,并不是机械地把出现在种子句中实体前、实体中、实体后的所有词语均作为所学模式的特征词5。因为通过对句子的观察,发现句子中两个实体的上下文中常会出现大量的修饰性词语,如形容词、副词、语气词等,如果把所有出现的词语都作为抽取模式
5、的特征词,一方面极大地增加了模式的长度,会在以后的模式匹配工作中占据较多的机器时间,另一方面长模式的匹配准确率也会有相应的下降。所以本文提出了基于动词的关系抽取方法,以“动词”为核心,将相同动词的句子放在一起抽取关系模式。以下是一个句子标注例子:动词:到达从谭门镇出发,将航向调到东南110度,3天3夜后“琼琼海08068”号渔船船长1-许卫可到达23-黄岩岛。不用翻译我们抽取的是实体(概念)之间的关系,这种关系在文本体现方式上为上下文环境约束。即提炼各种上下文环境约束规则,将其实现到语言中,计划实现的上下文环境计算符包括:SENT,表示在同一句话中;ORD,表示满足先后顺序;DIST_n,表示
6、两两距离不能超过n等等。关系模式的一个示例:CONCEPT: ACTION_ARRIVE: 到达CONCEPT: NAME: 许卫CONCEPT: NAME_ISLAND: 黄岩岛MCONCEPT_RULE:ARRIVE(person.island):(SENT,ORD( “_personNAME”, ”ACTION_ARRIVE”, ”_islandNAME_ISLAND ”)不用翻译关系模式包含两部分的内容,一部分是概念,一部分是规则。“CONCEPT”表示概念,包括动词概念和名词概念,动词概念以“ACTION_”为开头,名词概念指的是实体,如人物、地名(国家、岛屿、海域、城市)、组织机构
7、等等,“CONCEPT: NAME: 许卫”表示人名“许卫”,“CONCEPT: NAME_ISLAND: 黄岩岛”表示岛屿名“黄岩岛”;抽取的目标是概念的关系,我们用“MCONCEPT_RULE”定义抽取的规则,规则名“ARRIVE”用动词来表示,规则由两个参数person和island组成,分别对应名词概念NAME和NAME_ISLAND。三 实验结果及分析(一)实验语料 实验中选择了人名与岛屿岛礁名的关系作为抽取对象,使用了21,467篇中文网页,对其进行分段分句,共分出435,210个相异句子,在分好的句子中使用ICTCLAS进行实体识别后再进行实体表比对,最终收集了含有人名和岛屿名的
8、共7959个句子组成了实验集合。在对所有的句子按照“动词”进行划分,对句子中出现命名实体(人名、岛屿岛礁名)进行标注后,选取其中有代表性的100个句子作为关系模式的种子集,余下句子作为测试集。(二)实验结果构建关系模式过程由关系抽取系统实现,如图3所示。输入动词“暗示”查找到相关句子,根据动词定义规则名“IMPLY”称并生成动词概念“ACTION_IMPLY”,从句子中抽取名词并生成名词概念,以此构建概念之间的关系最终生成关系模式(即规则)。图3 关系抽取系统图片不用管将构建的关系模式写入txt文件,如图4所示。图4 构建的关系模式在实验中由于是对某一具体关系类别的分析,我们引入了准确率和召回
9、率这两个判断标准6,公式如下:准确率P=(正确抽取的某一实体关系数目)/(测试集中抽取的某一实体关系数目)召回率R=(正确抽取的某一实体关系数目)/(测试集中应有某一实体关系数目)实验结果如表1所示。表1 关系模式抽取实验结果DIST值抽取person-island关系数正确关系数应有person-island关系对准确率召回率DIST_213210516979.5%62.1%DIST_4987511476.5%65.8%不2%70.6%从表1中可以看出基于动词的关系模式抽取方法的召回率和抽取的person-island关系的准确率与DIST值有很大关系,DIST_2
10、表示两两距离不超过2,即当person和动词之间的距离不超过2时,抽取关系的准确率为79.5%,相对较高,而召回率较低;当DIST取值为DIST_4时,抽取关系的准确率为76.4%,较DIST_2时要低些,而召回率较DIST_2时要高些;当DIST取值不限时,即person与动词之间无距离限制时,抽取关系的准确率更低些,而召回率较前两者高些。四 结论 普通模式匹配方法抽取实体关系是用模式与句子及其词语进行格式或形式上的匹配,这种方法一般要求句子的行文、结构比较规范。然而对于包含各种关系的中文网页语料,由于其结构比较灵活,普通的模式匹配方法效率并不高,为此,本文提出了基于动词的模式匹配方法来抽取
11、句子中实体的关系,完成了对人名和岛屿岛礁之间的关系抽取任务。下一步的工作中,我们将对关系实例进行进一步挖掘,以提升抽取准确率并获得更多语义信息,另外,我们还将尝试抽取其他类别的关系实例。参考文献1 吴楠,王庆林,刘禹. 基于百科词条的领域本体关系抽取方法J中南大学学报(自然科学版),2013,(44):347-350.2 张苇如,孙乐. 基于维基百科和模式聚类的实体关系抽取方法J中文信息学报,2012,(2):75-78.3 中科院计算所.ICTCLAS汉语分词系统EB/OL ,2011/.Chinese Academy of Institute of Com
12、puting Technology. ICTCLAS Chinese Analysis System4 O.Medelyan, D.Milne,C.legg. Mining Meaning from WikipediaJ. International Journal of Human-Computer Studies, 2009, 67 (9): 716-754.5E.Agichten and L.Gravano. Snowball. Extracting relations from large plain-text collectionsJ. Proceedings of the fifth ACM conference on Digital libraries,New York,ACM Press,2000,85-946zelenko D,Aone C,Rechardella A. Kernel Methods for Relation ExtractionJ. Jou
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新疆维吾尔自治区奇台县第四中学2024届九年级上学期期末考试数学试卷(含答案)
- 《社会调查方法》课件
- 养老院老人疾病预防措施制度
- 保险精算分类费率课件讲解
- 收物业费保密协议书(2篇)
- 《药品采购》课件
- 《高血压规范化诊治》课件
- 2024年度食用菌产业投资基金销售合同3篇
- 2025年南阳货运上岗证模拟考试题
- 2025年洛阳货运考试题库
- 大豆介绍及病虫害课件
- 手外伤患者的康复 手外伤的康复治疗
- 顶管施工详解课件
- 人教版道德与法治三年级上册全册课时练习课件(2022年11月修订)
- 人教版五年级(上册)数学第八单元总复习全套课件
- 保健食品GMP质量体系文件
- 《故都的秋》《荷塘月色》课件 统编版高中语文必修上册
- 焊接材料烘焙记录表
- 招标采购履约验收报告书模板
- 养老机构护理管理制度与规范
- 第3章岩土类介质本构模型
评论
0/150
提交评论