




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
命名实体关系抽取研究报告人:
徐
庆学校: 太原理工大学研究内容研究现状研究方法实验方案实验结果报
告
内
容一、研究内容实体关系抽取定义从文本中抽取出特定的实体之间的关系一、研究内容例子:“记者滞留在机场”实体1:“记者”人物(PER)实体2:“机场”设施(FAC)关系:位于关系(Located)•即“记者”位于“机场”一、研究内容二、研究现状传统的关系抽取基于模式匹配的方法基于词典驱动的方法基于机器学习的方法二、研究现状基于模式匹配的方法运用语言学知识,构造出若干基于词语、基于词性或基于语义的模式集合进行关系抽取时,将经过预处理的语句片段与模式集合中的模式进行匹配二、研究现状例子:“习近平是中国的最高领导人”关系模式描述:Person
是…organization
的…关系:人-社会组织(PER-SOC)二、研究现状缺点:关系模式建立困难需要语言学家对某领域穷举各种可能的关系表达,手工编制关系模式周期太长,应用成本很高当应用于新领域时需要重新建立关系模式二、研究现状基于词典驱动的方法新的关系类型能够仅仅通过向词典添加对应的动词入口而被抽取灵活,耗费努力最小的情况下能够抽取尽可能多类型的关系,准确率高二、研究现状例子:爱迪生发明了电灯泡通过“发明”可以确定“爱迪生”和“电灯泡”的制造使用关系(ART)二、研究现状缺点:只能识别以动词为中心词的关系,而对于名词同位语之类的关系抽取很难实现二、研究现状基于机器学习的方法将关系抽取看作是一个分类问题,通过具体的学习算法,在人工标注语料的基础上构造分类器摆脱了语言学家,不受关系的词性限制缺点:需要人工标注的语料二、研究现状基于机器学习的方法(1)基于特征向量的方法(2)基于核函数的方法二、研究现状(1)基于特征向量的方法对关系样例进行特征提取并表示为特征向量,然后通过机器学习的方法来学习训练关系实例缺点:因为特征向量长度必须固定,所以无法加入句法信息二、研究现状(2)基于核函数的方法使用语法树的形式表示实体关系,通过核函数计算关系之间的距离缺点:训练预测速度相对慢二、研究现状开放域的关系抽取秦兵提出了使用实体之间的距离限制和关系指示词的位置限制获取候选关系三元组的开放式抽取方法二、研究现状“…记者滞留在机场…”的最短路径依存树IPNN记者NP
VPE1
VV滞留在P
NPE2NN机场PP二、研究现状实体词实体小类实体大类提及类型记者机场entityE1
E2typeTP1
TP2PER
FACsubtypeST1
ST2Group
Airportmention
typeMT1
MT2NOM
NOM二、研究现状包含全特征的语法树IPNPE1NN记者VPVV滞留在P
NPE2NN机场PP记者entityE1
E2机场IPtype
subtypeTP1
TP2
ST1
ST2PER
FAC
Group
Airportmention
typeMT1
MT2NOM
NOMROOT二、研究现状树核函数的基本原理NPNDdogaNPNDdogaNPNDaNPNDdogNPNDNDdogaNPNDcataNPNDcataNPNDaNPNDcatNPNDNDcata二、研究现状树核函数的基本原理NPNDdogaNPNDaNPNDDaNPNDcataNPNDaNPNDDa三、研究方法两种表示实体词相似度的特征《同义词词林》编码树实体词语义相似度树三、研究方法《同义词词林》是一部汉语分类词典,其中每一条词语都用一个编码来表示其语义类别,共包括12个大类,94个中类,1428个小类。三、研究方法“公园”的编码为“Bn20A01=”三、研究方法“伤者”编码“Ag02A01=”和“医院”编码
“Dm06A03=”对应的《同义词词林》编码树三、研究方法将编码树加入到语法树的根节点下三、研究方法基于《同义词词林》的词汇语义相似度计算如果在第一层分支,也就是说两个词不在同一棵树上Sim(
A,
B)
=
0.1三、研究方法如果两个词在同一棵树上Sim(
A,
B)
=
m
·(m
+
(1
-
m)
·
n
-
k
)n其中n为分支层的节点总数,k为两个分支在同一层的距离,m随着分支所在层的变化而变化,分别取第二层0.65,第三层0.8,第四层0.9,第五层0.96三、研究方法实体词语义相似度树举例三、研究方法加入实体词相似度树的关系大类实例三、研究方法加入实体词相似度树的关系小类实例四、实验方案若在《同义词词林》中找不到实体词,则分词后再查找若还找不到,则不添加本文提出的特征四、实验方案ACE2005中文语料哈工大语言云(LTP)Stanford
ParserSVM-LIGHT-TK
1.2语料:分词工具:句法分析工具:分类器:五倍交叉验证四、实验方案实验评价除了采用常用的P、R、F以外,还使用F%和TFF%:F值与相应的关系类型中实例个数在全体实例所占的百分比的乘积TF:各个关系类型的F%相加之和,能够反映某种特征的总体性能五、实验结果单一特征的实验结果TF关系大类关系小类实体类型信息83.284.9《词林》编码68.877.4《词林》编码树73.581.2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 陕西省西安市碑林区西北工业大学附属中学2024-2025学年高一上学期期末地理试题
- 青少年禁烟教育主题班会
- 高压值班工作总结
- 预防误吸安全宣教
- 关于心理的课件
- 确保学员成功的CFA试题及答案计划
- 理解CFA的金融资产定价模型试题及答案
- 2024年CFA考试真题及试题及答案
- 债务结构的优化方案试题及答案
- 社会责任投资的理顺技巧试题及答案
- 《人教版重点初中物理教材插图改编试题及答案:8年级下》
- 关于我国垂直型政府审计体制改革的思路与建议工商管理专业
- 电子商务B2B模式-ppt课件
- 调研汇报玄武湖
- 操作系统信号量PV操作题若干
- 浙江工商大学毕业论文格式正文
- EBZ260M-2掘锚机的技术规格书
- 小学人教版六年级下册第三单元作文:六年级下册语文第三单元作文:我的理想作文800字
- 涵洞水力计算
- PCBA外观检验标准_IPC-A-610E完整
- 新版《江苏省建设工程验收资料》分部分项检验批划分文档
评论
0/150
提交评论