词汇语义关系评测_第1页
词汇语义关系评测_第2页
词汇语义关系评测_第3页
词汇语义关系评测_第4页
免费预览已结束,剩余11页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

词汇语义关系评测吴云芳万富强周蜜北京大学计算语言学研究所wuyf@2012-12-2纲要任务描述评测数据的准备评测数据的标注参赛系统的结果存在问题进一步工作展望缘起词汇语义信息是自然语言处理中很重要的资源,是进一步进行句法和语义分析的基础。在信息检索中的查询扩展、机器翻译中的模块识别等方面,相似词都是不可或缺的知识资源;在句法分析、词义消歧等信息处理任务中,词语相似度也发挥着重要的作用。而相似度词典的手工构建是一项费时费力的浩大工程,存在着不易更新、覆盖度不全等诸多缺陷。任务描述任务一:同义词发现

文件 文书 文本 文牍 公文 文献 档案 文档

任务二:下位词发现算法

分治法动态规划法贪心法回溯法同义词词语的选词范围来源类型目标词数QQ聊天语料口语词语173领域同义词库常用词语1585微博新词语73Gigaword名词5000Gigaword动词2000Gigaword形容词1000Gigaword成语50人民日报语料组织机构名50人民日报语料地名50维基百科人名50去重之后得到9464个同义词词语。下位词词语的选词范围来源类型目标词数《现代汉语语义词典》语义类标签44《现代汉语词典》上位词(“是一种”模式)61《知网》语义类标签49人民日报语料上位词(“一种”模式)412维基百科分词后加筛选规则4327领域同义词库常用的名词150Gigaword名词5000去重之后得到9354个上下位词词语。评测数据的准备综合各家结果,求并集;对同义词集/下位词集结果进行简单的统计:

结果数据.xlsx选取评测的目标同义词;人工标注:

北京大学中文系语言学专业硕士研究生

同义词集投入了更多的时间同义词目标词的选择来源类型目标词数QQ聊天语料口语词语173领域同义词库常用词语1585微博新词语73Gigaword名词800Gigaword动词300Gigaword形容词100Gigaword成语140人民日报和维基百科专有名词50去重之后得到3129个目标词,作为人工标注的对象词语。人工标注后,删除没有同义词的目标词,最终得到778个评价词。尽量涵盖不同来源、不同类型的词语。下位词语目标词的选择来源类型目标词数《现代汉语语义词典》语义类标签44《现代汉语词典》上位词(“是一种”模式)61《知网》语义类标签49人民日报语料上位词(“一种”模式)412维基百科等其他名词1100然后再选择下位词数在[2,99]之间的目标词1076个,作为人工标注的对象。人工标注后,删除没有下位词的目标词,最终得到256个评价词。尽量选择有潜在下位词的目标词。参赛系统报名:23个队伍参赛:同义词8队10组结果

上下位词4队5组结果参赛系统的结果—同义词

宏平均准确率宏平均

召回率宏平均

F1值微平均

准确率微平均

召回率微平均

F1值中科院声学所0.1271

0.10110.099

0.4422

0.0644

0.1124

北京理工大学0.1992

0.2464

0.1878

0.2112

0.2306

0.2205

北京交通大学0.28760.3406

0.2737

0.3088

0.3753

0.3389华为1

0.3639

0.5207

0.3671

0.2754

0.5854

0.3746

华为2

0.3300

0.5534

0.3638

0.2615

0.6129

0.3666

华侨大学0.0378

0.0105

0.0148

0.2996

0.0115

0.0222

南京师范大学0.3588

0.6075

0.3984

0.3025

0.6386

0.4106

哈尔滨工业大学0.3230

0.3905

0.2852

0.2303

0.3692

0.2837

郑州大学1

0.2971

0.6419

0.3594

0.2530

0.6792

0.3687

郑州大学2

0.3252

0.6953

0.3922

0.2541

0.7072

0.3738

参赛系统的结果—下位词

宏平均

准确率宏平均

召回率宏平均

F1值微平均

准确率微平均

召回率微平均

F1值中科院声学所0.2429

0.0872

0.1156

0.7827

0.1221

0.2113

北京理工大学0.3077

0.0886

0.1163

0.6383

0.0896

0.1572

北京交通大学0.6612

0.3776

0.4185

0.7043

0.4642

0.5596

郑州大学1

0.5391

0.3318

0.3737

0.6492

0.3518

0.4563

郑州大学2

0.6119

0.5988

0.5605

0.6233

0.5045

0.5576

存在问题自动获取的准确率不高人工标注的时间花费大人工标注的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论