问句中并列结构的识别 哈尔滨工业大学深圳研究生院计算机科学与技术范士喜ppt课件_第1页
问句中并列结构的识别 哈尔滨工业大学深圳研究生院计算机科学与技术范士喜ppt课件_第2页
问句中并列结构的识别 哈尔滨工业大学深圳研究生院计算机科学与技术范士喜ppt课件_第3页
问句中并列结构的识别 哈尔滨工业大学深圳研究生院计算机科学与技术范士喜ppt课件_第4页
问句中并列结构的识别 哈尔滨工业大学深圳研究生院计算机科学与技术范士喜ppt课件_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、问句中并列构造的识别问句中并列构造的识别哈尔滨工业大学深圳研讨生院计算机科学与技术范士喜 2020-04-11内容导航l一、问题及相关研讨l二、处置方法l三、实验结果问题-定义l并列构造是言语信息处置中的难点,普通以为并列成分是类似的。经过计算并列成分的类似性来处置。l句子层面l短语层面问题-比例l大约10.3% 的问句具有并列构造l大约 11.2%的句子具有并列构造 问题-问句中的用法l一,表达平行的语义关系:l 例如:什么是股票和基金?l 分解:什么是股票?什么是基金?l二,表达需求比较的工程:l 例如:资本化与费用化有什么区别l 得到比较工程:资本化,费用化。l三,表达工程之间的关系:l

2、 例如:股息政策和股票投资价值的关系l 得到关系工程:股息政策,股票投资价值相关研讨周强 1996和孙宏林 2001对汉语并列构造的研讨, 都是基于“并列成分类似这样的言语学假设, 在此前提下设计规那么和算法。汉语言语研讨也以为并列成分是类似的: 吴竞存、梁伯枢1992指出, 词性一样、构造一样、语义类一样、音节数一样的项并列是最理想、最严厉的并列; 储泽祥等2002以为并列短语的构成是以“语义亲近性为根底的。北京大学吴云芳2003对98年人民日报里面的并列构造进展标注。句法分析:内容导航l一、问题及相关研讨l二、处置方法l三、实验结果处置方法-标注方法例子:财务/n/ 本钱/n 管理/vn

3、和/c 财务/n 管理/vn/ 的/u 区别/n语料:共24,892问句,包含26,073 个并列构造。包含806,890个汉字,文件大小3.67M处置方法语料手动标注了800 句。用最大熵模型训练,然后自动标注,手动检查。最后构成预料规模如下:语料:共24,892问句,包含26,073 个并列构造。包含806,890个汉字,文件大小3.67M处置方法处置方案二值分类问题二值分类问题分类目的分类目的 y?分类内容分类内容 x ?例子:口岸例子:口岸/n/ 和和/c 保税区保税区/ns/ 有有/v 什么什么/r 区别区别/nxystructure口岸和保税区口岸和保税区1-1&+1 口岸

4、和保税区有口岸和保税区有01&+2口岸和保税区有什么口岸和保税区有什么01&+3处置方法特征提取特征名称例子构造特征S: -1&1词的位置信息长度差特征Diflen:3前项与后项的长度差前一个单词词性prePOS:v待标志工程的 前一个词的词性后一个单词词性posPOS:v待标志工程的 后一个词的词性词性序列特征POSs:nvncn 待标志工程的词性序列一样单词数sameW:1前项与后项包含的一样“字数一样词性数sameP:1前项与后项包含的一样词性数组合特征各特征的组合处置方法特征向量一:将一切的特征进展编号二:对每一个并列构造,列出一切的候选 及相应的三:对每一个候

5、选 进展特征提取,并构成特征向量四:将 对作为svm的输入进展训练。ixiyixiv),(iiyv处置方法原始 数据l s dl bp ap no sw sp 0 s-33 diflen2 sBPoss sAPosu No0 sSimWordsFeature6 sSimPosFeature5 0 s-32 diflen0 sBPoss sAPosv No0 sSimWordsFeature6 sSimPosFeature5 0 s-31 diflen2 sBPoss sAPosv No0 sSimWordsFeature6 sSimPosFeature4 0 s-23 diflen4 sBPo

6、svn sAPosu No0 sSimWordsFeature6 sSimPosFeature3 0 s-22 diflen2 sBPosvn sAPosv No0 sSimWordsFeature6 sSimPosFeature3 0 s-21 diflen0 sBPosvn sAPosv No0 sSimWordsFeature6 sSimPosFeature3 0 s-13 diflen5 sBPosn sAPosu No0 sSimWordsFeature6 sSimPosFeature2 0 s-12 diflen3 sBPosn sAPosv No0 sSimWordsFeatur

7、e6 sSimPosFeature2 1 s-11 diflen1 sBPosn sAPosv No0 sSimWordsFeature6 sSimPosFeature2 处置方法svm 数据0 1:1.000 2:1.000 3:1.000 4:1.000 5:1.000 6:1.000 7:1.000 8:1.000 0 9:1.000 10:1.000 3:1.000 11:1.000 5:1.000 12:1.000 7:1.000 8:1.000 0 13:1.000 14:1.000 3:1.000 15:1.000 16:1.000 12:1.000 7:1.000 8:1.00

8、0 0 17:1.000 18:1.000 19:1.000 4:1.000 5:1.000 12:1.000 7:1.000 8:1.000 1 20:1.000 2:1.000 19:1.000 11:1.000 5:1.000 12:1.000 7:1.000 8:1.000 0 21:1.000 14:1.000 19:1.000 15:1.000 16:1.000 12:1.000 7:1.000 8:1.000 0 22:1.000 10:1.000 23:1.000 24:1.000 16:1.000 12:1.000 7:1.000 25:1.000 0 26:1.000 27

9、:1.000 23:1.000 11:1.000 16:1.000 12:1.000 7:1.000 25:1.000 0 9:1.000 2:1.000 28:1.000 24:1.000 16:1.000 12:1.000 7:1.000 25:1.000 0 13:1.000 14:1.000 28:1.000 11:1.000 16:1.000 12:1.000 7:1.000 25:1.000 0 20:1.000 27:1.000 29:1.000 24:1.000 16:1.000 12:1.000 7:1.000 25:1.000 内容导航l一、问题及相关研讨l二、处置方法l三、实验结果实验结果总体结果ModelPRFBaseline System30.7428.3129.47SVM Op

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论