




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于语料库的汉语依存树库的句法分析精度研究
1依存句法分析基于语法中标记语料库和机器学习的自然环境处理方法是当前自然资源处理领域的研究热点。在句子分析领域,通常使用语料库(也称为树库)作为工具,获取语法知识,评估句子分析结果。一般来说,改变机器的学习策略和句法分析算法,提高句子法分析器的精度,不是语言学家,而是“基于语言特征的计算语言学学会可以做什么?”。“语言特征的可视化设备可以提高这些语言特征的精度吗?”。在这项工作中,我们试图通过改变库的标记方法来探索这个问题。本文所用的句法理论为依存语法.一般认为,现代依存语法的创立者为法国语言学家Tesnière,有关依存语法以及该理论和计算语言学的关系,可参见文献.依存句法分析的目标是构建输入句子的依存句法结构树(图).图1为句子“这是一个例子”的依存句法结构图.图1显示,构成依存树(图)的基本单位是二元依存关系,这种关系可以在两个词之间形成,也可以将其抽象为一种两个词类标记(PartofSpeech,POS)之间的关系.依存关系是一种有向关系或非对称关系,即在两个词(类)中有一个为支配词,图1中弧上的箭头表示了这种有向性.与短语结构句法分析相比,依存句法分析由于能够直接发现句中的词间关系,加之这种关系对于信息提取和语义处理都极有用处,所以受到越来越多研究者的重视.句法分析的这种发展趋向也可从依存句法分析连续两次被CoNLL会议(ConferenceonComputationalNaturalLanguageLearning)作为共享任务中看出.我们采用瑞典韦克舍(Växjö)大学的J.Nivre提出的“归纳依存分析”(InductiveDependencyParsing)方法和在此基础上实现的依存句法分析器MaltParser作为研究工具.MaltParser由以下三个部分组成:剖析器、指导器和学习器.各部分的任务是:构建依存图的确定性剖析算法,预测剖析器的下一个活动的基于历史的特征模型,将历史映射为剖析器活动的判别机器学习方法.MaltParser采用模块化结构,使用者可根据自己的需要调整各种机器学习和句法分析参数.2依存标记标记的方面实验所用树库为自建的“新闻联播”树库,标注采用的“现代汉语依存关系句法”见文献.所用树库含句子711个,词20034个,平均句长28个词.我们将711个句子中的前650个句子作为训练集,剩余的61个句子作为测试集.采用基于记忆的学习(Memory-BasedLearning,MBL)策略和M4特征模型(含5个词类标记(POS)特征,4个依存类型(DependencyType,DEP)特征和2个词汇(Lexical,LEX)特征),得到以下句法分析结果:UAS0.704,LAS0.637,UnSent22,其中,UAS为无标记依存关系,LAS为有标记依存关系,UnSent为非联通句子数.有关特征参数和依存句法分析精度的关系可参见文献、.这一结果远远低于使用MaltParser处理其它语言时得到的分值.造成这种局面的主要原因有:树库的规模太小,这毫无疑问会带来数据稀疏问题;树库中还存在一些不一致的问题;训练集和测试集的平均句子长度较大,前者为28,后者为22;使用24个标记的词性标记集,53个关系的依存关系集.依存关系数量明显有些多.图2反映的是词类寻找其支配词的精度情况.后文中所涉及的词类、依存标记等具体意义可参见文献.图2所示为无标记依存标记的情况,虽然有标记的情况更差,但变化趋势不大.我们将分值分为3个区域,低于0.7的为严重区,0.7~0.8为一般区,0.8以上为可接受区.在严重区,重点要解决的是动词的问题,虽然连词的情况要更差,但它的数量少,对系统的影响要小于动词.这一区域还有介词、量词、的字结构等.我们认为这些处于严重区内中的词类,分值之所以这么低的原因,主要是它们可担当的句法功能太多.用刘海涛、冯志伟所提出的概率配价模式来解释,就是词类的离心力太大,或受别的词支配的能力太强.对它们进行子类划分,消解这种过强的能力,可能是改善精度的一种途径,但对于小树库来说,增加词的子类又会使数据稀疏问题更加突出.处于一般区域的词类,除形容词外,几乎都是名词,这一方面说明名词可充当的句法功能较之严重区要单一一些外,可能也说明对于名词进行细分的句法意义并不是很大.在可接受区中,除代词的分值刚刚达到0.8外,其余词类的精确度均高于0.92,能达到如此高的分值的主要原因,是它们可担当的句法功能非常单一.其中出现次数较多的是副词和数词,满分的“地”因为现次太少,不足为虑,助词能达到满分的原因是在测试集中出现的基本上都是时态助词“了”,离支配词近,加上功能单一,没有不得高分的理由.图3是按照依存关系得到的准确率和召回率的统计数据.分析带依存关系标记的支配词依附的准确率和召回率要更复杂一些:1)涉及的关系种类多;2)不仅要考虑支配词,也要考虑从属词和支配词之间的依存关系.图3显示准确率和召回率的分布不是完全一致的.准确率和召回率都为零的依存关系有12种,它们是:cfc,cs,cadva,subobj,soc,cva,cpobj,coor,comp,ccr,cepa,cdec.除涉及兼语式的subobj、soc、并列关系coor以及补语comp外,其余的8种都是为了处理并列结构而引入的带有前缀c的并列关系,如csubj表示“并列主语”,cobj表示“并列宾语”等.这些关系得零分的主要原因可能是:训练集太小,以致系统无法识别这些关系;我们对于并列结构的处理虽然可能较好地体现了其语言学意义,但却不适于基于机器学习的数据句法分析策略.obja(能愿动词宾语)得分低的原因在于:训练集中此类关系较少,而且我们也取消了能愿动词这个小类,当然也会影响原本只有它才能产生这个关系的精度.cr、sentobj、s、va等关系基本上都涉及到跨句关系和两个动词之间的关系,所以其准确性不高也是可以理解的.csubj、catr、cobj这三个涉及并列结构关系的准确率能达到0.5以上,说明我们对于并列结构的这种处理方式,如果有足够的语料作支撑,也是可以接受的.csr作为一种比较单一的依存关系,只得到不足0.6的分值是难以接受的,原因可能在于我们没有区分从属连词和并列连词.因为我们采用专门的pos标记bjd,root的召回率达到满分,但它的准确率只有0.53,原因是我们还没有办法在数据驱动的句法分析器中对此进行唯一性约束.obj、auxr、subj、pobj、atr、adva、dec、ma等关系的准确率分值介于0.585~0.714之间,这些关系在全部关系中占的比例很大,其准确率能否提高对系统的整体性能有较大影响.因此分析这些关系的构成,以及造成这些依存关系识别准确率不高的原因是我们的主要任务.qc、fc和epa的分值能达到0.9以上,主要在于形成这些关系的词类成分较稳定,它们的高分值说明用小训练集也可构造性能不差的依存句法分析器,条件是组成依存关系的词类结构应该稳定、单一的.满分的baobj、dic和ta再次说明在较稳定的词类间形成的关系是容易识别的,而且支配词和从属词还不能离的太远,baobj的低召回率说明依存距离大的依存关系更难获得.文献提出一种采用树库测量依存距离(即支配词和从属词线性距离)的方法,结合本文和文献中的结果,我们可得到图4.为方便观察,图4中的依存距离值是缩小了10倍的.图4表明除个别依存关系外,识别依存距离小的关系准确率要高一些.准确率、召回率曲线和依存距离曲线的非完美吻合也说明,依存距离只是得到高准确率的条件之一.baobj(把字句)的高精确率显示了单一功能的词类即使依存距离较长,也可获得好的识别准确率.当然,距离和精度的关系不是如此简单,值得深入研究.3u3000在坚持目标函数和分析器精度方面的测试与检验根据以上分析,我们对训练依存句法分析器的树库作了以下修改.1)修改并列结构的处理方式.取消cXXX的形式,引入co关系.这样可减少原依存关系中为处理并列结构而引入的20种cXXX类关系.2)将标点符号顿号“、”作为一种并列连词来处理.3)区分从属连词(cs)和并列连词(cc).4)由于动词的处理涉及的问题较多,我们先只分出能愿动词(vu),其余小类待处理.对树库做以上修改后,仍用MBL训练,采用M4策略.此时系统的无标记依存关系(UAS)准确率达到了0.72,增加了0.016.有标记依存关系的分值(LAS)0.666,增加了0.029.增加幅度不大的原因是连词(cc和cs)在测试集中的数量不多,在1348个词的测试集中只有44个,能愿动词只有5个.但是,我们观察的重点应该是与修改相关的依存关系和支配词精度的变化情况.表1为相关词类的新数值.与树库未修改前得到的数据相比,细分后的连词寻找其支配成分的准确率稍有改善,效果不明显的原因是并列连词可有支配者成分仍然复杂,所以准确率难以大幅度提高.对于从属连词而言,虽然其支配者一般为动词,但由于汉语中一个句子中的动词数量要多于一个,这使得准确率也提高的不多.总的说来,经过这样不大的调整,连词的准确率提高了4%,效果还是有的.把能愿动词从v中分出来,也使得v本身和vu的依附准确率都有5%的提高.句内标点(bnd)的准确率也提高4%,这主要是我们将顿号视为cc的原因.其余词类的依附精度基本没有变化,这和我们没有修改它们的事实相符.表2是有关依存关系的数据.依存关系方面的改善更为明显,原来的20种并列关系用一种关系co代替后,不但没有再现准确率和召回率为零的尴尬状况,而且co的准确率一跃达到0.836,召回率也接近0.8.csr的准确率也差不多提高了10%.引入能愿动词vu后的obja更是在准确率和召回率方面都取得满分.这说明第二部分的分析是正确的,解决问题的思路也是有效的.通过在M4模型中增加两个词汇化(Lexical,LEX)特征,我们得到一个更好的结果:UAS0.735LAS0.684.这说明,即使是用一个非常小的树库作为机器学习的样本,词汇化的特征也是有利于提高分析精度.为了探索进一步提高精度的可能性,我们对树库中被标注为动词的词,根据其语法功能将它们的词性归为动词、名词和形容词.受细分vu的启发,我们又从动词中细分出三个小类:双宾动词(vtd)、小句宾动词(vts)和兼语动词(vtc).此时,用M4得到的结果是UAS0.759LAS0.712.为了进一步探索语言学理论通过树库标注改善句法分析的作用,我们对并列结构的依存分析做了专门的研究.根据依存语法理论中处理并列结构的常用方法,提出并列结构的三种标注方式,这三种标注方式均包含第二层分析的思想,即类似于cXXX的标注.用这三种方式标注从“人民日报”语料库中提取出的1000个含有并列结构的句子,得到一个并列结构依存树库.该树库含33049个词,平均句长33,不含循环句、非投影句和非联通句.采用1000句中的前900句作为训练集,剩余的100句作为测试集.用MaltParser,选择MBL机器学习策略和M4模型,得到的结果如表3.表3说明同种结构采用不同分析方法和标注方式会影响句法分析器的精度.在这种情况下,语言学家进一步研究的目标不应仅满足于如何提高分析器的精度和效率,而也应该考虑句法标注和其它层面语言分析的关系,以提高标注方案的综合性能.为了探讨扩大训练集规模对低精度词依存关系的影响,我们也使用并列结构依存树库此前所说的61个句子作为测试集,进行依存分析实验.结果表明训练集的增加对并列结构精度的提高起到明显作用.其中,cpobj准确率和召回率由零提高到0.2和0.5,csubj的准确率提高0.25,召回率提高0.054.我们也按照前述修改树库标注的方法,在并列结构依存树库中用co来代替cXXX.做此修改后,co的准确率为0.754,召回率为0.719,二者均高于平均分值.这再次说明此种方法对弥补数据稀疏是有效的.但我们也注意到,将训练集从650个句子扩大为900个句子后的co分值反而低于原来的分值(准确率0.836,召回率0.797),这有可能是由于训练集所用语料不同而引起的,也有可能说明采用细分小类、建大树库的办法并不能解决所有问题.4句法分析的精度本文利用可调整参数的依存句法分析器MaltParser作为工具,用自建的一个小规模依存树库作为资源,进行基于树库和机器学习的汉语依存句法分析实验.实验所用的树库只有20000词左右,700个句子,但通过调整树库中对某些语言现象的处理方式和标注的精细度,使得句法分析器的UAS精度从0.704提高到0.759,LAS精度从0.637上升到0.712,分别提高5.5%和7.5%.本文的意义不在于所得到的句法分析器的精度有多高,而在于证实可从语言学的角度改善基于树库和机器学习的句法分析器的精度.也就是说,人们不但可以从机器学习、句法分析算法上入手研究基于树库和机器学习
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 影视动画渲染节点租赁与高效数据存储合同
- 节能减排技术改造项目收益分配协议
- 影视行业群众演员选拔与保密协议补充条款
- 高管股权激励退出方案实施合同
- 泰山区安置协议书
- 证券分析师岗位全职聘用与职业培训服务协议
- 无害化处理协议书
- 游乐场事故协议书
- 网红面包区域代理加盟及特色原料采购服务协议
- 和爸妈旅游协议书
- 导截流验收报告汇编
- 大班科学《神奇的中草药》课件
- 信用修复申请书
- 全过程造价控制流程全图
- 温州7.23动车事故调查报告介绍课件
- RAL 劳尔色卡电子版
- 造价咨询质量控制保证措施及服务质量
- 跳棋教学(课堂PPT)
- 火车过桥问题四年级(课堂PPT)
- MSA偏倚分析报告样本
- 中国颅脑创伤颅内压监测专家共识
评论
0/150
提交评论