文件面向评价对象句子压缩_第1页
文件面向评价对象句子压缩_第2页
文件面向评价对象句子压缩_第3页
文件面向评价对象句子压缩_第4页
文件面向评价对象句子压缩_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

名:徐伟杰 : 业:计算机科学与技术 任务起至日期 3 日 月18CRF算法进行了训练。同时结合了整数规划来进31327328415416515166565617年月年日月日摘在句子压缩的评测上面F值能够达到66%—67%。然后我们在基于双向传播的T-P词抽取上面进行了对于不同的压缩模型进行了评2—3个百分点不等。说明我们的思路是正确的,会取得一1.35个点。其他的自动压缩模型也有不同程度的提升。说明了新原则的有效关键词:Target-polarityword(T-P)collocationextraction,abasicsentimentanalysistask,reliesprimarilyonsyntacticfeaturetoidentifytherelationshipsbetweentargetsandpolaritywords.Amajorproblemofresearchisthatthistaskfocusesoncustomerreviews,whicharenaturalorspontaneous,thusposingachallengetosyntacticparsers.Weaddressthisproblembyproposingaframeworkofaddingasentimentsentencecompression(Sent_Comp)stepbeforeperformingT-PcollocationextractionSent_Compseekstoremovetheunnecessaryinformationforsentimentanalysis,therebycompressingacomplicatedsentenceintoonethatisshorterandeasiertoparse.Weapplyadiscriminativeconditionalrandomfieldmodelandaverageperceptronmodel,withsomespecialsentimentrelatedfeatures,inordertoautomaticallycompresssentimentsentences.Thenweapplyintegerlinearprogrammingapproachtoimprovethemodel’seffort.Weuse3kindsofconstrainsandusethismethodgetsomeefforts,theFscoreonsentencecompressioncanreach66%-67%Basedonthedoublepropagationmethod,weevaluatedifferentkindsofcompressingmodel,andimprovedverymuch.ManualcompressionsentencecansignificantlyimprovetheF-scorebyapproximately5%.ThisillustratesthattheideaofsentimentsentencecompressionisusefulforT-Pcollocationextraction.Finally,wemadesomeanalysisaboutthequestion.AndweproposesomemoreTargetedprincipleonsentencecompressionbytheseanalysis.Basedontheseprinciple,werevise80sentencesfromthecrops.AndtheexperimentshowsthatnewmanualcompressionsentenceimprovethePrecisionbyapproximately2.88%.Theotherautocompressionmodelimproveinvariousdegrees,anditprovethatworks. sentencecompression;T-Pcollocation;averageperceptronmodel;摘 第1章绪 课题背景和意 国内外在该方向的研究现状及分 主要研究内 第2章句子压缩模 基于平均感知器算法的句子压缩模 模型描 解码算 感知器算法简 特征抽 实验与结果分 基于CRF的句子压缩模 模型描 CRF算法介 特征抽 实验与结果分 应用ILP对模型重塑与改 整数规划介 模型转 问题分 约束条 实验与结果分 本章小 第3章评价对象评价词对抽 实 数据来 评价标 实验结果与分 本章小 第4章T-P词对抽取错误分析与改 人工压缩语料结果情况统 错误样例分 能够改进的问 不能改进的问 句子压缩的关键标 语料改进实验结果与分 本章小 结 参考文 哈尔滨工业大学原创性声 致 1随着web2.0计算的迅猛发展,个人的声音被互联网上的各种平台如评论,博客,HuLiu[3]的工作中,常见的名词和名词短语通常被当做候选评价对象,通过取不常见主题词。PopescuEtzioni[4]HuLiu的抽取算法做了进一步改进。采用KnowItAll中人工定义的抽取指定关系(partof关系、isa关系)定义一系列整体关系标识词。然后通过搜索引擎计算名词短语与目标词的PMI获得该名词短语为主题词的可能性。该方法需要使用人工定义的通用文本模式。Qiu等人[5]最近提出一种半监督的算法DoublePropagation8种句法树规则定义了种子情感词,反复迭代找到全部的主题词集与情感词集。DoublePropagation算法的效制于句法分析结果。Wiebe等人[6][7]也曾研究过基于有监督分类器的方法来识别情感词。能。但标注语料的匮乏对这一方法产生瓶颈。Qiu等人提出的算法普遍让人接受。但如使用何种办法进行句子压缩是我们要考虑的关键问题。而在传统句子压缩领域Knight和Marcu[8]用噪声信道模型来对句子压缩进行建模,同时提出了一种基于决策树ACL2014[10]的一篇论文中作者进行了简单的尝试,使用了全监督的学习方Qiu等人最近提出一种半监督的DoublePropagation为代表的依赖于句法分析的情感分析系统。而由于用户品论的随意法DoublePropagation。同时采用了多阶段测评的方式,在句子压缩阶段,<T-P>词对抽1-1用ILP对感知器算法进行改进。3部分介绍:2.1小节将介绍我们使用平均感知器算法对句子压缩问题做的尝试与初步实验结果。2.2小结介绍使用在上述模型基础上CRF算法对句子压缩问题做的尝试与试验结果。2.3ILP问题进行求解,产生的问Xx1...xn来表示一个未压缩的句子,同时使用Yy1...ym来表示压缩后的s(x, (2-|s(x,y)s(x,I(yj1),I(yjj |s(x,y) wf(x,I(yj1),I(yjj

(2-C[i]maxjiC[j]s(x,j,x)fori

(2-(2-OnlineOnline算法中,每次仅仅使用一个实例对的训练语料,导致对资源的巨大消耗。Online算法伪代码如图2-1所示:TrainingTrainingdata:T{(x,yT 1w00;v0;i0fort:1..Tfornw(i1)=updatew(i)accordingtoinstance(xt,yvvii7.wv/(N*TOnline4Online算法在更新参数时PerceptronOnline算法。Perceptron算法每次使用一个训练实例Perceptron算法伪代码如图2-2所示:AveragePerceptron算法不仅具有简单、速度快的特点,而且具有OnlineMcDonald06年关于英文句子压缩的工作。他提出了主要依靠基2-1McDonaldOut-Context-LTP系统只支持依存句法分析所以这BasicBasic01:wik,1k02:wik1 wik,0k103:tik,2k2 tik,1k2-2我们选择的是迭代13次的效果来看。通过实验可以看出不考虑句法特征,只使用McDonald的特征选择在我们这个问题上baseline,来考Xx1...xn来表示一个未压缩的句子,同时使用Yy1...ym来表示压缩后t

ifxi

(2-Y Y我们假设一个压缩标签tiX的词xi,如果xiY中则标注为N,否则标注为Y。使用了一阶线性链CRF

P(t|x) Z(x)

Mi(ti,t

| (2-条件随机场(ConditionalRandomField)是给定一组输入随机变量条件下另一组输CRF是一种判别模型,常用于标注或序列分析,如命名实体、句法分析、生物序列等CRF的依赖关系,在CRF中,随机变量Y的分布为条件概率分布。原则上,CRF的图模型Lafferty2001年创造提出。CRF最早是针对序列数据分析提出的,现已成功没有隐式马可夫模型那么强烈的假设。CRF常用于一些标注问题,如分词、词性标注等等。HMMHMM,CRF不需要那么强的条件,如各输出之间相互独立。CRF基于图model的,相对于HMM,在偏置问题中有明显优势。CRF属于判别模型,其联合概率分布可以写成若干势函数联乘的形式,最常用的若xx1x2xn表示输入数据序列,yy1y2yn序列的情况下,线性链的CRF1p(y|x)

t( ,y,x,i) s(y,

Z( k l

(2-kiliZ(x)expkt(y,y,x,i)ls(y,x,i)kili i,k tk和slkl是对应的权值。Z(x是规范化因子,求和是在最后,还是考虑到McDonald的基于句法关系模型,同样尝试了一下简单的依存句这些句子进行了人工标注。进行了10-fold的训练评测方法。2-3+suffixoriij(i[1,n1j[i1,nij个nnmaxz i1j (2-约束条件1:有且只有一个单词在句子开头。ni (2-约束条件nniiij0(i[1, (2-约束条件jjjij0(j[1,j

(2-ni (2-对该句子进行依存句法分析,“能”与“感觉”是ADV的关系,且“能”是依存同样使用与ATT规则ij0(i,j:xj'raltion=ADV,xj'parent=xiij0(i,j:xj'raltion=ATT,xj'parent=xiij0(i,j:xj'raltion=POB,xj'parent=xi

(2-(2-(2-实验的语料是基于COAE200844004个领域的用户评论语句。对这些句子进行了人工标注。进行了10-fold的训练评测方法。2-5132-5所示实验表明使生这样的问题。通过表2-6来分析下结果:2-6般是是否否 9111315171921232-7方法Mcdonald提出的CRF的句子压缩模型,在原着最后TP词对的抽取效果也好?所以对压缩的效果我们需要进行进一步检验,看其是否真的能够对TP词对的抽取带来帮助。接下来的一章里面我们重点介绍这个问题。苹果手机的屏幕很漂亮苹果手机好漂亮”中的词语好并不是评价句中的评价词语,需要加以识别。识别评价对象和评价词Qiu2011年提出来的双向传播的方法。这个想法基于发现评价对进行更改采用了9种评价词与评价对象的句法关系。规则如下所示:3-1SBV正如我们看到的面向评价对象的情感分析使用这种双向传播的方法的话会非常依一共4394个句子,4800T-P词对,来自478篇文章。如下表所示车TPP,RF值作为最终的评价指标。而评价标T-P词对t,p,而他的标准答案是ts,ps。只要tts同时pps,我们则认为抽取出来的是正确答案。上表是T-PManual表示手动压缩的句子进行T-P词对抽取结果,Basic表示未加约束的自动压缩结果,Short表示选择短句的压缩结果,Cons表示增加约束的自动压缩结果,Origin表示未进行句子压缩的结果。BasicCons短句的方法在压缩的本来就是不大,所以会有这样的结果。而使用约束的句子压缩结果与Basic比较更不理些词会对T-P识别的结果产生改进作用呢?这是我们接下来要考虑的问题TP词对的抽取前进行句子的压缩会有非常好的效果,说明我们的思路是正确的,确实来说召回率有很大的缺失,同时一句话有多个T-P对的情况普遍存在。4-1397(118p,3344-2581(255p,472 4-121%62%T-P79%。1104句也就是接近一半都是标准答案的子串。但这一部分经过上面分析可以看出词性和分词导致的问题不是我们句子压缩模型改进效果提028%4-44-54-64-6,“问题”这个单词上面,结果不仅仅识别了<铃声,小>TP对,同4-7如图结构1:<名词+形容+名词>。如图4-8“做工细致的外壳”4-81结构1造成出现了两个在不同评价标准下也许还算正确的TP对。如果针对不同的评价T-P识别标准,来进行压缩也许可以在某一个标准下获得更好的效果,但这已经违背了在于只能识别一种T-P对。第一个名词与评价词之间的关系是非常难直接找到的。我们存句法关系中文的TP抽取系统过滤掉更多的干扰信息。注意这个度,不然也许会出现“但”,“虽然”等连词会让句子简化,但不会对TP抽取产生实质性的帮助。对于一我们主要依据以上的原则针对抽取错误中的22%的语料进行修订。一共看了F首先通过表4-3可以看出经过对语料进行修订以后结果压缩结果没有发生太大的变2.88%TP对抽取也有着不同程度的提时自动压缩的方法也能提高3.3%。同时我们也将CRF车者的召回率相比较相差了2.5个百分点,而F值也相差了0.6个百分点。——通过这个针对情感句的句子压缩模型与传统的压缩模型最大的不同就是我们标注语料的特TP本章我们首先从人工压缩后的语料在TP识别系统下的错误分析入手,深入了解该结中发现McDonald提出依赖于大量句法关系的压缩模型在这个问题上面并不适用,因为接下我们的工作一方面可以考虑在使用句子压缩方法来改进某一个方面的问题的HuM,LiuB.Miningandsummarizingcustomerreviews.ProceedingsofthetenthACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining,Seattle,WA,USA:ACM,2004.168–177.PangB,LeeL.Opinionminingandsentimentanalysis.FoundationsandTrendsinRetrieval,2008,2(1-LiuB.SentimentAnalysisandSubjectivity.HandbookofNaturalLanguageProcessing,SecondEdition,2010..PopescuAM,EtzioniO.ExtractingProductFeaturesandOpinionsfromReviews.ProceedingsofHumanLanguageTechnologyConferenceandConferenceonEmpiricalMethodsinNaturalLanguageProcessing,Vancouver,BritishColumbia,Canada:ACL,2005.QiuG,LiuB,BuJ,etal.OpinionWordExpansionandTargetExtractionthroughDoublePropagation.Comput.Linguist.,2009,37:9–27.WilsonT,WiebeJ,HoffmannP.Recognizingcontextualpolarityinphr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论