版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录前言 [2]。文本表示模型结构化自注意句嵌入结构及计算模型结构化自注意句嵌入的结构及其提取模型如图4.1所示。结构化自注意句嵌入的提取模型是从句子的词嵌入提取出句嵌入的计算模型。该模型的输入是一个句子所含词序列的词嵌入向量序列,输出是计算取得的结构化自注意句嵌入矩阵。记词嵌入为xt,则表示句子的词嵌入序列SS首先,通过基于长短时记忆的双向循环神经网络来计算句子中词序列的隐含层状态,以获取包含上下文信息的词隐含状态。在序列中,时序为t的词隐含层状态计算为:ℎℎ通过连接组合获取词的隐含层状态ℎtℎ整句所含词序列的隐含层状态序列则可表示为H:H此处,H的维度为n×2u。其中,u表示长短时记忆的单元数。由于采用了双向长短时记忆进行循环神经网络计算,因此,每一个词的隐含层状态向量长度均为2u。注意力机制通过计算注意力权重实现对序列内各词不同的注意效果,注意力机制计算的注意力权重向量a的方式为:a其中,uw是词序列级别的上下文向量,在训练中习得。此处,注意力机制产生的是1×n在结构化自注意中,我们需要提取出多重含义,因此需要提取出多个注意力权重向量,即提取出注意力权重矩阵。假设提取r重注意力,那么注意力权重矩阵A可如下计算:A其中,Uw是以uw为参照的上下文矩阵。相较传统注意力机制中,维度为1×da的注意力向量u,自注意结构采用的注意力矩阵维度为r取得自注意权重矩阵后,即可与句子的词序列隐含层状态矩阵H相乘计算结构化自注意句嵌入M:M至此,我们计算得到了结构化自注意句嵌入的结果,其维度为r×2u,代表句子的r重语义。结构化自注意句嵌入的惩罚项结构化自注意句嵌入在模型训练时会遇到冗余问题。句嵌入矩阵中的各行如不采取措施控制,经过训练会出现及其相似的情况,因此造成句嵌入矩阵所提取的多重语义信息高度重复,造成冗余。为了解决结构化自注意句嵌入的冗余问题,需要在代价函数中加入惩罚项,将对冗余度的惩罚计入损失。对注意力权重矩阵的冗余度的控制可以实现控制最终句嵌入矩阵冗余度的目的。对注意力权重矩阵的冗余度的量化可以通过如下计算实现,惩罚项P为:P其中,A为注意力权重矩阵,I为单位矩阵(Identity/Unitmatrix),⋯F表示弗罗贝尼乌斯范数(Frobeniusnorm在层次注意力网络中引入结构化自注意句嵌入引入结构化自注意句嵌入机制后,原层次注意力网络模型中的句嵌入从向量形式变成了矩阵形式。对于相应变为维度为r×2u的文本表示二维矩阵,将其视为r个长度为2u层面层面注意力αααvℎℎvℎℎvℎℎudoc层面编码器图4.2层面编码器与层面注意力结构图本文对层次注意力网络的修改基于这样的认知假设:一个句子具有多重语义含义,那么句子组成的文本也具有多重语义含义。文本的各重含义不是孤立存在的,不会相互保持独立、毫无关联,而是互相影响。文本的整体语义由文本的各层面语义构成,且各层面的语义对文本的整体语义重要性不同。基于这样的认知假设,我在句嵌入以上的上层结构加入了层面级,包含层面编码器和层面注意力,引入与层次注意力网络中相同的编码器、注意力机制实现对多层面语义的处理:层面编码器层面编码器的输入是句注意力层输出的文本表示矩阵,将其作为r个不同层面的文本表示向量,输出是包含各层面上下文语义和自身层面语义的文本隐含状态。处理方式与词、句编码器一致:ℎℎℎ至此,计算得到了各层语义的隐含状态ℎi层面注意力机制层面注意力机制的输入是层面编码器输出文本的r个各层面的隐含状态,输出是经过注意力机制加权平均处理后的文本特征向量。uαdoc至此,计算得到了文本包含各层面语义信息的文本特征向量doc。分类器模型分类器部分在基于层次注意力网络的文本分类实验基础上,因引入结构化自注意句嵌入机制,需要进行相应地修改。在损失函数中,我们需要加入惩罚项,并设置惩罚系数实现对惩罚度的调参控制。Loss此处,coefp是对应与惩罚项P实验基于层次注意力网络的文本分类实验整体的不同,引入结构化自注意句嵌入机制后,模型复杂度增大,训练耗时增长。因此,为了平衡模型训练程度与时间代价,本文对实验过程做了相应调整。为了能够与基于层次注意力网络的文本分类进行对比,本文实验同样基于调整后的数据集、参数等,重新训练并取得了层次注意力模型的文本分类数据作为对照实验。数据集数据集与第三章实验一致,采用Yelpreview数据集和YahooAnswers数据集。考虑到Yelpreview包含4736897条点评文本,达到了470万条的规模,较为庞大。结合实验中的实际情况,在基于结构化自注意句嵌入的层次注意力网络模型文本分类实验中,从Yelpreview数据中取50万条以便缩短训练时间,加快模型迭代速度,更快地取得实验数据以便研究分析。提取出的数据以随机分布处理,按98%、3%、2%的比例划分数据集为训练集、开发集、测试集。YahooAnswers数据集为第三章实验中提取的十主题分类的问答数据,因提取后约150万条的数据量规模适中,因此处理方式与基于层次注意力网络的文本分类实验中保持一致。训练、调参等实验细节说明实验中采用小批训练,每批包含64条文本。词、句、层面各层神经循环神经网络均采用门式循环单元,为加快迭代,设置单元数为50。为加快模型拟合速度,将学习率提高至0.01,采用学习率衰减机制,以指数学习率衰减随训练步数缩小学习率,衰减率为0.9,衰减步长为200。为避免学习率衰减在大数据集上因训练步数较大而持续衰减至极小,实验中在学习率衰减机制后通过TensorFlow框架的clip机制控制学习率衰减下限,具体使用clip_by_value方法并设置学习率衰减下限为0.0001。在词、句及层面注意力机制输出处均建立dropout机制以避免过拟合,留存率为0.5。在实验过程中,发现如果惩罚系数设置过大,易在模型训练梯度下降时,出现数值nan错误(NotANumber)造成训练失效问题。因此调参时应注意控制惩罚系数大小,惩罚项不应过大。缩小惩罚系数后,模型拟合即恢复正常。实验结果及分析对Yelpreview数据集,实验设置惩罚系数为0.2,学习率衰减步长100,在句嵌入层面数r=对YahooAnswers数据集根据Yelpreview数据集上的惩罚系数0.1,学习率衰减步长200进行实验。表4.1基于层次注意力网络(HAN)的文本分类及基于结构化自注意句嵌入的层次注意力网络(HAN-SA)文本分类实验数据对比(数值为准确率,单位为%;注:r=1时,HAN-SA模型无需惩罚冗余度,惩罚系数p-coef为0;HAN模型无r值,无冗余度惩罚项,学习率衰减步长lr-decayStep均按200设置)数据集p-coef/lr-decayStepHAN-SAr=1*HAN-SAr=5HAN-SAr=10HAN-SAr=15HAN*Yelpreview0.2/10064.1865.1365.9153.2167.110.1/20064.7865.0766.2965.95YahooAnswers74.0772.9773.2073.5474.93另外,作为本章结构化自注意句嵌入改进实验的对照组,设置标准层次注意力网络模型训练时的学习率衰减步长为相同的200并进行实验。图4.3不同的层面数r在Yelpreview和YahooAnswers数据集上的文本分类表现(数值为准确率,单位为%;注:惩罚系数p-coef为0.1,学习率衰减步长lr-decayStep为200)根据对惩罚项系数p-coef、学习率衰减步长lr-decayStep和层面数r的调参实验对比,最终选取惩罚项系数0.1、学习率衰减步长200作为HAN和HAN-SA模型参数,选取层面数10作为应用于Yelpreview的HAN-SA模型的参数,选取层面数15作为应用于YahooAnswers的HAN-SA模型的参数。根据模型的调参结果,在测试集上对HAN-SA模型和HAN模型进行测试检验,实验结果如表4.2。表4.2HAN-SA模型和HAN模型的调参结果对比测试(数值为准确率,单位为%)测试模型YelpreviewYahooAnswersHAN-SA66.1273.39HAN67.2374.78结合实验数据进行分析,如表4.1、表4.2和图4.3,可以发现:在HAN-SA的实验数据对比中,层面数r值对文本分类表现的影响因数据集情况而异。对Yelpreview数据集,较大的层面数r值总体而言提升了文本分类准确率。对YahooAnswers数据集,较大的层面数r值反而劣化了文本分类准确率。Yelpreview数据集为餐饮、旅宿消费点评,属于情感分类,YahooAnswers数据集为互联网知识问答数据,属于主题分类。结构化自注意句嵌入机制对句子语义的特征提取能力的提升需要结合实际使用场景进行分析和运用。在HAN与HAN-SA的实验数据对比中,尽管在本次实验的多组实验数据中,HAN-SA模型的文本分类准确率逼近HAN模型的文本分类水平,但以实际的实验数据而言,HAN仍然保持更高的文本性能,且HAN模型结构相比更简单,计算更快,更利于机器学习训练迭代。引入结构化自注意句嵌入模型作为本文在研究层次注意力网络模型基础之上的创新尝试,相较于标准的层次注意力网络模型,在实际的实验中未能实现理想的文本分类准确率提升效果。分析原因可能包含:实验中对模型参数的调试可能仍有深入和提升的空间;引入结构化自注意句嵌入模型后,对层次注意力网络模型的结构进行的相应的增改可能未能契合文本本身的结构特性,劣化了文本特征提取的性能;结构化自注意句嵌入模型的特征提取性能建立在对句子多层面语义的提取和表示之上,对文本分类准确率的实际影响可能与数据集的文本内容有关;结构化自注意句嵌入模型的特征提取性能可能依赖于长短时记忆结构;结构化自注意句嵌入模型可能不适用于层次注意力网络模型,劣化了文本特征提取性能;总结与展望本章对本文的文本分类研究进行总结,对未来的文本分类研究提出展望。总结文本分类问题作为自然语言处理领域的基础性问题,对众多领域应用有着广泛的影响。文本分类技术的研究水平很大程度上决定了情感分析、主题标记、垃圾/有害信息拦截等诸多上层应用的实现水平。本文概述了文本分类技术发展历程,解释了文本分类系统的主要结构,介绍了自基于统计的自然语言处理诞生以来,文本分类技术的主要类别及各类典型技术,并依据近年相关研究的实验数据统计,进行了对比与分析。本文主要研究基于层次注意力模型的文本分类方法,介绍了该模型的诞生背景和主要思想,阐述了该模型的多层结构与计算原理,完成了基于该模型的文本分类实验,并进一步实现了对层次注意力的可视化输出与分析。在主要研究基于层次注意力网络模型的文本分类基础之上,本文尝试了对层次注意力网络模型进行改进,引入了结构化自注意句嵌入模型,用于层次注意力模型的句嵌入。结合句嵌入模型的修改,本文对层次注意力网络模型的结构做了适应性改进,并完成了基于该修改模型的文本分类实验,给出了实验数据对比与分析。展望文本表示的质量,即文本特征提取的水平,是影响文本分类水平的核心因素。词/句嵌入、卷积神经网络、循环神经网络、长短时记忆及循环神经单元、注意力机制、层次结构的不断提出与流行逐步提升了文本特征提取的精细程度,提升了文本表示的质量,推动了文本分类水平的提高。因此,未来对文本分类的研究可以关注于文本特征提取,在文本表示上尝试创新,例如:引入对语句的句法信息的分析处理,以便在词、句等注意力的学习过程中提供修正。本文所实现的基于结构化自注意句嵌入的层次注意力网络模型,在文本分类实验中仍存在不足,未能超越层次注意力网络模型的文本分类水平。结构化自注意句嵌入机制的特征提取特性与合适的应用场景值得进一步研究。在文本分类的分类器设计中,本文均使用的是多层感知器结构,具体为单隐含层的全连接神经网络,是常见的分类器设计。未来对文本分类的研究也可以对分类器尝试研究与创新,例如:是否可以通过更复杂的分类器模型实现对复杂分类问题实现更加精细、准确的分类,并处理好复杂分类器模型可能存在的过拟合问题。参考文献ZichaoYang,DiyiYang,ChrisDyer,XiaodongHe,AlexSmola,EduardHovy.Hierarchicalattentionnetworksfordocumentclassification[C]//Proceedingsofthe2016ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies.2016:1480-1489.ZhouhanLin,MinweiFeng,CiceroNogueiradosSantos,MoYu,BingXiang,BowenZhou,YoshuaBengio.Astructuredself-attentivesentenceembedding[J].arXivpreprintarXiv:1703.03130,2017.WeAreSocial,Hootsuite.GlobalDigitalReport2018[EB/OL]./blog/2018/01/global-digital-report-2018.,2018.WeAreSocial,Hootsuite.Digitalin2017GlobalOverview[EB/OL]./special-reports/digital-in-2017-global-overview.,2017.WeAreSocial,Hootsuite.Digitalin2016[EB/OL]./special-reports/digital-in-2016.,2016.WeAreSocial,Hootsuite.DigitalSocialMobileWorldwide2015[EB/OL]./special-reports/digital-social-mobile-worldwide-2015.,2015.WeAreSocial,Hootsuite.DigitalSocialMobileWorldwide2014[EB/OL]./blog/2014/01/social-digital-mobile-worldwide-2014.,2014.DzmitryBahdanau,KyungHyunCho,YoshuaBengio.Neuralmachinetranslationbyjointlylearningtoalignandtranslate[J].arXivpreprintarXiv:1409.0473,2014.MehranSahami,SusanDumais,DavidHeckerman,EricHorvitz.ABayesianapproachtofilteringjunke-mail[C]//LearningforTextCategorization:Papersfromthe1998workshop.1998,62:98-105.AndrewL.Maas,RaymondE.Daly,PeterT.Pham,DanHuang,AndrewY.Ng,ChristopherPotts.Learningwordvectorsforsentimentanalysis[C]//Proceedingsofthe49thannualmeetingoftheassociationforcomputationallinguistics:Humanlanguagetechnologies-volume1.AssociationforComputationalLinguistics,2011:142-150.SidaWangandChristopherD.Manning.Baselinesandbigrams:Simple,goodsentimentandtopicclassification[C]//Proceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics:ShortPapers-Volume2.AssociationforComputationalLinguistics,2012:90-94.TomasMikolov,HyaSutskever,KaiChen,GregCorrado,JeffreyDean.Distributedrepresentationsofwordsandphrasesandtheircompositionality[C]//Advancesinneuralinformationprocessingsystems.2013:3111-3119.SvetlanaKiritchenko,XiaodanZhu,SaifM.Mohammad.Sentimentanalysisofshortinformaltexts[J].JournalofArtificialIntelligenceResearch,2014,50:723-762.DuyuTang,FuruWei,NanYang,MingZhou,TingLiu,BingQin.Learningsentiment-specificwordembeddingfortwittersentimentclassification[C]//Procee
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年投资款转为项目融资借款合同范本及合规审查3篇
- 2025年潮州货运资格证题库在线练习
- 2025年淮安道路货运从业资格证模拟考试官方题下载
- 2025年大同考货运从业资格证
- 2025年货运从业资格证考试技巧与方法
- 洛阳理工学院《大数据平台核心技术》2023-2024学年第一学期期末试卷
- 火车站采暖系统施工协议
- 2024年物业抵押借款合同
- 商业地带净水机租赁合同协议书
- 文化场馆改造增补合同
- 2024至2030年中国甲醚化氨基树脂行业投资前景及策略咨询研究报告
- 贵州省建筑工程施工资料管理导则
- 2024年度钢模板生产与销售承包合同3篇
- 《QHSE体系培训》课件
- 计量经济学论文-城镇单位就业人员工资总额的影响因素
- 《农业企业经营管理》试题及答案(U)
- 山东省聊城市2024-2025学年高一上学期11月期中物理试题
- 孙悟空课件教学课件
- 华南理工大学《自然语言处理》2023-2024学年期末试卷
- 新能源行业光伏发电与储能技术方案
- 中国高血压防治指南(2024年修订版)要点解读
评论
0/150
提交评论