




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGE
PAGE
-18-
BERT的图模型文本摘要生成方法研究
摘要:基于图模型的TextRank方法形成的摘要不会脱离文档本身,但在抽取文本特征的时候,传统的词向量获取方法存在一词多义的问题,而基于BERT的词向量获取方式,充分挖掘了文本语义信息,缓解了一词多义问题。对不同词嵌入方法进行了实验对比,验证了BERT模型的有效性。基于词频统计的相似度计算方法也忽略了句子的语义信息,文中选择了向量形式的相似度的计算方法用于文本摘要生成。最后在TTNews数据集上做实验,效果有了明显的提升。
关键词:中文文本摘要;BERT;TextRank;相似度
中图分类号:TP391文献标识码:A文章编号:2096-4706(2022)02-0091-06
Abstract:TheabstractformedbyTextRankmethodbasedongraphmodelwillnotbeseparatedfromthedocumentitself,butwhenextractingtextfeatures,thetraditionalwordvectoracquisitionmethodhastheproblemofpolysemy,whilethewordvectoracquisitionmethodbasedonBERTfullyexcavatesthesemanticinformationofthetextandalleviatestheproblemofpolysemy.TheexperimentalcomparisonofdifferentwordembeddingmethodsverifiestheeffectivenessoftheBERTmodel.Thesimilaritycalculationmethodbasedonwordfrequencystatisticsalsoignoresthesemanticinformationofsentences.Inthispaper,thesimilaritycalculationmethodinvectorformisselectedfortextabstractgeneration.Finally,theexperimentonTTNewsdatasetshowsthattheeffectisobviouslyimproved.
Keywords:abstractofChinesetext;BERT;TextRank;similarity
0引言
文本摘要作为自然语言处理领域的主要研究方向之一,它的主要任务是信息抽取。在这个互联网快速发展的时期,每天都能从网上看到大量的文本信息,比如新闻微博等。然而并不是所有的信息都是需要的,我们都只关注自己所关心的内容,如何从大量的文本里面抽取到关键信息以帮助人们快速获得自己想要的信息,是本篇论文主要讨论的问题。文本摘要的主要任务就是抽取关键信息,进而可以解决这一问题,文本摘要旨在帮助人们从大量的文本信息中快速找到自己关注的信息。如果把含有几千字的文章缩写成几百字,那么读者就可以很轻松地了解到文章的主旨,摘要分为“人工摘要”和“自动摘要”,人工摘要由读者自己阅读总结得到,可能需要花费读者大量的时间和精力,自动摘要是由机器得到的。
文本摘要可以分为抽取式摘要、生成式摘要[1]和混合式摘要。抽取式摘要可以简单概括为从原文档中抽取出一个或者多个句子拼接在一起构成摘要,这样得到的摘要不会脱离文档本身,既简单又实用。抽取式摘要主要思想是对文档的每句话打分,句子的重要程度就是根据分数的高低来判定的,按照分数的高低对每个句子排序,分数高的前几个句子被抽取出来形成摘要。生成式摘要和抽取式摘要不同,它重在提取每个句子的特征,获取文档的主要思想后,重新组织语言生成新的句子组成摘要。混合式摘要就是将上述两种方法结合在一起生成的摘要称为混合式摘要。
文本摘要又可以按照文档的其他形式划分,比如按照文档数量划分,分为单文档摘要和多文档摘要[2],这两者只是在文档数量上有所不同,单文档是指只针对一篇文档,多文档针对同一類型的多篇文档处理,最后生成的摘要包含了这些文档的主题信息。
1相关工作
1.1文本摘要研究现状
抽取式文本摘要简单实用,目前也出现了很多抽取式摘要生成方法,其中在工业方面应用的比较广泛,目前主要的技术方法有基于主题模型、基于图模型、特征评分、深度学习,等等。
1958年Luhn[3]提出了基于高频关键词给文章句子排序得到摘要的方法。Kupiec[4]等人采用了朴素贝叶斯分类器来计算一个句子是否为摘要句的概率。Aone[5]提出了TF-IDF[6]方法来计算某个句子成为摘要句子的概率。Conrog[7]等人运用马尔可夫模型来抽取摘要句子。
上述几种方法都是基于统计特征为基础的摘要方法。这几种方法得到的摘要的可读性不是很好,为了继续完善自动摘要提取方法,GunesErkan和Rad等人[8]提出了TextRank方法,这个算法计算每两个句子之间的相似度,计算每个句子占全文信息的比重,选择比重较高的前几个句子组成摘要。随着深度学习不断地发展,生成式摘要也逐渐得到了广泛的研究。2022年Google提出的序列到序列模型[9]最开始应用在翻译任务中;2022年Facebook公司的Rush等人[10]将深度学习的端到端的方法首次应用到摘要的生成任务中,得到了很好的效果;Chopra等人[11]用卷积神经网络编码原文信息,采用循环神经网络进行解码生成了更加连贯的摘要;Nallapati[12]等在编码阶段使用双向循环的神经网络,还对低频词进行了处理;2022年谷歌[13]发布的摘要模型采用了集束搜索(Beam-Search)来生成摘要,这种方法在编码和解码的部分采用的是循环神经网络,避免时间和空间的浪费;2022年谷歌发布BERT[14]模型,这个模型被多次应用在自然语言处理任务中,都取得了比较好的效果。
1.2主要工作
在以往的NLP任务中,词向量的表示方法有One-Hot方法,可是One-Hot编码方式存在维度过高的缺点,计算量非常庞大。2022年Mikolov等人提出了基于分布式的词嵌入方式Word2Vec方法,这个方法网络结构简单,训练的中文语料比较少,不能提取句子的深层语义信息。2022年由JacobDevlin等人研發出BERT[14]模型,BERT内部主要由Transformer[15]组成,该模型网络结构复杂,训练的中文语料比较多,充分提取文档的语义特征,缓解了一词多义问题。本文选用BERT模型,是因为BERT模型使用双向Transformer编码器,Transformer模型能够抽取句子的特征,得到的词向量会随着上下文语境的改变而动态变化,使句子的语义表达更准确,比如“苹果公司”和“吃个苹果”,“苹果”在第一个句子中代表的是一个品牌的名字,在第二句话中表示的是水果的意思,BERT在对苹果这个词进行编码的时候会根据其所在的上下文不同而改变编码的词向量,使其更符合所表达的含义。对于之前从未考虑过的词的位置信息影响语义的表达的问题,比如像“明天你去我家”和“明天我去你家”,意思完全不一样,BERT加入PositionEmbedding来保留位置信息,使相同的词在不同的位置的时候表达的语义信息更加准确。本文将其他词嵌入方法与BERT模型用于文本摘要做了实验对比,BERT相比较其他模型来说能达到比较好的效果。将微调后的BERT用来预处理文本,原始的BERT输出是针对Token的而不是句子,并且原始BERT的输入只有两个句子,不适合做文本摘要任务,所以,为了使它更加适合文本摘要任务,需要对BERT模型做一些修改。在每个句子句首加上[CLS]标签,每个句子的末尾都有一个[SEP]标签,[CLS]标签可以区分每一个句子,BERT可以输入多个句子,给句子进行编码构成特征向量,用于文本摘要任务。基于图模型的方法处理文本信息,通常以单词或者句子作为处理文本单元,在抽取式文本摘要中,主要以句子为文本单元进行处理,将句子作为顶点,2个相似的点用边连接起来构成图,利用图排序算法,比如TextRank算法对句子进行打分排序。这种方法依赖句子之间的相似度,主要进行任意句子之间的相似性计算和迭代计算,TextRank算法是基于PageRank算法改进而来。传统的TextRank模型在计算句子的相似度时用的是基于词频的统计方式,这种方法没有考虑到句子语义方面的信息,比如像“你美不”“你不美”这类的句子,没有考虑到他们的语义层面的信息,结果存在不必要性。本文用余弦相似度的计算方法代替了传统的词频统计方法,结果得到了明显的改善。本文研究内容主要有:
(1)基于BERT的句向量表示。通过word2vec或者glove方法抽取浅层的文本特征来对基本语义单元进行向量化表示,而后依据相应算法计算句子的权重,这种方法存在一词多义问题,抽取得到的摘要句精确度低,连贯性差。针对这一问题使用BERT对句子进行向量化表示,学习和开发深层次的语义特征,效果有明显改善。
(2)句子的相似度度量。用TextRank方法做抽取式摘要,计算每两个句子之间的相似度时,用的是基于词频的相似度度量方法,这种方法忽视了句子的上下文信息,针对这一问题本文对比了其他的相似度度量方法进行研究。
(3)关于TTNews的文本摘要生成。将本文的文本摘要生成方法用于TTNews数据集上,用其他方法和本文方法做了实验对比,运用ROUGE评价方法评测了摘要的质量。
2研究方法
获取句子的向量形式,本文使用改进的BERT方法,原始的BERT输出是针对Token而不是句子,并且原始BERT的输入只有两个句子,不适合做文本摘要任务,所以,需要对BERT模型做一些修改。在每个句子句首加上[CLS]标签,使[CLS]标签可以区分每一个句子,同时BERT可以输入多个句子。使用BERT来获取句子的表示向量,借助BERT模型的强大表示能力,更好地捕捉句子的上下文信息。用TextRank算法对文本进行抽取处理,将文档中重要的句子抽取出来组合在一起,生成新的文本摘要。
2.1BERT的模型
图1为BERT的模型结构,BERT内部主要由多层Transformer构成。Transformer基本结构是Encoder-Decoder,Encoder表示编码器,Decoder表示解码器Transformer由这两者组合而成。
2.2TextRank图模型
TextRank做文本摘要,针对单个文档首先根据标点符号进行句子分割,针对每个句子获得句子的向量表示,构建相似度矩阵,然后以句子为顶点,相似度作为边表示成图的形式,最后计算每个顶点的得分,把得分最高的前几个句子抽取出来构成文档的摘要,其流程图如图2所示。
具体流程为:
(1)将文档按照:,?!。;“”等标点符号划分成一系列的句子。
(2)文本预处理,去除停用词,然后进行(jieba)分词,得到句子中词的词向量,对词向量求平均作为句子的向量表示。
(3)计算每两个句子之间的相似度值,然后以句子为顶点,相似度值作为边,将两个顶点连接构成图如图3所示。
(4)计算每个句子的得分值。
(5)最后按照分数高低排序,得分高的前几个句子抽取出来构成摘要。
TextRank图模型如图3所示,每个顶点代表的是文本中的句子,两个顶点连线上的数字为两个句子之间的相似度。
2.3本文方法
摘要生成的流程图如图4所示,首先根据标点符号对文档进行句子分割,然后送入BERT模型,BERT模型首先对文档每个句子进行处理,在每个句子开头加[CLS]标签,句子的末尾加上[SEP]标签,句子表示成图4(TokenEmbedding+SegmentEmbedding+PositionEmbedding)的形式,BERT模型内部有多个Transformer层,经过这些Transformer层处理后输出每个句子的向量表示形式。然后求每两个句子之间的相似度值,构建相似度矩阵,以每个句子为顶点,句子之间的相似度作为边构建图模型,最后求每个句子的得分值,选取得分高的几个句子作为文档的摘要。
2.3.1文本句向量表示
给定一篇文档D={S1,S2,S3,…,Sn}(其中n表示文档的第n个句子),BERT模型的句向量表示如图5所示。
原始的BERT输出是针对Token的而不是句子,由于原始BERT模型不适合文本摘要任务,所以,需要对模型做一些修改。在每個句子句首加上[CLS]标签,句子的末尾都有一个[SEP]标签,因此模型可以区分开每一个句子。
TokenEmbeddings:先得到每个词的词向量形式;
SegmentEmbeddings:根据i的奇偶性来决定这个句子的段嵌入为EA或者EB;
PositionEmbeddings:根据词在文档中的位置训练得到;
将上面三个向量相加TokenEmbedding+SegmentEmbedding+PositionEmbedding作为BERT模型的输入。即:
(1)将每个句子用向量表示出来保存在[CLS]中。
(2)经过BERT模型,得到每个句子的向量表示,这种向量表示包含句子的上下文信息,考虑到了句子语义层面的信息。
BERT模型与其他模型相比,可以充分挖掘词的上下文的信息,获得含有语义信息的向量表示形式,因此可以在一定程度上缓解多义词问题。
2.3.2摘要句抽取
TextRank算法求句子的相似度,是基于词频的统计方式,忽视了句子之间的语义信息。计算公式为:
(Si,Sj表示第i个句子和第j个句子,wk表示第k个词)这种计算方法仅仅通过统计两个句子之间的公有词的个数来计算句子之间的相似度,没有考虑任何语义层面的信息。本文用BERT模型获取的句子的向量来计算相似度,因为BERT模型使用双向Transformer编码器,即让两个Transformer特征抽取器分别从左到右和从右到左扫描输入序列。BERT加入PositionEmbedding来保留位置信息,使相同的词在不同的位置的时候表达的语义信息更加准确。本文通过用余弦相似度的计算方法计算相似度,这个方法正是计算两个向量之间的方向关系,这样求得的句子之间的相似度更能表达两个句子之间的关系。
本文也考虑了用欧氏距离[16]来计算两个句子的相似度,可因为欧氏距离主要用来计算两个点之间的距离,和两个点之间的坐标信息有关,而语义层次的信息并不关心数值的大小,更多的是关注两个向量在方向上是否更加接近。基于此,余弦相似度的度量方法可以更有效地表示两个句子之间的相似度关系。
给定文档D,划分句子D={S1,S2,S3,…,Sn}。以句子为顶点,构建图G(V,E),其中V代表句子的集合,E是边的集合,句子之间的相似度作为构成图的边的权值。
式(2)中,WS(Vi)表示顶点i的得分,d的值为0.85。in(Vi)代表所有指向点i的点,Wji表示点j和点i之间的边的权值,out(Vj)表示所有从点j指向其他顶点的点,Wjk表示点j和点k的边的权值,WS(Vj)表示顶点j的得分。
根据式(2)得到每个句子的得分值,本文选取得分比较高的前三个句子作为文档的摘要。
3实验分析
3.1实验数据
文章提出的方法用在了TTNewscorpus数据集上,取得分最高的前三句作为文本摘要,并与其他三个抽取式摘要方法做了对比。
3.2实验环境及参数设置
实验环境:Pytorch1.8.1,Tensorflow1.9.0,Torchvision0.8,Cuda9.2。
实验使用的BERT-base模型共12层即12个encoder单元,隐藏层768维,12个attention,序列长度为128。
3.3评价指标
文中用ROUGE[15]作为文本自动摘要的评价指标,Rouge方法比较本文生成的摘要与数据集给出的标准摘要的重叠单元,来评价模型生成摘要的质量。本实验用ROUGE-1、ROUGE-2、ROUGE-L这三个值作为评价指标对得出的摘要进行评价。
式(3)中n代表比较文本单元的长度,Countmatch代表的是同时出现在标准摘要和机器生成的摘要的文本的数目。
ROUGE-L表示的是标准摘要和本文生成的摘要的最长公共子序列的长度占标准摘要的比例。
3.4实验结果与分析
实验进行了2000次迭代,文中介绍的抽取式摘要方法和其他抽取式摘要方法都在TTNews数据集上做了比较。从解决一词多义方面考虑,首先对word2vec、glove、BERT三种不同的词嵌入方法做了实验对比,结果如表1所示,从中可以看出相比较其他词向量表示方法,文中采用的方法效果更好。
对于不同的相似度计算方法,对比了TextRank原始的词频统计方式、欧氏距离相似度算法,以及文中用的余弦相似度算法,相似度比较结果如表2所示。从中可以看出,文中选用的余弦相似度计算方法判断两个句子之间的相似性精确度有了明显的提升。
最后,用文中提出的抽取式摘要方法与其他几个抽取式摘要方法做了实验对比,结果如表3所示。
Lead3方法:选取文章的前三个句子作为文章的摘要部分。这种方法虽然简单方便,但是存在信息覆盖不全,容易损失信息的缺点。
TextRank[17]方法:构建图模型,用算法为文档的每个句子按照得分排序。此方法经过本文方法的改进后,摘要信息的准确率得到了明显的提升。
TF-IDF方法[6]:根据每个句子中词语的TF-IDF值来计算句子的得分,句子的重要性根据词的重要性之和来估计,选取重要性高的几个句子作为摘要。这种方法句子的重要性主要通过“关键词”来衡量,得到的摘要存在片面,信息涵盖不全,不连贯等缺点。
從表3中可以看出本文提出的方法和其他几种方法相比,ROUGE-1、ROUGE-2、ROUGE-L的值都有所提升。说明本文提出的方法生成的摘要准确性和可读性有一定的保障。
4结论
文中主要介绍了一种对TextRank方法进行改进而得到的一个抽取式文本摘要方法,分别介绍了BERT的模型结构和TextRank处理文本的流程及原理,以及计算句子相似度的方法。因为近些年BERT模型在NLP领域处理文本的时候效果都比较好,所以选择了BERT模型来进行处理文本。文中首先对BERT进行改进,使它适用于处理多个句子,对多个句子进行向量表示。然后基于TextRank的思想对句子进行打分处理。就是将两种模型综合在一起使用,然后选择了合适的文本相似度度量方法,最后将得到的文本摘要同标准摘要进行对比分析。文中提出的方法虽然准确率得到了提升,但是得到的文本摘要还达不到非常好的效果,比如句子不够通顺、存在句子冗余等问题,文本摘要在自然语言处理领域还有待发展。
参考文献:
[1]MIHALCEAR,TARAUP.TextRank:BringingOrderintoTexts[EB/OL].[2022-11-12].https:///ark:/67531/metadc30962/m1/1/.
[2]胡侠,林晔,王灿,等.自动文本摘要技术综述[J].情报杂志,2022,29(8):144-147.
[3]LUHNHP.Theautomaticcreationofliteratureastracts[J].IBMJournalofResearchandDevelopment,1958,2(2):159-165.
[4]KUPIECJ,PEDERSENJO,CHENF.Atrainabledocumentsummarizer[C]//18thannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval.NewYork:AssociationforComputingMachinery,1995:68-73.
[5]AONEC,OKUROWSKIME,GORLINSKYJ,etal.ArainablesummarizerwithknowledgeacquiredfromrobustNLPtechniques[M]//INDERJEETM,MARKMT.AdvancesinAutomaticTextSummarization,Cambridge:TheMitPress,1999:71-80.
[6]SALTONG,BUCKLEYC.Term-weightingapproachesinautomatictextretrieval[J].InformationProcessingManagem-ent,1988,24(5):513-523.
[7]CONROYJM,OLEARYDP.TextsummarizationviahiddenMarkovmodels[C]//SIGIR‘01:Proceedingsofthe24thannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval,NewOrleans:AssociationforComputingMachinery,2022:406-407.
[8]ERKANG,RADEVDR.LexRank:Graph-basedLexicalCentralityasSalienceinTextSummarization[J/OL].arXiv1109.2128[cs.CL].[2022-11-23].https:///abs/1109.2128.
[9]BAHDANAUD,CHOK,BENGIOY.NeuralMachineTranslationbyJointlyLearningtoAlignandTranslate[J/OL].arXiv:1409.0473[cs.CL].(2022-09-01).https:///abs/1409.0473,2022.
[10]RUSHAM,CHOPRAS,WESTONJ.ANeuralAttentionModelforAbstractiveSentenceSummarization[C]//Proceddingsofthe2022ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Lisbon:AssociationforComputationalLinguistics,2022:379-389.
[11]CHOPRAS,AULIM,RUSHAM.Abstractivesentencesummarizationwithattentiverecurrentneuralnetworks[C]//ProceddingsoftheAnnualConferenceoftheNorthAmericanChapteroftheAssociationforComputionalLinguistics:HumanLanguageTechnologies.SanDieg
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水蛭养殖购销合同范本
- 北师大版数学七下同步课时课件2.1两条直线的位置关系 第二课时
- 胃癌临终护理计划
- 冀教版数学七下同步课时课件6.2 二元一次方程组的解法 第二课时
- 2025年中级油品储运调合工职业资格鉴定理论考试指导题库(含答案)
- 2025至2030年中国楔块式扳手数据监测研究报告
- 安全用电电子课件
- 2025至2030年中国无糖纸杯蛋糕数据监测研究报告
- 2025至2030年中国数码遥控晾衣架数据监测研究报告
- 2025至2030年中国摩托车后瓦数据监测研究报告
- 《水利工程质量检测管理规定》知识培训
- 2025年02月贵州省司法厅所属事业单位公开招聘2人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025年校长春季开学思政第一课讲话稿1720字例文【供参考】
- 2025至2030年中国单板电磁制动器数据监测研究报告
- 2024年07月国新国证期货有限责任公司(海南)2024年招考2名工作人员笔试历年参考题库附带答案详解
- 人教版数学八年级下册 第17章 勾股定理 单元测试(含答案)
- 国网标书制作流程
- 六年级语文教学学情分析提高六语文质量的措施
- 中医药临床适宜技术
- 银发经济的发展路径
- 工业厂房水电安装施工方案
评论
0/150
提交评论