郑州大学-机器学习 文献选讲-XLSA_第1页
郑州大学-机器学习 文献选讲-XLSA_第2页
郑州大学-机器学习 文献选讲-XLSA_第3页
郑州大学-机器学习 文献选讲-XLSA_第4页
郑州大学-机器学习 文献选讲-XLSA_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汇报人:陈佳辉Extendinglatentsemanticanalysistomanageitssyntacticblindness扩展潜在语义分析以解决其句法盲目性目录CONTENTS1摘要2研究背景3扩展潜在语义分析4实验和结果5结论摘要013自然语言处理(NLP)是人工智能的子领域,专注于机器理解和生成自然语言。NLP已被用于许多应用,例如信息检索,信息处理等。自然语言处理(NLP)的一个重要任务是计算文本相似度,潜在语义分析(LSA)是一种广泛使用的方法,把文本从单词向量空间映射到话题向量空间来评估文本的相似性。LSA已成功应用于各种语言系统。但LSA忽略了句子的结构,即它存在句法盲目问题。LSA无法区分包含语义相似但含义相反的句子。不考虑句子结构,LSA无法区分句子和关键字列表。如果列表和句子包含相似的单词,使用LSA进行比较将导致较高的相似性得分。在本文中,我们提出xLSA,侧重于句子的句法结构,以克服原始LSA方法的句法问题。用xLSA在包含相似单词但含义明显不同的句子对上进行了测试。结果表明,xLSA减轻了句法盲目性问题,提供了更可靠的语义相似性得分。关键词:自然语言处理;自然语言理解;潜在语义分析;语义相似度

摘要研究背景02自然语言处理(NLP):是人工智能的一个子领域,专注于机器理解和生成自然语言。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。NLP应用包括人类语言理解、词法分析、机器翻译、文本摘要、语音识别、情感分析、专家系统、问答和推理、智能辅导系统和会话接口。研究背景基本假设文本中所有单词的出现情况表示了文本的语义内容(不考虑顺序、含义、语法等)文本集合中的每个文本都表示为一个向量,存在于一个向量空间向量空间的度量,如内积或标准化内积表示文本之间的“语义相似度”简单的方法:单词向量空间模型自然语言处理的重要任务:计算文本之间的相似性。研究背景单词-文本矩阵优点:模型简单,计算效率高

单词向量通常是稀疏的,两个向量的内积计算只需要在其同不

为零的维度上进行即可,需要的计算很少,可以高效地完成局限性:内积相似度未必能够准确表达两个文本的语义相似度上语言的单词具有一词多义性及多词一义性,所以基于单词

向量的相似度计算存在不精确的问题简单的方法:单词向量空间模型研究背景

潜在语义分析的目标是通过矩阵分解发现文本与单词之间的基于话题的语义关系。9研究背景潜在语义分析(LSA):LSA是基于词之间的语义关系,忽略句子的语法构成。因此,它可能会判定含义不同甚至含义相反的句子语义相似。在比较句子时,LSA不考虑主语和宾语的位置。例如,LSA认为“男孩踩到蜘蛛”和“蜘蛛踩到男孩”这两个句子在语义上是相同的,尽管它们在语义上是相反的。对缺乏适当的结构的句子,LSA仍将单词列表视为完整的句子。LSA不考虑否定。因此,它无法区分两个语义相似但其中包含一些否定的句子。研究背景用LSA在相似性计算中忽略了句法信息。LSA存在以下问题:期末考试Tom通过没有了的挂科标记LSA(TLSA):向LSA添加了标记词性信息。它把一个单词和它的词性(PoS)标签看作一个词,而原始的LSA不区分同一个词的不同词性。句法增强LSA(SELSA):类似于TLSA。该方法填充一个矩阵,其中包括关键单词和前一个单词的词性信息。词性增强LSA(POSELSA):侧重于通过添加词性(PoS)信息来增强LSA。该技术也增加一个矩阵(WCM)。矩阵包括焦点单词的PoS标签,焦点单词前一个单词的PoS标签,焦点单词后一个单词的PoS标签。与原始LSA相比,优化后的LSA能准确计算文本相似度的能力有所提高。LSA的优化方法:研究背景扩展潜在语义分析03扩展潜在语义分析(xLSA):如上所述,用于增强LSA的方法一般是将句法信息添加到用于训练LSA模型的数据中。一些方法仅使用词性(PoS)标签,而另一些方法将句子依存结构(SDS)和词性(PoS)标签信息结合使用以丰富其训练数据。本文的研究集中在计算短句语义相似度的任务上。XLSA不训练自己的模型,而是使用在UMBCWebBase语料库上训练的现有LSA模型,在这些模型上引入了一个围绕LSA的包装器。输入带词性标记的“词对”用于LSA比较。然后平均被标记“词对”比较的结果以生成输入句子的整体语义相似度分数。扩展潜在语义分析(xLSA):基本概念1.分词(Tokenization):是许多NLP任务的基础步骤。对文本分词是将一段文本拆分为单词,符号,标点符号,空格和其他元素的过程,从而可以创建标记。2.词形还原(Lemmatization):词形还原是将单词缩减为基本形式的过程。单词的不同用法通常具有相同的根含义。例如,practice、practiced和practising基本上都是指practice。3.词性标注(POSTagging):将语法属性(即名词,动词,副词,形容词等)分配给单词的过程。4.词性(PoS)歧义:是指同一个单词在不同文本中出现的词性可能不同。例如“steps”,在“Theboystepsonthespider.”这句话中,“steps”是描述男孩动作的动词,而在短语“Thestepsarebroken.”中,同一个词是名词。扩展潜在语义分析(xLSA):基本概念5.句子依存结构(SDS):通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。6.主谓一致性(SVA):SVA是一项对语法错误检测的NLP任务。SVA要求句子中的主语和动词必须在复数上达成一致,即单数动词带单数主语,复数动词带复数主语。扩展潜在语义分析(xLSA):一个句子是一个完整的书面思想,由主语和谓语组成。主语是“正在执行某个动作的人、事物或地方”,谓词则描述了这个动作。谓词是一个动词。例如“我呼吸”。更复杂的句子可以包括宾语,即“可以受主体行为影响的名词或代词”。英语中的简单句子遵循主语-谓语-宾语(SVO)规则,其中谓语显示主语和对象之间的关系。英语句子类型可分为简单句、并列句、复合句、并列复合句。xLSA使用结合句子依存结构(SDS)和词性(PoS)标签来识别句子中的主语、谓语、宾语。通过匹配句子的SVO结构,并用于计算两个句子的相似度。XLSA的思路:xLSA的执行流程扩展潜在语义分析(xLSA):xLSA分为两个阶段:(i)预处理阶段预处理阶段对输入句子进行分词,并为每个单词分配一个PoS标签。对于每个输入句子,它还计算其句子依存结构(SDS)。最后对句子分解得到SVO结构。(ii)评估阶段使用句子依存结构(SDS)和词性(PoS)标签来确定输入句子之间的结构相似性。扩展潜在语义分析(xLSA):预处理流程:使用spaCy分词并标记词性。使用spaCy计算句子依存结构。使用spaCy分解句子,得到SVO结构。(更复杂的句可以被分解为简单句以进行SVO比较。)

在分解过程中,句子被分成主语、动词和宾语。在主动语态的情况下,spaCy库使用“名义主语”和“直接宾语”标签分别指定主语和宾语。为了处理被动语态句子,spaCy将主语和宾语分别表示为“名词主语(被动)”和“介词宾语”。spaCy库能够解决PoS歧义,确保根一个句子的谓语动词被正确识别。作为词根动词右侧后的名词被视为宾语,出现在词根动词之前的名词,,被视为主语。同时计算每个句子的主谓一致性(SVA)。在句子分解过程中,我们在输入句子中创建一个主语和动词列表以及它们的关系依赖。此信息用于为每个句子分配一个SVA标志,判定其主语和动词之间是否存在数字一致。扩展潜在语义分析(xLSA):评估阶段流程:先对主语、谓语和宾语进行词性还原。根据主语、动词和宾语对句子进行比较。即比较第一句主语与第二句主语,第一句谓语与第二句谓语,第一句的宾语和第二句的宾语。主语、谓语和宾语必须存在于两个句子中。如果它们只存在于一个句子中,那么相似度得分设置为零。计算XLSA的得分。大于阈值则判断是否有否定。小于阈值则比较第一句主语与第二句宾语,第一句的宾语和第二句的主语,判断是否有反义。最后综合得分。扩展潜在语义分析(xLSA):计算相似度的方法:本文使用了UMBCSTS计算文本相似度,UMBCSTS结合分布相似度和LSA来计算单词相似度。UM在不同的“词对”上进行评估,评估分数范围从0.1到1.0。对于完全不相关或者没有语义相关性的“词对”相似性得分小于0.4(40%)。而对于语义或上下文相似的“词对”,一致性得分大于0.7(70%)。实验和结果04数据集:本文的数据集来自SNLI语料库和Flickr语料库。对于两个语料库,句子对的选择标准是语义相关性。选择了三类句子:第一类:包含语义相似的句子对。第二类:包含具有相似单词但完全相反(反向)含义的句子对。第三类:包含语义相关的句子对,其中一个句子中有一个否定。所有三个类别都包括主动语态或被动语态的句子,并且可以包含多个主语、谓语和宾语。有些句子没有动词,其中只使用助动词。一些句子还包括“动名词”,根据句子的上下文,它可以用作名词或动词。实验和结果类型一:第一句:“男孩踩着蜘蛛”第二句:“蜘蛛被男孩踩着”。表一:带有相应PoS标签的单词表二:句子的SVO结构表三:LSAvsxLSA类型二:第一句:“猫爬在树上”第二句:“树爬在猫上”。表一:带有相应PoS标签的单词表二:句子的SVO结构表三:LSAvsxLSA类型三:第一句:“亚历山德罗·沃尔特发明了电池”第二句:“电池不是亚历山德罗·沃尔特发明的”。表一:带有相应PoS标签的单词表二:句子的SVO结构表三:LSAvsxLSA类型四:第一句:“约翰写报告”第二句:“约翰报告谋杀”。表一:带有相应PoS标签的单词表二:句子的SVO结构表三:LSAvsxLSA一:LSA对所有具有相似单词的句子给出100%的语义相似性评分,忽略了句子结构。xLSA不仅基于相似的单词,而且还基于句子的句法结构以及单词在其中的位置来计算语义相似性。二:LSA没有考虑否定对句子含义的影响,因此当句子对相互否定时,它无法正确识别相似性。xLSA,测试集中包含相互否定的句子对都被成功识别。三:LSA在比较时也不考虑句子的句法结构。这意味着将完整的句子与单词列表进行比较可以产生高达100%的相似度得分。xLSA不仅在语义级别测试句子,而且还验证正确的句法结构以确保输入不是关键字列表。实验和结果xLSA与LSA的比较实验和结果测试集中反句的一些例子,XLSA成功地将它们标记为反句。四:LSA识别不出逆反句。目前的NLP研究主要集中在深度学习方法上,该方法利用神经网络学习文本表示以解决NLP任务。许多最先进的方法已经在各种NLP任务上显示出有前景的结果,例如文本分类、语法错误检测、信息提取、语言建模等。当前众所周知的公开可用NLP模型:Google的USE:USE采用基于变压器的架构,能够处理文本跨度中的上下文。这允许使用生成句子级嵌入。BERT:基于transformer体系结构,该体系结构使用注意机制来学习文本中词对之间的上下文关系。BERT使用编码器和解码器读取文本并生成预测。XLNet:是一种通用的自回归预训练方法,它利用上下文单词的方向依赖性来预测文本中的以下单词。它还利用变压器架构来学习长期依赖性。与深度学习方法的比较:在100个句子对上各方法产生的平均相似性得分实验和结果在单个句子对上各方法产生的相似性得分总结051.潜在语义分析(LSA)是一种广泛使用的方法,把文本从单词向量空间映射到话题向量空间来评估文本的相似性。LSA已成功应用于各种语言系统。2.LSA考虑单词之间的语义关系,但它忽略了句子的结构,这可能导致逻辑错误的答案被视为正确。语法在理解句子的含义方面起着关键作用,传统的LSA对此是盲目的。3.为了缓解LSA的句法盲目问题,本文旨在对LSA进行扩展,重点关注句法组成以及句子中的语义关系。xLSA使用句子依赖结构(SDS)和(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论