浅谈实体空间关系抽取方法的改进_第1页
浅谈实体空间关系抽取方法的改进_第2页
浅谈实体空间关系抽取方法的改进_第3页
浅谈实体空间关系抽取方法的改进_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    浅谈实体空间关系抽取方法的改进    姜宜伯摘要:三维场景的语音交互系统在语音交互的流程中,通过语音识别技术识别出的文本数据存在一词多义、表述抽象、实体名称缺乏统一标准等问题,这些问题给空间实体识别任务造成了困难,同时也给空间实体识别算法在模型训练时引入了噪音,从而降低了模型的准确率。本文就空间实体关系抽取作出了一系列的改进,以望为之后的研究者提供一定的参考和借鉴关键词:空间实体识别;长短期记忆网络;特征表示:tp391.1:a:1672-9129(2020)13-0099-01空间实体识别是面向三维场景的语音交互系统中自然语言理解模块的一项基础

2、任务,是信息抽取流程的第一步。空间实体识别指的是从待处理的不规则文本中识别出文本中描述空间方位的空间实体。与传统的命名实体不同,空间实体特指具有一定位置信息且参与到空间关系中、同时不属于典型的地点或路径范畴的实体。1改进后的空间实体识别模型框架空间实体识别与命名实体识别相同,都是从不规则的文本中识别出符合任务需要的目标实体。从文本中识别空间实体的过程,本质上可以看作对不规则文本的序列标注过程,因此,本文类比命名实体识别问题,将空间实体识别问题作为序列标注问题进行建模。本文主要使用bilstm-crf混合模型处理从不规则的文本中识别出描述空间关系的空间实体的任务。改进后的混合模型主要由词嵌入层、

3、特征表示层和标签推理层三部分组成。其中词嵌入层主要负责对文本中的单词进行处理,通过分布式表示的方式,将单词转换成向量;特征表示层主要负责对词嵌入层处理后的数据进行处理,通过双向长短期记忆网络和全连接神经网络获取数据之间的特征信息;标签推理层主要负责对特征表示层提取的特征信息进行处理,通过条件随机场计算出概率最大的标注序列。改进后的混合模型处理数据的过程与编码器解码器模型处理数据的过程类似。其对代表单词信息和位置信息的词向量进行编码,同时使用全连接神经网络,对代表单词的词性信息和位置信息的词向量进行编码,再由一个线性层组合两个模型的编码结果,最后通过条件随机场模型,从标注序列的随机分布中推理出最

4、佳的标签序列。2词嵌入层由于传统序列标注任务中的算法模型无法直接从不规则的文本信息中学习特征,所以需要将不规则的文本转化为算法模型可以直接处理的形式,然后进行后续的计算。在传统的文本到向量的转化过程中,主要是通过人工的方式根据任务要求和数据结构,设计对应的特征,然后机器学习模型根据这些特征生成对应的向量。人工设计特征的方法耗时费力,并且容易过拟合。后来,人们使用深度学习的方法,从文本中自动的提取数据的特征,将特征映射到向量的转化,这一方法部分替代了传统序列标注任务中人工设计特征的方法。在信息抽取流程中,词语被认为是具有表达句子语义信息能力的基本元素,bilstm-crf混合模型中的词嵌入层,主

5、要使用深度学习的方法,将文本中的单词转换为表示单词语义信息的词向量。使用独热表示法表示出的词向量有三个明显的缺陷,一是词向量的维度过高,随着数据的增加,词典维度会变得非常高,通过独热表示法表示的词向量也随之变得非常大。二是词向量的信息密度低,在使用独热表示法表示出的词向量中,只有一个维度是有信息的。三是词向量之间相互独立,使用独热表示法表示的词向量之间没有语义关联性。3特征表示层在计算输入序列的语义特征的阶段,单层的长短期记忆网络只能沿序列正向利用当前时刻之前的序列信息,无法利用当前时刻之后的序列信息。通过分布式表示方法训练的词向量作为长短期记忆网络的输入,不能表示句子的全局信息。单层的长短期

6、记忆网络在训练的过程中,随着序列的增長,序列后面的信息对模型当前时刻状态的影响越来越大,由于单层长短期记忆网络不能获取当前时刻之后的后续序列信息,使得单层长短期记忆网络的输出在准确率上,是随着序列的增长而逐渐降低的。bilstm中包含前向和后向两个长短期记忆网络层,其中的前向长短期记忆网络可以获取当前时刻之前的序列信息;后向长短期记忆网络可以获取当前时刻之后的序列信息。双向长短期记忆网络通过拼接前向和后向两个长短期记忆网络,可以利用序列的全局信息对当前时刻的序列状态进行计算,这种双向长短期记忆网络的结构提高了序列信息的利用率,同时使计算结果可以较为全面地表示文本中单词的语义特征信息。4标签推理

7、层本文使用处理序列标注问题的方式,从文本中识别出空间实体。对文本序列中的元素进行标注时,常用的标注规则有bio规则和bioes规则两种,本文按照bioes规则对文本中的元素进行标注。在bioes标注规则中,规定:b表示当前的字符或单词是空间实体标签的开始;i表示当前的字符或单词是空间实体标签的中间部分;e表示当前的字符或单词是空间实体标签的结尾;o表示当前的字符或单词不属于空间实体;s表示当前的单个字符或单词是空间实体。5总结在自然语言理解模块的信息抽取流程中命名实体识别,是其中一项重要的基础任务。本文根据三维场景语音交互系统中交互数据的特点,针对传统命名实体识别方法在处理空间实体识别任务时的准确率低的问题,对传统的命名实体识别方法做了改进。当然本文的研究还存在许多不足,命名实体识技术仍需要研究者们进行进一步的研究与改进。参考文献:1基于迁移学习和bilstm-crf的中文命名实体识别j. 武惠,吕立,于碧辉.小型微型计算机系统. 2019(06)2基于svm-bilstm-crf模型的财产纠纷命名实体识别方法j. 周晓磊,赵薛蛟,刘堂亮,宗子潇,王其乐,里剑桥.计算机系统应用. 2019(01)3基于cnn-blstm-crf模型的生物医学命名实体识别j. 李丽双,郭元凯.中文信息学报. 2018(01)数码设计202

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论