版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
[全]电网文档分类技术-基于循环注意力机制的文档快速扫描定性方法自然语言处理(NLP)技术是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。目前NLP最流行的方法还是机器学习尤其是深度学习,比如WordEmbedding(词嵌入)、RNN(循环神经网络)、LSTM(长短期记忆网络)、CNN(卷积神经网络)等主流的深度神经网络在NLP中的应用,这已经是目前主流的研究方向。目前,在文档定性分类方面,最经典的结构就是CNN(卷积神经网络),它的结构比较简单,使用长度不同的filter(滤波器)对文档矩阵进行卷积,filter的宽度等于词向量的长度,然后使用max-pooling(最大池化)对每一个filter提取的向量进行操作,最后每一个filter对应一个数字,把这些filter拼接起来,就得到了一个表征该句子的向量,最后的预测都是基于该句子的。该模型作为一个经典的模型,是很多其他领域论文里的实验参照。但是对于文档定性,比如CNN(卷积神经网络)、LSTM(长短期记忆网络)等方法,大多数适用于短文档。但对于长文档,这些方法会导致模型变得非常庞大,并不适用。用关键词方法检索敏感信息,这种方法需要对全文进行检索,准确性不高,效率低下,缺乏了上下文的关联性,并且有些关键词并不主导文档的主要性质。问题拆分获取训练数据集,在预处理阶段,将整个文档转换为词向量矩阵,词向量矩阵通过含有循环注意力机制的文档检测模型,包括卷积神经网络模块、最大池化模块、循环神经网络模块,利用回报函数得出回报值reward,训练循环神经网络,优化模型参数,测试模型准确率。本发明的方法基于注意力机制,引入了强化学习的训练方法,适应性更强,并且不需要对全文进行检索,而是通过处理文档中的局部信息,智能快速的预测出文档中特定的位置,在有限的次数内,快速扫描探索找出最能够代表文档特征的句子,即分类概率最大的句子,这些句子能够最大化的表示该文档的类型。问题解决通过若干次探索找出最能够代表文档特征的句子,即分类概率最大的句子,在给定的步数里面,最快的扫描检测出含有标签的那些句子,从而对文档作定性分析。本发明采用如下技术方案,一种基于循环注意力机制的文档快速扫描定性方法,该方法首先需要训练一个由卷积神经网络、循环神经网络以及强化学习结合起来的端到端的模型,所使用的训练数据是大量的文档及其标签(该标签即为文档的类别),训练目标是通过几次对文档的句子做探索,可以最大化的输出最能够代表该文档特征的若干句子,这些句子能够最大化的表示该文档的性质类型,其特征在于,具体步骤如下:(1)获取训练数据集,拟定数据集中的文档的标签;(2)在预处理阶段,将文档分成句子,再对句子进行分词,然后对每一个词使用word2vec词向量训练模型将其转化为词向量,由此将句子转化成一个由词向量组成的矩阵,从而将整个文档转换为词向量矩阵;(3)词向量矩阵通过含有循环注意力机制的文档检测模型,包括卷积神经网络模块、最大池化模块、循环神经网络模块,具体步骤为:31)随机选取一个位置t,利用一个一维的卷积神经网络来提取位置t的句子的每个词的语义信息特征,再经过最大池化降维,输出每个句子的特征向量;32)将每个句子的特征向量和上个时间步骤输出的隐含状态ht-1一起输入到循环神经网络中进行编码,然后输出当前时间的隐含状态ht;33)将循环神经网络输出的隐含状态ht输入到一个强化学习模块,输出对下一个位置的索引预测Lt+1;34)找到下一个位置t+1,将位置t+1的句子输入一个一维的卷积神经网络,提取每个词的特征,随后经过最大池化降维得到特征向量,然后,再将上一步输出的位置索引预测Lt+1与特征向量通过一个RELU修正线性单元模块进行线性加和,再输入到循环神经网络之中;35)循环神经网络运行到最后一步时,输出的隐含状态通过一个分类器,输出整篇文档的标签分布概率P;(4)利用回报函数得出回报值reward;(5)训练循环神经网络,优化文档检测模型参数;(6)获取测试数据集,拟定测试数据集中的文档的标签,测试文档检测模型准确率。优选地,步骤(3)中卷积神经网络的卷积核个数为256。优选地,在步骤(4)中,回报函数的流程为:a)步骤(3)中输出的P为一组和为1的数组,数组中较大的概率所对应的下标即为预测的文档标签,同时输出含有预测的文档标签的句子,作为代表文档特征的句子;b)将步骤a)中得到的预测的文档标签与步骤(1)中的文档的标签作比对,如果相同则回报值reward的值为1,不同则回报值reward的值为0。优选地,步骤(5)中的训练优化的目标是最优化目标函数,最小化代价函数,代价函数包括分类的代价函数和强化学习的代价函数,具体步骤为:1)分类的代价函数为交叉熵函数:利用一组已知标签的样本调整分类器的参数,使代价函数即交叉熵函数最小,利用预测的文档标签和步骤(1)中文档的标签,计算出交叉熵C,其中,x表示样本,n表示样本的总数,,y为期望的输出,即文档的标签值(0或者1),a为神经元实际输出,即预测的文档标签值(拟定文档为某一类时标签为1,否则为0),训练时将交叉熵对权重的偏导数反向传播,更新文档检测模型参数;2)强化学习的代价函数为L(θ)=logπ(a|s,θ)·(R-b),其中π(a|s)为神经网络拟合的策略,θ为参数;logπ(a|s,θ)是在状态s下输出动作a的概率的对数似然,用以表示智能体的策略,b为基线baseline,R为回报值reward;再利用自适应矩估计Adam优化器反向更新文档检测模型参数,优化强化学习的代价函数,使代价函数最小化,回报值reward最大化。优选地,训练文档检测模型时,设置步数step为100000步,样本总数为1000,每一个分批处理mini_batch的样本数量为10,训练开始时的学习率learningrate为10-3,设置衰减因子λ,在每一次训练完全部样本之后,学习率learningrate按照衰减因子λ衰减,随着训练进行,最后学习率learningrate变为10-4。优选地,步骤(6)中,将得出的预测的文档标签与测试数据集中的文档的标签对比,如果相同则回报值reward为1,测试文档之后得出一系列的回报值reward的加和,再除以文档数量,得到整个测试文档的分类准确率。发明所达到的有益效果:本发明是一种基于循环注意力机制的文档快速扫描定性方法,能够解决长文档检测定性困难的问题,快速扫描定位文档中敏感信息。与目前流行的基于CNN或者RNN的文档定性分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 战略风险管理实践培训
- 班级运动会的组织安排计划
- 过桥贷担保协议书范文范本下载
- 离婚协议书范文2020标准版章
- 离婚协议书范文一子女无财产无债务
- 律师事务所整体转让协议书范文
- 活动方案之吊装方案评审会议纪要
- 小学生禁毒课件下载
- 2.2一元二次不等式的解法
- 这片土地是神圣的课件
- 室间质评不合格原因分析及纠正措施表
- 创新创业基础知到章节答案智慧树2023年延安职业技术学院
- YDT 5132-2021 移动通信钢塔桅结构工程验收规范
- 电池片外观检验标准
- 《基本天气图分析》
- 污染物的生物效应检测
- ISO45001-2018标准培训教材
- (4.3.5)-菊花中医药学概论
- 安化黑茶三尖
- 不努力读书换来一生的卑微和底层
- 2023年国家能源集团神东煤炭集团公司招聘笔试题库及答案解析
评论
0/150
提交评论