《深度学习在文本分类中的应用探究》11000字【论文】_第1页
《深度学习在文本分类中的应用探究》11000字【论文】_第2页
《深度学习在文本分类中的应用探究》11000字【论文】_第3页
《深度学习在文本分类中的应用探究》11000字【论文】_第4页
《深度学习在文本分类中的应用探究》11000字【论文】_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

表310所示,能清楚直观的显示模型处理各个类别的水平。对角线所处的位置代表模型预测正确的,对角线外代表模型预测错误的,这里可以发现对角线外的数值相对很小。通过观察,这个模型有着比较高的准确率,通过混淆矩阵可以列出混淆表格,进而计算准确率、召回率、F值等指标。如REF_Ref70639197\h表39所示,可以看到在测试集上的准确率达到了96.04%,且各类的指标都超过了0.9。在测试集上进行TextRNN模型的测试,如REF_Ref70074041\h表311所示,可以看到测试集的准确率达到了94.22%,各类的指标基本超过了0.9。在REF_Ref70639222\h表312中,可以看到第有几个比较大的数据,说明某一类别的预测效果并不理想。表STYLEREF1\s3SEQ表\*ARABIC\s111TextRNN模型分类结果TestLoss0.21TestAcc94.22%precisionrecallF-measure家居0.970.730.83教育0.910.920.91科技0.930.960.94财经0.910.990.95房产1.001.001.00时尚0.890.970.93时政0.930.930.93游戏0.950.970.96娱乐0.970.960.97体育0.990.990.99avg/total0.940.940.94表STYLEREF1\s3SEQ表\*ARABIC\s112TextRNN混淆矩阵9880004020510990111106000299611000002711731512088283513079182343194130309643521010171397206901600222609312323002212097270311731159960实验对比分析使用TextCNN、TextRNN模型处理相同文本数据进行对比实验。为评估实验算法的性能,对准确率、损失函数、精确率、召回率、F值等指标进行了分析。通过对比REF_Ref70638869\h图31和REF_Ref70638871\h图32,发现当一开始迭代相同的次数时,CNN模型用于文本分类的准确率和损失函数下降速率都是明显高于RNN模型,并且它在迭代1600次时结束了训练。而RNN模型在迭代3000次才结束。通过观察REF_Ref70638799\h表35至REF_Ref70638825\h表38,CNN模型只迭代了3次就停止,耗时50秒,验证集最佳效果为94.12%。而RNN模型迭代了8次才停止,耗时33分钟,验证集最佳效果为91.42%,TextCNN模型在效率性能上非常明显地完胜了TextRNN模型。对比REF_Ref70639197\h表39和REF_Ref70074041\h表311,进行模型测试时,CNN模型测试集上的准确率达到了96.04%,损失值只有0.14,而RNN模型的准确率为94.22%,损失值为0.21,明显CNN模型的拟合能力较好。在准确率上TextRNN也稍逊色于TextCNN。在CNN模型中,各类别的平均精确率为0.96,平均召回率为0.96。F值为0.96。在RNN模型中,平均精确率为0.94,平均召回率为0.94,F值为0.94。大体上是同一水平的性能,精确率的值都很高,说明算法效果都不错。但在REF_Ref70639222\h表312中明显可以看到第四行除对角线外的值有些大,故而体现到RNN模型的家居类别的召回率只有0.73,说明TextRNN模型对家具类文本分类问题预测效果不好。通过查阅资料总结出:当句子的分类是由整个句子决定的时候,建议使用RNN,

当句子的分类是由几个局部的语义决定的时候,CNN会更容易分类正确。整体来说,由于TextRNN的模型比较复杂,特别是做项目讲究的是效率性能,除非对一些特定的任务必须用TextRNN,一般TextCNN模型在文本分类上有着较大的优势。结语随着通信技术和移动互联网的快速发展,文本信息越来越复杂。文本分类可以从大量数据中获取有效信息,并且文本分类一直是自然语言处理领域的一个热点,研究价值很高。同时深度学习这几年一直发展迅猛,其算法模型也很适合用于处理文本数据。本文通过分析和总结CNN和RNN模型原理的基础,研究了深度学习在文本分类中的应用。通过不断试验调参,最终确定了合适的参数集合,使用可以为不同参数设计自适应学习率的优化算法,使用了多项评价指标来评估模型性能,结果在分类问题中都取得了不错的效果。说明了模型设计的有效性。研究的不足和进一步的想法有以下几个方面:本实验搭建的是两种常见的网络模型,实验不够丰富比较单调,最近几年也有提出一些新的模型和一些改进的模型,由于时间和自身能力的不足,没有实现多模型的比较。由于自身电脑配置的问题,没有更好的硬件环境进行实验,如果条件允许会尝试用CPU进行实验。数据集过于单一,可以对多种不同类型的语料进行文本分类工作,通过对比可以总结各个模型更适合处理的数据集。在以后的生活中,我会继续积累这方面的知识,尽量去学习更多的深度学习应用的领域,探索世界,了解世界。参考文献陈东焰,陆畅.从AlphaGo看机器学习[J].科技创新导报,2020,17(13):146+148.猿辅导研究团队.深度学习核心技术与实践[M].北京:电子工业出版社.2018.2.高志强,黄剑,李永.深度学习从入门到实践[M].北京:中国铁道出版社.2018.6.高强.基于深度卷积网络学习算法及其应用研究[D].北京化工大学,2015.于游,付钰,吴晓平.中文文本分类方法综述[J].网络与信息安全报,2019,5(05):1-8.陶永才,杨朝阳,石磊,卫琳.池化和注意力相结合的新闻文本分类方法[J].小型微型计算机系统,2019,40(11):2393-2397.徐泓洋,杨国为.中文文本特征选择方法研究综述[J].工业控制计机,2017,30(11):80-81.游攀利.基于集成SVM的文本分类方法研究[D].华中科技大学,2014.候汉清.分类法的发展趋势简论[J].情报科学,1981(01):58-63+30.牛雪莹.结合主题模型词向量的CNN文本分类[J].计算机与现代化,2019(10):7-10.赖文辉.基于深度学习理论的中文文本分类技术研究[D].华

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论