




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
行为金融学论文:基于LSTM模型的股吧评论情感分析案例摘要随着机器学习、情感分析技术的广泛快速发展,原本认为难以量化分析的投资者情感可以通过投资者在网络空间的留言内容作为分析其情感的切入点。此外结合文本数据分析模型能够几何级别地提升分析效率,且相关模型中拟合度较好的模型准确率一般可以达到85-90%。运用神经网络建模分析文本情感,预测舆情变化趋势成为热门话题,循环神经网络因相较于CNN有更强的持续学习能力和更好的学习效果而更受欢迎。本文探讨了人们在网络投资者社区评论中所蕴含的情感状态,从东方财富网上证指数股吧爬取用户评论数据保存并进行情感分析,使用Word2Vec词向量模型将评论文本转化为词向量,用于对投资者情绪进行模拟。从而模拟中国证券投资者的投资情绪变化。统计投资者留下评论中所蕴含的积极、消极、中性情感,结合TextRNN+LSTM分析模型有选择性地分析判断用户情感倾向与证券走势的相互关系,提出了投资者的情绪会在几天的时间里对证券市场产生一定程度的影响,在影响程度较为明显时,利好政策的出现对投资者情绪的影响较为明显。同时也证实了从统计学角度来看,投资者情绪变化是股市收益产生波动的其中一个充分条件。本文也对LSTM模型使用过程进行总结分析,探讨该模型未来在情感分析领域的突破与发展。例如改进模型结构,增加逻辑层数,减少梯度下降造成的损失。本文的创新点在于:1、运用LSTM与其他模型结合使用以解决RNN模型在预测文本数据时常常出现的梯度消失或梯度爆炸问题、2、使用TextRNN用于长文本处理。关键词:网络爬虫;文本数据分析;神经网络;LSTM模型目录TOC\o"1-2"\h\z\u16590绪论 1592(一)研究背景与意义 119342(二)文献综述 110805一、相关理论分析与应用 329710(一)网络文本对情绪的反应 326183(二)计算机量化金融行为的发展 423742(三)神经网络量化文本情绪的发展 47328二、分析模型的选择与组合 54886(一)模型选择 528052(二)LSTM模型的优势 517383(三)TextRNN与LSTM的结合 728984三、基于LSTM模型的运用 829528(一)数据获取 815856(二)文本情感评价 1023980(三)文本特征提取 1026783(四)模型结构建立 113900(五)检验指标的选择 1229492四、分析结果与检验 1330034(一)载入训练集 131180(二)载入测试集 1330402(三)模型的准确性检验 1423918(四)模型优化策略与结果 1423166(五)模型成果总结 1522217结论 1513161(一)模型优势与不足 1525908(二)研究过程的反思 161087(三)总结与未来展望 1610123主要参考文献 179039附录 18绪论(一)研究背景与意义投资者因为各种各样的原因,对未来的市场发展、资产收益的预期存在偏差REF_Ref25737\r\h[11],这样的偏差并不是无迹可寻,除此之外,行为金融学的研究学者认为上述特性是可以被量化的。而在其量化方式的选择上,随着文本学习技术的发展,从网络文本为切入点,通过文本数据分析个体投资情绪的方式成为可能。而针对投资者情绪的变量研究也从一维变量逐渐向高维发展,这就为使用机器学习等方法建立分析模型,分析参与者行为创造了理论基础和条件。通过对于网络用户的评论文本分析,人们得以研究一段时间内网络用户的情感倾向。通过神经网络相关技术来针对投资者情绪进行研究有很多实践性意义:对于相关网络文本的情感分析可以探索中国投资者的情绪与市场变化的关联,建立符合情况的投资者情绪文本词典,而针对这方面的研究能够完善对于中国市场的金融投资行为研究理论的补充,对中国投资者的投资行为与心理理论的完善做出贡献,分析我国投资者对于金融市场活动以及各类相关消息、舆论的反应程度与态度,有助于我国更好地完善股票市场产品的定价机制和管理体制并关注投资者的心理状态,如可以运用相关文本分析技术将包括评论在内的网络文本数据转化为词向量,用相关分词后的文本数据进行训练和模拟预测未来的情感趋势。在机器学习的应用实践中,有一种研究方法是对投资者的行为数据进行挖掘与分析,将金融理论知识同计算机技术相结合始终是十分热门的课题,通过大数据和机器学习构建投资者模型,不仅可以分析价格变动的深层原因,探寻投资价值规律,也能预防系统风险,为监管机构更好地把握投资者情绪,监测情绪,疏导舆情,维护合理市场秩序,从而对保护消费者或企业产生作用MMF&ITHESISFINANCIALDISINTERMEDIATION——KELLYWRIGHT(2010)。MMF&ITHESISFINANCIALDISINTERMEDIATION——KELLYWRIGHT(2010)(二)文献综述1.理论研究现状从行为金融学的相关理论来看人们投资者的行为时会发现,人们的投资活动也容易受自身的心理因素影响REF_Ref2862\r\h[9]。投资活动往往暴露了一些投资者的感性情绪,据此研究工作人员认为,决策者的投资偏好一般都是多个方面、容易改变的,这种投资偏好往往只在进行决策的过程中才能逐渐形成;投资者往往由于自身势单力薄,缺乏专业知识REF_Ref4548\r\h[15],消息渠道和投资经验等原因根据“噪声信息”投资,相关投资社区等就容易因同类用户的聚集而形成噪声并互相影响,干扰自身判断,也有明显的羊群效应REF_Ref26434\r\h[1],“出盈保亏”现象也很普遍,这些无不说明投资者的情绪会对其行为产生影响,由此分析投资者的情绪表达对于其投资行为是十分重要的参考REF_Ref26692\r\h[2]。从情绪衡量的指标来看,许多研究人员从寻找可以衡量投资者情绪的数据来源出发,使用时间序列模型分析其与股市收益的相关性,并得出其与股市收益存在长期正相关的关系,也说明了投资者情绪与社会投资活动存在较强的关联,其决策会对市场变化发生一定程度的影响REF_Ref1932\r\h[6]。而随着深度学习技术的发展,现代量化投资者情绪可以从海量的网络文本数据中高效地挖掘出其隐含的情绪状态,并从中提取出有价值的信息。2.理论发展人们的非理性的行为可能产生持续性影响,通过结合心理学与行为学的相关理论,系统地研究金融活动中的参与者行为REF_Ref512\r\h[14],理查德·塞勒证明了人的性格确实会对个人决策与市场结果造成系统性影响。迈尔斯塔特曼从行为投资组合、心理会计、行为资产定价模型论述投资者的认识偏差、认知错误。神经网络模拟人脑中各个神经元对于信息的传递处理过程,按照其连接形态和方式可以组成不同的网络。神经网络由大量的节点之间相互连接构成,每一个节点都可以用来代表一个输出的函数,这个节点输出的函数也被我们统统地称为一个激励函数,而每两个节点之间的相互连接都可以代表一个对于通过该节点连接产生信号的加权值,这个节点的加权值也被我们统统地称为输出的权重,整个神经网络的每一个输出根据其所受连接的方式、激励函数以及其权重的不同而变化。有的研究者提出可以将其应用于自然语言处理领域,这么做的最大优势主要就是无需再花费大量的时间精力在进行特征提取与选择上。将单词的分布式表达器输入应用到了神经网络中,运用卷积、点乘、非线性函数、矩阵相乘等运算,自动地提取并给出对文本进行分类有价值的信息,具有易读性,具备抗干扰能力,能够保持模型相对稳定REF_Ref31277\r\h[3]。在情绪衡量方面,网络用户的行为、评论往往是运用分析模型计算的重要领域,Da、Engelberg&Gao(2015)通过民众在互联网上的搜索内容来衡量投资者情绪的变化。Jiangetal.(2016)通过LM词典对经理人的文本情感指数予以搭建,根据相关研究和分析,未来股市收益、情感指数二者间的关系即反向影响。MeenaRambocas回顾在线情绪分析的营销文献,并从分析单元、抽样分析和情绪分析的角度得出了情绪对用户的营销作用REF_Ref22767\r\h[17]。在国内,研究人员通过从虚拟交流平台获取数据,构建出一系列可以用来评价投资者心理状态的指标;或者采用相关指标,如消费者信心指数(池丽旭、庄心田,2009)、好淡指数(吕志岩,2013、曾炫川,2015)、新增开户数、开放式股票型基金资金净流入(王春,2014)等对投资者偏好,信心,投资者增加量等相对较为广泛接受的指标进行间接分析。REF_Ref31336\r\h[5]从文本情感分析的角度,人们研究的对象从IPO公司上市前主流财经媒体正负面词汇数(汪昌云、武佳薇,2015)、东方财富网标题内容的词频统计(易洪波等,2015)、用户在股吧、论坛的评论数(刘珂言,2015)、知网、微博话题信息文本分析(孟雪井、孟祥兰、胡杨洋,2016)以及东方财富网股吧的评论数据(孟志青、郑国杰、赵韵文,2018)等都有作为直接代理变量衡量投资者情绪指标REF_Ref15290\r\h[10]。3.理论应用及成果凭借着文本分类技术的快速发展与进步,金融学领域的文本分析效率得到大幅度的提高,利用文本挖掘技术精炼非结构化文本数据,机器学习在文本分析上的应用是十分热门的课题。通过解析人们的评价和言论获取的文本数据,可以用于刻画关注度、情绪或语调、可读性、新闻隐含波动率和意见分歧等方面。文本信息的来源多种多样,从虚拟网络社区的发帖与跟评,消费者对产品的评价,上市公司经营报告,电话录音文稿,分析师研究报告,会议纪要,由央行等政府机构发布的权威报告等等都属于文本大数据的范畴。在信息浩如烟海的时代,由于文本数据搜集难度与成本都较高,加上文本含义丰富,表达意味多样,传统数据收集方式搜集效率逐渐下降。而随着文本信息从传统收集方式向互联网传递介质的方式转变,文本数据收集和传输成本有了更为简便有效率的途径,网络词库的规模不断得到补充和丰富。模型训练也让庞大的数据文本得以被发掘出其深层涵义,为计算机领域的自然语言处理方法提供了适合的发挥空间。传统数据需要经过系统性的组织和安排来收集,常用的经济和金融领域数据多需要一段时间的累积才能形成其结果,而文本大数据的频率可以高达秒级,面对这为高频研究提供了数据基础。针对文本数据的分析能够更清晰判断用户的喜好。文本分类中的一个关键问题是特征表示,它通常基于词袋模型,其中unigrams、bigrams、ngrams通常被提取为特征。此外,几种特征选择方法,如频率、MI、PLSA、LDA被应用于选择更具鉴别性的特征。然而,传统的特征表示方法往往忽略了文本中的上下文信息或词序有时可能对于文本含义的把握出现偏差,这就需要循环神经网络构建更长的文义依赖关系。未来几年,在经济和金融领域运用文本大数据研究方面,将开拓更为丰富的数据源,通过训练与分析筛选更适合的机器学习模型、改良深度学习方法来优化文本数据的分析效果,提高模型准确度与预测能力REF_Ref27451\r\h[12]。由于文本数据不可避免的带有发出者的主观情绪意图,数据也存在情绪色彩,可能对研究产生偏差,此外无监督学习过程也相对复杂,文本数据是否能够准确反映所研究的潜在内容,需要更多研究。一、相关理论分析与应用网络文本对情绪的反应近年来,关于情感分析的研究工作得到许多关注,近年来,关于情感分析的研究工作得到许多关注,相关研究人员在文本情感分析方面经过了不懈努力,取得了较大进步。文本情感分析,是对带有海量数据文本分析处理,挖掘意见,探究情感倾向并预测其变化发展。随着现代科技的迅猛发展,互联网社区交流成为网络用户的新型交流手段,虚拟空间往往让人们能够更直白地表达自己的情绪。投资者情绪指数的构建,关键在于选择合适的搜索关键词集,能够准确全面地反映投资者的心理特征。网络的虚拟性使民众选择网络平台展现自己的情感,网民的发言真假难辨,有时候许多非理性的情绪更容易借由网络不断传播,对网络社区用户心理产生影响。针对网络舆情的动态分析可以观察到相关情绪变化趋势,对于社会舆情关注有很大作用。计算机量化金融行为的发展随着计算机技术的发展,分析繁杂的金融数据并探索相关规律有了更高效的金融量化分析手段REF_Ref31336\r\h[5]。热门的机器学习、深度学习、人工智能、数据挖掘等方面都有不小的应用前景。在预测股票市场发展的可行性方面,孟毅等人(2009)通过用BP神经网络预测股价模型,证明合适的网络模型结构是可以对股票市场进行相对准确的预测孟毅,吕渭济.基于BP神经网络的数据挖掘及在股价预测中的应用[J]孟毅,吕渭济.基于BP神经网络的数据挖掘及在股价预测中的应用[J].现代计算机(专业版),2009(02):106-108+126.针对金融市场出现的诸多不确定因素以及投资者的心理因素变化,文本大数据分析可以用来对投资者的情绪,波动程度,文本数据变化进行度量,对于定量分析投资者情绪和投资市场舆情状态都有很多帮助,循环神经网络在文本分析中已经得到了较为广泛的运用并取得了一定的成效。传统情感分类方法有基于情感词典分类以及基于机器学习分类两种。传统的基于情感词典分类要求模型先记入基本的表达文本态度情感的词汇并判断其情感,使用训练后的情感词典进行后续分类的使用,不同领域中某些字或词汇可能有不同的含义,例如“绿”、“熊”等字在投资中往往与亏损等消极因素联系。基于机器学习分类则是选出一部分积极语料与消极语料交给模型学习,再通过训练得出分类规则,获得训练后的标签结果来对测试集进行情感预测,其分析的准确程度会受到情感词典的质量以及词典文本覆盖度的影响。机器学习需要对文本分类进行标注,如将褒义文本标注为1,贬义文本标注为0,将文本含义划分为积极文本与消极文本,这样的标注方法更贴合读者对于文本含义的评价,此外,在一些社区也可以用星级评价,“赞”、“踩”,转发等行为来判断网络用户的情感。分词统计需要构建特征词矩阵,将特征向量化,而一些行业中专用的词汇也需要特别留意,并将其加入词典。机器学习依赖高质量的数据集,需要高质量的特征构造与提取,这对于数据集质量提出了一定的要求。而深度学习方法将需要分类的评论语料转化为词向量,通过不同的资料语义文本组织和数据合成的分析方法,得到基于相应语料文本的评论特点和语义表达式,最后通过深度神经网络对其语料进行了综合分类,并输出评价结果。而深度学习往往需求文本数据量相当大,有时在数据搜集上较为困难。神经网络量化文本情绪的发展情绪分类是通过提取文本语料中的情绪要素,并利用之前训练好的分类模型,将其划分到之前预定义的情绪类别中。这项技术可以应用于帮助公安机关准确掌握社会情绪动态,为后期实现对网络舆情的监控、预测和管理提供支持。在以往的研究中,针对文本情绪分类的研究大多集中在正负向的情感分类中,并且取得了一定的成果。近年来,对于文本语料的情绪分类逐渐成为自然语言处理领域的热点问题。随着深度学习理论的不断发展,文本分类的研究重点逐渐转移到了对于合适的神经网络的分类模型的研究上。中文情绪分类已经成为自然语言处理领域的热点问题。互联网评论信息通常为短文本,受字数的限制,往往内容简短、且直接表达含义REF_Ref27451\r\h[12]。中文属于象形文字,它的表达单元虽然也是词,但是却以两个或两个以上的多字词为主,词与词之间没有固定的分隔符,边界非常模糊,在不经过分词的情况下,计算机很难准确识别中文词语的具体含义,也就无法准确完成情绪分类的任务。因此,对语料的分词是否准确是影响模型最终分类效果的一个关键因素。二、分析模型的选择与组合(一)模型选择传统的神经网络模型并不能做到长期保留之前学习的内容,或先前的事件推断后续的事件,随着传递时间的逐渐增加,后获取的信息对于整个模型的影响弱于先进入的信息。RNN解决了这个问题。RNN是包含循环的网络,允许信息的持续输入输出和长时间的分析与记忆。本文的分析模型选择以RNN类型的模型,而LSTM模型(LongShort-TermMemory)属于时间递归神经网络(RNN)的一种。LSTM模型相对于它的前身RNN模型,LSTM模型也具有神经网络的重复模块链,多个模块则分别具有不同的结构类型。与神经网络的简单的一层相比,LSTM拥有四层,这四层以特殊的方式进行交互。LSTM能够将一段拥有较长文字内容的文本向量读入并分析,避免了因上下文分析缺失导致的情感判断失误。适用于一些表达含蓄,正话反说等类型文本。RNN模型一样具备递归连接,而LSTM模型能够有效针对长序列训练过程中的梯度消失和梯度爆炸问题,而这是传统RNN模型不具备的。LSTM模型的优势长文本分析领域深度神经网络被广泛应用于复杂文本分析,但随着深度的增加,也容易导致出现梯度的消失与发生梯度爆炸等问题。梯度消失的主要因素在于深度的神经网络以及反向传播,数据在较长的传播过程中由于其权值过小导致文本数据误差逐渐减小。为了更好地优化分析模型,寻找到最简单的损失函数及其最低值,我们通常需要考虑梯度消失下降的途径,而这种梯度消失往往是在两种类型的情况下较容易发生的:深层神经网络以及选择在其模型中都选择了不适合的损失函数。梯度式的爆炸通常会发生在深层网络以及权值的初始化取得阈值过高的条件下,文本数据误差越发增大。综上所述,相较于普通的RNN模型,LSTM模型能够在较长的文本序列分析中有更好的表现。LSTM的门结构图SEQ图\*ARABIC1LSTM细胞结构图LSTM模型具有输入门,遗忘门,输出门等结构,LSTM的关键就在细胞状态的更新,即过程Ct-1→Ct,细胞状态类与传送带相似,直接在整个链上运行,仅仅少量的线性数据进行交流,这使得细胞信息便于保持。LSTM通过其这种独特的被称为“门”的结构,拥有了增加或去除细胞状态上的信息的能力,能够有选择性地处理相关信息REF_Ref30201\r\h[13]。其结构组成中文本数据依次遗忘门,输入门细胞更新状态和输出门,传递到下一层。表SEQ表\*ARABIC1LSTM的结构与原理结构名称原理结构公式遗忘门决定从上一层细胞状态中丢弃哪些信息,主要通过一定的遗忘概率来判断是否要遗忘上一层的细胞隐藏状态。ft=输入门σ:通过输出一个[0,1]之间的概率值决定通过的比例Wf::记忆单元遗忘上一层细胞状态的概率xt:当前时刻输入值ht-1:上一时刻输出值细胞更新状态决定t时刻细胞内容CtC输出门是否将当前时刻xt输入细胞状态Ct图SEQ图\*ARABIC2LSTM模型图图SEQ图\*ARABIC3GRU模型图LSTM和GRU是解决短时记忆问题的解决方案,都有多个信息输入渠道。它们具有称为“门”的内部机制,可以调节信息流,在学习过程中,他们能只保留相关信息来进行预测,并忘记不相关的数据。门的概念类似于tanh双曲正切函数tanh双曲正切函数tanhx表SEQ表\*ARABIC2GRU模型结构更新门决定了要忘记哪些信息以及哪些新信息需要被添加。重置门重置门用于决定遗忘先前信息的程度。LSTM的层级LSTM可以设计多层结构,将上层输出数据作为下层输入数据读取并使用,如在大规模翻译中,简单的堆叠LSTM层最多可以工作4层。深度堆叠的LSTM通常比较浅的模型提供更好的精度。然而,简单地堆叠更多的LSTM层只适合一定数量的层,超过一定程度,就会加重训练网络时的负担,导致训练效率下降。TextRNN与LSTM的结合在这里我利用TextRNN提取文本信息并分类,TextRNN模型可以对不同大小的局部文本数据进行提取,将LSTM模型与TextRNN模型共同运用,取得的文本特征既有局部特征,同时还有全局特征。Sklearn结构可以使用LSTM或GRU单元结构,在层级上可以建立单向或双向的LSTM并将双向LSTM每一个时间步长上的两个隐藏状态拼接在一起,也可以在单层LSTM每一个RNN核后添加dropout层以防止过拟合。此外在训练过程中,如果出现一段时间拟合后,精确度不再提高的情况时,停止拟合以节约时间资源。图SEQ图\*ARABIC4TextRNN相关参数的配置如图4为TextRNN模型中设置的相关参数,建立2层隐藏层,每层128个神经元,设置dropout保留比例0.8,学习率0.001,一次训练选用128个样本,总迭代20轮次。每每100轮输出一次结果,每进行10轮将数据存入tensorboard。三、基于LSTM模型的运用数据获取数据来源评论文本数据来源自东方财富网上证指数股吧的评论数据。股吧数据所代表的用户主要是投资活动的积极参与者,该网站重要指数股吧往往具有更多的关注数,作为中国金融市场重要参考之一的上证指数知名度高,其股吧用户基数大,用户质量相对较高,因此爬取该区域获取投资者情绪较为有效率。将网页按发帖时间排列。检查网页源代码后发现股吧评论标题存储在div元素类名articleh下,据此编写代码获取该元素下的内容。数据预处理读取网络爬取所获得的数据,将文本进行切词,分段,移除无关数据,删除缺失数据、清除不需要的html标签,统一文字,删除与用户情绪无关数据,删除无用字段,文本分词,去除停用词,统计选择特征值等等,将数据汇总,存入csv文件,以utf-8编码。使用了Word2Vec词向量模型将评论文本转化为向量。Word词嵌入缓解了词语含义稀疏的问题,能够捕获有价值的文本含义。Word2Vec的把自然语言中的每一个词,表示成一个统一意义统一维度的短向量。它的工作过程属于单词聚类的方法,能够实现单词语义推测、句子情感分析等目的,适用于序列数据的处理。它的本质其实是简单化的神经网络模型。经过一系列整理后,从2021年3月1日起在上证指数股吧获取了约1000条符合条件的数据信息,去除多余的标签后存入文件。从图2中的节选部分评论数据就可以看出,股吧用户的评论数据有很多专有俚语或行业术语,这些词汇在投资者群体中往往起到词义简明但内涵丰富的作用,相关专用词语也是在分析过程中不可缺少的部分,在使用情感词典进行分析时就需要将相关词汇的含义载入,在使用人工判断语义情感的机器学习模型时,则会对于分词者的相关行业知识储备有一定的要求。数据保存与划分将所获取数据的70%划为训练集,30%划为测试集。本论文代码部分使用python语言,其中所运用的代码库有Numpy和Pandas,选择了Tensorflow,keras深度学习相关框架并使用了tensorboard将模型结构与分析结果可视化REF_Ref2366\r\h[7]。文本特征的标注上,用0标注消极情感评论,1标记积极情感评论,用sklearn随机选择评论数据进行划分,获得测试集与训练集。使用requests和BeautifulSoup两个库,并将requests进一步封装成根据url获取HTML的函数。使用User-Agent,运行程序获得爬取结果,保存数据存入csv文件。表SEQ表\*ARABIC3函数表函数名功能build_vocab(train_dir,vocab_dir,vocab_size=5000)根据训练集构建词汇表并存储read_vocab(vocab_dir)读取词汇表read_category()读取分类目录(积极、中立、消极)batch_iter(x,y,batch_size=64)生成批次数据图SEQ图\*ARABIC5部分评论数据节选文本情感评价将所获取的原始评论文本切分保存后,我首先是搜集了投资相关的专业知识与术语,,有一定的投资相关知识积累后,参考其他针对投资者的情绪分析研究文献中的投资者情绪正负性划分逻辑规律,用人工标记投资者情绪正负性划分逻辑规律,建立一个关于投资者情绪词典,但其精准性可能会受到一些主观因素的影响较大,而且效率较低。之后我再次调用了百度的情绪分析api对情绪的正负性进行分析,通过调用它的api就已经能够很好地实现对情绪的分类,其效率与准确度较为理想。文本特征提取文本特征提取要求将原始文本结构化,抽象为数学向量组以便计算机进行分析。使用Word2Vec对分类文本进行预处理和特征提取。Word2Vec可以将词语嵌入一个数字空间,把一个词语转换成对应向量形式。在运用TextRNN前,一般要制定固定长度的文本序列,我使用了<pad>标签将文本长度固定为同一水平,对过长的文本向量进行分词,提取关键特征。TextRNN是专门用于解决文本分类问题的循环神经网络,其后一前一步时间输出为后一步时间输入,能够很好地保存序列中的长距离依赖关系,用深层卷积以捕捉长序列信息。TensorFlow具有多层级结构,在创建深度学习网络时对数据进行数值和图形计算。借助TensorFlow深度学习框架,设计实现了基于LSTM-TextRNN的中文短文本情绪分类模型。图SEQ图\*ARABIC6TextRNN结构模型结构建立关于模型分析思路,即模拟将LSTM模型用于分析股票市场行情对投资者产生情绪的影响,预测未来趋势。模型分析流程及所经过的主要步骤有:选择建立合适的深度学习框架,使用Word2Vec将文本数据转化为词向量,建立深度学习模型进行训练与测试,对模型进行优化,防止过拟合现象发生。图6学习模型全流程检验指标的选择我选择了二分模型指标作为检验参考指标。混淆矩阵(confusionmatrix)的结果类型一共有以下四种:TP,TN,FP,FN,其中(TP+TN)为估计中正确的估计结果。图SEQ图\*ARABIC7混淆矩阵的四种结果类型图SEQ图\*ARABIC8模型准确度分析指标计算公式表SEQ表\*ARABIC4模型准确度分析常用指标precision精确度recall召回率f1-scoreF1率Support支持度Accuracy准确率macro_avg宏平均weighed_avg权重平均四、分析结果与检验载入训练集载入训练集与验证集,验证每一批的准确率,训练集数据经过一定次数拟合,当次数达到一定数额,精确度达到最高值且经过一定轮次后并未提升,提前结束训练。写入输出的结果。此时TrainLoss为0.078,准确度从57.5%提升到98%。Valloss从1.1降低至0.078。图SEQ图\*ARABIC9使用训练集的训练过程载入测试集使用测试集数据将训练好的模型及其效果进行预测,测试集数据分析结果如图所示,积极或消极数据的精度、召回率均达到相当高的水平,而中立评价因为数据量较少,精度等情况逊于其他情绪的精度。图SEQ图\*ARABIC10测试集的模拟结果.模型的准确性检验使用Tensorboard可视化工具可以查看训练集精确度和损失率的发展情况。较于普通的神经网络模型,LSTM模型对股票时间序列的预测更优,其通过门的使用学会对信息的适时记忆和遗忘,更有效地吸收了有用的数据。在平滑度0.6时,准确度约95%,损失值约0.1。图SEQ图\*ARABIC11Tensorflow计算图模型优化策略与结果不同于传统的监督学习方式,LSTM是一种自回归模型。通过改变LSTM网络的结构,例如加入autoencoding层,可以扩展特征维度。另外,LSTM在预测方面还可以加入除了时间外的其他特征以优化预测结果。图SEQ图\*ARABIC12tensorboard查看训练集精确度与损失率如果使用时间序列分析投资情绪时可能会出现逻辑上的漏洞,由于投资行为是一个连续性的时间过程,这意味着划分训练集的数据不能采用随机抽取的方式划分,从常识和逻辑上来思考,即昨天的投资者不能根据明天的投资情况和市场状态来决定他的投资行为。基于lstm网络的架构,我们可以对其进行调节并加入多种特征,这一定在很大程度上将存在的问题改变为一个监督学习问题。也能够对多种特点进行预测。此外在模型精确度增强方面,可以考虑使用多层LSTM模型,或对模型结构,层级进行优化以提高准确度和预测能力。一般LSTM模型使用层数为4层或6层,层数过多并不会对分析精确度有正向的帮助。模型成果总结从模型结果中我们可以看出,LSTM模型结合TextRNN针对股吧数据的训练集进行学习,将学习后的模型用于模拟测试集,经过多次验证后模型准确度达到95%。可以认为其准确度较高,具有一定的预测能力。结论(一)模型优势与不足文本情感分析的分类对象是有一定长度的词语序列,而文章则是由一段段词语序列组成的。文本的情感有时不能只看单个词汇的累计,也要考虑词组与词组,前文与下文的关联。LSTM模型将一整段话视为一串文本序列,这是因为相较于与RNN模型,LSTM模型可以用于长依赖的文本分析,通过设置LSTM的遗忘门逻辑,可以学习只保留相关信息来进行预测,并忘记不相关的数据,遗忘门的设计强化了模型的排除无用信息的能力,多层的细胞状态可以用于保留先前的特征数据。相较于传统的文本分析法,LSTM取得了很多进步:首先是LSTM的结构优势,其细胞状态以及多输入渠道是LSTM具有持续文本学习,联系上下文能力的保证,其引入遗忘门的结构机制可以在学习过程中准确识别出无意义的停用词并将其抛出学习过程,从而将更多的有价值文本吸收进入模型,从而提高模型的准确度。从相关遗忘函数的选择上也可以对于保留程度进行一定的调整。但是在模型内部的参数更新、模型优化上依旧有很多值得提升的地方。一种提升方法是使用双向的Bi-LSTM模型来代替原有模型,从而更容易找到损失函数的最小值并提高准确度。另外,在文本情感的分析过程中,交叉熵常被视为损失函数的一个好的选择。在迭代过程中,损失函数值越小,一般代表着模型的效果越好,但是这并不意味着损失函数值越小等价于模型的准确率越好。从理论上来说,在损失函数的说明中,提到的是损失函数值越小,模型最后得到的数据分布越接近数据的真实分布。如何在这一前提下,让模型更有效率、更有目的性地进行更新,原生的LSTM模型中并没有考虑到。因此关于该模型的优化提升还有很大的探索空间。例如研究过程中可以看到LSTM-TextRNN模型的accuracy值在95%左右。(二)研究过程的反思东方财富网页在反爬取设计上较强,在我利用Python进行网页爬取时不可避免地遇到了一定的困难,由于设备不足和技术原因,我放弃了多线程爬取,选择了降低爬取速度处理,进行多次爬取活动,效率较低。不同的股吧帖子,投资者的关注度是不一样的,关注度越高则股吧帖子的浏览量和讨论量越大,因此可从每一条帖子对应的阅读数量和评论数量中提取投资者的关注度作为权重,加入到标题得出的投资者情绪中来构建当天的投资者情绪指数。另外对于文本分析而言,表示情感极性和程度范围的字词也需要多加注意,比如不仅仅考虑情感词前面一个词语是否是否定词或程度副词,使得所构建的投资者情绪指数更合理和客观。此外在研究过程中我使用sklearn库中的相应函数计算准确度,精确度,召回率等指标,生成随机数种子用于划分训练集,这样的划分方式可能对于标签分布不均匀的样本存在较大的偏差。最后针对LSTM模型,应继续进行合理的参数调节和模型优化,使得模型具备一定的泛化能力和稳健性,且应尝试更多适用于股票市场的时间序列分类模型的变体和拓展模型,达到提升最终预测准确率的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 3 雨的四季2024-2025学年新教材七年级上册语文新教学设计(统编版2024)
- 2023一年级数学上册 六 20以内的退位减法 实践活动:环保小卫士教学实录 西师大版
- 6我家的好邻居(教学设计)-2023-2024学年道德与法治三年级下册统编版
- 优异小学综合实践课教学设计《筷子的文化》
- 5 椅子不简单(教学设计)-2024-2025学年二年级上册科学教科版
- 5的乘法口诀(教学设计)- 2024-2025学年二年级上册数学人教版
- 12《低碳生活每一天》地球“发烧”了(教学设计)-部编版道德与法治四年级上册
- 2015人教版九年级历史与社会下册:第五单元第二课第一框《美国成为超级大国》教学设计(萧山区瓜沥镇第一初级中学)
- 2024-2025学年高中历史 第一单元 梭伦改革 第1课 雅典城邦的兴起(1)教学教学实录 新人教版选修1
- 2024-2025学年高中化学 第2章 第4节 分子间作用力与物质性质教学实录 鲁科版选修3
- 2025河南中烟安阳卷烟厂一线岗位招聘14人易考易错模拟试题(共500题)试卷后附参考答案
- 历年考研自动化复试面试试题汇集
- 眼科手术学基础
- 多晶硅大型还原炉装备项目可行性研究报告建议书
- 2025年高考作文备考之模拟试题:“自塑”与“他塑”
- 2024年黑龙江农业工程职业学院高职单招职业技能测验历年参考题库(频考版)含答案解析
- (完整版)高考英语词汇3500词(精校版)
- 2024年常州机电职业技术学院高职单招语文历年参考题库含答案解析
- 湘教版七年级数学下册第二章实数教学课件
- 电工基础知识培训课件
- 2024年全国职业院校技能大赛高职组(智慧物流赛项)考试题库(含答案)
评论
0/150
提交评论