结题材料-池海报告_第1页
结题材料-池海报告_第2页
结题材料-池海报告_第3页
免费预览已结束,剩余5页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,复杂的机器学习算法中有使用SVM,BP等等,甚至使用的Deeplearning的。他们的正确率普遍集中于50%到60%之间,也就是说,并没有取得十分优异的成果。令人觉得奇怪的是,并不是越难越复杂的算法所能取得的最终正确率就会越高,例如Deeplearning这样机器学习中级 ,研究内容及方支持向量机(SupportedVector,支持向量机是一种机器学习的分类方法,所针对的研究对象是Rn中的一些点。将训练数据点放在一个n维的直角坐标系当中后希望找到了一个n-1维的平面将这些点一分为二,并数据放入n ,用数学语言来表达,可以将训练点集设

)|

Rn

ii其中xi代表所为某一只选取的一些指标,所形成的feature向量,yi代表这只股ii xbxb xb xb,来表示,由于法向量的模长并未给定可以通过等比例放缩法向量和平移参数b来使得等是,d因此需要最小化法向量的模长,同时需要保证这两个平面之间没有其他的样本点存在,xib

b,这样的一个最小化问题,是数学中二次规划的一个问题,用数学语言来表达现在所需,i

,yi(2

b)通过数学计算,可以得到最终的结果niyixii1n向回追溯法(Back脑袋中的神经网络一样。BP1的应用中如果以一只某一天最终的收盘价格相较前一天的收盘价格是涨还是跌作为负,则是跌。而需要有一些feature来进行评估,如果为这样的一个输出找了100数,和每一个中间层的节点个数,都是需要在训练中所训练出的参数。BP,, 可以将这个误差进行反向,这就是所谓的向回追溯(如图2),通过误差的反向可以在每一个位置上进行权值和阈值的调整,了改变。进行完一次迭代之后,再次将feature作为输入,在进行向前追溯,在得到一个误网络的权值和阈值得以收敛,就得到了训练完成的一个网络。,,,终的结果,如果在最开始的时候将训练数据的最终输出令为1和-1(涨为1跌为-1),那么最终运试数据的时候就可以将正的输出看作是涨,负的输出看作是跌,来进行最终的,,这里需要注意的是在训练阶段需要首先将训练数据分为两批一批作为训练时候参数收敛使用另一批作为训练时候的测试使用具体实现的时候需要手动设定中间层的数和每一层的节点个数,并通过使用训练数据中的第一批数据使得这样一个拓扑结构的网络收敛再通过第二批训练数据中的测试用数据评价这样一种拓扑结构的网络的表现最终所(表(正确率再在其中选取表现最为优秀的拓扑结构采用这组拓扑结构的参数和训所得的参数进行最后的测试实验得到最终的正确率。,K平均算法的过程较为简单,首先从测试集当中随机选取k个,将他们作为k个分类的中心点和均值点,然后遍历测试集合中的所有点,找到它离k个点中的哪个最近,就归属于这一分类,最终得到k类。在计算k类中每一类的平均值,作为新的中心点,再重新对所有点进行分作为这一数据点的结果,并计算最终的正确率。K平均方法中唯一的参数就是k,也就是聚与向回追溯法相同的是,K集和评价不同参数模型表现的试数据集通过第一部分的训练数据使得每一类的中心点收敛。经过多次试验,在特征的选取方面,决定将t定为10,也就是使用n-10天到n-1天的的参数来地n天的收盘价相对于n-1天是涨还是跌所选取的feature分别为相对强弱指标,指标,随机指标,收盘价,成交量,成交金额,平均收盘价等。通。也就是说,最终的模型当中的输入是110维的,k平均方法和SVM中点的坐标和所在空110,BP110选取了沪深300指数中的300支作为研究对象通过交大本身的数据库获得了201420122013所能够掌握的数据,是12年的65617组数据和13年72132组数据。12年的数据作发现不业的的情况可能不尽相同,所以所有的都按照行业进行分通过对于支持向量机的训练和测试,得到最终的结果(见表一均正确率,发现最终的正确率都能够达到50%以上,说明了的准确性尚可。,现在这一算法中,由于层数过多可能导致参数过多,最终使得训练过于决定将中进行了所有和分行业的两种计算方法,在所有一起进行的实验中得到的结果如下,最终正

设置 各层节点个 80行业签最正确第一层结点数第二层节点数第三层结点个A7B8CD9E4F7GI9JKLNRSBestNo.ofCrossvalidationABCDEFGIJKLNRSKK平均算法中,也同时进行和在一起的和分行业的计算,得到的最终结果如表,,,,,通过对实验数据,处理(进行0-1正规化),分为训练集合和测试集合,放入模型进行,得到了最终的结果,基本上都能达到50%以上,无论是所有放在一起训练还是分行业进行训练。然而这几种算法还仍然有待改进,例如对于向回追溯法可以尝试更数的计算,也可以通过使用新的更加高级别的算法进行尝试。同时,对于最终结果的判断,类。由于可以得到最终的值就可以把这个值作为最终涨跌幅度的值,并与真实的涨跌幅度值进行拟合,通过拟合的拟合度作为最终评价模型的标准,将会更加切实有效。同样的也可以模拟真实的交易,例如可以通过算法得出后一日涨幅最大的是指,通过一定的风险分析来得到对这是指的投资组合更新,计算一定天数之后的盈亏率。再另外还可以通过本身feature的不同选取方式进行分析,来得到选取feature的方法,毕竟,通过对前人的研究,发现,决定最终实验结果的,并不一定是算法的复杂性,越简,,,,,①Blei,D.,Ng,A.andJordan,M.2003.LatentDirichletallocation.JournalofMachineLearningResearch3:993–1022.②Bollen,J.,Mao,H.N.,andZeng,X.J.2011.moodpredictsthestockmarket.JournalofCom-puterScience2(1):1-8.③MukherjeeA.andLiu,B.2012.Aspectextractionthroughsemi-supervisedmodeling.InProceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics(ACL-2012).。写成这篇文章非常匆忙,在匆忙当中会有一些和措辞的确请见谅。参加prp可以说是我第一次接触科研,感

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论