




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、AI时代,我们在金融投资方面做了这些尝试金融科技的到来,不仅代表着技术上的飞跃,更是对金 融服务模式的颠覆和创新。 随着AI的发展和普及,量化交易 也步入了智能交易的新高度。金融投资的核心在于追求收益, 而人工智能的分析和预测能力恰如其分地满足了投资的要 求。让我们就AI在金融投资方面的应用进行设想:证券长 短期价格区间的预测量化策略模型的研发(高/低频)证券的择股和择时的优化大类资产的配置证券投资组合的 优化证券风险特征识别机器学习分为浅层机器学习和深度学习,传统的浅层学习中 决策树、朴素贝叶斯、支持向量机和浅层神经网络等等也都 是金融工程中常用的一些方法。作为金融科技的开拓者,恒 生研究院
2、就人工智能在量化交易领域进行了一系列的创新 尝试。基于小波神经网络对时间序列进行预测人工智能有监 督机器学习的模式中,有两大类学习模型:分类和回归预测, 而在金融投资或者说量化交易中,对于时间序列的预测最为 直观。小波分析是指通过高低频通道来将时序数据分解为高频部 分和低频部分,进行多尺度细化分析,目前对于时序/频域的 预测已经取得了一些有意义的成果。将小波分析和神经网络结合起来,构建小波神经网络( Wavelet Neural Network , WNN),可以对时序数据进行预测分析。WNN是将神经网络隐节点的激活函数由小波函数来替代,相应的输入层到隐 含层的权值及隐含层的阈值分别由小波函数
3、的尺度伸缩因 子和时间平移因子所代替,这是应用最广泛的紧致型结合。如下图所示我们用小波神经网络做的HS300的预测,使用2010.12015.8 沪深300指数的日行情数据进行模型训练, 使用2015.92016.8的日行情数据进行测试验证。有监督的学习要取得较好的应用效果,具和机器学习的训练过程直接 相关。这一过程中还是要投资者较深地介入数据的预处理, 进行培训数据样本的特征标签标定或对训练规则给由方向 性指引。通常量化交易的团队资源要更深入地去发掘更好的 特征。因此,人工设计样本特征,不是一个容易的可扩展的 途径。上面我们判别市场短期走势的案例中,所定义的特征 是否合适?我们也比较难评判,
4、也许会有更好的特征可以刻 画证券市场的走势。 让机器学习帮我们找到合适的量化策略市场千变万化,很难找到合适的特征去进行机器学习,那么 是否我们能通过机器学习的方法去寻找合适的量化策略,替 代自己总结的方式呢?技术指标千差万别,股票市场价、量、时、空的数据也是海 量的,在这样庞大的数据基础上,寻找和优化量化技术指标也是比较困难的。基于进化理论的遗传算法可以较好地针对 预定问题,用解决全局最优解的方式寻找性能瓶颈,在对传 统技术指标因子和基本面因子进行交易信号的整合上,也可 以发挥很好的作用。通过遗传算法可以获得在训练集上较好 表现的量化技术模型,虽然遗传算法得到的是类似黑箱的量 化技术模型,但模
5、型背后隐含着关于时间序列的深刻的数学 含义。上面这个就是机器通过遗传规划的方法,寻找由来的 模型。训练集我们采用了 20062010的数据一一深100ETF , 通过机器训练,系统能够找到胜率在 70%、盈亏比接近6的 策略,策略的年化夏普率超过了1.5。为了考察策略的泛化能力,我们采用2014.12016.8的深100ETF数据进行测试验证。下图是在20142016的测试集 上的效果,发现测试能力还是具备一定的可验证性。在测试 集上的年化夏普率甚至超过了2。为了进一步考察模型的泛化能力,我们使用 50ETF的数据 进行验证,50和深100在走势上还是有较大的差异的。上面是50ETF的测试效果
6、,虽然比 100ETF要差,但还是 可以接受的一种模型。后续,我们希望将“遗传算法在量化技术指标的优化”这一应 用成果形成智能策略服务平台,为广大投资者提供适合自己 投资风格的量化技术模型。从图像中识别证券发展趋势图形属于非结构化数据,传统的金融工程很难运用非结构数 据。利用图像识别的方法,将图形数据应用于 CNN学习网 络是否是一个可行的量化分析方法?盘感好的高手可以通 过看K线图,用较难量化的模糊模式识别由证券未来的走势 可能。围棋为什么难?因为它需要人类通过直观判断盘面而进行 行动,和投资者根据 K线图进行投资行为很相像。那么,是 否也可以通过 CNN的方法,让机器自己从这张图中提取由
7、有用的特征?为此,我们应用了标普500从1962年到现在的13768个日K线数据,生成120根K线加20、60、120、 240的均线,和成交量的1366张图片以及20根K加各均线 的6000多张图片,对 CNN进行训练。最终,120天K线 数据图片识别未来10日收益率的10分类胜率只有30%左 右,20天较短周期的K线图识别胜率在40%左右。虽然top5 的胜率是接近95% 了,但如果简单做成2分类,目前看没有 比传统的金融工程方法更优,或许几千张图片对于深度学习 来说数据量也还是欠缺。心得:那些在机器学习训练中的技 巧人工智能应用于预测和分类中最棘手的问题就是对于历史 数据的“过拟合”。“
8、过拟合”的表现是模型在训练集上表现得非 常好,但在不同于训练集的测试数据上则表现较差。如果把 模型在训练集和测试集上的模型精度画一个图,会发现随着模型训练的迭代,在训练集上的精度会不断提高,但在测试 集上的精度是先逐渐提高,后来却随着训练的进展而不断下 降。解决模型训练的过拟合,首先就是early stopping ,即在每一个epoch结束时计算测试集的模型精度,当精度不再提高时,就停止训练。这是很自然的做法,因为精度不再提高, 训练下去也没用;其次是数据的扩充,避免过拟合最根本的还是需要海量的 训练数据,数据能够覆盖各种各样的场景。并通过随机洗牌 来减少数据之间的自相关性。当然海量数据本身
9、的获取和特 征化提取,也是一个非常困难的事情;再者是模型连接和惩罚项参数的调整,如正则化和DropOut/Drop Connect ,这两者其实本质上是简化深度神经网络 模型的复杂程度,为使模型具备一定的稀疏性,刻意地将代 价函数加上惩罚项,以及减少深度神经网络模型的连接。通 过简化机器学习的模型,的确可以避免模型过分依赖于训练 集上的数据表现;最后则是学习速率和梯度下降参数。关于梯度下降,这方 面有Momentum、NAG、AdaGrad 等各种优化模型,实践 中基本采用Mini-Batch的随机梯度下降方法。另外,怎么粗略地确定一个比较好的学习速率呢?好像也只能通过尝试。可以先把学习速率设置为较小值,然后观察training cost的走向,如果cost在减小,那你可以逐步地调大学习速率,如果cost在增大,那就得减小学习速率。经过一番尝试之后, 可以大概确定学习速率的合
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025物流服务合同协议书样本
- 2025排水系统修复工程合同
- 2025签订汽车租赁合同的注意事项
- 2025汽车维修服务合同模板
- 2025年度资产转让合同样本
- 2025简易装修房屋租赁合同
- 2024年膨化硝铵炸药项目项目投资申请报告代可行性研究报告
- 2025商业大厦办公室租赁合同模板
- 2025塑胶制品购销合同书样本
- 2025物业营销中心装修合同
- Mayo肘关节功能评分
- 2014—2015—2《刑法总论》教学大纲(修正版)
- 《焦虑症基础知识》PPT课件.ppt
- 基于钻石模型的南通纺织产业竞争力分析
- 多肉植物生长观察日记小报
- 华锐SL1500风机发电机及水冷系统故障及解决对策
- 关于更换老师的申请书范文
- 发电厂电气一次部分设计—2×300+2×200MW
- 基于深度学习的鸟类识别系统的设计与实现
- 实验室安全-电水气火的使用安全课件
- 【走向高考】(2013春季出版)高考物理总复习 模块整合课件 新人教版选修3-5
评论
0/150
提交评论