机器学习在投资中的应用学习教案_第1页
机器学习在投资中的应用学习教案_第2页
机器学习在投资中的应用学习教案_第3页
机器学习在投资中的应用学习教案_第4页
机器学习在投资中的应用学习教案_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1机器机器(j q)学习在投资中的应用学习在投资中的应用第一页,共18页。机器学习的应用(yngyng)场景01物理世界传感器3D建模机器(j q)学习 高性能计算(j sun)理解决策感知智能硬件机器人自动驾驶探索发现3D打印搜索广告证券互联网索引知识人人机交互第1页/共17页第二页,共18页。机器学习(xux)的演进过程是问题驱动、循环上升的01Linear / Non-Linear RegressionPerceptionLogistic RegNB ClassifierNearestNeighborsDecisionTreeNeural Network 1900s 1960s 1

2、980s - 1990s 1990s - Now 高 计算量需求计算量需求 低SVMRandomForestCNN / RNNDeep Learning垃圾邮件识别垃圾邮件识别(shbi)信用卡审批信用卡审批二分二分/多分问题多分问题推荐系统推荐系统用户分类用户分类医学医学(yxu)辅助判断辅助判断相对复杂的分类问题相对复杂的分类问题语音语音/人脸人脸/图像识别图像识别用户画像用户画像/衣食住行衣食住行高度复杂的决策问题高度复杂的决策问题第2页/共17页第三页,共18页。机器(j q)学习在金融领域的应用已覆盖风控、智能理财和投资01风险风险(fngxin)控制:信贷风险控制:信贷风险(fng

3、xin)、欺诈风险、欺诈风险(fngxin)、运营风险、运营风险(fngxin)数据维度和量级的提升,使得机器学习能更精准的识别风险数据维度和量级的提升,使得机器学习能更精准的识别风险(fngxin)智能化理财服务:智能投顾、个性化资产配置建议智能化理财服务:智能投顾、个性化资产配置建议用户行为数据的不断丰富,使更了解客户需求的智能理财服务成为可能用户行为数据的不断丰富,使更了解客户需求的智能理财服务成为可能量化投资:自动交易策略、新量化因子的挖掘、多因子模型的改进量化投资:自动交易策略、新量化因子的挖掘、多因子模型的改进量化投资领域是机器学习技术一个非常天然的应用场景量化投资领域是机器学习技

4、术一个非常天然的应用场景第3页/共17页第四页,共18页。量化投资是机器学习的天然应用(yngyng)场景01存在隐含(yn hn)模式无法简单(jindn)表达有足够数据存在系统性影响股价走势的关键因素无法表达或遍历所有的投资模式有多种时间维度多个市场的历史数据机器学习的先决条件证券投资的现实问题第4页/共17页第五页,共18页。百度互联网证券部应运而生,成为专注(zhunzh)于证券业务的科技团队026百度首个投资类垂直领域专业团队ToC产品:百度股市通机构产品:大数据、策略合作2015年,百度互联网证券事业部成立,专注(zhunzh)于证券业务。同时组建金融工程组和数据挖掘组,深挖百度大

5、数据的投资价值第5页/共17页第六页,共18页。我们从基础数据、投资因子和量化模型三个方面(fngmin)着手研究02基础数据非结构化+结构化数据 搜索数据(query、流量、点击、session) 全网网页数据/财经新闻 UGC数据(股吧、雪球) 交易所数据 公告及券商研究报告 其它结构化数据/数据库股票知识图谱投资因子对个股股价有影响的关键信息结构化存储 例如,公司产品、股东、行业上下游等相关信息生成独有因子,并对传统因子进行增强 独有情绪、关注度因子 独有各类预期因子(重组、并购、分红等) 机器增强的波动、成长、动量、财务因子等数据挖掘量化模型策略实验基于机器学习的因子综合和参数调整更智

6、能的组合配权方式及专门针对大数据的评估体系完全使用机器学习模型定义投资问题策略效果回测自动化、流程化、模块化策略输出多因子选股CTA择时机器学习模型策略第6页/共17页第七页,共18页。随着非结构化数据增加及可获取难度的提高,机器处理的优势(yush)日渐显现02特点:容易获取、分析举例:交易数据、财务数据特点:获取成本高、技术(jsh)门槛高举例:1. 公司公告、调研报告、券商研报:文本挖掘与语义分析技术(jsh) 2. 社交、热点、新闻、事件:大数据搜集技术(jsh)、非结构化数据结构化 3. 搜索日志、网络舆情:大数据处理技术(jsh)、舆情分析技术(jsh)消费数据、供应链交互、物联网

7、数据结构化数据(shj)非结构化数据多维数据第7页/共17页第八页,共18页。利用机器学习(xux)方法,可将数据加工为独特的投资因子02基于个股/行业(hngy)/板块/热点概念搜索量的关注度因子聚类算法:利用股票相近属性进行热点概念聚类基于财经新闻、券商研报语义分析的舆情因子NLP技术:语义分析,关键信息抽取和正负向情感判断基于机器学习技术提炼的经典量化投资因子Boosting技术:聚合高相似度的同类因子,提升因子贡献第8页/共17页第九页,共18页。百度大数据因子(ynz)与传统金融因子(ynz)相关性非常低02NetProfiNetProfitYOYtYOYNetAsseNetAsse

8、tYOYtYOYNetCashNetCashFlowOpeFlowOperYOYrYOYROEYOYROEYOYROEROEDividenDividendRatioTdRatioTotalotallogTotallogTotalMarketVaMarketVal llogFreeMlogFreeMarketValarketValTLToTATLToTA PETTMPETTMPEPEPBPBCurrenCurrentRatiotRatioYOYYOYCashFlowCashFlowOperPerVOperPerValuealueF1F1F2F2F3F3F4F4F5F5F6F6F7F7F8F8Ne

9、tProfitYOYNetProfitYOY 0.38 0.10 0.88 0.45 0.06 0.15 0.10 -0.02 0.04 0.02 0.19 0.07 -0.05 -0.02 0.04 -0.01 -0.02 0.01 -0.02 0.07 0.02 NetAssetYOYNetAssetYOY -0.02 0.20 0.57 0.23 0.31 0.17 -0.05 -0.01 -0.10 0.22 0.28 -0.04 -0.08 0.06 -0.01 -0.06 0.02 -0.04 0.00 0.01 NetCashFlowOperYOYNetCashFlowOperY

10、OY 0.11 0.07 0.03 0.03 0.03 0.00 -0.02 0.00 -0.02 -0.05 0.04 0.00 0.01 0.00 0.00 0.00 -0.01 0.02 -0.01 ROEYOYROEYOY 0.39 0.06 0.11 0.10 0.00 0.07 0.03 0.11 -0.01 -0.03 0.00 0.05 -0.01 -0.01 0.01 -0.03 0.07 0.00 ROEROE 0.46 0.39 0.26 -0.10 -0.15 -0.27 0.16 0.09 0.03 -0.13 0.06 -0.01 -0.12 0.02 -0.08

11、0.02 -0.03 DividendRatioTotalDividendRatioTotal0.27 0.19 -0.14 -0.20 -0.36 -0.32 0.05 0.20 -0.15 0.00 -0.01 -0.15 0.01 -0.15 -0.04 -0.12 logTotalMarketVallogTotalMarketVal0.84 0.16 -0.13 -0.16 0.01 0.03 0.10 0.14 0.56 0.00 0.17 0.01 -0.23 0.02 -0.04 logFreeMarketVallogFreeMarketVal0.31 -0.16 -0.15 -

12、0.10 0.06 0.23 0.26 0.63 0.01 0.27 0.01 -0.26 0.00 -0.10 TLToTATLToTA -0.23 -0.16 -0.15 0.00 0.57 0.23 0.31 0.01 0.22 -0.01 -0.07 -0.03 -0.10 PETTMPETTM 0.68 0.30 -0.03 -0.30 -0.05 -0.11 0.00 -0.07 0.01 0.12 0.08 0.15 PEPE0.35 -0.04 -0.30 0.01 -0.08 0.00 -0.01 0.01 0.13 0.09 0.15 PBPB 0.01 -0.52 0.0

13、0 -0.03 0.00 0.01 0.00 0.15 0.12 0.24 CurrentRatioYOYCurrentRatioYOY0.06 0.04 0.07 0.00 0.04 0.00 -0.01 -0.02 -0.04 CashFlowOperPerValueCashFlowOperPerValue0.10 0.18 0.00 0.07 -0.01 -0.14 -0.09 -0.18 F1F1 0.47 0.35 0.58 0.07 -0.05 0.06 0.00 F2F20.05 0.50 0.13 -0.25 0.06 0.12 F3F30.10 0.23 0.08 0.10

14、0.04 F4F40.05 -0.08 0.02 0.04 F5F50.31 0.38 0.27 F6F60.26 0.39 F7F70.25 F8F8数据(shj)来源:港澳数据(shj),百度大数据(shj) 2010 - 2015第9页/共17页第十页,共18页。实践:与投资相关(xinggun)的机器学习问题之整体脉络03机器(j q)学习有监督(jind)学习无监督学习聚类密度估计回归问题分类问题模型选择Feature选择过拟合明天指数点位是多少?明天某支个股是上涨还是下跌?未来配置哪些股票?明天是该做多还是做空?多因子选股CTA择时未来个股收益率多少?第10页/共17页第十一页,共

15、18页。实践(shjin): CTA策略样例03预测模型:随机森林 输入特征:基于量价信息初步处理得到的Feature未叠加交易模型、仓位管理、止损等额外( wi)条件200025003000350040004500500055006000-5.0%15.0%35.0%55.0%75.0%95.0%115.0%135.0%基于随机森林的基于随机森林的CTA策略策略收益率收益率沪深沪深300指数指数年化收益率年化收益率最大回撤最大回撤样本内胜率样本内胜率样本外胜率样本外胜率波动率调整后样本内外盈利能力比波动率调整后样本内外盈利能力比98%15%52.4%51.9%1.27数据来源(liyun):

16、中金所数据 2015 - 2016第11页/共17页第十二页,共18页。实践(shjin): 多因子选股策略样例03输入特征:百度大数据因子(搜索(su su)、舆情、机器提升指标等)组合构建方法:中证800成份股,月度换仓,100支股票,行业中性配置年化收益率年化收益率超额收益夏普比率超额收益夏普比率月胜率月胜率月度换手率月度换手率31%1.155%43%数据来源(liyun):港澳数据、百度大数据 2011 - 2015第12页/共17页第十三页,共18页。机器学习与投资(tu z)模型的融合是科学,更是艺术03面临的问题:现有数据的同质化,有效性下降金融数据的样本数量限制了模型的选择空间

17、模型复杂度与泛化能力的Trade-off解决思路简单(jindn)为美:如无必要,勿增实体( Occams Razor )魔鬼在细节:问题定义、Feature Engineering、Sampling Bias、etc.机器学习方法优化已有因子,超越人的认知Data, More Data !第13页/共17页第十四页,共18页。展望(zhnwng):AlphaGo能否用于投资?04围棋是相对封闭的系统博弈时优化的目标单一明确完全(wnqun)公开信息下的博弈VS金融市场开放,影响市场变量众多是一种非完全公开信息下的博弈历史数据无法(wf)覆盖未来各种的变化围棋博弈投资交易第14页/共17页第十五页,共18页。展望(zhnwng):守望更深刻的变革04人工智能已在数据与知识层面超越人类,未来(wili)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论