




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2016年投资策略研讨会证券研究报告 2016年5月5日基于大数据挖掘的主题投资策略国泰君安金融工程2016年投资策略姓名:刘富兵(分析师)邮箱: 电话书编号:S0880511010017投资要点1. 主题大数据构建 通过文本聚类挖掘热点主题,追逐市场热点 主题活跃期构建:同一时期市场上活跃的主题数不超过300个 主题个股挖掘:主题词和个股在文本(研报、新闻)现2. 主题内选股因子 动量因子:基于过去N天主题下个股的涨跌情况 分析师推荐因子:基于过去N天内分析师推荐情况 新闻报道因子:基于过去N天内新闻报道情况 行业相
2、似性因子:基于个股的行业分布情况3. 主题内选股策略 主题内选股策略构建 实证分析4. 总结与展望 主题内选股可获得不错的超额收益,主题轮动有待继续研究1国泰君安证券2016年投资策略研讨会请参阅附注风险提示目录主题大数据构建01主题内选股因子02主题内选股策略03总结与展望042国泰君安证券2016年投资策略研讨会请参阅附注风险提示目录主题大数据构建01主题内选股因子02主题内选股策略03总结与展望043国泰君安证券2016年投资策略研讨会请参阅附注风险提示主题大数据构建通过文本聚类挖掘热点主题,追逐市场热点新闻文本聚类筛选热点主题候选关键词确定关键词对近N天的全量新闻进行文本聚类(例如N=
3、7)选择top 1%类别作为主题热点的候选集合S用候选集合S作为训练文本集合,使用TFIDF算法选出分数最高的词语通过主题词+“概念” 作为模式匹配文本, 找出最佳模式4国泰君安证券2016年投资策略研讨会请参阅附注风险提示主题大数据构建2015年3月1日新闻聚类类别中新闻数量分布 筛选出的新闻雾霾调查视频爆红 关注柴静概念基金独类别中新闻数量 类别数量 家-环保部长:柴静雾霾片值得敬佩 10027柴静拍雾霾视频引质疑:以女儿病情开场是否客观争议中的穹顶之下:雾霾存在于空气,还是人心? 环80-100192保部长陈吉宁:已看柴静雾霾片 值得敬佩 60-80386柴静雾霾调查:穹顶之下 看完这个
4、你就知道柴静雾霾调查视频究竟讲了啥 雾霾调查视频走红:柴静概念横空出世 九股蓄势待发雾霾调查视频走红 柴静概念股横空出世 柴静雾霾视频调查引关注 初衷因女儿患肿瘤 。 40-6081020-4047222-2013592热点0-19735主题主题词模式匹配结果候选关键词列表模式出现次数柴静概念251.柴静 2.PM2.5 3. 雾霾治理4. 优酷 5. 大气治理6. 苍穹 7. 灰尘 8. 丁仲礼9.PM10 10.脱硫脱硝PM2.5概念18雾霾治理概念13优酷概念0大气治理概念11苍穹概念0灰尘概念0丁仲礼概念0PM10概念0脱硫脱硝概念25国泰君安证券2016年投资策略研讨会请参阅附注风险
5、提示主题大数据构建主题活跃期构建来源:142家专业媒体深度报告(共约50,765,231篇),18所券商研报(共61523篇)1.计算绝对热度、相对热度,设定阈值绝对热度:研究区间内主题相关研报+ 新闻数量相对热度:绝对热度/研究区间时间在时段内是否被多次提及2.3.主题相对热度分布情况示意1200100080060040020006国泰君安证券2016年投资策略研讨会请参阅附注风险提示主题名 绝对热度 统计日期 相对热度 供给侧改革 34477446.5811十三五规划 361417520.6514互联网+755038319.7128中国制造2025525637314.0912虚拟现实 32
6、5230910.5243人民币贬值 29123378.6409员工持股计划 25613377.5994健康中国 9991626.1667生物医药 48078145.9054员工持股 43748145.3735业绩预增 38848144.7715智能制造 36428144.4742能源互联网 14753364.3899央企改革 35678144.3821海绵城市 6791803.7722年报高送转 4481343.3433工业4.026628143.2703网络安全 26558143.2617军民融合 25348143.1130装备制造 9773203.0531在线旅游 24718143.035
7、6一带一路 24638143.0258智能机械 10183373.0208央企重组 9933322.9910互联网医疗 9433372.7982主题大数据构建主题个股挖掘:主题词和个股在文本(研报、新闻)现 利用之前得到的主题关键词,通过文本匹配找到近N天描述该主题的所有研报和新闻 对于这些文本计算:个股的TF-IDF值 设定阈值,抽取大于阈值的个股量子通信虚拟现实食品安全CROPPP 水晶光电 歌尔声学 爱施德 川大智胜 利达光电 联络互动泰格医药博济医药华测检测亚太药业九州药业恒瑞医药华宇软件远 望 谷达安基因华测检测洽洽食品顺鑫农业碧水源东方园林万 邦 达上海建工永清环保国祯环保华工科技
8、中天科技三维通信浙江东方中信国安福晶科技 天音控股 岭南园林济州药业金亚科技天瑞仪器大恒科技博世科科融环境神州信息皖能电力7国泰君安证券2016年投资策略研讨会请参阅附注风险提示主题大数据构建主题个股数量分布主题-行业映射关系7006001.主题是更细粒度的行业5004002.主题和行业是多对多映射关系(如二胎概念、国企改革概念都涉及到很多行业)30020010001-1011-2021-3031-4041-5051-6061-70个股数量 71-8081-90 91-100100如何对行业主题进行映射?1. 以个股为桥梁计算出候选行业 2. 通过研报文本用TF-IDF抽取各行业的关键词向量V
9、,以及主题研报的关键词向量V3. 计算两向量的cosine相似度,通过阈值确定映射到的行业8国泰君安证券2016年投资策略研讨会请参阅附注风险提示主题个数目录主题大数据构建01主题内选股因子02主题内选股策略03总结与展望049国泰君安证券2016年投资策略研讨会请参阅附注风险提示主题内选股因子个股动量因子主题的发展一般要经历潜伏期、出现期、成熟期、消退期的过程,对于领涨股,也有一定的轮动,但是这种轮动需要时间 ()1=0如果在t日,某主题下股票i连续N天的移动平均收益 =,排名整个主题的前10%,则认为是领涨股,领涨股持续时间的分布如下:领涨股持续时间1200100010个动量因子80060
10、0( = 1,2, , 10400200012345678910 11 121314 15 16 17 18 19 20 20样本发生次数国泰君安证券2016年投资策略研讨会10请参阅附注风险提示主题内选股因子分析师推荐因子在分析师对投资者行为的影响报告中,发现在一定条件下,分析师评级上调,或者首次覆盖具有超额收益。 考察研报中分析师推荐对个股的影响:挖掘主题词和个股的频繁项。对于某主题,通过文本匹配(或搜索)挖掘出最近N天的所有研报文本,计算文本中主题词和个股的共现项目,如果该项目数量大于设定的最小支持度,则认为该项目是频繁项,记频繁项支持度为。 |() =主题个股挖掘时得到的TF-IDF相
11、似度因子: () =| | |11国泰君安证券2016年投资策略研讨会请参阅附注风险提示主题内选股因子新闻报道因子类似于分析师推荐,新闻报道中也会对主题和个股进行推荐和报道。考虑新闻报道因子:挖掘主题词和个股的频繁项。 对于某主题,通过文本匹配(或搜索)挖掘出最近N天的所有新闻文本,计算文本中主题词和个股的共现项目,如果该项目数量大于设定的最小支持度,则认为该项目是频繁项,记频繁项支持度为。 | () =主题个股挖掘时得到的TF-IDF相似度因子: | |() =12国泰君安证券2016年投资策略研讨会请参阅附注风险提示主题内选股因子行业相似性因子主题中个股可能分布在各个行业,统计实验证明如果
12、该个股所在行业是该主题的主要行业,则领涨概率更高。 领涨股从属主题内主要行业次数占比 100%90%80%70%60%50%40%30%20%10%0%40003800360034003200300028002600240022002000领涨股占比非领涨股占比上证指数| ( )| =|13国泰君安证券2016年投资策略研讨会请参阅附注风险提示2014012014022014032014042014052014062014072014082014092014102014112014122015012015022015032015042015052015062015072015082015092
13、01510201511201512201601201602目录主题大数据构建01主题内选股因子02主题内选股策略03总结与展望0414国泰君安证券2016年投资策略研讨会请参阅附注风险提示主题内选股策略策略构建:对历史研究区间的超额累计收益做回归相对主题指数累计超额收益10维动量因子=+2维新闻报道因子2维分析师推荐因子1维行业相似度因子参数: = 1,2 10 , 1, 2, 1, 2, 15国泰君安证券2016年投资策略研讨会请参阅附注风险提示10 =11 2 1 2 + 主题内选股策略超额收益影响因素及模型评估:RMSE:0.0076MAD:0.0054MRE:9.67e-4方向胜率:7
14、3.32%16国泰君安证券2016年投资策略研讨会请参阅附注风险提示模型因子 参数 10.10120.0633-0.02140.0585-0.0296-0.04570.0328-0.03790.044100.031CoOccurrence()0.194SimTFIDF()0.088CoOccurrence()0.036SimTFIDF()-0.026SimIndustry0.112主题内选股策略通过在线学习变更模型主题在不同的时间区间和市场环境下各维度影响因素不断变化。为了适应这种变化,通过在线学习的方式动态变更模型。 模型1模型2因子2学习区间2因子1学习区间1换仓日1换仓日217国泰君安证
15、券2016年投资策略研讨会请参阅附注风险提示主题内选股策略基于主题的选股策略流程图在线学习系统持仓策略模型调仓日上个调仓周期分析师推荐因子 新闻报道因子 个股动量因子 行业相似性因子 因子库新闻爬虫抽取主题数据库主题爬虫18国泰君安证券2016年投资策略研讨会请参阅附注风险提示研报数据 主题数据 新闻源数据 主题内选股策略实证分析以2014年1月1日-2016年3月19日为回测区间,换仓日做多模型打分最高的前10%的标的,做空打分后10%的标的。设14年1月1日初始净值为1,周换仓。 年化收益:21.57%最终净值:1.4793最大回撤:5.04% 最大回撤区间:2015-08-07 至 20
16、15-09-0719国泰君安证券2016年投资策略研讨会请参阅附注风险提示目录主题大数据构建01主题内选股因子02主题内选股策略03总结与展望0420国泰君安证券2016年投资策略研讨会请参阅附注风险提示总结与展望主题内选股具有超额收益,主题间轮动有待进一步探究 主题内选股 做多因子得分高的股票,做空得分低的股票 市场中性 主题间轮动 不同主题轮动周期差异很大,如何把握节奏 如何提前预测热点主题21国泰君安证券2016年投资策略研讨会请参阅附注风险提示 本公司具有中国核准的证券投资咨询业务资格分析师声明 作者具有中国证券业授予的证券投资咨询执业资格或相当的专业胜任能力,保证报告所采用的数据均来
17、自合规渠道,分析逻辑基于作者的职业理解,本报告清晰准确地反映了作者的研究观点,力求独立、客观和公正,结论不受任何第三方的授意或影响,特此声明。免责声明本报告仅供国泰君安证券股份(以下简称“本公司”)的客户使用。本公司不会因接收人收到本报告而视其为本公司的当然客户。本报告仅在相关法律许可的情况下发放,并仅为提供信息而发放,概不构成任何广告。本报告的信息来源于已公开的资料,本公司对该等信息的准确性、完整性或可靠性不作任何保证。本报告所载的资料、意见及推测仅反 映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可升可跌。过往表现不应作为日后的表现依 据。在不同时期,本公
18、司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息保持在最新状态。同时, 本公司对本报告所含信息可在不发出 的情形下做出修改,投资者应当自行关注相应的更新或修改。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。在任何情况下,本报告中的信息或所表述的意见均不构成 对任何人的投资建议。在任何情况下,本公司、本公司员工或者关联机构不承诺投资者一定获利,不与投资者分享投资收益,也不对任 何人因使用本报告中的任何内容所引致的任何损失负任何责任。投资者务必注意,其据此做出的任何投资决策与本公司、本公司员工或 者关联机构无关。本公司利用信息隔离墙控制内部一个或多个领域、部门或关联机构之间的信息流动。因此,投资者应注意,在法律许可的情况下,本公 司及其所属关联机构可能会持有报告中提到的公司所发行的证券或 并进行证券或 交易,也可能为这些公司提供或者争取提供投资银行、财务顾问或者金融产品等相关服务。在法律许可的情况下,本公司的员工可能担任本报告所提到的公司的董事。市场有风险,投资需谨慎。投资者不应将本报告为作出投资决策的惟一参考因素,亦不应认为本报告可以取代自己的判断。在决定投资 前,如有需要,投资者务必向专业 咨询并谨慎决策。本报告版权仅为本公司所有,未经书
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 强化社区环境治理的参与性计划
- 班歌演唱比赛作文500字左右
- 甘肃天水麻辣烫作文
- 2025-2030中国镍钛合金石篮行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国锯木厂用刀片行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国锂离子电容器行业市场深度分析及发展趋势与投资研究报告
- 2025-2030中国银行业中的企业流动性行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国铜包铝线行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国铁螯合药行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国钢结构行业市场发展分析及前景趋势与投资研究报告
- 代建项目管理手册
- GB/T 39766-2021人类生物样本库管理规范
- 315食品安全宣传PPT模板
- GB/T 20145-2006灯和灯系统的光生物安全性
- GB 21519-2008储水式电热水器能效限定值及能效等级
- 2023年陕西省学业水平考试物理试真题答案无
- 运输供应商年度评价表
- 旅游项目融投资概述
- 全旅馆业前台从业人员资格证考试答案解析
- 十二经络及腧穴课件
- 立式圆筒形储罐罐底真空试验记录
评论
0/150
提交评论