




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
探讨量化投资新手在执行回测和建立量化模型时应时刻注意的七个“大坑”。其中,有些误区可能很常见,但其影响力却往往被人忽略,有些误区可能在学术界和实践者的研究中司空见惯,通常我们也把他们视为理所当然。1、幸存者偏差(Survivorshipbias)幸存者偏差是投资者面对的最普遍问题之一,而且很多人都知道幸存者偏差的存在,但很少人重视它所产生的效果。我们在回测的时候倾向于只使用当前尚存在的公司,这就意味我们剔除了那些因为破产、重组而退市的公司的所产生的影响。在对历史数据进行调整时,一些破产、退市、表现不佳的股票定期都会被剔除。而这些被剔除的股票没有出现在你策略的股票池里,也就是说对过去做了回测时只利用了现在成分股的信息,剔除了那些在未来因为业绩或者股价表现不好而被剔除出成分股中股票的影响。也就是说当我们使用过去30年中表现较好的那些公司进行回测时,即便一些公司当时的信用风险高,当你知道谁会幸存下来时,于是在信用风险高或者陷入困境时买入,收益非常高。若考虑进那些破产、退市、表现不佳的股票后,结论则会完全相反,投资高信用风险企业的收益率长期远低于信用稳健的企业。2、前视偏差(Look-aheadbias)前视偏差,也被称为前瞻性偏差或Look-aheadbias,是一种常见于研究和模拟过程中的偏差。当研究或模拟依赖于在研究期间尚未获得的数据信息时,就可能发生这种偏差。例如,在量化投资策略的回测中,如果使用了回测当时还不可用或者还没有公开的数据,就可能导致前视偏差的产生。前视偏差可以导致研究或模拟的结果不准确,这是因为它可能使投资者对过去的成分股的影响力过大,从而影响投资高信用风险企业的收益率和预测力。此外,这种偏差还可能在训练模型以访问将来的数据时引起,进而影响模型的性能和真实性。在我们进行回测的时间点,终值往往尚无可知,只能使用初始值进行分析。可能有些人认为微小的修正并不会影响结论,但实际情况显示:很多宏观数据根据初值进行回归结果并不显著,公司财务数据的调整将对选股结果产生直接影响。3、讲故事(Thesinofstorytelling)一些人喜欢没有任何数据就开始讲故事,做量化的人喜欢拿着数据和结果讲故事。两种情况有很多类似之处,擅长讲故事的人或者说擅长解释数据结果的人往往在得到数据之前,内心已经存在既定的脚本,只需要找到数据支撑即可。回顾1997年-2000年和2000年-2002年两段时间的美国科技成分股和Russell3000指数,我们会发现一个截然相反的结论。从1997-2000年间的美国科技成分股来看,利润率是一个很好的因子,且回测结果也十分可信,然而如果拉长时间区间到2002年,我们会发现利润率指标不再是一个好的因子。但从Russell3000指数的市场表现来看,我们却得到了相反的结论,利润率指标仍然是一个有效的因子,可见,股票池的选取和回测的时间长短对因子的有效性判断影响非常大。所以讲故事的人并不能得到正确的结论。市场中每天都在发现新的“好因子”,寻找永动机。能够发布出来的策略都是回测表现良好的。虽然讲故事的人对历史的解释非常动听,但其对未来的预测几乎没用。金融经济中的相关性和因果性往往很难弄得清楚明白,所以,当我们做出和常识相悖或是和原来判断相符的结果时,最好不要去做一名讲故事的人。4、数据挖掘(Datamininganddatasnooping)数据挖掘可以说是目前备受关注的领域,基于海量的数据与计算机的算力支持,人们往往希望能够得到难以察觉的“好因子”。但是原有的金融数据还未及海量,且交易数据并不满足“低噪音”的数据前提。有时数据挖掘几乎是无效的。例如,我们对标普500指数采用两种不同的因子加权算法建模,选择2009-2014年数据进行回测。结果显示,采用2009-2014年数据筛选出6个表现较好的因子,使用等权重算法进行回测的结果非常完美,而采用历史数据进行样本外回测的结果却是一条直线。5、信号衰减、换手率、交易成本信号衰减是指一个因子产生后对未来股票回报的预测能力,其持续时间的长短是一个重要指标。换手率和信号衰减之间存在密切的关系,一般来说,换手率越高,信号衰减的速度越快。不同的股票选择因子具有不同的信息衰减特征。那些越快衰减的信号,往往需要更高的换手率去获取收益。然而,这并非没有代价。较高的换手率可能会带来较高的交易成本,对于一些量化信号表现强劲但换手率高的策略来说,由于交易成本过高,可能根本无法盈利。交易成本包括佣金、过户费等费用。例如,大部分券商的佣金起征点是5元,在佣金率为万2.5的前提下,单笔委托的最低门槛为2万元。此外,现在已取消上交所1000股1元的最低过户费,统一为十万分之2,即在单笔大于2万元时,买入交易成本为万2.7。因此,投资者在进行量化投资时,不仅需要考虑信号衰减和换手率对策略的影响,也需要充分认识到交易成本的重要性。6、异常值(Outliers)异常值,也被称为离群值,是指在数据集中偏离其他观测值的数值。具体来说,如果一组测定值中与平均值的偏差超过两倍标准差,或者与平均值的偏差超过三倍标准差的测定值,那么这些测定值就被称为异常值或高度异常的异常值。异常值可能会影响数据分析的结果,因此在进行数据分析时,需要对异常值进行检测和处理。处理方法通常包括删除、视为缺失值和平均值修正等。此外,也有一些常见的异常值检测方法,如NumericOutlier、Z-Score、DBSCAN和IsolationForest等。然而,需要注意的是,并不是所有的异常值都是无效的或错误的,有时候它们可能包含有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 华北理工大学冀唐学院《教育统计学(统计软件应用)》2023-2024学年第二学期期末试卷
- 福建信息职业技术学院《天然药物学》2023-2024学年第二学期期末试卷
- 浙江省宁波市2025年学术联盟高三教学质量检测试题考试(二)英语试题试卷含解析
- 湖北省武汉市新观察2024-2025学年初三下4月联考英语试题含答案
- 工厂安全改善提案
- 幼儿园线上家访培训
- 交通规则与安全规则
- 仓储行业安全教育
- 电工电子技术 课件 31.半导体基础知识-40.晶闸管可控整流电路工作原理
- 金属非金属矿山(露天矿山)安全管理人员考试题及答案
- 数字化赋能护理质量管理研究进展与价值共创视角
- 冲压模具设计与制造工艺考试复习题库(含答案)
- 2025牡丹江辅警考试题库
- 中华民族共同体概论知到课后答案智慧树章节测试答案2025年春丽水学院
- IATF16949认证审核指南
- 成都设计咨询集团有限公司2025年社会公开招聘(19人)笔试参考题库附带答案详解
- 《杰出企业家刘强东的传奇人生》课件
- 2024年新高考广西高考生物真题试卷及答案
- 2024-2025学年北师大版七年级数学下册期中模拟卷
- 2025部编人教版小学二年级语文下册全册教案
- 电网工程设备材料信息参考价(2024年第四季度)
评论
0/150
提交评论