回归大作业-基于多元线性回归的期权价格预测模型_第1页
回归大作业-基于多元线性回归的期权价格预测模型_第2页
回归大作业-基于多元线性回归的期权价格预测模型_第3页
回归大作业-基于多元线性回归的期权价格预测模型_第4页
回归大作业-基于多元线性回归的期权价格预测模型_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于多元线性回归的期权价格预测模型王某某(北京航空航天大学 计算机学院 北京 100191)作者简介:王某某,北京航空航天大学研究生 邮箱:bnuwjx。摘 要:期权是国际市场成熟、普遍的金融衍生品,是金融市场极为重要的金融工具。2015年2月9日,上海证券交易所正式推出了我国首支场内交易期权上证50ETF期权,翻开了境内场内期权市场的新篇章。50ETF期权上市以来,市场规模逐步扩大,其发展情况境外期权产品相同时期。本文以此为研究背景,以“50ETF购12月1.95”这支期权为研究对象,以今日开盘价、收盘价、最高价、最低价、结算价、成交量、成交额、持仓量、涨停价和跌停价为解释变量,通过多元线性

2、回归模型,预测该期权的明日收盘价。本次研究以多元线性回归的全模型(模型1)为出发点,通过异方差检验、残差的独立性检验、误差的正太分布检验以及多重共线性检验,说明该模型不违反回归的基本假设条件。进而通过主成分回归(模型4)和逐步回归(模型5)进行降维,结果表明因变量与解释变量之间存在强烈的线性相关关系,且主成分回归和逐步回归相比全模型有更好的预测能力。关键词:期权价格 多元线性回归 50ETF 多重共线性 因子分析一、引言期权(option)是依据合约形态划分的一种衍生品,指赋予其购买方在规定期限内按买卖双方约定的价格(即协议价格或行权价格)购买或者出售一定数量某种金融资产(即标的资产)的权利的

3、合约。期权购买方为了获得这个权利,必须支付给期权出售方一定的费用,称为权利金或期权价格1。2015年2月9日,上海证券交易所正式推出了我国首支场内交易期权上证50ETF,翻开了境内场内期权市场的新篇章。期权是与期货并列的基础衍生产品,是金融市场极为重要的金融工具之一。自50ETF上市以来,市场规模逐步扩大。2015年2月日均合约成交面值为5.45亿元,12月就达到了47.69亿元,增长了7.75倍;2月日均合约成交量为2.33万张,12月就达到了19.81万张,增长了7.5倍;2月权利金总成交额为2.48亿元,12月就达到了35.98亿元,增长了13.51倍1。我国股票市场有上亿的个人投资者,

4、是一个较为典型的散户市场1。相较于专业投资机构讲,散户缺乏时间,精力以及专业分析,投资具有很大的投机行为。对于这些投资者来说,期权价格的变动则是他们最为关注的问题,其变化直接影响到自身的收益。在实际情况中,影响股票价格的因素很多,涉及到金融政策、利率政策以及国际市场等因素,其作用机制也相当复杂2。因此,对于期权价格预测的研究,则可以降低投资者的投资风险,及时调整投资结构,从而保障自身的收益。本文选择“50ETF购12月1.95(期权代码:10000629)”这支期权作为研究对象,根据过去一个月内期权的交易数据,以今日开盘价、收盘价、最高价、最低价、结算价、成交量、成交额、持仓量、涨停价和跌停价

5、为解释变量,通过多元线性回归模型,预测该期权的明日收盘价。下文由如下几部分构成:第二部分介绍了本次研究的数据集,包括数据来源、和数据字段;第三部分重点介绍了各个多元线性回归模型,包括全模型及异方差检验,残差的独立性检验、误差的正太分布检验和多种共线性检验,在第4小节和第5小节分别采用主成分回归和逐步回归对模型加以改善;第四部分运用第三部分建立的各个模型对期权价格进行了预测;第五部分对本文研究进行了总结并未来的研究加以展望。二、数据说明本次研究的数据来源于Wind资讯金融终端,从上面获取了“50ETF购12月1.95”这支期权自2016年10月24日至2016年11月24日(只包含工作日)共计2

6、4日的交易数据。经过整理后得到最终的数据字段,见表1。表 1 期权交易数据字段收盘价开盘价最高价最低价结算价成交额成交量持仓量涨停价跌停价 期权交易数据见附录1。三、建模1 符号说明 各个变量及其符号说明见表2。表 2 各个变量及其符号说明变量符号明日收盘价Y今日开盘价X1今日收盘价X2今日最高价X3今日最低价X4今日结算价X5今日成交额X6今日成交量X7今日持仓量X8今日涨停价X9今日跌停价X102 解释变量与指标变量的散点图在建立模型之前,首先利用MATLAB绘制各个解释变量与指标变量(明日收盘价)之间的散点图,观察各个解释变量与指标变量之间的关系,散点图结果见图1。图 1 各个解释变量与

7、指标变量(明日收盘价)的散点图通过图一中的散点图可以看出,明日收盘价与今日收盘价、今日开盘价、今日最高价、今日最低价、今日结算价、今日持仓量、今日涨停价以及今日跌停价之间有较为明显的线性关系;而与今日成交额以及今日成交量之间的线性关系并不明显。3 全模型 通过散点图我们观察到指标变量与各个解释变量之间大致上为线性关系,所以考虑多元线性回归模型进行建模。3.1 模型建立与求解首先建立各个解释变量与指标变量的全模型,即考虑如下模型:Y=0+1X1+10X10+ N0, 2 式中,0,1,10,2都是与解释变量无关的未知参数,其中0,1,10称为回归系数。在MATLAB中使用regress函数即可求

8、解此多元线性回归模型,求解结果见表3.表 3 MATLAB求解全模型结果回归系数回归系数的估计值回归系数置信区间00.1555-0.1938 0.504911.8288-0.9212 4.578720.0586-1.5671 1.684330.6199-0.4249 1.66474-1.0532-1.9703 -0.13625-1.2208-3.8759 1.434260.0000-0.0000 0.00007-0.0000-0.0001 0.00008-0.0000-0.0000 0.000090.3233-1.0317 1.67831000 0R2 = 0.9489 F = 26.7989

9、 p < 0.0001 s2 = 0.0001从上表容易看出模型(1)成立,此时指标变量与解释变量满足的回归模型为:Y=0.1555+1.8288X1+0.0586X2+0.6199X3-1.0532X4-1.2208X5+0.3233X9 (模型1)在MATLAB中画出模型1的残差分布,见图2。图 Error! Main Document Only. 模型1的残差分布除第12个数据外其余残差的置信区间均包含零点,因此第12个点应当视为异常点,将其剔除后重新计算,得到模型2:Y=0.2484+1.5432X1+0.0291X2+0.7482X3-0.8726X4-1.1292X5+0.1

10、584X9 (模型2)模型2的R2 = 0.9736,F = 49.1655,p < 0.0001,s2 = 0.0001。但同时我们发现,各个回归系数的置信区间仍然均包含零点。画出模型2的残差分布,发现又出现了异常点,按照上面的方法剔除异常点直至没有异常点产生。最终一共去掉了5个异常点(分别是2,12,15,22以及23),最终得到模型3:Y=0.3999+2.7664X1-0.5987X2+1.6607X3-1.3712X4- 3.1596X5-0.0001X7+0.6669X9 (模型3)模型3的R2 = 0.9969,F = 281.6079,p < 0.0001,s2 &

11、lt; 0.0001。可见模型2相当显著,各个回归系数的置信区间均不包含零点;但是去除的数据点有5个(总共23个),去除的异常点比较多,容易去除有用信息,所以我们只把模型3作为后期预测的一个对比模型,在之后的分析中,我们只考虑去除第12个异常点的数据。接下来进行异方差检验,残差的独立性检验以及多重共线性检验。3.2 异方差检验图 Error! Main Document Only. 残差对预测值的散点图通过SPSS画出残差对预测值的散点图,见图3。根据图3可以认为数据基本不存在异方差性,即认为随机误差具有相同的方差。3.3 残差的独立性检验通过SPSS的Durbin-watson检验得到DW值

12、为2.545,模型2中解释变量数量k(包括常数项)为7,样本数量n 为22,查DW分布表得到相应的dL= 0.510,dU= 2.015。由于dU<DW<4-dL,认为随机误差之间无自相关3。3.4 误差的正态分布检验通过SPSS画出正态P-P图以及回归标准化残差频率分布直方图,见图4。图 Error! Main Document Only. 误差的正太分布检验图从上图可以认为误差服从均值为0的正态分布。3.5 多重共线性检验多元线性回归模型的基本假设中要求设计矩阵X的列向量之间不存在密切的线性关系3,如果存在,就称它们之间存在多重共线性。表 Error! Main Documen

13、t Only. 多重共线性诊断结果通过SPSS进行多重共线性诊断,结果如下表。从上表可以看出绝大部分变量的VIF值远远大于10,说明严重存在多重共线性,针对多重共线性的问题,接下来用主成分分析加以处理。4 主成分回归利用MATLAB对这个十个解释变量进行主成分分析,分析过程如下。1)对原始数据进行标准化处理xi= xi- isi即每个元素的值减去该列的均值,然后除以这一列的方差。2)计算相关系数矩阵R,结果见表表 5 解释变量的相关系数X1X2X3X4X5X6X7X8X9X10X11.000.920.980.961.000.610.50-0.880.920.92X20.921.000.900.

14、960.910.430.31-0.880.990.99X30.980.901.000.940.980.680.58-0.880.910.91X40.960.960.941.000.950.460.34-0.840.960.96X51.000.910.980.951.000.640.54-0.880.910.91X60.610.430.680.460.641.000.99-0.540.460.46X70.500.310.580.340.540.991.00-0.450.340.34X8-0.88-0.88-0.88-0.84-0.88-0.54-0.451.00-0.86-0.86X90.920

15、.990.910.960.910.460.34-0.861.001.00X100.920.990.910.960.910.460.34-0.861.001.003)计算特征值和累计贡献率见表6表 6 各个解释变量的特征根和累计贡献率变量特征根累计贡献率X18.103081.03%X21.501196.04%X30.187897.92%X40.155399.47%X50.024099.71%X60.017399.89%X70.007499.96%X80.002899.99%X90.0013100.0%X100.0000100.0%可以看出,前两个特征根的累计贡献率就达到了90%以上,主成分分析效

16、果很好。下面选择前四个主成分(累计贡献率99.47%)进行综合分析。4)前四个特征根对应的特征向量见表7表 7 前四个特征根对应的特征向量X1X2X3X4X5X6X7X8X9X10第1个特征向量0.34 0.33 0.35 0.34 0.35 0.23 0.19 -0.32 0.34 0.34 第2个特征向量-0.03 -0.22 0.05 -0.18 0.01 0.61 0.68 0.05 -0.20 -0.20 第3个特征向量0.07 0.04 0.09 0.26 0.06 0.10 0.01 0.93 0.14 0.14 第4个特征向量0.45 -0.36 0.27 0.18 0.43

17、-0.14 -0.18 0.01 -0.40 -0.40 5)主成分回归模型求得的主成分回归模型如下:Y=0.204151+0.199353*X1+0.044479*X2+0.154424*X3+0.082825*X4+0.193987*X5+0.000289*X9+0.000353*X10 (模型4)5 逐步回归主成分回归求出的主成分是原始变量的线性组合,表示新的综合变量。接下来使用逐步回归的方法来筛选变量。在逐步回归中,决定一个变量时候有必要进入模型或者从模型中剔除时,常用的方法是偏F检验3,关于偏F检验这里不做赘述。图 Error! Main Document Only. 逐步回归结果在

18、MATLAB中使用stepwise函数进行逐步回归4,运行结果如图5求得的逐步回归模型如下:Y=1.0103*X3-0.6147*X4+0.6815*X9-0.7097*X10 (模型5)四、预测接下来我们利用上面求得的模型来进行期权价格预测。利用模型1、模型2、模型3、模型4和模型5分别预测了11月25日至12月10日的期权价格,11月25日至12月20日的真实期权以及预测结果如表8。表 8 各个模型的预测结果日期真实数据模型1模型2模型3模型4模型52016-11-250.50410.52290.51350.10100.49400.52232016-11-280.53250.53810.5

19、3150.14800.51640.52292016-11-290.51410.59320.58070.04920.52930.55702016-11-300.52560.58200.56770.01570.54310.54582016-12-010.50790.55170.54250.18280.53190.53972016-12-020.46210.54730.53610.20310.52670.53772016-12-050.46230.49510.48910.38880.48960.49812016-12-060.46600.46060.46150.45790.46910.4682201

20、6-12-070.46690.46530.46450.41790.46810.47492016-12-080.49890.45990.46110.40660.47380.47202016-12-090.47570.52780.52400.28200.49330.51792016-12-120.46600.53190.52650.28170.50410.51192016-12-130.45550.48120.47980.41310.47770.48442016-12-140.40030.47120.47410.43950.47050.46552016-12-150.39260.47000.468

21、30.21020.44900.43672016-12-160.38120.41400.42320.45520.40920.39072016-12-190.36330.40550.41440.38920.40030.38292016-12-200.39040.40040.40890.31030.39190.3757各个模型的平均误差以及误差百分比见表9。表 9 各个模型预测结果评价真实数据模型1模型2模型3模型4模型5平均误差0.04140.03850.18840.02640.0301平均误差百分比9.18%8.71%38.84%6.02%6.66%从表8和表9可以看出,模型4(主成分回归)和模

22、型5(逐步回归)的结果最好,而模型3由于去掉了较多的异常点反而导致预测结果不好。接下来不考虑模型3,画出其余4个模型的预测结果与真实数据的折线图,见图6在图图 Error! Main Document Only. 4个模型预测结果与真实数据的折线图4中,横坐标表示数据的序号,分别与各个日期对应,其中前面24个数据来自训练集,故而各个模型的预测结果与实际结果接近;后面的数据则来自测试集,可以看出各个模型的预测结果与实际数据存在一定差异,不过总体趋势与实际数据比较匹配。其中模型4和模型5的预测结果最好。五、结论本文从以期权今日开盘价、收盘价、最高价、最低价、结算价、成交量、成交额、持仓量、涨停价和

23、跌停价为解释变量,期权明日收盘价为指标变量,建立了多元线性回归模型1,通过异方差检验、残差的独立性检验、误差的正太分布检验以及多重共线性检验,说明该模型不违反回归的基本假设条件。进而通过主成分回归(模型4)和逐步回归(模型5)进行降维,通过预测结果与真实数据的差异比较了各个模型的预测效果,结果表明主成分回归以及逐步回归相比全模型有更好的预测能力。实际情况中,该期权的当日价格波动一般不会超过15%,而普遍真是情况是8%以内,可见模型4和模型5的预测效果并不理想,今后的研究可以在以下两个方面进行改进:不断向模型加入得到的最新数据;运用时间序列模型进行研究。参考文献1 吴清. 期权交易策略十讲M.

24、上海人民出版社, 20162 李珺. 基于因子分析的多元线性回归方法及其在股价预测中的应用D. 南京大学, 20143 孙海燕, 周梦, 李卫国, 冯伟. 数理统计M. 北京航空航天大学出版社, 20164 司守奎. 数学建模算法与应用(第2版)M. 国防工业出版社, 2015Option price forecasting model based on multiple linear regressionWang MoumouSchool of Computer Science, BeiHang University, Beijing 100191Abstract: Option is on

25、e kind of universal financial derivatives with a mature international market, and it is extremely important financial instrument. On February 9, 2015, the Shanghai Stock Exchange officially launched China's first floor trading options - SSE 50ETF options, opened a new chapter in the domestic mar

26、ket options market. 50ETF options since listing, the market gradually expanded, the development of offshore options products the same period. In this paper, the background of this study, "50ETF purchase December 1.95" this option for the study to today's opening, closing price, the hig

27、hest price, lowest price, settlement price, volume, turnover, open interest, price and the limit price for the explanatory variables, through multiple linear regression model, the option of the closing price of tomorrow. In this study, the heterogeneity test, residual independence test, error positi

28、ve distribution test and multicollinearity test were taken as the starting point of the whole model (model 1) of multivariate linear regression to show that the model did not violate the basic assumptions of regression. The results show that there is a strong linear correlation between the dependent

29、 variable and the explanatory variable, and the principal component regression and the stepwise regression are better than the whole regression model (step 4) and stepwise regression (model 5). The results show that there is a strong linear correlation between the dependent variable and the explanat

30、ory variable, and the principal component regression and stepwise regression have better prediction ability than the whole model.Keywords: Option price, Multiple linear regression, Multicollinearity, Factor analysis附录1 期权交易数据日期收盘价开盘价最高价最低价结算价2016-11-240.46130.45100.47020.45060.47502016-11-230.45280.

31、44550.46800.44540.46502016-11-220.44650.43500.44820.43500.45802016-11-210.43040.40690.44300.40450.44002016-11-180.40690.40970.42130.40370.41302016-11-170.41130.41100.41300.39620.41902016-11-160.40770.41060.41500.40500.41102016-11-150.41070.41400.41630.40710.41602016-11-140.41170.40000.43290.40000.42

32、402016-11-110.40740.38310.40930.38250.41302016-11-100.38690.37290.39660.36750.39402016-11-090.35970.38100.38100.33780.37002016-11-080.38050.37580.39140.37320.38802016-11-070.36860.36600.37380.36170.38002016-11-040.36500.36920.37870.36250.37402016-11-030.36670.34300.37830.34000.37702016-11-020.34580.35880.35880.34380.35002016-11-010.35880.34870.36250.34530.36602016-10-310.34700.35220.36100.33040.35502016-10-280.35100.35210.37490.35060.357020

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论