2023年回归大作业基于多元线性回归的期权价格预测模型_第1页
2023年回归大作业基于多元线性回归的期权价格预测模型_第2页
2023年回归大作业基于多元线性回归的期权价格预测模型_第3页
2023年回归大作业基于多元线性回归的期权价格预测模型_第4页
2023年回归大作业基于多元线性回归的期权价格预测模型_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于多元线性回归的期权价格预测模型王某某(北京航空航天大学计算机学院北京100191)作者简介:作者简介:王某某,北京航空航天大学研究生邮箱:。摘要:期权是国际市场成熟、普遍的金融衍生品,是金融市场极为重要的金融工具。2023年2月9日,上海证券交易所正式推出了我国首支场内交易期权——上证50ETF期权,翻开了境内场内期权市场的新篇章。50ETF期权上市以来,市场规模逐步扩大,其发展情况境外期权产品相同时期。本文以此为研究背景,以“50ETF购12月1.95”这支期权为研究对象,以今日开盘价、收盘价、最高价、最低价、结算价、成交量、成交额、持仓量、涨停价和跌停价为解释变量,通过多元线性回归模型,预测该期权的明日收盘价。本次研究以多元线性回归的全模型(模型1)为出发点,通过异方差检查、残差的独立性检查、误差的正太分布检查以及多重共线性检查,说明该模型不违反回归的基本假设条件。进而通过主成分回归(模型4)和逐步回归(模型5)进行降维,结果表白因变量与解释变量之间存在强烈的线性相关关系,且主成分回归和逐步回归相比全模型有更好的预测能力。关键词:期权价格多元线性回归50ETF多重共线性因子分析一、引言期权(option)是依据合约形态划分的一种衍生品,指赋予其购买方在规定期限内按买卖双方约定的价格(即协议价格或行权价格)购买或者出售一定数量某种金融资产(即标的资产)的权利的合约。期权购买方为了获得这个权利,必须支付给期权出售方一定的费用,称为权利金或期权价格REF_Ref\r\h\*MERGEFORMAT[1]。2023年2月9日,上海证券交易所正式推出了我国首支场内交易期权——上证50ETF,翻开了境内场内期权市场的新篇章。期权是与期货并列的基础衍生产品,是金融市场极为重要的金融工具之一。自50ETF上市以来,市场规模逐步扩大。2023年2月日均合约成交面值为5.45亿元,12月就达成了47.69亿元,增长了7.75倍;2月日均合约成交量为2.33万张,12月就达成了19.81万张,增长了7.5倍;2月权利金总成交额为2.48亿元,12月就达成了35.98亿元,增长了13.51倍REF_Ref\r\h\*MERGEFORMAT[1]。我国股票市场有上亿的个人投资者,是一个较为典型的散户市场REF_Ref\r\h\*MERGEFORMAT[1]。相较于专业投资机构讲,散户缺少时间,精力以及专业分析,投资具有很大的投机行为。对于这些投资者来说,期权价格的变动则是他们最为关注的问题,其变化直接影响到自身的收益。在实际情况中,影响股票价格的因素很多,涉及到金融政策、利率政策以及国际市场等因素,其作用机制也相称复杂REF_Ref\r\h\*MERGEFORMAT[2]。因此,对于期权价格预测的研究,则可以减少投资者的投资风险,及时调整投资结构,从而保障自身的收益。本文选择“50ETF购12月1.95(期权代码:10000629)”这支期权作为研究对象,根据过去一个月内期权的交易数据,以今日开盘价、收盘价、最高价、最低价、结算价、成交量、成交额、持仓量、涨停价和跌停价为解释变量,通过多元线性回归模型,预测该期权的明日收盘价。下文由如下几部分构成:第二部分介绍了本次研究的数据集,涉及数据来源、和数据字段;第三部分重点介绍了各个多元线性回归模型,涉及全模型及异方差检查,残差的独立性检查、误差的正太分布检查和多种共线性检查,在第4小节和第5小节分别采用主成分回归和逐步回归对模型加以改善;第四部分运用第三部分建立的各个模型对期权价格进行了预测;第五部分对本文研究进行了总结并未来的研究加以展望。二、数据说明本次研究的数据来源于Wind资讯金融终端,从上面获取了“50ETF购12月1.95”这支期权自2023年10月24日至2023年11月24日(只包含工作日)共计24日的交易数据。通过整理后得到最终的数据字段,见表1。表SEQ表\*ARABIC1期权交易数据字段收盘价开盘价最高价最低价结算价成交额成交量持仓量涨停价跌停价期权交易数据见附录1。三、建模1符号说明各个变量及其符号说明见表2。表SEQ表\*ARABIC2各个变量及其符号说明变量符号明日收盘价Y今日开盘价X今日收盘价X今日最高价X今日最低价X今日结算价X今日成交额X今日成交量X今日持仓量X今日涨停价X今日跌停价X2解释变量与指标变量的散点图在建立模型之前,一方面运用MATLAB绘制各个解释变量与指标变量(明日收盘价)之间的散点图,观测各个解释变量与指标变量之间的关系,散点图结果见图1。图SEQ图\*ARABIC1各个解释变量与指标变量(明日收盘价)的散点图通过图一中的散点图可以看出,明日收盘价与今日收盘价、今日开盘价、今日最高价、今日最低价、今日结算价、今日持仓量、今日涨停价以及今日跌停价之间有较为明显的线性关系;而与今日成交额以及今日成交量之间的线性关系并不明显。3全模型通过散点图我们观测到指标变量与各个解释变量之间大体上为线性关系,所以考虑多元线性回归模型进行建模。3.1模型建立与求解一方面建立各个解释变量与指标变量的全模型,即考虑如下模型:Y式中,β0,β1,…,β10,σ2都是与解释变量无关的未知参数,其中β0,β在MATLAB中使用regress函数即可求解此多元线性回归模型,求解结果见表3.表SEQ表\*ARABIC3MATLAB求解全模型结果回归系数回归系数的估计值回归系数置信区间β0.1555-0.19380.5049β1.8288-0.92124.5787β0.0586-1.56711.6843β0.6199-0.42491.6647β-1.0532-1.9703-0.1362β-1.2208-3.87591.4342β0.0000-0.00000.0000β-0.0000-0.00010.0000β-0.0000-0.00000.0000β0.3233-1.03171.6783β000R2=0.9489F=26.7989p<0.0001s2从上表容易看出模型(1)成立,此时指标变量与解释变量满足的回归模型为:Y=在MATLAB中画出模型1的残差分布,见图2。图SEQ图\*ARABIC2图SEQ图\*ARABIC2模型1的残差分布Y=模型2的R2=0.9736,F=49.1655,p<0.0001,s2=但同时我们发现,各个回归系数的置信区间仍然均包含零点。画出模型2的残差分布,发现又出现了异常点,按照上面的方法剔除异常点直至没有异常点产生。最终一共去掉了5个异常点(分别是2,12,15,22以及23),最终得到模型3:Y=0.3999+2.7664X模型3的R2=0.9969,F=281.6079,p<0.0001,s2<可见模型2相称显著,各个回归系数的置信区间均不包含零点;但是去除的数据点有5个(总共23个),去除的异常点比较多,容易去除有用信息,所以我们只把模型3作为后期预测的一个对比模型,在之后的分析中,我们只考虑去除第12个异常点的数据。接下来进行异方差检查,残差的独立性检查以及多重共线性检查。3.2异方差检查图SEQ图\*ARABIC3残差对预测值的散点图图SEQ图\*ARABIC3残差对预测值的散点图根据图3可以认为数据基本不存在异方差性,即认为随机误差具有相同的方差。3.3残差的独立性检查通过SPSS的Durbin-watson检查得到DW值为2.545,模型2中解释变量数量k(涉及常数项)为7,样本数量n为22,查DW分布表得到相应的dL=0.510,dU=2.015。由于dU<DW<4-dL,认为随机误差之间无自相关3.4误差的正态分布检查通过SPSS画出正态P-P图以及回归标准化残差频率分布直方图,见图4。图SEQ图\*ARABIC4图SEQ图\*ARABIC4误差的正太分布检查图从上图可以认为误差服从均值为0的正态分布。3.5多重共线性检查多元线性回归模型的基本假设中规定设计矩阵X的列向量之间不存在密切的线性关系REF_Ref\r\h\*MERGEFORMAT[3],假如存在,就称它们之间存在多重共线性。表SEQ表\*ARABIC4表SEQ表\*ARABIC4多重共线性诊断结果从上表可以看出绝大部分变量的VIF值远远大于10,说明严重存在多重共线性,针对多重共线性的问题,接下来用主成分分析加以解决。4主成分回归运用MATLAB对这个十个解释变量进行主成分分析,分析过程如下。1)对原始数据进行标准化解决x即每个元素的值减去该列的均值,然后除以这一列的方差。2)计算相关系数矩阵R,结果见表表SEQ表\*ARABIC5解释变量的相关系数XXXXXXXXXXX1.000.920.980.961.000.610.50-0.880.920.92X0.921.000.900.960.910.430.31-0.880.990.99X0.980.901.000.940.980.680.58-0.880.910.91X0.960.960.941.000.950.460.34-0.840.960.96X1.000.910.980.951.000.640.54-0.880.910.91X0.610.430.680.460.641.000.99-0.540.460.46X0.500.310.580.340.540.991.00-0.450.340.34X-0.88-0.88-0.88-0.84-0.88-0.54-0.451.00-0.86-0.86X0.920.990.910.960.910.460.34-0.861.001.00X0.920.990.910.960.910.460.34-0.861.001.003)计算特性值和累计奉献率见表6表SEQ表\*ARABIC6各个解释变量的特性根和累计奉献率变量特性根累计奉献率X8.103081.03%X1.501196.04%X0.187897.92%X0.155399.47%X0.024099.71%X0.017399.89%X0.007499.96%X0.002899.99%X0.0013100.0%X0.0000100.0%可以看出,前两个特性根的累计奉献率就达成了90%以上,主成分分析效果很好。下面选择前四个主成分(累计奉献率99.47%)进行综合分析。4)前四个特性根相应的特性向量见表7表SEQ表\*ARABIC7前四个特性根相应的特性向量XXXXXXXXXX第1个特性向量0.340.330.350.340.350.230.19-0.320.340.34第2个特性向量-0.03-0.220.05-0.180.010.610.680.05-0.20-0.20第3个特性向量0.070.040.090.260.060.100.010.930.140.14第4个特性向量0.45-0.360.270.180.43-0.14-0.180.01-0.40-0.405)主成分回归模型求得的主成分回归模型如下:Y=0.204151+0.199353*X1+0.044479*X5逐步回归主成分回归求出的主成分是原始变量的线性组合,表达新的综合变量。接下来使用逐步回归的方法来筛选变量。在逐步回归中,决定一个变量时候有必要进入模型或者从模型中剔除时,常用的方法是偏F检查REF_Ref\r\h\*MERGEFORMAT[3],关于偏F检查这里不做赘述。图SEQ图\*ARABIC5逐步回归结果在MATLAB中使用stepwise函数进行逐步回归REF_Ref\r\h\*MERGEFORMAT[4],运营结果如图5图SEQ图\*ARABIC5逐步回归结果求得的逐步回归模型如下:Y=1.0103*X3-0.6147*四、预测接下来我们运用上面求得的模型来进行期权价格预测。运用模型1、模型2、模型3、模型4和模型5分别预测了11月25日至12月10日的期权价格,11月25日至12月20日的真实期权以及预测结果如表8。表SEQ表\*ARABIC8各个模型的预测结果日期真实数据模型1模型2模型3模型4模型52023-11-250.50410.52290.51350.10100.49400.52232023-11-280.53250.53810.53150.14800.51640.52292023-11-290.51410.59320.58070.04920.52930.55702023-11-300.52560.58200.56770.01570.54310.54582023-12-010.50790.55170.54250.18280.53190.53972023-12-020.46210.54730.53610.20310.52670.53772023-12-050.46230.49510.48910.38880.48960.49812023-12-060.46600.46060.46150.45790.46910.46822023-12-070.46690.46530.46450.41790.46810.47492023-12-080.49890.45990.46110.40660.47380.47202023-12-090.47570.52780.52400.28200.49330.51792023-12-120.46600.53190.52650.28170.50410.51192023-12-130.45550.48120.47980.41310.47770.48442023-12-140.40030.47120.47410.43950.47050.46552023-12-150.39260.47000.46830.21020.44900.43672023-12-160.38120.41400.42320.45520.40920.39072023-12-190.36330.40550.41440.38920.40030.38292023-12-200.39040.40040.40890.31030.39190.3757各个模型的平均误差以及误差比例见表9。表SEQ表\*ARABIC9各个模型预测结果评价真实数据模型1模型2模型3模型4模型5平均误差0.04140.03850.18840.02640.0301平均误差比例9.18%8.71%38.84%6.02%6.66%从表8和表9可以看出,模型4(主成分回归)和模型5(逐步回归)的结果最佳,而模型3由于去掉了较多的异常点反而导致预测结果不好。接下来不考虑模型3,画出其余4个模型的预测结果与真实数据的折线图,见图6在图图SEQ图\*ARABIC6图SEQ图\*ARABIC64个模型预测结果与真实数据的折线图五、结论本文从以期权今日开盘价、收盘价、最高价、最低价、结算价、成交量、成交额、持仓量、涨停价和跌停价为解释变量,期权明日收盘价为指标变量,建立了多元线性回归模型1,通过异方差检查、残差的独立性检查、误差的正太分布检查以及多重共线性检查,说明该模型不违反回归的基本假设条件。进而通过主成分回归(模型4)和逐步回归(模型5)进行降维,通过预测结果与真实数据的差异比较了各个模型的预测效果,结果表白主成分回归以及逐步回归相比全模型有更好的预测能力。实际情况中,该期权的当天价格波动一般不会超过15%,而普遍真是情况是8%以内,可见模型4和模型5的预测效果并不抱负,此后的研究可以在以下两个方面进行改善:①不断向模型加入得到的最新数据;②运用时间序列模型进行研究。

参考文献吴清.期权交易策略十讲[M].上海人民出版社,2023李珺.基于因子分析的多元线性回归方法及其在股价预测中的应用[D].南京大学,2023孙海燕,周梦,李卫国,冯伟.数理记录[M].北京航空航天大学出版社,2023司守奎.数学建模算法与应用(第2版)[M].国防工业出版社,2023

OptionpriceforecastingmodelbasedonmultiplelinearregressionWangMoumouSchoolofComputerScience,BeiHangUniversity,Beijing100191Abstract:Optionisonekindofuniversalfinancialderivativeswithamatureinternationalmarket,anditisextremelyimportantfinancialinstrument.OnFebruary9,2023,theShanghaiStockExchangeofficiallylaunchedChina'sfirstfloortradingoptions-SSE50ETFoptions,openedanewchapterinthedomesticmarketoptionsmarket.50ETFoptionssincelisting,themarketgraduallyexpanded,thedevelopmentofoffshoreoptionsproductsthesameperiod.Inthispaper,thebackgroundofthisstudy,"50ETFpurchaseDecember1.95"thisoptionforthestudytotoday'sopening,closingprice,thehighestprice,lowestprice,settlementprice,volume,turnover,openinterest,priceandthelimitpricefortheexplanatoryvariables,throughmultiplelinearregressionmodel,theoptionoftheclosingpriceoftomorrow.Inthisstudy,theheterogeneitytest,residualindependencetest,errorpositivedistributiontestandmulticollinearitytestweretakenasthestartingpointofthewholemodel(model1)ofmultivariatelinearregressiontoshowthatthemodeldidnotviolatethebasicassumptionsofregression.Theresultsshowthatthereisastronglinearcorrelationbetweenthedependentvariableandtheexplanatoryvariable,andtheprincipalcomponentregressionandthestepwiseregressionarebetterthanthewholeregressionmodel(step4)andstepwiseregression(model5).Theresultsshowthatthereisastronglinearcorrelationbetweenthedependentvariableandtheexplanatoryvariable,andtheprincipalcomponentregressionandstepwiseregressionhavebetterpredictionabilitythanthewholemodel.Keywords:Optionprice,Multiplelinearregression,Multicollinearity,Factoranalysisﻬ附录1期权交易数据日期收盘价开盘价最高价最低价结算价2023-11-240.46130.45100.47020.45060.47502023-11-230.45280.44550.46800.44540.46502023-11-220.44650.43500.44820.43500.45802023-11-210.43040.40690.44300.40450.44002023-11-180.40690.40970.42130.40370.41302023-11-170.41130.41100.41300.39620.41902023-11-160.40770.41060.41500.40500.41102023-11-150.41070.41400.41630.40710.41602023-11-140.41170.40000.43290.40000.42402023-11-110.40740.38310.40930.38250.41302023-11-100.38690.37290.39660.36750.39402023-11-090.35970.38100.38100.33780.37002023-11-080.38050.37580.39140.37320.38802023-11-070.36860.36600.37380.36170.38002023-11-040.36500.36920.37870.36250.37402023-11-030.36670.34300.37830.34000.37702023-11-020.34580.35880.35880.34380.35002023-11-010.35880.34870.36250.34530.36602023-10-310.34700.35220.36100.33040.35502023-10-280.35100.35210.37490.35060.35702023-10

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论