版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
StatisticswithPython
统计学
基于Python
2023/12/19
课程内容描述统计、推断统计、其他方法使用软件
Python
语言学分与课时3学分,1~17周,每周3课时课程简介贾俊平2023/12/1910.1变量间的关系10.2一元线性回归10.3多元线性回归第10章回归分析变量间的关系——回归建模需要清楚的问题建立回归模型时,首先需要弄清楚变量之间的关系分析变量之间的关系需要解决下面的问题变量之间是否存在关系如果存在,它们之间是什么样的关系变量之间的关系强度如何样本所反映的变量之间的关系能否代表总体变量之间的关系
10.1
变量间的关系变量间的关系——函数关系与相关关系函数关系对应的确定关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量各观测点落在一条线上
10.1
变量间的关系
相关关系的描述——散点图——例题分析【例10-1】
为研究上市公司各项指标之间的关系,随机抽取25家上市公司,得到4项财务数据如表10-1所示。绘制4个变量的散点图分析它们之间的关系
10.1
变量间的关系样本编号每股收益(元)每股净资产(元)每股现金流量(元)总股本(亿股)10.885.861.502.2821.1411.134.959.0934.8817.301.937.3743.238.081.801.4557.8319.974.136.32…………………………2115.6529.8212.905.39221.669.570.954.45231.2510.962.586.79240.477.351.482.53256.8613.9422.806.43关系强度的度量——相关系数——性质与解读度量变量之间线性关系强度的一个统计量若相关系数是根据总体全部数据计算的,称为总体相关系数,记为
若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为r也称为Pearson相关系数(Pearson’scorrelationcoefficient)样本相关系数的计算公式
性质1:r的取值范围是[-1,1]|r|=1,为完全相关;r=0,不存在线性相关关系-1
r<0,为负相关;0<r
1,为正相关|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱性质2:r具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等,即rxy=ryx性质3:r数值大小与x和y原点及尺度无关,即改变x和y的数据原点及计量尺度,并不改变r数值大小性质4:仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意为着,r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系性质5:r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系
10.1
变量间的关系相关关系——相关系数检验
10.1
变量间的关系
每股收益每股净资产每股现金流量总股本每股收益1.0000000.8862920.5989710.254539每股净资产0.8862921.0000000.4821340.521195每股现金流量0.5989710.4821341.0000000.147115总股本0.2545390.5211950.1471151.000000
每股收益每股净资产每股现金流量总股本每股收益03.76E-090.001557960.21949每股净资产3.76E-0900.014660.00754821每股现金流量0.001557960.0146600.482835总股本0.219490.007548210.4828350什么是回归分析因变量(dependentvariable)也称响应变量(responsevariable),用y表示如果分析的目的是想利用其余变量解释因变量时,因变量也称为被解释变量如果分析的目的是想利用其余变量来预测因变量时,因变量也称为被预测变量自变量(independentvariable)用来预测或解释因变量的一个或多个变量称为,用x表示当用自变量解释因变量时,自变量也称为解释变量(explainingvariable)当用自变量预测因变量时,自变量也称为预测变量(predictorvariable)
10.2
一元线性回归回归分析如果特别关注其中的某个变量,比如,特别关注每股收益,而将其余变量看作是影响每股收益的因素,分析的目的是想利用其余变量来解释或预测每股收益,这就是回归分析只涉及一个自变量时称为一元回归,涉及多个自变量时则称为多元回归。如果因变量与自变量之间是线性关系,则称为线性回归(linearregression);如果因变量与自变量之间是非线性关系,则称为非线性回归(nonlinearregression)。本章主要介绍线性回归模型估计——回归模型与回归方程
模型假定——因变量x与自变量y之间为线性关系在重复抽样中,自变量x的取值是固定的,即假定x是非随机的误差项
满足正态性。是一个服从正态分布的随机变量,且期望值为0,即
~N(0,
2)。对于一个给定的x值,y的期望值为E(y)=
0+
1x方差齐性。对于所有的x值,
的方差一个特定的值,的方差也都等于2都相同。同样,一个特定的x值,y的方差也都等于
2独立性。独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关;对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关
10.2
一元线性回归参数的最小二乘估计
10.2
一元线性回归参数的最小二乘法估计——例题分析
10.2
一元线性回归
dfsum_sqmean_sqFPR(>F)每股净资产1272.995423272.99542384.2331590.00000Residual2374.5418413.240950NaNNaN模型评估和检验——拟合优度——误差分解总平方和(SST—totalsumofsquares)反映因变量的n个观察值与其均值的总误差回归平方和(SSR—sumofsquaresofregression)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和残差平方和(SSE—sumofsquaresoferror)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和
10.2
一元线性回归模型评估和检验——拟合优度——决定系数R2——残差的标准误
残差的标准误实际观察值与回归估计值误差平方和的均方根反映实际观察值在回归直线周围的分散状况对误差项
的标准差
的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量估计的回归方程预测y时预测误差的大小计算公式为
10.2
一元线性回归模型评估和检验——模型检验——F检验——t检验
10.2
一元线性回归回归预测——置信区间和预测区间
10.2
一元线性回归回归预测——置信区间和预测区间——例题分析
10.3
一元线性回归
ObsDepVarPopulationPredictedMeanciMeanciPredictciPredictciResidualValue95%low95%upp95%low95%upp010.881.070.12.04-2.784.92-0.19121.143.532.794.28-0.277.33-2.39234.886.425.477.362.5710.26-1.54343.232.111.272.95-1.715.921.12457.837.676.528.813.7711.560.16
模型诊断——残差与标准化残差残差—因变量的观测值与预测值之差,用e表示反映了用估计的回归方程去预测而引起的误差可用于确定有关误差项
的假定是否成立
标准化残差—残差除以它的标准差残差图—模型诊断工具
10.2
一元线性回归模型诊断——例题分析
10.2
一元线性回归多元线性回归模型及其假定
10.3
多元线性回归多元线性回归模型的估计方程
10.3
多元线性回归
参数的最小二乘估计——例题分析【例10-5】
沿用例10-1。建立多元线性回归模型
10.3
多元线性回归模型估计参数的最小二乘估计——例题分析【例10-5】——方差分析表
10.3
多元线性回归
dfsum_sqmean_sqFPR(>F)每股净资产1.0272.995423272.995423128.2290922.105681e-10每股现金流量1.013.34230713.3423076.2670352.062595e-02总股本1.016.49124016.4912407.7461251.114149e-02Residual21.044.7082942.128966NaNNaN自变量的相对重要性——标准化回归系数
10.3
多元线性回归模型的拟合优度——多重决定系数——估计标准误差
估计标准误差——对误差项
的标准差
的一个估计值,计算公式为
详见Python输出
10.3
多元线性回归模型的显著性检验——线性关系检验(F检验)检验因变量与所有自变量之间的线性关系是否显著也被称为总体的显著性检验检验方法是将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,因变量与自变量之间存在线性关系如果不显著,因变量与自变量之间不存在线性关系
10.3
多元线性回归模型的显著性检验——回归系数检验(t检验)
详见Python输出
10.3
多元线性回归共线性分析——多重共线性的识别
10.3
多元线性回归多重共线性的识别——例题分析【例10-5】VIF统计量
10.3
多元线性回归
每股净资产每股现金流量总股本VIF1.7846841.3286411.400132tolerance0.5603230.7526490.714218结论容忍度均大于0.1,VIF均小于5,这说明本例建立的回归模型不存在共线性回归预测和模型诊断——例题分析
11.5
利用回归方程进行预测
ObsDepVarPopulationPredictedValueMeanci95%lowMeanci95%uppPredictci95%lowPredictci95%uppResidual010.881.440.592.29-1.714.59-0.56121.142.921.993.85-0.256.09-1.78234.885.94.976.832.739.08-1.02343.232.771.873.67-0.45.940.46457.837.796.748.844.58110.04模型诊断——例题分析——诊断图
10.3
多元线性回归THEENDTHANKS2023/12/19StatisticswithPython
统计学
基于Python
2023/12/19
课程内容描述统计、推断统计、其他方法使用软件
Python
语言学分与课时3学分,1~17周,每周3课时课程简介贾俊平2023/12/1911.1时间序列的成分及其分解11.2预测方法的选择与评估11.3指数平滑预测11.4趋势外推预测第11章时间序列分析和预测什么是时间序列
11.1
时间序列的成分及其分解时间序列的成分时间序列的成分是影响因素就是时间序列的要素(components)一个时间序列通常可以分解为4种成分:趋势、季节波动、循环波动和不规则波动趋势(trend)——趋势时间序列在一段较长时期内呈现出来的持续向上或持续向下的变动季节波动(seasonalfluctuation)——时间序列在一年内重复出现的周期性波动,也称季节性(seasonality)循环波动(cyclicalfluctuation)——时间序列呈现出的非固定长度的周期性变动,也称为周期性(cyclity)不规则波动(irregularvariations)——时间序列中除去趋势、季节波动和循环波动之后剩余的波动,也称随机波动(randomfluctuation
11.1
时间序列的成分及其分解
加法模型
乘法模型时间序列的成分一个时间序列可能由一种成分组成,也可能同时含有几种成分观察时间序列的图形就可以大致判断时间序列所包含的成分,为选择适当的预测模型奠定基础
11.1
时间序列的成分及其分解时间序列的成分——例题分析【例11-1】
某电子产品制造企业2006年—2023年的净利润、产量、管理成本和销售价格的时间序列。绘制折线图观察其所包含的成分
11.1
时间序列的成分及其分解年份净利润(万元)产量(万台)管理成本(万元)销售价格(元)20061200.64628.019920071750.75660.323320082938.16373.521320093126.0129121.323020103250.3173126.9223…………………………20196563.61755181.822720206682.42479173.823520217500.53366210.222220226885.84559206.521520237765.66281223.6225时间序列的成分——例题分析【例11-2】
一家饮料生产企业2018—2023年各月份的销售量数据。绘制销售量的折线图和按年折叠图观察其所包含的成分
11.1
时间序列的成分及其分解月份2018年2019年2020年2021年2022年2023年1月116.2136.3151.2163.2172.8184.42月111.8133.0144.5152.6164.2178.73月128.2152.2170.9173.8194.9219.74月129.1150.2167.0167.0190.1217.85月129.6152.6170.4174.2201.6233.46月151.2179.5202.6208.8226.6249.27月174.7198.2223.2235.7263.0292.28月166.6194.4224.2242.4268.3290.69月149.8170.4193.9193.9222.2253.210月131.5146.9166.6172.3195.4219.911月113.8130.1146.4148.8173.8200.012月133.4146.9161.3161.8194.4230.1饮料销售量的折线图和按年折叠图成分分解——例题分析【例11-3】
沿用例11-2。分解销售量的各个成分,并绘制成分解图观察各个成分的特征季节指数
11.1
时间序列的成分及其分解
seasonaltrendresid销售量日期
2018/1/10.8967125.87561.0295116.22018/2/10.8488127.75871.0309111.82018/3/10.9828129.64181.0062128.22018/4/10.9571131.52491.0256129.12018/5/10.9826133.40800.9887129.6...............2023/8/11.2541232.62180.9961290.62023/9/11.0645234.71361.0134253.22023/10/10.9207236.80541.0086219.92023/11/10.8049238.89721.0401200.02023/12/10.8983240.98901.0629230.1随机成分平滑
11.1
时间序列的成分及其分解随机成分平滑——例题分析
11.1
时间序列的成分及其分解
年份销售价格3期移动平均5期移动平均02006199NaNNaN12007233215.00NaN22008213225.33219.632009230222.00227.842010223231.00222.852011240223.67222.062012208219.00217.672013209208.33212.682014208205.00209.292015198209.67208.6102016223208.67209.8112017205214.33213.6122018215215.67221.0132019227225.67220.8142020235228.00222.8152021222224.00224.8162022215220.67NaN172023225NaNNaN预测方法选择与评估
11.2
预测方法的选择与评估预测基本步骤第1步,确定时间序列所包含的成分第2步,找出适合该时间序列的预测方法第3步,对可能的预测方法进行评估,以确定最佳预测方案第4步,利用最佳预测方案进行预测,并分析其预测的残差,以检查模型是否合适预测方法适合的数据模式对数据的要求预测期简单指数平滑随机波动5个以上短期Holt指数平滑线性趋势5个以上短期至中期一元线性回归线性趋势10个以上短期至中期指数模型非线性趋势10个以上短期至中期多项式函数非线性趋势10个以上短期至中期Winters指数平滑趋势和季节成分至少有4个周期的季度或月份数据短期至中期一种预测方法的好坏取决于预测误差的大小预测误差是预测值与实际值的差距度量方法有平均误差(meanerror)、平均绝对误差(meanabsolutedeviation)、均方误差(meansquareerror)、平均百分比误差(meanpercentageerror)和平均绝对百分比误差(meanabsolutepercentageerror)较为常用的是均方误差(MSE)
指数平滑模型的一般表达
11.3
指数平滑预测简单指数平滑预测——例题分析
【例11-5】
沿用例11-1。采用简单指数平滑模型预测2024年的销售价格,将实际值和预测值绘成图形进行比较,并绘制残差图检查模型的预测效果
11.3
指数平滑预测2024年的预测值221.488831拟合图简单指数平滑预测——例题分析预测图残差图
11.3
指数平滑预测Holt指数平滑预测——例题分析在简单指数平滑中,实际上是用期的平滑值作为期的预测值,它适合于较平稳的序列。当时间序列存在趋势时,简单指数平滑的预测结果总是滞后于实际值Holt指数平滑预测模型,一般简称为Holt模型(Holt’smodel),适合于含有趋势成分(或有一定的周期成分)序列的预测Holt模型使用两个参数(平滑系数)
和
(取值均在0和1之间)和三个方程【例11-6】
沿用例11-1。用Holt指数平滑模型预测2024年的净利润,将实际值和预测值绘成图形进行比较,并绘制残差图检查模型的预测效果净利润的实际值和拟合值的比较
11.3
指数平滑预测Holt指数平滑预测——例题分析净利润Holt指数平滑预测的残差净利润的实际值和Holt指数平滑预测值
11.3
指数平滑预测Winters指数平滑预测——例题分析简单指数平滑模型适合于对平稳序列(没有趋势和季节成分)的预测;Holt指数平滑模型适合于含有趋势成分但不含季节成分序列的预测如果时间序列中既含有趋势成分又含有季节成分,则可以使用Winter指数平滑模型进行预测要求数据是按季度或月份收集的,而且至少需要4年(4个季节周期长度)以上的数据Winter指数平滑模型包含三个平滑参数即、和
(取值均在0和1之间)和四个方程【例11-7】
沿用例11-2。采用Winters模型预测2024年的销售量,将实际值和预测值绘成图形进行比较,并绘制残差图检查模型的预测效果饮料销售量的实际值和Winters模型拟合值的比较
11.3
指数平滑预测Winters指数平滑预测——例题分析
11.3
指数平滑预测线性趋势——例题分析线性趋势:是时间序列按一个固定的常数(不变的斜率)增长或下降拟合一条线性趋势方程进行预测【例11-8】
沿用例11-1。用一元线性回归方程预测2024年的净利润,将实际值和预测值绘制成图形进行比较,并绘制残差图检查模型的预测效果
11.4
趋势外推预测
年份净利润预测值预测残差020061200.61919.55-718.95120071750.72274.06-523.36220082938.12628.58309.52320093126.02983.09142.91420103250.33337.60-87.30520113814.03692.12121.88620124616.44046.63569.77720134125.34401.15-275.85820145386.24755.66630.54920155313.25110.17203.031020166250.15464.69785.411120175623.05819.20-196.201220186000.76173.72-173.021320196563.66528.2335.371420206682.46882.74-200.341520217500.57237.26263.241620226885.87591.77-705.971720237765.67946.29-180.69182024NaN8300.80NaN线性趋势——例题分析
11.4
趋势外推预测非线性趋势——指数曲线——例题分析时间序列以几何级数递增或递减一般形式为【例11-9】
沿用例11-1。用指数曲线预测2024年的产量,将实际值和预测值绘成图形进行比较,并绘制残差检查模型的预测效果
11.4
趋势外推预测
年份产量预测值残差020064648.13-217-856-22.5632009129114.0814.9242010173152.1120.8952011246202.8243.1862012248270.42-22.4272013407360.5646.4482014484480.753.2592015706641.0065.00102016950854.6795.3311201713631139.56223.4412201815021519.42-17.4213201917552025.89-270.8914202024792701.19-222.1915202133663601.60-235.60162022
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学课外活动计划汇编6篇
- 试用期个人工作总结
- 感恩老师+演讲稿范文集锦三篇
- 房产销售主管月工作总结
- DB31-T 1394-2023 塑料制品绿色设计评价导则
- 男性患者自助式清洁间歇导尿
- 《社会保险法》讲座课件
- 吉林省长春市虹麓综合高中2023-2024学年高一上学期期末物理试卷
- 做好安全防范
- 酒店相关职业规划
- 中职家长会课件教学
- DB34∕T 4179-2022 社区邻里中心建设与服务规范
- 校园天眼平台建设方案
- Excel常用函数公式及技巧
- 期末测试卷(试题)-2024-2025学年人教PEP版(2024)英语三年级上册
- 美妆细分市场机会与策略洞察-任拓-202409
- 2024-2030年中国网络安全行业发展前景及投资战略研究报告
- 《学习与娱乐平衡》主题班会
- 加油站风险清单(隐患排查表)(195项) 2024
- 2024年全省职业院校技能大赛(中职教师组)装备制造类智能制造设备技术赛项竞赛样题1
- 2023.05.06-广东省建筑施工安全生产隐患识别图集(高处作业吊篮工程部分)
评论
0/150
提交评论