版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于多元回归分析一元线性回归模型复习一个自变量X与一个因变量Y作散点图模型形式Y=β0+β1X+ε回归直线模型的F检验,T检验,(P值相同,作用等价)R2决定系数---》相关系数第2页,共78页,2024年2月25日,星期天房屋售价房价Y,受面积X1影响,还有影响因素吗?受地域x2(市中心与否),结构x3影响(高层与砖混)第3页,共78页,2024年2月25日,星期天汽车销售若公司管理人员要预测来年该公司的汽车销售额y时,影响销售额的因素---广告宣传费x1还有个人可支配收入x2,价格x3第4页,共78页,2024年2月25日,星期天研究地区经济增长GDP,受劳动力投入人数x1影响!还有:资本要素X2,科技水平X3的影响
第5页,共78页,2024年2月25日,星期天多元回归应用例:财政收入y为因变量。自变量如下:x1工业总产值,x2农业总产值,x3建筑业总产值,x4人口数,x5社会商品零售总额。例:股票价格Y,自变量为每股收益X1,每股帐面价值X2。例:失业的时间长度Y(月),自变量有学历x1,年龄x2,工龄X3.第6页,共78页,2024年2月25日,星期天多元回归模型
(multipleregressionmodel)描述因变量y依赖于自变量x1
,x2
,…,
xk
和误差项
的方程,称为多元回归模型
β0,β1,β2
,,βk是参数
是被称为误差项的随机变量
包含在y里面但不能被k个自变量的线性关系所解释的变异性第7页,共78页,2024年2月25日,星期天地区GDP就业人员(万人)投资(亿元)
北京3663.10858.62169.26
天津2447.66419.71039.39
河北7098.563389.52477.98
山西2456.591469.51100.86
内蒙古2150.411005.21174.66
辽宁6002.541861.32076.36
吉林2522.621044.6969.03
黑龙江4430.001622.41166.18多元回归样本数据第8页,共78页,2024年2月25日,星期天多元回归模型模型矩阵表示第9页,共78页,2024年2月25日,星期天多元回归模型基本假定误差项ε是一个期望值为0的随机变量,即E(
)=0对于自变量x1,x2,…,xk的所有值,
的方差
2都相同误差项ε是一个服从正态分布的随机变量,即ε~N(0,
2),且相互独立第10页,共78页,2024年2月25日,星期天多元线性回归方程的形式为
E(y)=
0+
1x1
+
2x2
+…+
k
xk描述因变量y的平均值或期望值如何依赖于自变量x1,x2
,…,xk的方程偏回归系数βi表示假定其他变量不变,当xi每变动一个单位时,y的平均变动值第11页,共78页,2024年2月25日,星期天YX1X2SlopeforvariableX1SlopeforvariableX2多元回归方程几何意义
MultipleRegressionEquation第12页,共78页,2024年2月25日,星期天最小二乘估计
最小SSE:第13页,共78页,2024年2月25日,星期天第14页,共78页,2024年2月25日,星期天YX1X2YiYi<x2ix1i
Thebestfitequation,Y,isfoundbyminimizingthesumofsquarederrors,e2<样本观测回归残差示意图Residual=εi=(Yi–Yi)<第15页,共78页,2024年2月25日,星期天普通最小二乘估计对于随机抽取的n组观测值如果样本函数的参数估计值已经得到,则有:
i=1,2…n根据最小二乘原理,参数估计值应该是下列方程组的解
其中第16页,共78页,2024年2月25日,星期天于是得到关于待估参数估计值的正规方程组:
第17页,共78页,2024年2月25日,星期天正规方程组的矩阵形式即由于X’X满秩,故有
第18页,共78页,2024年2月25日,星期天多元回归方程模型系数由样本数据估计得到估计值Estimated(orpredicted)valueofY斜率Estimatedslopecoefficients截距Estimatedintercept用Excel计算得到回归系数第19页,共78页,2024年2月25日,星期天馅饼Pie销售量sale,受价格price的影响。还受广告费Advertising
的影响第20页,共78页,2024年2月25日,星期天馅饼销售Sales=β0+β1(Price) +β2(Advertising)星期销售价格广告费WeekPieSalesPrice($)Advertising($100s)13505.503.324607.503.333508.003.044308.004.553506.803.063807.504.074304.503.084706.403.794507.003.5104905.004.0113407.203.5123007.903.2134405.904.0144505.003.5153007.002.7Multipleregressionequation:第21页,共78页,2024年2月25日,星期天多元回归结果RegressionStatisticsMultipleR0.72213RSquare0.52148AdjustedRSquare0.44172StandardError47.46341Observations15ANOVA
dfSSMSFSignificanceFRegression229460.02714730.0136.538610.01201Residual1227033.3062252.776Total1456493.333
CoefficientsStandardErrortStatP-valueLower95%Upper95%Intercept306.52619114.253892.682850.0199357.58835555.46404Price-24.9750910.83213-2.305650.03979-48.57626-1.37392Advertising74.1309625.967322.854780.0144917.55303130.70888第22页,共78页,2024年2月25日,星期天多元回归方程b1=-24.975:
表明每周销售量将减少,价格增加1美元,销售量平均减少24.975个,(假设广告的效果不变)b2=74.131:
表明销售量增加,广告费增加100美元,销售平均增加74.131个/周,(假设价格不变)第23页,共78页,2024年2月25日,星期天用模型预测预测价格为$5.50,广告费为$350:预测销量为428.62pies注意:单位百元,$350意味X2=3.5第24页,共78页,2024年2月25日,星期天回归模型的统计检验模型的F检验系数的T检验拟合度检验--决定系数第25页,共78页,2024年2月25日,星期天误差平方和的分解SST=SSR+SSE总平方和(SST){回归平方和(SSR)残差平方和(SSE){{越小越好越大越好反映自变量xi的变化对因变量y取值变化的影响,假设不变反映除xi以外的其他因素对y取值的影响第26页,共78页,2024年2月25日,星期天多重判定系数-可决系数-拟合优度
(multiplecoefficientofdetermination)
回归平方和占总平方和的比例计算公式为因变量取值的变差中,能被多元回归方程所解释的比例第27页,共78页,2024年2月25日,星期天RegressionStatisticsMultipleR0.72213RSquare0.52148AdjustedRSquare0.44172StandardError47.46341Observations15ANOVA
dfSSMSFSignificanceFRegression229460.02714730.036.538610.01201Residual1227033.3062252.776Total1456493.333
CoefficientsStandardErrortStatP-valueLower95%Upper95%Intercept306.52619114.253892.682850.0199357.58835555.46404Price-24.9750910.83213-2.305650.03979-48.57626-1.37392Advertising74.1309625.967322.854780.0144917.55303130.70888销量变化的52.1%,由价格和广告因素解释决定系数第28页,共78页,2024年2月25日,星期天随着自变量个数的不断增加,会使得R2不断增加,因此在作拟合优度检验的判定时,一般采用调整的R2,以消除自变量的个数以及样本量的大小对R2的影响。第29页,共78页,2024年2月25日,星期天修正多重判定系数
(adjustedmultiplecoefficientofdetermination)
为避免增加自变量而高估R2,需要用样本量n和自变量的个数k去修正R2得到计算公式为意义与R2类似,数值小于R2目的是惩罚过多使用不重要的自变量。用于比较多个模型第30页,共78页,2024年2月25日,星期天RegressionStatisticsMultipleR0.72213RSquare0.52148AdjustedRSquare0.44172StandardError47.46341Observations15ANOVA
dfSSMSFSignificanceFRegression229460.02714730.0136.538610.01201Residual1227033.3062252.776Total1456493.333
CoefficientsStandardErrortStatP-valueLower95%Upper95%Intercept306.52619114.253892.682850.0199357.58835555.46404Price-24.9750910.83213-2.305650.03979-48.57626-1.37392Advertising74.1309625.967322.854780.0144917.55303130.70888销量变化的44.2%由价格和广告解释。Adjustedr2第31页,共78页,2024年2月25日,星期天回归方程显著性F检验提出假设H0:
1
2
k=0线性关系不显著H1:
1,
2,
k至少有一个不等于02.
计算检验统计量F分子自由度k、分母自由度n-k-1得出统计量F,得到检验P值4.作出决策:确定显著性水平
和P比较,P<
拒绝H0利用F统计量进行总体线性显著性检验第32页,共78页,2024年2月25日,星期天RegressionStatisticsMultipleR0.72213RSquare0.52148AdjustedRSquare0.44172StandardError47.46341Observations15ANOVA
dfSSMSFSignificanceFRegression229460.02714730.016.53860.01201Residual1227033.3062252.776Total1456493.333
CoefficientsStandardErrortStatP-valueLower95%Upper95%Intercept306.52619114.253892.682850.019957.58835555.46404Price-24.9750910.83213-2.305650.039-48.576-1.3739Advertising74.1309625.967322.854780.014917.553130.70888总体线性显著性F检验
FTestforOverallSignificanceP-valuefortheFTest第33页,共78页,2024年2月25日,星期天H0:β1=β2=0H1:β1
和β2
不全为0
=.05df1=2df2=12检验统计量F:判定:结论:因为F统计量在拒绝域
(p-value<.05),拒绝H0结果说明至少有一个自变量影响Y0
=.05F.05=3.885拒绝H0不能拒绝H0临界值:F
=3.885F检验意义F第34页,共78页,2024年2月25日,星期天F检验的P值计算F检验临界值第35页,共78页,2024年2月25日,星期天单个自变量回归系数的T检验提出假设H0:bi=0(自变量xi
与
因变量y没有线性关系)H1:bi
0(自变量xi
与
因变量y有线性关系)计算检验的统计量t
确定显著性水平
,并进行决策,
<P拒绝H0.第36页,共78页,2024年2月25日,星期天RegressionStatisticsMultipleR0.72213RSquare0.52148AdjustedRSquare0.44172StandardError47.46341Observations15ANOVA
dfSSMSFSignificanceFRegression229460.02714730.016.538610.01201Residual1227033.3062252.776Total1456493.333
CoefficientsStandardErrortStatP-valueLower95%Upper95%Intercept306.52619114.253892.682850.0199357.58835555.46404Price-24.9750910.83213-2.305650.03979-48.57626-1.37392Advertising74.1309625.967322.854780.0144917.55303130.70888价格t=-2.306,p-value.03979广告费t=2.855,p-value.01449单个变量显著性检验第37页,共78页,2024年2月25日,星期天d.f.=15-2-1=12=.05t/2=2.1788InferencesabouttheSlope:
t
TestExampleH0:βi=0H1:βi
0检验统计量在拒绝域(p-values<.05)有证据说明价格和广告影响销售量Excel结果:对每个变量拒绝H0
CoefficientsStandardErrortStatP-valuePrice-24.9750910.83213-2.305650.039Advertising74.1309625.967322.854780.0149判定:结论:拒绝H0拒绝H0a/2=.025-tα/2接受H00tα/2a/2=.025-2.17882.1788第38页,共78页,2024年2月25日,星期天T检验的P值T检验的临界值第39页,共78页,2024年2月25日,星期天回归系数的检验线性关系F检验通过后,再对模型中各个回归系数进行检验对每一个自变量都要单独进行检验应用t检验统计量.如果一次t检验后,模型中存在多个不重要变量,一般是将t值最小的变量删除掉,再重新进行检验,每次只剔除1个变量.第40页,共78页,2024年2月25日,星期天多元回归注意事项1、样本容量一般要大于5倍变量个数,最好n≥5(k+2),一般最少样本n≥3(k+1)或n>30第41页,共78页,2024年2月25日,星期天多元回归模型系数计算一、EXCEL软件计算:将输入的X1,x2,x3,…,xk,排列在一起,再输入Y的观察值。在“工具”栏“数据分析”中选“回归”在数据区中选X时多个变量一起选中,Y的区域。得到回归系数值与检验值第42页,共78页,2024年2月25日,星期天第43页,共78页,2024年2月25日,星期天第44页,共78页,2024年2月25日,星期天EXCEL多元回归系数检验分行编号不良贷款
(亿元)Y各项贷款余额
(亿元)x1本年累计应收贷款
(亿元)x2贷款项目个数
(个)x3本年固定资产投资额
(亿元)x410.967.36.8551.921.1111.319.81690.934.8173.07.71773.743.280.87.21014.557.8199.716.51963.262.716.22.212.271.6107.410.71720.2812.5185.427.11843.891.096.11.71055.9102.672.89.11464.3110.364.22.11142.7124.0132.211.22376.7130.858.66.01422.8143.5174.612.726117.11510.2263.515.634146.7163.079.38.91529.9170.214.80.6242.1180.473.55.91125.3191.024.75.0413.4206.8139.47.22864.32111.6368.216.832163.9221.695.73.81044.5231.2109.610.31467.9247.2196.215.81639.7253.2102.212.01097.1第45页,共78页,2024年2月25日,星期天第46页,共78页,2024年2月25日,星期天
Coefficients标准误差tStatP-valueIntercept-1.0216397630.782372-1.305820.206434各项贷款余额
(亿元)x10.0400393530.0104343.8374950.001028本年累计应收贷款
(亿元)x20.1480338910.0787941.8787380.074935贷款项目个数
(个)x30.0145293530.0830330.1749830.862853本年固定资产投资额
(亿元)x4-0.0291928660.015073-1.936770.06703第47页,共78页,2024年2月25日,星期天逐步回归法在多元线性回归中,最难的是如何选择自变量的问题,如果自变量选的太少,则自变量对Y的决定系数太小,导致过大的偏差,如果把与Y有关的自变量都选入是不可能的。多个自变量间的相关会给回归方程的实际解释上造成麻烦,即多重共线性的影响。最优方程:要求进入回归方程的自变量都是显著的,未进入回归方程的自变量都是不显著的。第48页,共78页,2024年2月25日,星期天变量选择过程在建立回归模型时,对自变量进行筛选选择自变量的原则是对统计量进行显著性检验将一个或一个以上的自变量引入到回归模型中时,是否使得残差平方和(SSE)有显著减少。如果增加一个自变量使SSE的减少是显著的,则说明有必要将这个自变量引入回归模型,否则,就没有必要将这个自变量引入回归模型确定引入自变量是否使SSE有显著减少的方法,就是使用F统计量的值作为一个标准,以此来确定是在模型中增加一个自变量,还是从模型中剔除一个自变量变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优子集等第49页,共78页,2024年2月25日,星期天向前选择
(forwardselection)对k个自变量分别拟合对因变量的一元线性回归模型,共有k个,然后找出F统计量的值最高的模型及其自变量,并将其首先引入模型分别拟合引入模型外的k-1个自变量的线性回归模型如此反复进行,直至模型外的自变量均无统计显著性为止第50页,共78页,2024年2月25日,星期天向后剔除
(backwardelimination)先对因变量包括所有k个自变量的回归模型。然后去掉一个自变量,这个自变量是使模型的SSE值减小最少的自变量,被挑选出来并从模型中剔除如此反复进行,一直将自变量从模型中剔除,直至剔除一个自变量不会使SSE显著减小为止第51页,共78页,2024年2月25日,星期天逐步回归
(stepwiseregression)将向前选择和向后剔除两种方法结合起来筛选自变量在增加了一个自变量后,它会对模型中所有的变量进行考察,看看有没有可能剔除某个自变量。如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除按照以上方法不停地增加变量并考虑剔除以前增加的变量的可能性,直至增加变量已经不能导致SSE显著减少在前面步骤中增加的自变量在后面的步骤中有可能被剔除,而在前面步骤中剔除的自变量在后面的步骤中也可能重新进入到模型中第52页,共78页,2024年2月25日,星期天*2、赤池信息准则和施瓦茨准则
为了比较所含解释变量个数不同的多元回归模型的拟合优度,常用的标准还有:
赤池信息准则(Akaikeinformationcriterion,AIC)施瓦茨准则(Schwarzcriterion,SC)
这两准则均要求仅当所增加的解释变量能够减少AIC值或AC值时才在原模型中增加该解释变量。
第53页,共78页,2024年2月25日,星期天Eviews的估计结果显示:中国居民消费二元例中:
AIC=6.68SC=6.83
中国居民消费一元例中:
AIC=7.09SC=7.19从这点看,可以说前期人均居民消费CONSP(-1)应包括在模型中。
第54页,共78页,2024年2月25日,星期天含有虚拟自变量的回归第55页,共78页,2024年2月25日,星期天虚拟自变量
(dummyvariable)用数字代码表示的定性自变量虚拟自变量可有不同的水平只有两个水平的虚拟自变量比如,性别(男,女)有两个以上水平的虚拟自变量贷款企业的类型(家电,医药,其他)虚拟变量的取值为0,1第56页,共78页,2024年2月25日,星期天虚拟自变量的回归回归模型中使用虚拟自变量时,称为虚拟自变量的回归当虚拟自变量只有两个水平时,可在回归中引入一个虚拟变量比如,性别(男,女)一般而言,如果定性自变量有k个水平,需要在回归模型中引进k-1个虚拟变量第57页,共78页,2024年2月25日,星期天虚拟自变量的回归【例】为了研究考试成绩与性别之间的关系,从某大学商学院随机抽取男女学生各8名,得到他们的市场营销学课程的考试成绩如右表第58页,共78页,2024年2月25日,星期天虚拟自变量的回归
(考试成绩与性别的散点图)男女第59页,共78页,2024年2月25日,星期天虚拟自变量的回归引进虚拟变量时,回归方程表示为E(y)=
0+
1x男(x=0):E(y)=
0—男学生考试成绩的期望值女(x=1):E(y)=
0+
1—
1女学生考试成绩的期望值注意:当指定虚拟变量0,1时
0总是代表与虚拟变量值0所对应的那个分类变量水平的平均值
1总是代表与虚拟变量值1所对应的那个分类变量水平的平均响应与虚拟变量值0所对应的那个分类变量水平的平均值的差值,即平均值的差值
=(
0+
1)-
0=
1第60页,共78页,2024年2月25日,星期天虚拟自变量的回归
(例题分析)【例】为研究工资水平与工作年限和性别之间的关系,在某行业中随机抽取10名职工,所得数据如右表
y与x1的回归及分析
y与x1,
x2的回归及分析第61页,共78页,2024年2月25日,星期天虚拟自变量的回归引进虚拟变量时,回归方程写为
E(y)=
0+
1x1+
2x2女(
x2=0):E(y|女性)=
0+
1x1男(x2=1):E(y|男性)=(
0+
2)+
1x1
0表示:女性职工的期望月工资收入(
0+
2)表示:男性职工的期望月工资收入
1表示:工作年限每增加1年,男性或女性工资的平均增加值
2表示:男性职工的期望月工资收入与女性职工的期望月工资收入之间的差值(
0+
2)-
0=
2第62页,共78页,2024年2月25日,星期天用虚拟自变量回归
解决方差分析问题第63页,共78页,2024年2月25日,星期天设对某种职业者的工资采集了10个样本,列于下表,工资单位略去,性别栏中1表示男性,0表示女性。序号12345678910工资22.019.018.021.718.521.020.517.017.521.2性别1001011001我们以性别为自变量建立回归模型第64页,共78页,2024年2月25日,星期天序号工资性别122121903180421.71518.506211720.518170917.501021.21回归系数分析回归系数标准误标准化的betat显著性常数项18.00000.311857.73500.0000变量00023.28000.44090.93477.43920.0001方差分析表平方和自由度均方F值显著性回归26.8960126.896055.34160.0001残差3.888080.4860总和30.78409回归方程工资=18.000000+3.2800*性别第65页,共78页,2024年2月25日,星期天对表中数据回归得
它表示,女性的平均工资为18,男性的平均工资为18+3.28=21.28。由于回归系数的统计量为7.44,远大于临界值0.44,非常显著,故认为该项工作男女工资存在差别。第66页,共78页,2024年2月25日,星期天回归建模流程图具体(社会经济)问题设置指标变量收集整理数据修改构造理论模型估计模型参数模型运用经济因素分析经济变量控制经济决策预测模型检验通过?NY第67页,共78页,202
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年家具销售协议详细条款样本版B版
- 2024年定制版第三方合作保密协议版B版
- 2024三人合伙协议书合同范本
- 2024年化工建设施工人员劳务合同版B版
- 2024年家居装修材料供应与销售协议版B版
- 2024学校专职教师劳动协议范本一
- 2024年度全方位营销策划与销售代理合作合同版B版
- 2024宠物养护标准化协议范本版B版
- 2024商用车辆承包经营权益协议版B版
- 10KV输电线路与变电设施安装工程承包合同2024年版一
- 2022年企业破产流程图
- 一体化移动办公(OA)平台建设方案
- 《寡人之于国也》PPT课件(PPT 68页)
- 民航法律法规(项目八)
- 在线监测设备验收申请及相应表格
- 部队战时政治工作-PPT课件
- 动火安全作业票填写模板2022年更新
- 饲料生产过程的损耗控制(打印稿).
- 泛微OAV操作手册
- 皮卡分体焊接作业指导书
- 桩基验收规范
评论
0/150
提交评论