版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、相关与回归分析确定性关系 函数关系,例如商品销售额与销售量非确定性关系 相关关系,例如商品需求量与价格变量之间的关系变量之间的关系第一节变量间的相关关系第一节变量间的相关关系一、变量相关的概念一、变量相关的概念变量之间相关关系的示意图变量之间相关关系的示意图相关关系线性相关非线性相关正相关负相关二、相关系数及其计算二、相关系数及其计算变量之间线性相关关系的密切程度的度量两个变量之间线性相关程度的度量,也称简单相关系数根据总体全部数据计算而得的相关系数,称总体相关系数,记为根据样本数据计算而的得相关系数,称为样本相关系数,记为 r样本相关系数样本相关系数yyxxxyLLLr ( 1 )其中nii
2、niiniiniiyyniiiiniixyniiniixxynyxnxynyyyLyxnyxyyxxLxnxxxL112122111212211,1)()()( 2 )( 3 )x 和 y 的样本相关系数为相关系数的取值范围及意义相关系数的取值范围及意义r 的取值范围为1,1 ,称完全相关,既存在线性函数关系r 1,称完全正相关r 1,称完全负相关r 0,称零相关,既不存在相关关系 r 0,称负相关 r 0,称正相关愈大,表示相关关系愈密切1rr 在研究我国人均消费水平的问题中,把人均消费金额记为 y ;把人均国民收入记为 x 。我们收集到19811993 年 13 年的样本数据 。数据见表1
3、 。例例 113,2,1,),(iiyx年份人均国民收入人均消费金额年份人均国民收入人均消费金额1981393.8024919881068.86431982419.1426719891169.26991983460.8628919901250.77131984544.1132919911429.58031985668.2940619921725.99471986737.7345119932099.511481987 859.97513表 1我国人均国民收入与人均消费金额数据解:根据样本数据得077.948949827.3416034,644.1798122yyxxxyLLL得人均消费金额 y
4、与人均国民收入 x 的样本相关系数为9987. 0077.948949827.3416034644.1798122r相关系数的显著性检验相关系数的显著性检验检验两个变量之间是否存在线性关系检验步骤在 成立条件下,那么对规定的显著性水平 ,假设0:,0:10HH0H)2(nrrP)2( nrr则拒绝 ,接受 。否则接受 。0H1H0H例例 1 的相关系数检验的相关系数检验根据和 ,查表得由于0:,0:10HH11201. 0n684. 0)11(9987. 001. 0rr因而,回绝 ,认为 x 和 y 的相关系数 ,即人均消费金额 y 与人均国民收入 x 之间的相关关系显著。0H684. 0)
5、11(01. 0r0第二节一元线性回归第二节一元线性回归一元线性回归模型 回归参数的最小二乘估计 回归方程的显著性检验 预测回归分析与相关分析的区别回归分析与相关分析的区别相关分析中 x 和 y 都处于相同地位,而回归分析中,y 称因变量,x 称自变量。相关分析中 x 和 y 都是随机变量,而在回归分析中,因变量 y 是随机变量,自变量 x 则可以是随机变量,也可以是非随机变量。相关分析主要是描述变量之间的相关关系,而回归分析主要是确定变量之间的内在联系。回归模型的类型示意图回归模型的类型示意图回归模型一元回归多元回归线性回归非线性回归线性回归非线性回归一、一、 一元线性回归模型一元线性回归模
6、型xy10称为一元线性回归模型一元线性回归模型只含有一个自变量 x误差项为随机变量描述因变量 y 与自变量 x 和误差项的关系 和 称为模型的参数10( 4 )一元线性回归模型的基本假定一元线性回归模型的基本假定2)(,0)(DEx 为确定性变量 误差项满足xyE10)( 5 )区间估计和假设检验时,还进一步假定 服从正态分布 ), 0(2N即当 时, 而 则是 x 变动一个单位时, 的相应变化量0 x,)(0yE1)(yE样本回归方程样本回归方程和 是未知参数,可以根据样本数据作估计和 的估计记为 和 ,那么nixynixyiiiii,2,1,2,1,1010101010 xy10,2,1,
7、 ),(iyxiiy 称为样本回归方程 是样本回归方程的斜率,表示 x 每变动一个单位时, 的相应变化量。而 则是样本回归方程的截距。即x0 时,设已取得样本量为 n 的随机样本 ,那么100yn,(6 )( 7 )二、二、 参数参数0,1 的最小二乘估计的最小二乘估计1. 最小二乘法是使因变量的观察值 与估计值 之间的离差平方和达到最小来求 和 的估计 和 的方法,即便iyiy 1010niiiniiiniiexyyyQ12210121)()(达到最小,称 和 为 和 的最小二乘估计。1010(8 )2. 根据微积分中求极值的原理, 和 应满足下列方程组100)(20)(210111010i
8、iniiiniixxyQxyQ得正规方程组niiiniiniiniiniiyxxxyxn1121101110解正规方程组得xxxyLLxy110( 9 )( 10 )例例根据例 1 的数据,建立人均消费金额 y 对人均国民收入的回归方程。已求得827.3416034,644.1798122615.573,731.986xxxyLLyx按 (10.17 )式,得219.54731.98652638. 0615.57352638. 0827.3416034644.179812201从而样本回归方程为xy52638. 0219.54因此当人均国民收入增长 1 元时,则人均消费金额增长约 0.5 元。
9、三、回归方程的显著性检验三、回归方程的显著性检验、F 检验检验平方和分解平方和分解用 SST 表示因变量的总离差平方和,反映 y 全部数据的离散程度,即yyniiLyySST21)(并可分解成如下形式)(2)()()()()(121212121yyyyyyyyyyyyyySSTiniiiniiniiiniiiinii( 12 )(11)而根据 ( 7 ) 式21)(niiyySSR于是212121)()()(niiniiiniiyyyyyySST( 13 )0)()()()()(11011100101101iniiiniiiiniiiiniiixxyxyyyxxyyyyy其中称为残差平方和,是
10、由随机因素和其他未加控制的因素引起的,反映除 x 以外的其他因素对 y 的影响大小。而称为回归平方和,是由 x 和 y 的线性关系引起的 y 的取值变化,反映 x 对 y 的影响大小。21)(niiiyySSE计算平均平方计算平均平方三个平方和的自由度 SST 的自由度为 n1 SSR 的自由度为 1 SSE 的自由度为 n2关于自由度存在如下的关系式n1= ( n2 ) + 1那么 SSE 的平均平方为 SSE / ( n2 ) 且( 14)22nSSEE而 SSR 的平均平方为 SSR / 1 且xxLSSRE212)(回归方程的显著性检验是用回归的平均平方与残差的平均平方作比较,判断因变
11、量与自变量是否存在线性关系。(15)方差分析表方差分析表一元线性回归方程的假设检验是0:10H当 为真时,那么0H)2,1 ()2/(1/nFnSSESSRF( 16 )前面的这些计算可以列成表格的形式,称为方差分析表。方差来源平方和自由度均方F 统计量显著性水平回归SSR1SSR残差SSEn2SSE/(n-2)总和SSTn1方差分析表表表2)2( nSSESSRF)2, 1 (nF一元线性回归方程的显著性检验步骤一元线性回归方程的显著性检验步骤 提出原假设计算检验统计量0:10H)2/(1/nSSESSRF)2,1 (nFF对规定的显著性水平 ,假设则拒绝 ,认为,称回归方程显著。否则,接受
12、 ,认为,称回归方程不显著。0H0H0101例例对于例 1 的方差分析1 .948949yyLSST知由于得SSR0.526381798122.644946495.8从而SSESSTSSR2453.3方差分析表见表30:10HxyxxniiniiniiLLxxyxyySSR1212121211021)()()(方差来源平方和自由度均方F 值回归946495.81946495.84244.4F0.05 ( 1,11 ) =4.84残差2453.311223.0总和948949.112方差分析表表3F从而拒绝 ,即回归方程显著。0H、样本决定系数、样本决定系数212121212)()(1)()(n
13、iiniiiniiniiyyyyyyyySSTSSRr表示回归平方和占总离差平方和的比例( 17 )反映样本回归方程的拟合优度取值范围为 0,1 r2 愈大,说明回归方程拟合得愈好样本决定系数为样本相关系数 r 的平方例例例 1 的样本决定系数即回归平方和占总离差平方和的 99.74%9974. 01 .9489498 .9464952SSTSSRr相关系数与回归系数之间的数量关系相关系数与回归系数之间的数量关系yyxxyyxxxxxyyyxxxyLLLLLLLLLr1( 18 )这就是说 与 的正负号必定相同1r四、四、 预测及应用预测及应用根据自变量 x 的取值预测 y 的取值 预测可分两
14、种类型 点预测 区间预测、点预测、点预测对于自变量 x 的一个取值,根据样本回归方程0 xxy10用0100 xy作为 的估计,称为点预测对于例 1, 设,那么0y23000 x893.1264230052638. 0219.540y( 19 )、区间预测、区间预测对于自变量 x 的一个取值,根据样本回归方程给出 的一个估计区间,称为区间预测。 在置信度时的预测区间为niiieyynS122)(21(20)0 x对于例1,根据方差分析表得0y0 y0y193.14113 .2453esxxeLxxnSnt202)(11)2(其中影响影响的因素的因素随的增大而增大随 n 的增大而减少随 的增大而
15、增大1xx 0近似区间预测近似区间预测)2,2(00eeSySy 当 n 较大,且时,那么xx 0exxeSZLxxnSnt2202)(11)2(05. 0从而 ,由于 ,得296. 1205. 0ZeS2那么 0.95 的近似预测区间为 ,由于 ,得01. 0358. 2201. 0ZeS3那么 0.99 的近似预测区间为)3,3(00eeSySy例例对于例 1 ,试求人均国民收入为 2300 时,人均消费金额的 0.95 预测区间。解:知所以人均消费金额的 0.95 预测区间为(1223.51,1306.27 )827.3416034,93.14731.986,2300,89.126400
16、 xxeLsxxy查表得201. 2)11(205. 0t从而38.41827.3416034)731.9862300(131193.14201. 22第三节多元线性回归第三节多元线性回归一、多元线性回归模型一、多元线性回归模型、多元线性回归模型的一般、多元线性回归模型的一般形式形式称为多元线性回归模型多元线性回归模型包含一个因变量与两个或两个以上自变量误差项为随机变量描述因变量 y 与自变量和误差项 的关系 为模型的参数,称偏回归系数ppxxxy22110pxxx,21p,210(21)设已取得样本量为 n 的随机样本。则多元线性回归模型可以表示为nnppnnnppppxxxyxxxyxxx
17、y2211022222212021112211101,(21iiixxynixip,2,1, )(22)多元线性回归模型的矩阵形式多元线性回归模型的矩阵形式 XY(23)其中npnnppnxxxxxxxxxyyy21222211121121111XYnp2110、多元线性回归模型的基本假定、多元线性回归模型的基本假定pxxx,21自变量是确定性变量,且nprk1)(X误差项满足jijiniEjii,0),cov(,2,1,0)(2误差项服从正态分布niNi,2,1, ),0(2从而XY )(E(34)IY2)(D),(2IXYN即(35)(36)、多元线性回归方程的直观解释、多元线性回归方程的
18、直观解释22110)(xxyE(37)(38) 表示 保持不变时,每变动一个单位时的相应变化量 表示 保持不变时,每变动一个单位时的相应变化量21x1x)(yE22110 xxy例:用 y 表示空调机的销售量,表示空调机的平均价格,表示消费者收入,则可建立二元线性回归模型。1x2x12x2x)(yE二、回归参数的估计二、回归参数的估计样本回归方程是未知参数,可以根据样本数据作估计的估计记为,那么p,10称为样本回归方程p,10p,10ppxxy110参数的最小二乘估计参数的最小二乘估计使因变量的观察值 y 与估计值 之间的离差平方和达到最小来求,即便p,10达到最小。称为的最小二乘估计p,10
19、p,10niiippiniiiniiexxyyyQ122110121)()(y 根据微积分中求极值的原理应是下列正规方程组的解pjxxxyQxxyQijippiniijippinii, 2 , 1,0)(20)(2110111010p,10整理得niiipniippniipiniipniiiniipipniiniiniiniippniiyxxxxxyxxxxxyxxn1121111011111211110111110正规方程组的矩阵形式为YXX)X(当 的逆矩阵 存在时,则有1(X)XYXX)(X1 就是 的最小二乘估计,并且(39)(40)X)X(p10三、回归方程的显著性检验三、回归方程的
20、显著性检验、拟合优度检验、拟合优度检验平方和分解平方和分解)(2)()()()()(121212121yyyyyyyyyyyyyySSTiniiiniiniiiniiiinii由于0)(1yyyyiniiiSSRSSEyyyySSTniiniii2121)()(从而(41)其中21)(niiyySSR称回归平方和,是由自变量和 y 的线性关系引起的 y 的取值变化,反映对 y 的影响大小,而pxxx,21pxxx,2121)(niiiyySSE称残差平方和,是由随机因素和其他未加控制的因素引起的 ,反映了除以外的其他因素对 y 的影响大小。pxxx,21样本决定系数211221212)()(1
21、)()(yyyyyyyySSTSSRRniiniiiniinii反映样本回归方程的拟合好坏程度,R 愈大,说明样本回归方程拟合得愈好。显然,。而称 y 关于的样本复相关系数,R 的大小可以反映作为一个整体的与 y 的线性相关的密切程度。拟合优度的检验可看成是回归方程的检验。(42)102 R2121)()(yyyySSTSSRRniinii(43)pxxx,21pxxx,21调整的样本决定系数调整的样本决定系数11)1 (1) 1/()() 1/()(1221122pnnRnyypnyyRniiniii由于样本决定系数的分母 SST 对给定的样本数据是不变的,而 SSR 与引进回归方程的自变量
22、个数有关。因此,应对 R 作调整,调整的样本决定系数为、 F 检验检验计算平均平计算平均平方方三个平方和的自由度 SST 的自由度为 n1 SSR 的自由度为 p SSE 的自由度为 n p1关于自由度存在如下的关系式n1= p( np1 )方差分析表方差分析表多元线性回归方程的显著性检验是检验0:210pH当 为真时,那么0H) 1,() 1/(/pnpFpnSSEpSSRF( 44 )前面的这些计算结果可以列成表格的形式,称为方差分析表。( 45 )方差来源平方和自由度均方F 值回归SSRpSSR / p残差SSEn - p - 1SSE /(n - p - 1)总和SSTn - 1方差分
23、析表表5) 1/(/ pnSSEpSSRF) 1,( pnpF多元线性回归方程的显著性检验步骤多元线性回归方程的显著性检验步骤提出原假设和备择假设) 1/(/pnSSEpSSRF) 1,(pnpFF对规定的显著性水平 ,假设则拒绝 ,认为 y 对 存在线性关系,称回归方程显著。否则,认为 y 对 之间不存在线性关系,称回归方程不显著。0H计算检验统计量0:210pHpH,:211pxxx,21pxxx,21至少有一个不为0四、回归系数的显著性检验四、回归系数的显著性检验当回归方程显著时,仅表示中至少有一个不为 0 ,即这时并不表示每一个自变量对因变量的影响都是显著的回归系数的显著性则是对每一个
24、自变量都要检验,从而确定每一个自变量对因变量的影响是否显著采用 t 检验对于多元线性回归,回归系数的显著性检验与回归方程的显著性检验是两种不同的检验方法p,21提出原假设和备择假设回归系数的显著性检验步骤计算检验统计量), 2 , 1(0:;0:10pjHHjj)(jjjSt其中1)(pnSSEcSjjj而 是对角线上第 j 个元素jjc1)(XX( 46 ) 1(2pnttj对规定的显著性水平 ,假设则拒绝 ,称 对 y 的影响显著,即认为。否则接受 ,称 对 y 的影响不显著,即认为。0H0H0j0jjxjx五、多元线性回归的预测五、多元线性回归的预测、点预测、点预测对自变量 的一组取值根
25、据样本回归方程ppxxxy22110用作为 的估计,称为点预测0y(48 )pxxx,21,00201pxxxppxxxy002201100、区间预测、区间预测对于自变量的一组取值根据样本回归方程给出 的一个估计区间,称为区间预测。 在置信度时的预测区间为0y0y1其中,00201pxxxniiieyypnS122)(110 yXX)(XX0101) 1(2eSpnt),1 (00201pxxx0X近似区间预测近似区间预测)2,2(00eeSySy当 n 较大时,且时,那么jjxx0eSZ205. 0从而 ,由于 ,得296. 1205. 0ZeS2那么 0.95 的近似预测区间为 ,由于 ,
26、得01. 0358. 2201. 0ZeS3那么 0.99 的近似预测区间为)3,3(00eeSySy中国民航客运量的回归模型。为了研究我国民航客运量的变化趋势及其成因,我们以民航客运量作为因变量 y ,以国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民航客运量的主要因素。y 为民航客运量万人),x1 为国民收入亿元), x2 为消费额亿元), x3 为铁路客运量万人),x4 为民航航线里程万公里), x5 为来华旅游入境人数万人)。根据获得19781993年统计数据,见表6。例例 2表 6年份yx1x2x3x4x51978231301018888149114.89180.
27、921979298335021958638916.00420.391980343368825319220419.53570.251981401394127999530021.82776.711982445425830549992223.27792.43198339147363358 10604422.91947.701984554565239051135326.021285.2219857447020487911211027.721783.30198699778595552 10857932.432281.95198713109313638611242938.912690.2319881442
28、117388038 12264537.383169.481989128313176900511380747.192450.14199016601438496639571250.682746.201991217816557109699508155.913335.651992288620223129859969383.663311.50199333832488215949 10545896.084152.70我国民航客运量的有关数据求回归系数的估计值求回归系数的估计值34273. 0,98034.15,00055. 077078. 0,51956. 0,901.195543210得样本回归方程54
29、32134273. 098034.1500055. 077078. 051956. 0901.195xxxxxy样本决定系数样本决定系数996224. 013843370137911002R99811. 0996224. 0R而样本复相关系数方差来源 自由度平方和均方F 值回归513791100 2758219527.6242残差1052276.25227.62总和1513843370表7民航客运量回归的方差分析表方差分析方差分析F33. 3)10, 5(05. 0F方差分析表明回归方程显著回归系数的显著性检验回归系数的显著性检验21. 5,96. 267. 0,63. 4,83. 45432
30、1ttttt查表得2281. 2)10(205. 0t由于)10()10()10()10()10(205. 03205. 05205. 02205. 04205. 01tttttttttt所以 x3 对 y 无显著影响,而其余各自变量均有显著影响剔除剔除 x3 , 重新建立样本回归方程重新建立样本回归方程求得,方差分析见表 8,并且回归系数的显著性检验表明,所有的自变量都有显著影响。9980. 0,99605. 02RR542134712. 097773.1575436. 050904. 08784.153xxxxy方差来源 自由度平方和均方F 值回归4137887203447180693.8
31、32残差1154651.544968.32总和1513843370民航客运量回归的方差分析表表 9F36. 3)11, 4(05. 0F方差分析表明回归方程显著预测即486.7032.4968eS49.35028 .385634712. 009.9297773.151498775436. 02387250904. 08784.153y8 .3856,09.92,14987,2387205040201xxxx设,由样本回归方程得得 0.95 的近似预测区间为)486.70249.3502,486.70249.3502()462.3643,518.3361(第四节可化为线性回归的曲线回归第四节可化为线性回归的曲线回归当因变量 y 对自变量为非线性时,可通过变量代换转化为对自变量的线性形式,例如ppxxxy2210令ppxxxxxx,221pxxx,21得 y 关于的线性回归ppxxxy22110(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 挡土墙模板租赁协议(04版)
- 产品购销合同范本完整版
- 2024年度冷库建设与设备销售安装合同纠纷解决协议
- 保密与竞业限制协议包括在职期间
- 二零二四年度版权质押合同质押权利和义务
- 二零二四年度汽车4S店销售代理合同
- 二零二四年度股权转让合同with具体标的及权益说明2篇
- 二零二四年度网站建设与维护合同:功能需求、技术支持与运营管理2篇
- 医院劳务合同
- 商转公公积金贷款合同(2篇)
- 双减课题《小学数学作业分层设计的研究》结题报告【五篇汇编】
- 大班美术活动教案:创意水墨《江南水乡》
- 横道图完整版
- 通信工程基站铁塔监理规划
- ICU病人转入和转出制度
- 红色绘本革命故事《闪闪的红星》
- 工件的定位夹紧与夹具
- 全国及各省市畜牧兽医行业相关政策汇总全面提升畜禽产品供应安全保障能力
- 胰岛素专项测试卷附答案
- 糖尿病知信行调查表
- 智慧景区智能化系统总体施工组织设计方案
评论
0/150
提交评论