




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第10讲
线性回归分析
一元线性回归线性回归多元线性回归回归分析的基本思想和方法以及“回归(Regression)”名称是由英国统计学家F.Galton(1822~1911年)和他作为现代统计学的奠基者之一的学生K.Pearson(1856~1936年)提出的。他们在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇的平均身高作为解释变量X,取他们的一个成年子女的身高作为被解释变量Y,将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。计算出回归直线方程为:Y=33.73+0.516X。这种趋势及回归方程表明父母身高X每增加一个单位时,其成年子女的身高Y也平均增加0.516个单位。一、一元线性回归
1.变量间的相关关系确定性关系:
两个变量之间可以用函数y=f(x)来描述.例如:
圆的半径R和圆的周长L,L=2πR,对于一个给定的半径R,都有一个确定的周长L与之对应.不确定关系:两个变量之间的关系不能用确定的数学表达式来描述,也就是说对于一个给定的x值,不能找到唯一确定的y值与之对应.但两个变量之间存在着相互依赖的内在联系.例如:
人体内脂肪含量与年龄商品的销售量与广告费用粮食产量与施肥量回归分析就是对相关关系进行定量研究的统计分析方法。
2.回归直线与回归方程
已知(x1,y1),(x2,y2),···,(xn,Yn)为一组样本观察值,其中x为自变量(又称解释变量),y为因变量(又称被解释变量).
上述的每一组数据,都对应平面坐标系上的一个点,描绘出所有的点,我们就得到一个“散点图”.这些样本点并不一定严格地落在一条直线上,如果这些点都在一条直线附近,我们就用这条直线来拟合所有的散点(xi,yi)(i=1,2,···,n),这条直线称为“回归直线”.
回归直线的方程为:
y=a+bx其中a和b为常数,前者为回归方程的截距,后者为回归方程的斜率.当变量x取xi时,可以得到
ŷi=a+bxi(i=1,2,···,n)它与实际收集到的yi之间的偏差是:
yi-ŷi=yi-(a+bxi)实际上,求回归方程的关键是如何用数学的方法来刻画“从整体上看,各点与此直线的距离最小”.这样,用n个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的.这样,问题就归结为:当a,b取什么值时Q最小,即总体偏差最小.据数学上最小二乘法的运算,a,b的值由下式给出:由于(yi-ŷi)可正可负,为了避免相互抵消,可以考虑用Σ
|yi-ŷi|来代替,但由于它含有绝对值,运算不太方便,所以改用
Q=(y1-bx1-a)2+(y2-bx2-a)2+···+(yn-bxn-a)2来刻画n个点与回归直线在整体上的偏差.i=1n年份家庭收入旅游支出年份家庭收入旅游支出1994199519961997199821518.829662.338520.846279.853407.51023.51375.71638.42112.72391.2199920002001200259621.864332.473762.486910.62831.93175.53522.43878.4
1994~2002年中国家庭年均收入和旅游支出案例:xyx2y2xy21518.829662.338520.846279.853407.559621.864332.473762.486910.61023.51375.71638.42112.72391.22831.93175.53522.43878.4463058753.4879852041.3148385203321418198882852361056355463979341386576905440891654755345239210475521892550268435544635015717837801965810083800124073021504198722024491.840806426.163112478.797775333.5127708014168840143.5204287536.2259820677.8337074071
474015.421949.728508585300613585421321449173最小二乘法计算表:Σn=9,计算得:X=52668.38,Y=2438.856,a=-19.8316,b=0.046682回归方程为:y=-19.8316+0.046682x福建省旅游与国民经济发展回归分析
资料来源:杨建明.福建省旅游与国民经济发展相关分析.经济地理,2008,28(增刊):154-160.图4-1海南旅游总收入与地区生产总值线性相关图丁卡丽.浅析海南省旅游业与经济发展的关系.04级毕业论文.
3.回归模型的显著性检验
(1)R检验法
其中:R为样本相关系数;n为样本容量;SSyy为总离差平方和.
可以证明,|R|≤1.|R|越大,变量y与x线性关系越显著.当|R|=1时,变量y与x完全线性相关,即所有的样本点(xi,yi)都落在拟合直线上.当|R|=0时,变量y与x无相关关系.在给定的显著水平α下,可以查相关系数临界值表,得到临界值Rα(n-2),与计算出的|R|的值相比较.若|R|>Rα(n-2),则线性回归方程线性相关性显著;若|R|<Rα(n-2),则回归方程的线性相关性不显著.
XYX2Y2XY3.33.453.654.054.454.904.451.52.02.53.03.54.04.510.8911.902513.322516.402519.802524.0120.70252.2546.25912.251620.254.956.99.12512.1515.57519.620.475Σ28.3521117.03257088.775案例:7个家庭的年收入与支出的数据如下(单位:万元)收入X:3.3,3.45,3.65,4.05,4.45,4.90,4.55支出Y:1.5,2.0,2.5,3.0,3.5,4.0,4.5试写出Y关于X的一元线性回归方程,并判断在显著水平α=0.05下,y与x的线性关系是否显著.X=28.35÷7=4.05,Y=21÷7=3b==1.6817155a=3-1.6817155×4.05=-3.8109477因此得y对x的回归方程为:y=-3.81+1.68x88.775-7×4.05×3117.0325-7×(4.05)2
XYX2Y2XY3.33.453.654.054.454.904.451.52.02.53.03.54.04.510.8911.902513.322516.402519.802524.0120.70252.2546.25912.251620.254.956.99.12512.1515.57519.620.475Σ28.3521117.03257088.775R检验:R检验:R检验:查表得:R0.05(7-2)=0.7545,因|R|>Rα(n-2),所以,y与x的线性关系显著。
(2)R2检验法
R2=SSR/SST
SST=SSE+SSR其中,R2为拟合优度系数(决定系数),表示被解释变量y的方差中能被解释变量x做出说明部分的比例.
SSR为回归平方和,指在总离差中,由解释变量x可以说明的部分.SSR=b2SSxxSSE为残差平方和,是指在总离差中,由随机因素所引起的误差.SST为总离差平方和.SST=SSyy
当R2=0时,说明x完全不能解释y的方差,即x与y不存在相关关系.当R2=1时,说明y的方差完全是由x造成的,x与y完全相关.上例中,R2=SSR/SST=b2SSxx/SSyy=0.893088
(b=1.68,SSxx=2.215,SSyy=7)说明y的方差中有89%是由x造成的,即y与x相关关系显著.
Se=√SSEn-2Se称为“估计标准误差”,是总体标准差σ的一个样本估计.(3)标准差检验法在正态分布中,若随机变量X~N(μ,σ2),则有
P(μ-σ<X<μ+σ)≈68%P(μ-2σ<X<μ+2σ)≈95%P(μ-3σ<X<μ+3σ)≈99%在回归分析中,我们假设随机误差ε~N(0,σ2),所以有大约68%的误差落在0±1Se内,有大约95%的误差落在0±2Se内,有大约99%的误差落在0±3Se内.在上例中,SSE=Σ(yi-ŷi)2=0.735610
i=1n说明有大约68%的误差落在0±0.383565内.
4.回归系数b的假设检验
(1)F检验法
在回归方程y=a+bx中,若b=0,则y=a为一常数,即y与x不存在相关关系.所以要检验y与x是否线性相关,即要对假设
H0:b=0,H1:b≠0进行检验.检验步骤如下:(a)提出假设H0:b=0,H1:b≠0(b)选取统计量并计算其值
F=
(c)对给定的显著水平α查F分布表,得临界值Fα(1,n-2)(d)比较F与Fα,做出判断.若F>Fα(1,n-2),则拒绝H0,即y与x的线性关系显著;
若F<Fα(1,n-2),则接受H0,即y与x的线性关系不显著.SSRSSE/n-2在上例中,F=F0.05(1,5)=6.61F>F0.05(1,5)拒绝H0,即y与x的线性关系显著.SSRSSE/n-2=42.49236
(2)t检验法检验步骤如下:(a)提出假设
H0:b=0,H1:b≠0(b)选取统计量并计算其值
(c)对给定的显著水平α,查t分布表,得临界(d)比较t与t,做出判断.若t>t(n-2),则拒绝H0,即y与x的线性关系显著;
若t<t(n-2),则接受H0,即y与x的线性关系不显著.上例中,算出t=6.5186>t=2.571
拒绝H0,即y与x的线性关系显著.
~t(n-2)2α值t(n-2).2α2α2α2α2α年份家庭收入旅游支出年份家庭收入旅游支出1994199519961997199821518.829662.338520.846279.853407.51023.51375.71638.42112.72391.2199920002001200259621.864332.473762.486910.62831.93175.53522.43878.4
1994~2002年中国家庭年均收入和旅游支出案例1:5.利用EXCEL软件进行回归分析及相关性分析
利用EXCEL软件进行回归分析及相关性分析第一步:原始数据输入打开EXCEL软件,在A3﹑B3﹑C3单元格中输入“编号”﹑“X”﹑“Y”,然后将原始数据输入到相应的单元格中.第二步:制作散点图选取B4:C12单元格区域,单击“图表向导”按钮,点击“标准类型”,在弹出的对话框中的“图表类型”栏选“散点图”﹑“子图表类型”选“散点图.比较成对的数值”,然后点击“下一步”此时数据区域已自动生成,再点击“下一步”.在弹出的对话框中点击“标题”,在“图表标题”输入框中输入“家庭收入与旅游支出的散点图”,在“数值(x)轴”输入框中输入“家庭收入”,在数值(Y)轴”输入框中输入“旅游支出”.点击“图例”,删去“显示图例”之打勾.最后点击“完成”按钮,即可生成相应的散点图.案例1:第三步:制作相关分析结果在E4:E9单元格中分别输入“Pearson相关系数”﹑“自由度”﹑“tr值”﹑“P值(双侧)﹑“检验水准”﹑“t临界值”,然后在F4单元格中输入“=CORREL(B4:B32000,C4:32000)”
(32000是二维图表中数据点个数的最大值)在F5单元格中输入“=COUNT(B:B)-2”,在F6单元格中输入“=F4/SQRT((1-F4^2)/F5)”,在F7单元格中输入“=TDIST(ABS(F6),F5,2)”,在F8单元格中输入“0.05”,在F9单元格中输入“=TINV(F8,F5).第四步:制作回归分析结果在G4:G9单元格中分别输入“截距a”﹑“回归系数b”﹑“剩余标准差Sx,y”﹑“决定系数R2”﹑“Sb”﹑“tb值”,然后在H4单元格输入“=INTERCEPT(C4:C32000,B4:B32000)”在H5单元格输入“=SLOPE(C4:C32000,B4:B32000)”在H6单元格输“=STEYX(C4:C32000,B4:B32000)”在H7单元格输入“=RSQ(C4:C32000,B4:B32000)在H8单元格输入“=H6/(DEVSQ(B4:B32000))^0.5”在H9单元格输入“=H5/H8第五步:结果分析
相关分析得到Pearson系数为0.993244023,说明家庭收入与旅游支出之间有很大的相关性
经检验tr=22.64543458,相应的P=8.29067E-08<0.05,说明该相关系数具有统计学意义
决定系数R2=0.986534接近1,说明回归的效果比较好,
剩余标准差Sx,y=122.7033,数值比较大,说明回归模型估计精度较低.第六步:建立回归方程将截距a和斜率b代入回归方程Y=a+bX得:Y=-19.833+0.046682X案例2:
7个家庭的年收入与支出的数据如下(单位:万元)收入X:3.3,3.45,3.65,4.05,4.45,4.90,4.55支出Y:1.5,2.0,2.5,3.0,3.5,4.0,4.5试写出Y关于X的一元线性回归方程,并判断在显著水平α=0.05下,y与x的线性关系是否显著案例2:第一步:输入原始数据打开EXCEL软件,将原始数据输入各相应的单元格中第二步:进行线性回归分析单击菜单中的“工具→数据分析→回归”,在“回归”对话框中的“Y值输入区域”输入“C4:C10”,在“X值输入区域”输入“B4:B10”,在“输出区域”选取单元格A12,
并单击“确定”按钮,既获得一元线性回归分析结果.第三步:结果分析
相关分析得到Pearson系数为0.945998,说明家庭收入与支出之间有很大的相关性
经检验tr=6.525304,相应的P=0.001264<0.05,
说明该相关系数具有统计学意义
决定系数R2=0.894913较接近1,说明回归的效果比较好。EXCEL软件函数说明:CORREL返回单元格区域array1和array2之间的相关系数。COUNT返回参数的个数。利用该函数可以计算数组或单元格区域中数字项的个数。TDIST返回t分布的百分点(概率)。TINV返回作为概率和自由度函数的t分布的t值。INTERCEPT利用现有的x值与y值计算直线与y轴的截距。SLOPE返回根据known_y´s和known_x´s中数据点拟合的线性回归直线的斜率。RSQ返回根据known_y´s和known_x´s中数据点计算得出的Pearson乘积矩相关系数的平方。DEVSQ返回数据点与各自样本平均值偏差的平方和
二﹑多元线性回归(Multiplelinearregressionanalysis)
当自变量(解释变量)有两个以上时,所作的线性回归称为多元线性回归。多元线性回归的计算量很大,手工计算不太现实,需要借助计算机统计软件来完成。
1.利用EXCEL软件建立回归方程案例3:
我国民航客运量的变化趋势和成因的研究因变量(被解释变量)y:民航客运量(万人)
自变量(解释变量)X1:国民收入(亿元)X2:消费额(亿元)X3:铁路客运量(万人)X4:民航航运里程(万公里)X5:来华旅游入境人数(万人)
试确定中国民航客运量的回归模型(有关数据见下表).年份yx1x2x3x4x5197819791980198119821983198419851986198719881989199019911992199323129834340144539155474499713101442128316602178288633833010335036883941425847365652702078599313117381317614384165572022324882188821952531279930543358390548795552638680389005966310969129851594981491863899220495300999221060441135311211010857911242912264511380795712950819969310545814.8916.0019.5321.8223.2722.9126.0227.7232.4338.9137.3847.1950.6855.9183.6696.08180.92420.39570.25776.71792.43947.701285.221783.302281.952690.233169.482450.142746.203335.653311.504152.70民航客运量的有关数据计算步骤:第一步:输入原始数据打开EXCEL软件,输入有关统计数据第二步:进行线性回归分析单击菜单中的“工具数据分析回归”,在“回归”对话框中的“Y值输入区域”输入“B2:B17”,在“X值输入区域”输入“C2:G17“,选框,在“输出区域”选取单元格A19,单击“确定”按钮.即获得多元线性回归分析结果.
案例3:结果分析:由EXCEL的计算结果可以得到中国民航客运量的回归模型为:ŷ=-194.248+0.524821x1-0.77786x2+0.000543x3+15.70695x4+0.345817x5其中相关系数R=0.998145,决定系数R2=0.996294,因此回归方程高度显著,从EXCEL的方差分析结果看,F=537.6405,对于给定的α=0.05,查表F0.05(5,10)=3.33F=537.6405>F0.05(5,10)=3.33方差分析的结果也表明回归方程高度显著,即自变量全体对因变量y的影响显著.
2.对自变量个体的显著性检验实际上,回归方程显著,并不意味每个自变量(解释变量)xi对因变量(被解释变量)y的影响都显著,还需要对每个自变量都进行显著性检验.根据检验结果,从回归方程中剔除那些无关紧要的﹑可有可无的变量,然后建立更为简单的回归方程.一般可用F检验法剔除F值较小的变量。如果同时有多个变量影响不显著,不能一次都剔除,每次只能剔除一个变量。
但由于F检验法要用手工计算,比较复杂。最简单的方法是将|t|值中最小的一个变量剔除,建立新的回归方程,再对新的回归方程进行显著性检验,如果还有不显著的变量再剔除,直到保留的自变量对因变量的影响都显著为止。
在上例中,x3的|t|=0.666625,最小,可以剔除。年份yx1x2x4x5197819791980198119821983198419851986198719881989199019911992199323129834340144539155474499713101442128316602178288633833010335036883941425847365652702078599313117381317614384165572022324882188821952531279930543358390548795552638680389005966310969129851594914.8916.0019.5321.8223.2722.9126.0227.7232.4338.9137.3847.1950.6855.9183.6696.08180.92420.39570.25776.71792.43947.701285.221783.302281.952690.233169.482450.142746.203335.653311.504152.70民航客运量的有关数据(去掉X3)计算步骤:第一步:输入原始数据打开EXCEL软件,输入有关统计数据第二步:进行线性回归分析单击菜单中的“工具数据分析回归”,在“回归”对话框中的“Y值输入区域”输入“B2:B17”,在“X值输入区域”输入“C2:F17“,在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 巩义市2024-2025学年六年级下学期小升初真题数学试卷含解析
- 昆明幼儿师范高等专科学校《建筑结构选型》2023-2024学年第二学期期末试卷
- 武汉华夏理工学院《文本挖掘》2023-2024学年第二学期期末试卷
- 黑龙江省七台河市勃利县小五站镇庆云村小学2025届数学三下期末考试试题含解析
- 浙江农林大学《泌尿、生殖与内分泌系统医学教程》2023-2024学年第二学期期末试卷
- 2025年钻石市场分析:中国产能冲击下全球格局剧变与核心数据解读
- 2025年光伏市场分析:供需格局与价格走势解析
- 桩间挡板施工方案
- 东侧楼梯施工方案
- 彩钢瓦清洗喷漆施工方案
- 修理木桥施工合同范本
- B超的基本知识
- 锤击式PHC预应力混凝土管桩贯入度的控制
- 新教科版一年级科学下册第一单元第6课《哪个流动得快》课件
- 屋面种植土垂直施工方案
- 2025年新人教PEP版英语三年级下册全册课时练习
- 《爱耳日课件》课件
- 2024年安徽中医药高等专科学校高职单招职业适应性测试历年参考题库含答案解析
- 叙事医学培训课件
- 《劳动纪律》课件
- 2025年保密工作计划(3篇)
评论
0/150
提交评论