版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
从浩瀚无垠的宇宙到微小的分子、原子,从无机界到有机界,从自然到社会,无一事物不处在与其他事物的联系之中.事物之间不仅存在着相互联系,而且还具有一定的内部规律.第8章回归分析与方差分析例如,矩形的面积S和矩形的两条边长a和b有关系:又如著名的欧姆定律指出,电压V、电阻R与电流I之间有关系:S=a.babSV=I.R让我们来看一下有联系的变量之间的关系:以上两例的共同点在于,三个量中任意两个已知,其余一个就可以完全确定.也就是说,变量之间存在着确定性的关系,并且可以用数学表达式来表示这种关系.然而,在大量的实际问题中,变量之间虽有某种关系,但这种关系很难找到一种精确的表示方法来描述.
例如,人的身高与体重之间有一定的关系,知道一个人的身高可以大致估计出他的体重,但并不能算出体重的精确值.
其原因在于人有较大的个体差异,因而身高和体重的关系,是既密切但又不能完全确定的函数关系.
类似的变量间的关系在大自然和社会中屡见不鲜.
例如,小麦的穗长与穗重的关系;某班学生最后一次考试分数与第一次考试分数的关系;温度、降雨量与农作物产量间的关系;人的年龄与血压的关系;最大积雪深度与灌溉面积间的关系;家庭收入与支出的关系等等.从数量的角度去研究这种关系,是数理统计的一个任务.这包括通过观察和试验数据去判断变量之间有无关系,对其关系大小作出数量上的估计,对互有关系的变量通过其一去推断和预测其它,等等.回归分析就是研究相关关系的一种重要的数理统计方法.这种大量存在的变量间既互相联系但又不是完全确定的关系,称为相关关系.
回归这一术语是1886年英国生物学家高尔顿在研究遗传现象时引进的.他发现:虽然高个子的先代会有高个子的后代,但后代的增高并不与先代的增高等量.他称这一现象为“向平常高度的回归”.尔后,他的朋友麦尔逊等人搜集了上千个家庭成员的身高数据:y=0.516x+33.73(英寸)分析出儿子的身高y和父亲的身高x大致为如下关系:这意味着,若父亲身高超过父亲平均身高6英寸,那么其儿子的身高大约只超过儿子平均身高3英寸,可见有向平均值返回的趋势.诚然,如今对回归这一概念的理解并不是高尔顿的原意,但这一名词却一直沿用下来,成为统计学中最常用的概念之一.6英寸3英寸在回归分析中,当变量只有两个时,称为一元回归分析;当变量在两个以上时,称为多元回归分析.变量间成线性关系,称线性回归,变量间不具有线性关系,称非线性回归.一元回归多元回归线性非线性在这一讲里,我们主要讨论的是一元线性回归.它是处理两个变量之间关系的最简单的模型.它虽然比较简单,但我们从中可以了解到回归分析的基本思想、方法和应用.一元线性回归一元线性回归一元线性回归
8.1
一元线性回归模型为了估计山上积雪融化后对下游灌溉的影响,在山上建立了一个观测站,测量了最大积雪深度x与当年灌溉面积y,得到连续10年的数据如下表:让我们用一个例子来说明如何建立一元线性回归方程.8.1.1一元回归模型的建立年序最大积雪深度x(米)灌溉面积y(公顷)15.1190723.5128737.1269346.2237358.8326067.8300074.5194785.6227398.03113106.42493为了研究这些数据中所蕴含的规律性,我们由10对数据作出散点图.从图看到,数据点大致落在一条直线附近,这告诉我们变量x和y之间大致可看作线性关系.yxo4000300020001000246810···········从图中还看到,这些点又不完全在一条直线上,这表明x和y的关系并没有确切到给定x就可以唯一确定y的程度.事实上,还有许多其它因素对y产生影响,如当年的平均气温、当年的降雨量等等,都是影响y取什么值的随机因素.其中a和b是未知常数,称回归系数,ε表示其它随机因素对灌溉面积的影响.y=a+bx+ε如果我们只研究x和y的关系,可以假定有如下结构式:实际中常假定ε服从正态分布N(0,σ2),即
y=a+bx+ε,ε
~N(0,)(1)为一元线性回归模型.通常称由(1)式,我们不难算得y的数学期望:E(y)=a+bx该式表示当x已知时,可以精确地算出E(y).由于ε是不可控制的随机因素,通常就用E(y)作为y的估计,记作.这样我们得到
称此方程为y关于x的回归方程
.(2)现对模型(1)中的变量x,y进行了n次独立观察,得样本(x1,y1),…,(xn,yn)
(3)据(1)式,此样本的构造可由方程
y=a+bx+ε,ε
~N(0,)(1),i=1,2,…,n(4)这里是第i次观察时随机误差所取的值,它是不能观察的.来描述.
i=1,2,…,n(5)
(4)式和(5)式结合,给出了样本(x1,y1),…,(xn,yn)的概率性质.它是对理论模型进行统计分析推断的依据.也常称(4)+(5)为一元线性回归模型.由于各次观察独立,有,i=1,2,…,n(4)由于此方程的建立有赖于通过观察或试验积累的数据,所以有时又称其为经验回归方程或经验公式.(6)
回归分析的任务是利用n组独立观察数据(x1,y1),…,(xn,yn)来估计a和b,以估计值和分别代替(2)式中的a和b,得回归方程那么要问,如何利用n组独立观察数据来估计a和b?8.1.2一元线性回归模型的参数估计1.用最小二乘法估计a,b首先举例说明最小二乘法的思想:假设为估计某物体的重量,对它进行了n次称量,因称量有误差,故n次称量结果x1,x2,…,xn有差异,现在用数去估计物重,则它与上述n次称量结果的偏差的平方和是:于是就提出了下面的估计原则:用这种方法作出的估计叫最小二乘估计.
最小二乘法认为,一个好的估计,应使这个平方和尽可能地小.寻找,使上述平方和达到最小,以这个作为物重的估计值,这就是最小二乘法.现在的情况是,对(x,y)作了n次观察或试验,得到n对数据,我们想找一条直线
,尽可能好地拟合这些数据.
yx
由回归方程,当x取值xi时,应取值a+bxi
,而实际观察到的为yi
,这样就形成了偏差依照最小二乘法的思想,提出目标量Q(7)它是所有实测值yi与回归值的偏差平方和.yxyx我们可设法求出a,b的估计值,,使偏差平方和Q达到最小.(7)(7)我们可设法求出a,b的估计值,,使偏差平方和Q达到最小.由此得到的回归直线
是在所有直线中偏差平方和Q最小的一条.
yx通常可采用微积分中求极值的办法,求出使Q达到最小的,.(7)即解方程:
得
(8)
其中
从而得到回归方程按照上述准则,我们可求出前面例子中灌溉面积y对最大积雪深度x的回归方程是:可以看出,最大积雪深度每增加一个单位,灌溉面积平均增加364个单位.
2.用极大似然法估计a,b
求出回归方程,问题尚未结束,由于是从观察得到的回归方程,它会随观察结果的不同改变,并且它只反映了由x的变化引起的y的变化,而没有包含误差项.(1)回归方程是否有意义?即自变量x的变化是否真的对因变量y有影响?因此,有必要对回归效果作出检验.因此在获得这样的回归方程后,通常要问这样的问题:8.1.3线性相关关系检验(2)如果方程真有意义,用它预测y时,预测值与真值的偏差能否估
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2018高考化学三月(二轮)课外自练(七)及答案
- 浙江省杭州市学军中学紫金港高中2023-2024学年高一下学期期中考前测英语试题2
- 安徽省宣城市高三第二次调研测试理数试题
- 2024年B2B社媒营销研究报告
- 婚庆策划中介居间合同样本
- 4S店装修项目合同模板
- 2023-2024学年全国小学四年级上信息与技术仁爱版期末试卷(含答案解析)
- 2024年展馆工程施工合同范本
- 2024年宁夏客运丛业资格证考试
- 即食型金针菇产品项目可行性研究报告
- 电梯维保数字化转型策略与实践
- 粤教版科学四年级上册全册试卷(含答案)
- 远大住工-装配式建筑发展现状和技术标准
- 上海大学计算机网络实验报告4
- 生产计划达成率及分析报告
- 贵州省贵阳市2022-2023学年高一上学期期末监测地理试题(含答案)
- 戏剧理论与表演技巧
- 二手车交易行业创业计划书
- 2024年中国五矿集团招聘笔试参考题库含答案解析
- 2024年中国邮政招聘笔试参考题库含答案解析
- 浙江省温州市普通高中2024届高三上学期第一次适应性考试数学试题(解析版)
评论
0/150
提交评论