




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 从浩瀚无垠的宇宙到微小的分从浩瀚无垠的宇宙到微小的分子、原子,从无机界到有机界,从子、原子,从无机界到有机界,从自然到社会,无一事物不处在与其自然到社会,无一事物不处在与其他事物的联系之中他事物的联系之中. .事物之间不仅存事物之间不仅存在着相互联系,而且还具有一定的在着相互联系,而且还具有一定的内部规律内部规律. .例如例如, 矩形的面积矩形的面积S和矩形的两条边长和矩形的两条边长a和和b有关系有关系:又如著名的欧姆定律指出又如著名的欧姆定律指出, 电压电压V、电阻、电阻R与电流与电流I之间有关系之间有关系:S=a.babSV=I. R让我们来看一下有联系的变量之间的关系让我们来看一下有联
2、系的变量之间的关系: : 以上两例的共同点在于以上两例的共同点在于,三个量中任意三个量中任意两个已知两个已知,其余一个就可以完全确定其余一个就可以完全确定. . 也就也就是说是说,变量之间存在着确定性的关系变量之间存在着确定性的关系,并且并且可以用数学表达式来表示这种关系可以用数学表达式来表示这种关系. . 然而,在大量的实际问题中,变量之然而,在大量的实际问题中,变量之间虽有某种关系,但这种关系很难找到一间虽有某种关系,但这种关系很难找到一种精确的表示方法来描述种精确的表示方法来描述. . 例如例如,人的身高与体重之间有一定的关系人的身高与体重之间有一定的关系,知道一个人的身高可以大致估计出
3、他的体重知道一个人的身高可以大致估计出他的体重,但并不能算出体重的精确值但并不能算出体重的精确值. . 其原因在于人有较大的个体差异其原因在于人有较大的个体差异, 因而身高因而身高和体重的关系和体重的关系, 是既密切但又不能完全确定是既密切但又不能完全确定的函数关系的函数关系. . 类似的变量间的关系在大自然和社会中类似的变量间的关系在大自然和社会中屡见不鲜屡见不鲜. . 例如例如,小麦的穗长与穗重的关系小麦的穗长与穗重的关系;某班学生最某班学生最后一次考试分数与第一次考试分数的关系后一次考试分数与第一次考试分数的关系;温温度、降雨量与农作物产量间的关系度、降雨量与农作物产量间的关系;人的年龄
4、人的年龄与血压的关系与血压的关系;最大积雪深度与灌溉面积间的最大积雪深度与灌溉面积间的关系关系;家庭收入与支出的关系等等家庭收入与支出的关系等等. 从数量的角度去研究这种关系,是数从数量的角度去研究这种关系,是数理统计的一个任务理统计的一个任务. 这包括通过观察和试这包括通过观察和试验数据去判断变量之间有无关系,对其关验数据去判断变量之间有无关系,对其关系大小作出数量上的估计系大小作出数量上的估计,对互有关系的对互有关系的变量通过其一去推断和预测其它变量通过其一去推断和预测其它,等等等等. 回归分析就是研究相关关系的一种重回归分析就是研究相关关系的一种重要的数理统计方法要的数理统计方法.这种大
5、量存在的变量间既互相联系但又不这种大量存在的变量间既互相联系但又不是完全确定的关系,称为是完全确定的关系,称为相关关系相关关系. 回归这一术语是回归这一术语是18861886年英国生年英国生物学家高尔顿在研究遗传现象物学家高尔顿在研究遗传现象时引进的时引进的. . 他发现他发现: 虽然高个子的先代会有高个子的后虽然高个子的先代会有高个子的后代代, 但后代的增高并不与先代的增高等量但后代的增高并不与先代的增高等量. 他称这一现象为他称这一现象为“向平常高度的回归向平常高度的回归”.尔后尔后,他的朋友麦尔逊等人搜集了上千个家他的朋友麦尔逊等人搜集了上千个家庭成员的身高数据庭成员的身高数据:y=0.
6、516x+33.73 (英寸英寸)分析出儿子的身高分析出儿子的身高y和父亲的身高和父亲的身高x大致为大致为如下关系:如下关系: 这意味着这意味着, 若父亲身高超过父亲平均身高若父亲身高超过父亲平均身高6英英寸寸, 那么其儿子的身高大约只超过儿子平均那么其儿子的身高大约只超过儿子平均身高身高3英寸英寸, 可见有向平均值返回的趋势可见有向平均值返回的趋势.诚然诚然, 如今对回归这一概念的理解并不是高如今对回归这一概念的理解并不是高尔顿的原意尔顿的原意, 但这一名词却一直沿用下来但这一名词却一直沿用下来, 成为统计学中最常用的概念之一成为统计学中最常用的概念之一.6英寸英寸3英寸英寸 在回归分析中在
7、回归分析中, 当变量只有两个时当变量只有两个时, 称为称为一元回归分析一元回归分析; 当变量在两个以上时当变量在两个以上时, 称为多称为多元回归分析元回归分析. 变量间成线性关系变量间成线性关系, 称线性回归称线性回归,变量间不具有线性关系变量间不具有线性关系, 称非线性回归称非线性回归.一元回归一元回归多元回归多元回归线性线性非线性非线性 在这一讲里在这一讲里, 我们主要讨论的是一元线我们主要讨论的是一元线性回归性回归. 它是处理两个变量之间关系的最简它是处理两个变量之间关系的最简单的模型单的模型. 它虽然比较简单它虽然比较简单, 但我们从中可以但我们从中可以了解到回归分析的基本思想、方法和
8、应用了解到回归分析的基本思想、方法和应用. 设随机变量设随机变量y与变量与变量x之间存在着某种相之间存在着某种相关关系关关系, 其中其中x是能够控制或可以精确测量是能够控制或可以精确测量的变量的变量. . 年龄年龄身高身高施肥量施肥量积雪深度积雪深度xy灌溉面积灌溉面积产量产量血压血压体重体重为了今后研究方便为了今后研究方便, 我们把我们把x当作普通变量当作普通变量, 而不把它看作随机变量而不把它看作随机变量.对于对于x的一组不完全相同的值的一组不完全相同的值x1, x2,xn作作独立观察独立观察, 得到随机变量得到随机变量y相应的观察值相应的观察值y1,y2, ,yn, 构成构成n对数据对数
9、据. 用这用这n对数据可作对数据可作出一个散点图出一个散点图, 直观地描述一下两变量之间直观地描述一下两变量之间的关系的关系.yxo这里有三幅散点图这里有三幅散点图.yxo(1)oyx (2)yxo(3)根据散点图根据散点图, 考虑以下几个问题考虑以下几个问题:(1)两变量之间的关系是否密切两变量之间的关系是否密切, 或者说我或者说我 们能否由们能否由x来估计来估计y.(2)两变量之间的关系是呈一条直线还是两变量之间的关系是呈一条直线还是呈某种曲线呈某种曲线.(3)是否存在某个点偏离过大是否存在某个点偏离过大.(4)是否存在其它规律是否存在其它规律.yxo(1)oyx (2)yxo(3)考虑采
10、用线性方程拟合考虑采用线性方程拟合采用非线性采用非线性方程拟合方程拟合以下重点讨论前者以下重点讨论前者 一元线性回归一元线性回归 为了估计山上积雪融化后对下游灌为了估计山上积雪融化后对下游灌溉的影响溉的影响, 在山上建立了一个观测站在山上建立了一个观测站, 测量了最大积雪深度测量了最大积雪深度x与当年灌溉面积与当年灌溉面积 y, 得到连续得到连续10年的数据如下表年的数据如下表: 让我们用一个例子来说明如何建立让我们用一个例子来说明如何建立一元线性回归方程一元线性回归方程.年序 最大积雪深度x(米) 灌溉面积y(公顷) 1 5.1 1907 2 3.5 1287 3 7.1 2693 4 6.
11、2 2373 5 8.8 3260 6 7.8 3000 7 4.5 1947 8 5.6 2273 9 8.0 3113 10 6.4 2493 为了研究这些数据中所蕴含的规律性为了研究这些数据中所蕴含的规律性, 我们由我们由10对数据作出散点图对数据作出散点图. . 从图看到从图看到, 数据点大致落在一条直线附数据点大致落在一条直线附近近, 这告诉我们变量这告诉我们变量x和和y之间大致可看作线之间大致可看作线性关系性关系.yxo40003000200010002 4 6 8 10 从图中还看到从图中还看到, 这些点又不完全在这些点又不完全在一条直线上一条直线上, 这表明这表明x和和y的关系
12、并没有确切的关系并没有确切到给定到给定x就可以唯一确定就可以唯一确定y的程度的程度. 事实上事实上, 还有许多其它因素对还有许多其它因素对y产生影产生影响响,如当年的平均气温、当年的降雨量等等如当年的平均气温、当年的降雨量等等, 都是影响都是影响y取什么值的随机因素取什么值的随机因素.其中其中a和和b是未知常数是未知常数, 称回归系数称回归系数, 表示表示其它随机因素对灌溉面积的影响其它随机因素对灌溉面积的影响.0)(D0)(E22未知未知 y =a+bx+如果我们只研究如果我们只研究x和和y的关系的关系, 可以假定有可以假定有如下结构式如下结构式: 实际中常假定实际中常假定服从正态分布服从正
13、态分布N(0,2), 即即 y=a+bx+, N(0, ) (1) 2为一元线性回归模型为一元线性回归模型.通常称通常称由由(1)式式, 我们不难算得我们不难算得y的数学期望的数学期望:E(y)=a+bx该式表示当该式表示当x已知时,可以精确地算出已知时,可以精确地算出E(y).由于由于是不可控制的随机因素,通常就用是不可控制的随机因素,通常就用E(y)作为作为y的估计的估计, 记作记作 . 这样我们得到这样我们得到y 称此方程为称此方程为y关于关于x的的回归方程回归方程 . (2)xbay 现对模型现对模型(1)中的变量中的变量x , y进行了进行了n次独次独立观察立观察, 得样本得样本(x
14、1,y1),(xn,yn) (3)据据(1)式式, 此样本的构造可由方程此样本的构造可由方程 y=a+bx+, N(0, ) (1) 2 , i=1,2, ,n (4)iiibxay 这里这里 是第是第i次观察时随机误次观察时随机误差所取的值,它是不能观察的差所取的值,它是不能观察的.i来描述来描述. i=1,2, ,n (5)0)(0)(2 iiDE (4)式和式和(5)式结合,给出了样本式结合,给出了样本(x1,y1),(xn,yn) 的概率性质的概率性质. 它是对理论它是对理论模型进行统计分析推断的依据模型进行统计分析推断的依据. 也常称也常称(4)+(5)为为一元线性回归模型一元线性回
15、归模型.由于各次观察独立,有由于各次观察独立,有 , i=1,2, ,n (4)iiibxay由于此方程的建立有赖于通过观察或试验由于此方程的建立有赖于通过观察或试验积累的数据积累的数据, 所以有时又称其为所以有时又称其为经验回归经验回归方程方程或或经验公式经验公式. (6)xbayb 回归分析的任务是利用回归分析的任务是利用n组独立观察数组独立观察数据据(x1,y1),(xn,yn)来估计来估计a和和b, 以估计值以估计值 和和a b分别代替分别代替(2)式中的式中的a和和b, 得回归方程得回归方程 那么要问,如何利用那么要问,如何利用n组独立观察组独立观察数据来估计数据来估计a和和b?1用
16、最小二乘法估计用最小二乘法估计a,b首先举例说明最小二乘法的思想:首先举例说明最小二乘法的思想:niixx12) ( 假设为估计某物体的重量假设为估计某物体的重量, 对它进行了对它进行了n次称量次称量, 因称量有误差因称量有误差, 故故n次称量结果次称量结果x1, x2,xn有差异有差异, 现在用数现在用数 去估计物重去估计物重, 则它则它与上述与上述n次称量结果的偏差的平方和是次称量结果的偏差的平方和是:x x niixx12) (于是就提出了下面的估计原则于是就提出了下面的估计原则:用这种方法作出的估计叫最小二乘估计用这种方法作出的估计叫最小二乘估计. . 最小二乘法认为最小二乘法认为,
17、一个好的估计一个好的估计 , 应使应使这个平方和尽可能地小这个平方和尽可能地小. x 寻找寻找 ,使上述平方和达到最小使上述平方和达到最小,以这个以这个 作作为物重的估计值为物重的估计值, 这就是最小二乘法这就是最小二乘法.x x 现在的情况是现在的情况是, 对对(x,y)作了作了n次观察或试验次观察或试验, 得到得到n对数据对数据, 我们想找一条直线我们想找一条直线 ,尽可能好地拟合这些数据尽可能好地拟合这些数据. . xbay)(iiibxayixyxbxayiy iiyyiyiiyy 由回归方程由回归方程, 当当x取值取值xi时时, 应取值应取值a+bxi , 而实际观察到的为而实际观察
18、到的为 yi , 这样就形这样就形成了偏差成了偏差iy i 依照最小二乘法的思想,提出目标量依照最小二乘法的思想,提出目标量QniiibxayQ12)(7)iiiiiyybxay)( 它是所有实测值它是所有实测值yi与回归值与回归值 的偏差的偏差平方和平方和. .iy ixyxbxayiy iiyyiyixyxbxayiy iiyyiy我们可设法求出我们可设法求出a , b的估计值的估计值 , ,使偏差平使偏差平方和方和Q达到最小达到最小. a bniiibxayQ12)(7)niiibxayQ12)(7)我们可设法求出我们可设法求出a , b的估计值的估计值 , ,使偏差平使偏差平方和方和Q
19、达到最小达到最小. a bxbayxbay由此得到的回归直线由此得到的回归直线 是在所有直是在所有直线中偏差平方和线中偏差平方和Q最小的一条最小的一条. . ixyxbxayiy iiyyiya b 通常可采用微积分中求极值的办法通常可采用微积分中求极值的办法, 求求出使出使Q达到最小的达到最小的 , . .niiibxayQ12)(7)即解方程:即解方程: 00bQaQxxxyLLbxbya得得 (8) 其中其中 niixnx11niiyny11niixxxxL12)(niiixyyyxxL1)(从而得到回归方程从而得到回归方程xbay按照上述准则按照上述准则,我们可求出前面例子中灌溉我们可
20、求出前面例子中灌溉面积面积y对最大积雪深度对最大积雪深度x的回归方程是的回归方程是:xy364142可以看出可以看出, 最大积雪深度每增加一个单位最大积雪深度每增加一个单位, 灌溉面积平均增加灌溉面积平均增加364个单位个单位. . 可以证明可以证明,我们用最小二乘法求出的估我们用最小二乘法求出的估计计 分别是分别是 a, b 的无偏估计的无偏估计, 它们都是它们都是 y y1 1, ,y y2 2, , ,y yn n的线性函数的线性函数, ,而且在所有而且在所有y1, y2 , ,yn的线性函数中的线性函数中, 最小二乘估计的方差最小二乘估计的方差最小最小. .ba, 求出回归方程,问题尚
21、未结束,求出回归方程,问题尚未结束, 由于由于 是从观察得到的回归方程,是从观察得到的回归方程,它会随观察结果的不同改变,并且它只反它会随观察结果的不同改变,并且它只反映了由映了由x的变化引起的的变化引起的y的变化,而没有包的变化,而没有包含误差项含误差项 .xbay(1)回归方程是否有意义)回归方程是否有意义? 即自变量即自变量x的变化是否真的对因变量的变化是否真的对因变量y有影响有影响? 因此因此,有必要对回归效果作出检验有必要对回归效果作出检验.因此在获得这样的回归方程后,通常要因此在获得这样的回归方程后,通常要问这样的问题问这样的问题: (2)如果方程真有意义,用它预测)如果方程真有意
22、义,用它预测y时,时,预测值与真值的偏差能否估计?预测值与真值的偏差能否估计?(1)回归方程是否有意义)回归方程是否有意义? 即自变量即自变量x的变化是否真的对因变量的变化是否真的对因变量y有影响有影响? 因此因此,有必要对回归效果作出检验有必要对回归效果作出检验.下面我们来讨论这两个问题下面我们来讨论这两个问题. . 2.2.回归方程的显著性检验回归方程的显著性检验 对任意两个变量的一组观察对任意两个变量的一组观察因此需要考察因此需要考察 y 与与 x 间是否确有线性相间是否确有线性相关关系关关系, 这就是这就是回归效果的检验回归效果的检验问题问题.都可以用最小二乘法形式上求得都可以用最小二
23、乘法形式上求得 y 对对 x的的回归方程回归方程, 如果如果y 与与x 没有线性相关关系没有线性相关关系, 这种形式的回归方程就没有意义这种形式的回归方程就没有意义 .(xi, yi), i=1, 2, , n 我们注意到我们注意到 只反映了只反映了x对对y的的影响,所以回归值影响,所以回归值 就是就是yi中只受中只受xi影响的影响的那一部分那一部分, 而而 则是除去则是除去 xi的影响后的影响后, 受其它种种因素影响的部分受其它种种因素影响的部分, 故将故将 称称为为残差残差. . xbayiy iiyyiiyyyxiyixa iiyybxayy yoyxiyixa iiyybxayy yo
24、 于是观测值于是观测值yi可以分解为两部分可以分解为两部分 和和 , )(iiiiyyyyiiyyiy 并且并且 也可分解为两部分也可分解为两部分.yyi)()(iiiiyyyyyy因此因此, y1, y2, , yn 的总变差为的总变差为 : niiyyS122)(总(9)niiyyS122)(总niniiiiyyyy1122)()(可以证明可以证明2回S2残S2总S即即 可以分解为两部分可以分解为两部分: 回归平方和回归平方和 与残差平方和与残差平方和 . 2回S2残S2总SniiyyS122)(回niiiyyS122)(残(10)niiyyS122)(回niiiyyS122)(残(10)
25、 反映了由于自变量反映了由于自变量x的变化引起的因的变化引起的因变量变量 y 的差异,体现了的差异,体现了x对对y的影响;的影响;2回S2残S而而 反映了种种其它因素对反映了种种其它因素对y的影响的影响, 这些这些因素没有反映在自变量中因素没有反映在自变量中, 它们可作为随机它们可作为随机因素看待因素看待. 2回S2残S2总S222残回总SSS2回S2残S可见可见, 为为x 的影响部分与随机因素的影响部分与随机因素影响部分的相对比值影响部分的相对比值.yxiyixa iiyybxayy yo它的作用和随机因素的作用相当它的作用和随机因素的作用相当, 于是由于是由数据得到的回归方程就没有什么意义
26、数据得到的回归方程就没有什么意义. 若它不是显著地若它不是显著地大大, 表明我们所选表明我们所选的的x , 并不是一个并不是一个重要的因素重要的因素.2回S2残S可见可见, 为为x 的影响部分与随机因素的影响部分与随机因素影响部分的相对比值影响部分的相对比值.yxiyixa iiyybxayy yo如果它显著地大如果它显著地大, 表明表明x的作用是显的作用是显著地比随机因素著地比随机因素大大, 这样这样, 方程方程 就有意义就有意义.通常我们可假设通常我们可假设y和和x没有线性相关关系,没有线性相关关系,对回归方程是否有意义进行显著性检验对回归方程是否有意义进行显著性检验.)2(22nSSF残
27、回,)(22回SE222)( nSE残(11) )(残回222nSSF222残回)(SSn 因此用因此用 bbxbay来检验来检验b的绝对值是否显著大于的绝对值是否显著大于0 (或者说检或者说检验回归方程验回归方程 是否有意义是否有意义). 可以证明可以证明:bxay的关系式中的关系式中b=0时时, 有有当当F(1,n-2)(12)给定显著性水平给定显著性水平, 通过查通过查F分布分位数表分布分位数表, 求求出否定域出否定域, 便可判断回归方程是否有意义便可判断回归方程是否有意义.拒绝域为:拒绝域为: ) 2, 1 (nFF 由上面的讨论可知由上面的讨论可知, 要问回归方程是否要问回归方程是否
28、有意义有意义, 就是要检验假设就是要检验假设H0: b=0; H1: b0使用的检验统计量为使用的检验统计量为:)2(22nSSF残回F(1,n-2))(残回222nSSF222残回)(SSn niixbaxba12) (niiyyS122)(回 我们可以用更简单的公式计算回归平我们可以用更简单的公式计算回归平方和方和 与残差平方和与残差平方和 : 2回S2残SxyyyLLSSS222回总残(14)xyxxniiLbLbxxb)(2122(13) 现在对例中建立的回归方程进行检验,现在对例中建立的回归方程进行检验,可计算得可计算得: 3319592758.91193642xyLbS回,3393
29、0252总S2残S=3393025-3318355222残回)(SSnF=355.5746703318355)210( 对对=0.01, 由由F表查得表查得 =11.26,)8 , 1 (01.0F)8 , 1 (01.0F由于由于F , 故回归方程有意义故回归方程有意义. 当检验认为回归方程确有意义当检验认为回归方程确有意义. 则可用来则可用来进行予测或控制进行予测或控制, 这也是建立回归方程的这也是建立回归方程的重要目的重要目的. 对给定的对给定的x值,由回归方程值,由回归方程 就就可得可得 的值的值. xbayy 3 3预测预测当已知最大积雪深度为当已知最大积雪深度为9.2米时米时, 就
30、可以预就可以预测灌溉面积:测灌溉面积:y =142+3649.2=3489(公顷公顷).由灌溉面积由灌溉面积y对最大积雪深度对最大积雪深度x的回归方程的回归方程 例如例如,xy364142实际的实际的y与预测的与预测的 不一定相等,重要的是不一定相等,重要的是它们的偏差有多大它们的偏差有多大.y ,) 2()(22 nSE残22)2(nSE残即即y 事实上我们无法确切定出事实上我们无法确切定出 y- 的值的值, 只能估只能估计计 的范围的范围. yy), 0(2Nyy 通常可假定通常可假定yy通过对通过对的估计的估计, 就知道就知道 的取值范围的取值范围.已知有已知有所以所以)2(22nS残)2(22nS残2 根据建立回归方程时算得的根据建立回归方程时算得的 ,可以算得可以算得 .
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 社工服务项目合同
- 工程承包和项目咨询合同
- 工业厂房买卖合同协议书
- 民间借贷担保人合同
- 0 的认识与加减法(教学设计)2024-2025学年一年级上册数学人教版
- 《12 昼与夜》作业设计方案-2024-2025学年二年级上册科学教学设计 粤教粤科版
- 绥化学院《外科学总论》2023-2024学年第二学期期末试卷
- 大连海洋大学《工程力学及机械设计基础》2023-2024学年第二学期期末试卷
- 铜陵学院《国际贸易综合实训》2023-2024学年第二学期期末试卷
- 宁夏工业职业学院《计算机网络基础》2023-2024学年第二学期期末试卷
- 2023年黑龙江省哈尔滨市单招数学摸底卷(含答案)
- 浙江台州仙居富民村镇银行2023年招聘人员笔试历年高频考点试题答案带详解
- 教科版六下科学全册课时练(含答案)
- 机械制造技术基础PPT(中职)全套教学课件
- (完整版)小学英语语法大全-附练习题,推荐文档
- 数学人教版六年级下册简便运算课件
- 非遗申请书范本
- 吊顶工程课件
- 山东大学出版社六年级上册传统文化第一单元宽仁厚爱备课教案
- 2023年金华职业技术学院高职单招(英语)试题库含答案解析
- GB/T 16492-1996光学和光学仪器环境要求总则、定义、气候带及其参数
评论
0/150
提交评论