




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、8.4 一元线性回归 8.4.1 变量间的两类关系 十九世纪,英国生物学家兼统计学家高尔顿研究发现: 其中x表示父亲身高, y 表示成年儿子的身高(单位:英寸,1英寸=2.54厘米)。这表明子代的平均高度有向中心回归的意思,使得一段时间内人的身高相对稳定。之后回归分析的思想渗透到了数理统计的其它分支中。 第1页,共35页。 回归分析便是研究变量间相关关系的一门学科。它通过对客观事物中变量的大量观察或试验获得的数据,去寻找隐藏在数据背后的相关关系,给出它们的表达形式回归函数的估计。 变量间的相关关系不能用完全确切的函数形式表示,但在平均意义下有一定的定量关系表达式,寻找这种定量关系表达式就是回归
2、分析的主要任务。 回归分析处理的是变量与变量间的关系。变量间常见的关系有两类:确定性关系与相关关系。第2页,共35页。 8.4.2 一元线性回归模型 设y与x间有相关关系,称x为自变量(预报变量),y为因变量(响应变量),在知道x取值后,y有一个分布p(yx),我们关心的是y的均值E(Yx): (8.4.1) 这便是y关于x的理论回归函数条件期望,也就是我们要寻找的相关关系的表达式。 通常,相关关系可用下式表示 y =f (x)+ 其中是随机误差,一般假设 N(0, 2)。 第3页,共35页。 例8.4.1 合金的强度y (107Pa) 与合金中碳的含量x (%) 有关。为研究两个变量间的关系
3、。首先是收集数据,我们把收集到的数据记为(xi,yi),i=1,2,n。本例中,我们收集到12组数据,列于表8.4.1中 进行回归分析首先是回归函数形式的选择。当只有一个自变量时,通常可采用画散点图 的方法进行选择。第4页,共35页。表8.4.1 合金钢强度y与碳含量x的数据 序号x(%)y (107Pa)序号x(%)y (107Pa)10.1042.070.1649.020.1143.080.1753.030.1245.090.1850.040.1345.0100.2055.050.1445.0110.2155.060.1547.5120.2360.0第5页,共35页。 为找出两个量间存在的
4、回归函数的形式,可以画一张图:把每一对数(xi,yi)看成直角坐标系中的一个点,在图上画出n个点,称这张图为散点图,见图8.4.1 第6页,共35页。 从散点图我们发现12个点基本在一条直线附近,这说明两个变量之间有一个线性相关关系,这个相关关系可以表示为 y =0+ 1x+ (8.4.2) 这便是y关于x的一元线性回归的数据结构式。通常假定 E() =0, Var() = 2 (8.4.3) 在对未知参数作区间估计或假设检验时,还需要假定误差服从正态分布,即 y N(0+ 1x, 2 ) (8.4.4) 显然,假定(8.4.4) 比 (8.4.3) 要强。 第7页,共35页。 由于 0, 1
5、均未知,需要我们从收集到的数据(xi,yi),i=1,2,n,出发进行估计。在收集数据时,我们一般要求观察独立地进行, 即假定y1, y2, yn,相互独立。综合上述诸项假定,我们可以给出最简单、常用的一元线性回归的数学模型: (8.4.5) 第8页,共35页。 由数据(xi,yi),i=1,2,n,可以获得0, 1的估计 ,称 (8.4.6) 为y关于x的经验回归函数,简称为回归方程,其图形称为回归直线。给定x=x0后, 称 为回归值(在不同场合也称其为拟合值、预测值)。 第9页,共35页。8.4.3 回归系数的最小二乘估计 一般采用最小二乘方法估计模型(8.4.5)中的0, 1 :令: 应
6、该满足 称这样得到的 称为0, 1的最小二乘估计,记为LSE。 第10页,共35页。 最小二乘估计可以通过求偏导数并命其为0而得到: (8.4.7) 这组方程称为正规方程组,经过整理,可得 (8.4.8) 第11页,共35页。解(8.4.8)可得 (8.4.9)这就是参数的最小二乘估计,其中 第12页,共35页。表8.4.2 例8.4.2的计算表 xi=1.90n=12yi=590.5xi2=0.3194xi yi =95.9250yi2=29392.75lxx=0.0186lxy=2.4292lyy=335.2292由此给出回归方程为: 例8.4.2 使用例8.4.1种合金钢强度和碳含量 数
7、据,我们可求得回归方程,见下表. 第13页,共35页。 定理8.4.1 在模型(8.4.5)下,有 (1) (2) (3)对给定的x0,关于最小二乘估计的一些性质罗列在如下定理之中 第14页,共35页。定理8.4.1 说明 分别是0, 1的无偏估计; 是E(y0)=0+ 1 x0的无偏估计; 除 外, 与 是相关的; 要提高 的估计精度(即降低它们的方 差)就要求n大,lxx大(即要求x1, x2, xn较 分散)。 第15页,共35页。8.4.4 回归方程的显著性检验 在使用回归方程作进一步的分析以前,首先应对回归方程是否有意义进行判断。 如果1=0,那么不管x如何变化,E(y)不随x的变化
8、作线性变化,那么这时求得的一元线性回归方程就没有意义,称回归方程不显著。如果10,E(y)随x的变化作线性变化,称回归方程是显著的。 综上,对回归方程是否有意义作判断就是要作如下的显著性检验:H0:1=0 vs H1: 10 拒绝H0表示回归方程是显著的。第16页,共35页。一、F 检验 采用方差分析的思想,我们从数据出发研究各yi不同的原因。 数据总的波动用总偏差平方和 表示。引起各yi不同的原因主要有两个因素:其一是H0可能不真,E(y)随x的变化而变化,从而在每一个x的观测值处的回归值不同,其波动用回归平方和 表示;其二是其它一切因素,包括随机误差、x对E(y)的非线性影响等,这可用残差
9、平方和 表示。 且有如下平方和分解式: ST= SR + Se (8.4.13) 在一元线性回归中有三种等价的检验方法,下面分别加以介绍。第17页,共35页。定理8.4.2 设yi=i+ 1 xi + i,其中i n相互独立, 且Ei=0,Var(yi)= 2,i=1,n,沿用上面的记号,有 (8.4.14) (8.4.15) 这说明 是 2的无偏估计。 关于SR 和 Se所含有的成分可由如下定理说明。 第18页,共35页。进一步,有关SR 和 Se的分布,有如下定理。 定理8.4.3 设 y1, y2, yn 相互独立,且 yiN(i + 1 xi , 2), i=1, , n, 则在上述记
10、号下,有 (1)Se / 2 2(n2), (2)若H0成立,则有SR / 2 2(1) (3) SR与Se , 独立(或 与Se , 独立)。 第19页,共35页。 如同方差分析那样,我们可以考虑采用F比作为检验统计量: 在1 =0时,FF(1, n2),其中fR =1, fe =n2. 对于给定的显著性水平,拒绝域为 F F1-(1, n2) 整个检验也可列成一张方差分析表。 第20页,共35页。来源平方和自由度均方和F比回归SR =317.2589fA=1MSA=317.2589176.55残差Se =17.9703fe=10MSe= 1.79703总和ST =335.2292fT=11
11、例8.4.3 在合金钢强度的例8.4.2中,我们已求出了回归方程,这里我们考虑关于回归方程的显著性检验。经计算有 若取=0.01,则F0.99(1,10) =103.1698,因此,在显著性水平0.01下回归方程是显著的。 第23页,共35页。 三、相关系数检验 一元线性回归方程是反映两个随机变量x与y间的线性相关关系,它的显著性检验还可通过对二维总体相关系数的检验进行。它的一对假设是 H0:=0 vs H1: 0 (8.4.18) 所用的检验统计量为样本相关系数 (8.4.19) 拒绝域为W=rc,其中临界值c应是H0: =0成立下r的分布的1 分位数,故记为c=r1- (n2). 第24页
12、,共35页。 由样本相关系数的定义可以得到 r与F统计量之间的关系 这表明, r是F的严格单调增函数,故可以从F分布的1 分位数 F1-(1, n2) 得到 r 的1 分位数为第25页,共35页。 譬如,对 =0.01,n=12, F0.99(1,10)=10.04 ,于是 。 为实际使用方便,人们已对r1- (n-2)编制了专门的表,见附表9。 以例8.4.2中数据为例,可以计算得到 若取 =0.01,查附表9知 r0.99(10)=0.708, 由于0.97280.708,因此,在显著性水平0.01下回归方程是显著的。 第26页,共35页。 在一元线性回归场合,三种检验方法是等价的:在相同
13、的显著性水平下,要么都拒绝原假设,要么都接受原假设,不会产生矛盾。 F 检验可以很容易推广到多元回归分析场合,而其他二个则否,所以,F检验是最常用的关于回归方程显著性检验的检验方法。第27页,共35页。 8.4.5 估计与预测 当回归方程经过检验是显著的后,可用来做估计和预测。这是二个不同的问题: (1)当x=x0时,寻求均值E(y0)=0+ 1 x0的点估计与区间 估计(注意这里E(y0)是常量)是估计问题; (2)当x=x0时,y0的观察值在什么范围内?由于y0是随机 变量,为此只能求一个区间,使y0落在这一区间的概 率为1- ,即要求,使 称区间 为y0的概率为1- 的预测区间, 这是预
14、测问题。 第28页,共35页。一、 E(y0)的估计 在x=x0时,其对应的因变量y0是一个随机变量,有一个分布,我们经常需要对该分布的均值给出估计。由于E(y0)=0+ 1 x0,一个直观的估计应为 我们习惯上将上述估计记为 (注意这里 表示的是E(y0)的估计,而不表示y0的估计,因为y0是随机变量,它是没有估计的)。由于 分别是0, 1的无偏估计,因此, 也是E(y0)的无偏估计。 第29页,共35页。 为得到E(y0)的区间估计,我们需要知道 的分布。由定理8.4.1, 又由定理8.4.3知, Se / 2 2(n-2),且与 相互独立,故第30页,共35页。于是E(y0)的1 的置信
15、区间(CI)是 (8.4.20)其中 (8.4.21)第31页,共35页。 二、 y0的预测区间 实用中往往更关心x=x0时对应的因变量y0的取值范围。 y0的最可能取值为 ,于是,我们可以使用以 为中心的一个区间 作为y0的取值范围。经推导, 的表达式为 (8.4.23) 上述预测区间(PI)与E(y0)的置信区间的差别就在于根号里多个1。 第32页,共35页。 预测区间的长度2与样本量n、x的偏差平方和lxx、 x0 到 的距离 有关。 当 时,预测精度可能变得很差,在这种情况下的预测称作外推,需要特别小心。另外,若x1, x2, xn较为集中时,那么lxx就较小,也会导致预测精度的降低。因此,在收集数据时要使x1, x2, xn尽量分散,这对提高精度有利。 当n较大时(如n 30), t分布可以用正态分布近似,进一步,若x0与 相差不大时, 可以近似取为 。 第33页,共35页。 例8.4.4 在例8.4.2中,如果x0=0.16,则得预测值为 若取 =
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专题2.10 函数的综合应用(解析版)-2024年高考数学一轮复习精讲精练宝典(新高考专用)
- 车间地基施工方案
- 景观塔施工方案
- 互联网电商知识培训课件
- 印刷制作设计合同范例
- 吉首售房合同范例
- 2025年英语 英语五官标准课件
- 压手续不押车合同范例
- 脑疝的护理诊断及护理问题
- 丰富多样的幼儿园节日庆典计划
- 数控车床常用数控刀具课件
- 【正版授权】 ISO 17694:2016 EN Footwear - Test methods for uppers and lining - Flex resistance
- DL-T5002-2021地区电网调度自动化设计规程
- 2024年个人信用报告(个人简版)样本(带水印-可编辑)
- 天然装饰石材
- 经典导读与欣赏-知到答案、智慧树答案
- DB32T3610.3-2019道路运输车辆主动安全智能防控系统技术规范第3部分:通讯协议
- 信息资源建设-习题集(含答案)
- 2024年湖南铁道职业技术学院单招职业技能测试题库及答案解析
- 2024年合肥职业技术学院单招职业适应性测试题库及答案解析
- 2024年西安医学高等专科学校单招职业技能测试题库及答案解析
评论
0/150
提交评论