概率论与数理统计九章_第1页
概率论与数理统计九章_第2页
概率论与数理统计九章_第3页
概率论与数理统计九章_第4页
概率论与数理统计九章_第5页
已阅读5页,还剩121页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息与计算科学系第九章:相关分析与一元回归分析第九章相关分析与一元回归分析变量之间的关系可以分为函数关系和相关关系两类,函数关系表示变量间确定的对应关系,而相关关系则是变量间的某种非确定的依赖关系.相关分析主要是研究随机变量间相关关系的形式和程度,在相关关系的讨论中,两个变量的地位是同等的,所使用的测度工具是相关系数,而回归分析则侧重考察变量之间的数量伴随关系,并通过一定的数学表达式将这种数量关系描述出来,用于解决预测和控制等实际问题.本章主要学习相关分析和一元回归分析的有关概念、理论和方法.第九章相关分析与一元回归分析【回归名称的来历】“回归”这一词最早出现在1885年,英国生物学家兼统计学家——弗朗西斯高尔顿(FrancisGalton)在研究遗传现象时引进了这一名词.他研究分析了孩子和父母身高关系后发现:虽然高个子的父母会有高个子的后代,但后代的增高并不与父母的增高等量.他称这一现象为“向平常高度的回归”.尔后,他的朋友麦尔逊等人搜集了上千个家庭成员的身高数据,分析出儿子的平均身高和父亲的身高x大致为如下关系:(英寸)

第九章相关分析与一元回归分析【回归名称的来历】这表明:(1)父亲身高增加1英寸,儿子的身高平均增加0.516英寸.(2)高个子父辈有生高个子儿子的趋势,但儿子的平均身高要比于父辈低一些.如x=80,那么低于父辈的平均身高.(3)低个子父辈的儿子们虽为低个子,但其平均身高要比父辈高一些.如x=80,那么高于父辈的平均身高第九章相关分析与一元回归分析【回归名称的来历】可见儿子的高度趋向于“回归”到平均值而不是更极端,这就是“回归”一词的最初含义.诚然,如今对回归这一概念的理解并不是高尔顿的原意,但这一名词却一直沿用下来,成为数理统计中最常用的概念之一.回归分析的思想早已渗透到数理统计学科的其他分支,随着计算机的发展和各种统计软件的出现,回归分析的应用越来越广泛.第九章相关分析与一元回归分析主要内容§9.1相关分析§9.2回归分析§9.1相关分析在大量的实际问题中,随机变量之间虽有某种关系,但这种关系很难找到一种精确的表示方法来描述.例如,人的身高与体重之间有一定的关系,知道一个人的身高可以大致估计出他的体重,但并不能算出体重的精确值.其原因在于人有较大的个体差异,因而身高和体重的关系,是既密切但又不能完全确定的关系.随机变量间类似的这种关系在大自然和社会中屡见不鲜.例如,农作物产量与施肥量的关系,商业活动中销售量与广告投入的关系,人的年龄与血压的关系,每种股票的收益与整个市场收益的关系,家庭收入与支出的关系等等§9.1相关分析这种大量存在于随机变量间既互相联系,但又不是完全确定的关系,称为相关关系.从数量的角度去研究这种关系,是数理统计的一个任务.这包括通过观察和试验数据去判断随机变量之间有无关系,对其关系大小作出数量上的估计,我们把这种统计分析方法称为相关分析.相关分析通常包括考察随机变量观测数据的散点图、计算样本相关系数以及对总体相关系数的显著性检验等内容.§9.1相关分析9.1.1散点图散点图是描述变量之间关系的一种直观方法.我们用坐标的横轴代表自变量X,纵轴代表因变量Y,每组观测数据(xi,yi)在坐标系中用一个点表示,由这些点形成的散点图描述了两个变量之间的大致关系,从中可以直观地看出变量之间的关系形态及关系强度.图9-1不同形态的散点图

(a)(b)(c)(d)§9.1相关分析9.1.1散点图

图9-1不同形态的散点图从散点图可以看出,变量间相关关系的表现形态大体上可分为线性相关、非线性相关、不相关等几种.就两个变量而言,如果变量之间的关系近似地表现为一条直线,则称为线性相关,如图9-1(a)和(b);(a)(b)(c)(d)§9.1相关分析9.1.1散点图

图9-1不同形态的散点图如果变量之间的关系近似地表现为一条曲线,则称为非线性相关或曲线相关;如图9-1(c);如果两个变量的观测点很分散,无任何规律,则表示变量之间没有相关关系,如图9-1(d).(a)(b)(c)(d)§9.1相关分析9.1.1散点图

图9-1不同形态的散点图在线性相关中,若两个变量的变动方向相同,一个变量的数值增加,另一个变量的数值也随之增加,或一个变量的数值减少,另一个变量的数值也随之减少,则称为正相关,如图9-1(a);(a)(b)(c)(d)§9.1相关分析9.1.1散点图

图9-1不同形态的散点图若两个变量的变动方向相反,一个变量的数值增加,另一个变量的数值随之减少,或一个变量的数值减少,另一个变量的数值随之增加,则称为负相关,如图9-1(b).(a)(b)(c)(d)§9.1相关分析9.1.1散点图

通过散点图可以判断两个变量之间有无相关关系,并对变量间的关系形态做出大致的描述,但散点图不能准确反映变量之间的关系密切程度.因此,为准确度量两个变量之间的关系密切程度,需要计算相关系数.§9.1相关分析9.1.2相关系数相关系数是对两个随机变量之间线性关系密切程度的度量.若相关系数是根据两个变量全部数据计算的,称为总体相关系数.设X,Y为两个随机变量,由定义4.5知,当D(X)D(Y)0时,总体相关系数的计算公式为:其中Cov(X,Y)为变量X和Y的协方差,D(X)和D(Y)分别为X和Y的方差.§9.1相关分析9.1.2相关系数设(xi,yi),i=1,2,…,n,为(X,Y)的样本,记§9.1相关分析9.1.2相关系数【定义9.1】若sxsy

0,称为{xi}和{yi}的相关系数(也可简称为样本相关系数).rxy常简记为r.rxy的性质:(1)|rxy|1(2)|rxy|=1时,(xi,yi),i=1,2,…,n在一条直线上.§9.1相关分析9.1.2相关系数【定义9.2】当rxy>0时,称{xi}和{yi}正相关,当rxy<0时,称{xi}和{yi}负相关,当rxy=0时,称{xi}和{yi}不相关实际应用中,为了说明{xi}和{yi}的相关程度,通常将相关程度分为以下几种情况:当|rxy|≥0.8时,可视{xi}与{yi}为高度线性相关;0.5≤|rxy|<0.8时,可视{xi}与{yi}为中度线性相关;0.3≤|rxy|<0.5时,视{xi}与{yi}为低度线性相关;当|rxy|<0.3时,说明{xi}与{yi}的线性相关程度极弱.§9.1相关分析9.1.2相关系数说明:(1)有时个别极端数据可能影响样本相关系数,应用中要多加注意.(2)rxy=0,只能说明{xi}与{yi}之间不存在线性关系,并不能说明{xi}与{yi}之间无其他关系.(3)一般情况下,总体相关系数ρXY是未知的,通常是将样本相关系数rxy作为ρXY的估计值,于是常用样本相关系数推断两变量间的相关关系.这一点要和相关系数的显著性检验结合起来应用.§9.1相关分析9.1.2相关系数【例9-1】用来评价商业中心经营好坏的一个综合指标是单位面积的营业额,它是单位时间内(通常为一年)的营业额与经营面积的比值.对单位面积营业额的影响因素的指标有单位小时车流量、日人流量、居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分.这几个指标中车流量和人流量是通过同时对几个商业中心进行实地观测而得到的.而居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分是通过随机采访顾客而得到的平均值数据.§9.1相关分析9.1.2相关系数【例9-1】某市随机抽取20个商业中心有关数据图9-2商业中心经营状况指标与数据§9.1相关分析9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:设各指标(变量)的变量名分别为:单位面积营业额:y,每小时机动车流量:x1,日人流量:x2,居民年消费额:x3,对商场环境的满意度:x4,对商场设施的满意度:x5,为商场商品丰富程度满意度:x6.(1)利用Excel分别作出y与x1,x2,…,x6的散点图.§9.1相关分析9.1.2相关系数【例9-1】解:

图9-3y与x1,x2,…,x6的散点图可以看到,各散点图的散点分布和一条直线相比均有一定差别.§9.1相关分析9.1.2相关系数【例9-1】解:

图9-3y与x1,x2,…,x6的散点图其中单位面积营业额(y)与日人流量(x2)、居民年消费额(x3)的线性关系相对较明显一些.§9.1相关分析9.1.2相关系数【例9-1】解:

图9-3y与x1,x2,…,x6的散点图y与商场商品丰富程度满意度(x6)有一定的线性关系,而y与其余几个变量的线性关系较弱.§9.1相关分析9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取的20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:(1)利用Excel分别作出y与x1,x2,…,x6的散点图.实验操作:§9.1相关分析9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取的20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:(2)利用Excel分别计算y与x1,x2,…,x6的相关系数

ABCDEFG22y与x1y与x2y与x3y与x4y与x5y与x6230.41270.790480.794330.341240.450200.69749计算准备=CORREL($B2:$B21,C2:C21)§9.1相关分析9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取的20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:(2)利用Excel分别计算y与x1,x2,…,x6的相关系数

计算结果§9.1相关分析9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取的20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:(2)利用Excel分别计算y与x1,x2,…,x6的相关系数从相关系数的取值来看,单位面积营业额(y)与日人流量(x2)、居民年消费额(x3)接近高度相关;ABCDEFG22y与x1y与x2y与x3y与x4y与x5y与x6230.41280.79050.79430.34120.45020.69749§9.1相关分析9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取的20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:(2)利用Excel分别计算y与x1,x2,…,x6的相关系数y与商场商品丰富程度满意度(x6)则属于中度相关;ABCDEFG22y与x1y与x2y与x3y与x4y与x5y与x6230.41280.79050.79430.34120.45020.69749§9.1相关分析9.1.2相关系数【例9-1】图9-2所示的Excel工作表为从某市随机抽取的20个商业中心有关数据,试据此分析单位面积年营业额与其他各指标的相关关系.解:(2)利用Excel分别计算y与x1,x2,…,x6的相关系数y与每小时机动车流量(x1)、对商场环境的满意度(x4)、对商场设施的满意度(x5)为低度相关;ABCDEFG22y与x1y与x2y与x3y与x4y与x5y与x6230.41280.79050.79430.34120.45020.69749§9.1相关分析9.1.3相关性检验设(xi,yi),i=1,2,…,n,为(X,Y)的样本,相关性检验也就是检验总体X,Y的相关系数是否为0,通常采用费歇尔(Fisher)提出的t分布检验,该检验可以用于小样本,也可以用于大样本.检验的具体步骤如下:1)提出假设:假设样本是从不相关的两个总体中抽出的,即H0:ρXY=0,H1:ρXY≠0如果否定了H0就认为X,Y是相关的.§9.1相关分析9.1.3相关性检验2)可以证明,当H0成立时,统计量因为H0立时,|rxy|应该很小,从而T的观测值应该取值较小,于是,在显著水平下H0的拒绝域是若T的观测值记为t0,衡量观测结果极端性的P值:P=P{|T|≥|t0|}=2P{T≥|t0|}§9.1相关分析9.1.3相关性检验【例9-2】利用例9-1的数据,在显著水平=0.05下,检验单位面积营业额与各变量之间的相关性.解:在例9.1的Excel工作表中继续如下操作:ABCDEFG22y与x1y与x2y与x3y与x4y与x5y与x623r=0.41270.790480.794330.341240.450200.6974924t=1.92245.47565.55191.54022.13914.129625P=0.07053.36E-052.86E-050.14090.46390.0006=B23*SQRT(20-2)/SQRT(1-B23^2)=TDIST(B24,20-2,2)计算准备§9.1相关分析9.1.3相关性检验【例9-2】利用例9-1的数据,在显著水平=0.05下,检验单位面积营业额与各变量之间的相关性.解:在例9.1的Excel工作表中继续如下操作:计算结果§9.1相关分析9.1.3相关性检验【例9-2】利用例9-1的数据,在显著水平=0.05下,检验单位面积营业额与各变量之间的相关性.解:在例9.1的Excel工作表中继续如下操作:检验结果来看,单位面积营业额(y)与日人流量(x2)、居民年消费额(x3)、商场商品的丰富程度满意度(x6)、ABCDEFG22y与x1y与x2y与x3y与x4y与x5y与x623r=0.41270.790480.794330.341240.450200.6974924t=1.92245.47565.55191.54022.13914.129625P=0.07053.36E-052.86E-050.14090.46390.0006§9.1相关分析9.1.3相关性检验【例9-2】利用例9-1的数据,在显著水平=0.05下,检验单位面积营业额与各变量之间的相关性.解:在例9.1的Excel工作表中继续如下操作:对商场设施的满意度(x5)的相关系数显著不为0(P<=0.05),即其相关性显著;ABCDEFG22y与x1y与x2y与x3y与x4y与x5y与x623r=0.41270.790480.794330.341240.450200.6974924t=1.92245.47565.55191.54022.13914.129625P=0.07053.36E-052.86E-050.14090.46390.0006§9.1相关分析9.1.3相关性检验【例9-2】利用例9-1的数据,在显著水平=0.05下,检验单位面积营业额与各变量之间的相关性.解:在例9.1的Excel工作表中继续如下操作:而不能拒绝y与每小时机动车流量(x1)、对商场环境的满意度(x4)相关系数为0的假设(P>0.05),即其相关性不显著.ABCDEFG22y与x1y与x2y与x3y与x4y与x5y与x623r=0.41270.790480.794330.341240.450200.6974924t=1.92245.47565.55191.54022.13914.129625P=0.07053.36E-052.86E-050.14090.46390.0006§9.2回归分析回归分析是针对两个或两个以上具有相关关系的变量,研究它们的数量伴随关系,并通过一定的数学表达式将这种关系描述出来,建立回归模型.回归分析中总假设因变量是随机变量,自变量可以是随机变量也可以是一般变量(可以控制或精确测量的变量),我们只讨论自变量为一般变量的情况.为简单起见,以后的所有随机变量及其观测值均用小写字母表示.§9.2回归分析如果设随机变量y是因变量,x1,x2,…,xn是影响y的自变量,回归模型的一般形式为:y=f(x1,x2,…,xn)+ε其中ε为均值为0的正态随机变量,它表示除x1,x2,…,xn之外的随机因素对y的影响.在回归分析中,当只有一个自变量时,称为一元回归分析;当自变量有两个或两个以上时,称为多元回归分析;f是线性函数时,称线性回归分析,所建回归模型称为线性回归模型;f是非线性函数时,称非线性回归分析,所建回归模型称为非线性回归模型.§9.2回归分析线性回归模型的一般形式为:其中,0和i(i=1,2,…,k)是未知常数,称为回归系数,实际中常假定

~N(0,2).一元线性回归模型的一般形式为:由

~N(0,2)的假定,容易推出y~N(0+1x,2).本章主要讨论一元线性回归分析和可化为线性回归的一元非线性回归分析.它们是反映两个变量之间关系的简单模型,但从中可了解到回归分析的基本思想、方法和应用§9.2回归分析9.2.1一元线性回归分析让我们用一个例子来说明如何进行一元线性回归分析.为了研究合金钢的强度和合金中含碳量的关系,专业人员收集了12组数据如表9-1所示.表9-1合金钢的强度与合金中含碳量的关系试根据这些数据进行合金钢的强度y(单位:107Pa)与合金中含碳量x(%)之间的回归分析.序号123456789101112含碳量x(%)0.100.110.120.130.140.150.160.170.180.200.210.23合金钢的强度y(107Pa)42.043.045.045.045.047.549.053.050.055.055.060.0§9.2回归分析9.2.1一元线性回归分析为了研究这些数据中所蕴含的规律性,首先在Excel中由12对数据作出散点图,如图9-7所示.图9-7画散点图从图看到,数据点大致落在一条直线附近,这告诉我们变量x和y之间大致可看作线性关系.§9.2回归分析9.2.1一元线性回归分析为了研究这些数据中所蕴含的规律性,首先在Excel中由12对数据作出散点图,如图9-7所示.图9-7画散点图从图中还看到,这些点又不完全在一条直线上,这表明x和y的关系并没有确切到给定x就可以唯一确定y的程度.§9.2回归分析9.2.1一元线性回归分析为了研究这些数据中所蕴含的规律性,首先在Excel中由12对数据作出散点图,如图9-7所示.图9-7画散点图事实上,还有许多其它随机因素对y产生影响.§9.2回归分析9.2.1一元线性回归分析如果只研究x和y的关系,可考虑建立一元线性回归模型:(9.1)其中ε是除含碳量x外其它诸多随机因素对合金钢强度y的综合影响,假定它是零均值的正态随机变量.由(9.1)式,不难算得y的数学期望:(9.2)该式表示当x已知时,可以精确地算出E(y).称方程(9.2)为y关于x的回归方程.§9.2回归分析9.2.1一元线性回归分析现对变量x,y进行了n次独立观察,得样本(xi,yi)(i=1,2,…,n).据(9.1)式,此样本可由方程(9.3)来描述.这里εi是第i次观测时ε的值,是不能观测到的由于各次观测独立,εi看作是相互独立与ε同分布的随机变量.即有yi=0+1xi+i,(9.4)i相互独立,且i~N(0,2),i=1,2,…,n

§9.2回归分析9.2.1一元线性回归分析yi=0+1xi+i,(9.4)i相互独立,且i~N(0,2),i=1,2,…,n

(9.4)给出了样本(x1,y1),(x2,y2),…,(xn,yn)的概率性质.它是对理论模型进行统计推断的依据,也常称(9.4)式为一元线性回归模型.要建立一元线性回归模型,首先利用n组独立观测数据(x1,y1),(x2,y2),…,(xn,yn)来估计0和1,以估计值和分别代替(9.2)式中的0和1,得到(9.5)§9.2回归分析9.2.1一元线性回归分析(9.5)由于此方程的建立有赖于通过观察或试验积累的数据,所以称其为经验回归方程(或经验公式),经验回归方程也简称为回归方程,其图形称为回归直线.当给定x=x0时,称为拟合值(预测值或回归值).那么,如何利用n组独立观察数据来估计0和1呢?一般常用最小二乘估计法和最大似然估计法,下面只介绍0和1的最小二乘估计法.§9.2回归分析9.2.1一元线性回归分析1.参数0和1的最小二乘估计设对模型(9.1)中的变量x,y进行了n次独立观察,得样本(xi,yi)(i=1,2,…,n).由(9.3)式知随机误差i=yi–(0+1xi).最小二乘法的思想是:由xi,yi估计0,1时,使误差平方和达到最小的,分别作为0,1的估计,并称和为0和1的最小二乘估计.§9.2回归分析9.2.1一元线性回归分析1.参数0和1的最小二乘估计通常可采用微积分中求极值的办法,求出使Q(0,1)达到最小值的和即解方程:即(9.6)§9.2回归分析9.2.1一元线性回归分析1.参数0和1的最小二乘估计通常可采用微积分中求极值的办法,求出使Q(0,1)达到最小值的和即解方程:或(9.7)§9.2回归分析9.2.1一元线性回归分析1.参数0和1的最小二乘估计称(9.6)或(9.7)为正则方程.解正则方程得

(9.8)其中§9.2回归分析9.2.1一元线性回归分析1.参数0和1的最小二乘估计称(9.6)或(9.7)为正则方程.解正则方程得

(9.8)从而得到回归方程:§9.2回归分析9.2.1一元线性回归分析1.参数0和1的最小二乘估计称(9.6)或(9.7)为正则方程.解正则方程得

(9.8)因为(9.8)式又可以写成§9.2回归分析9.2.1一元线性回归分析1.参数0和1的最小二乘估计可以证明,用最小二乘法求出的估计,分别是0,1的无偏估计,它们都是y1,y2,…,yn的线性函数,而且在所有y1,y2,…,yn的线性函数中,最小二乘估计的方差最小.§9.2回归分析9.2.1一元线性回归分析1.参数0和1的最小二乘估计【例9-3】建立表9-1中合金钢的强度y与含碳量x之间的回归方程,并计算参数0和1的最小二乘估计.解:首先计算1和0的最小二乘估计分别为因此,回归方程为§9.2回归分析9.2.1一元线性回归分析2.回归方程的显著性检验对任意两个变量的一组观测数据(x1,y1),(x2,y2),…,(xn,yn)都可以用最小二乘法得到回归方程,但这样得到的回归方程不一定都有意义.如果实际上模型(9.1)中的1=0,用最小二乘法得到的就没有意义.这时称回归方程不显著;如果10,就有意义,这时称回归方程是显著的.综上,一元线性回归方程的显著性检验,就是要根据观测数据检验假设H0:1=0H1:

1

0§9.2回归分析9.2.1一元线性回归分析2.回归方程的显著性检验一元线性回归方程的显著性检验,就是要根据观测数据检验假设H0:1=0H1:

1

0如果检验结果拒绝原假设H0,说明一元线性回归方程是显著的,否则,表明y与x线性关系不显著,不需要建立这种模型了.在一元线性回归方程的显著性检验中,有多种等价的检验方法.这里介绍常用的F检验法.§9.2回归分析9.2.1一元线性回归分析2.回归方程的显著性检验采用方差分析的思想,我们研究影响观测值yi的原因.注意到回归方程只反映了x对y的影响,所以,拟合值是观测值yi中只受xi影响的那一部分而则是除去xi的影响后,受其它种种因素影响的部分,故将称为残差.于是,观测值yi可以分解为两部和另外,也可分解为两部分:§9.2回归分析9.2.1一元线性回归分析2.回归方程的显著性检验记SST反映了观测数据总的波动,称为总变差平方和,SSM反映了由于自变量x的变化影响因变量y的差异,体现了x对y的影响,称为回归平方和;SSE反映了种种其它因素对y的影响,称为残差平方和.§9.2回归分析9.2.1一元线性回归分析2.回归方程的显著性检验记注意到满足正则方程(9.6),有即有§9.2回归分析9.2.1一元线性回归分析2.回归方程的显著性检验由及得到于是从而§9.2回归分析9.2.1一元线性回归分析2.回归方程的显著性检验SSM/SSE为x的影响部分与随机因素影响部分的相对比值.若它不是显著地大,表明回归方程中的x并不是影响y的一个重要的因素,于是由数据得到的回归方程就没有什么意义;如果它显著地大,表明x的作用显著地比随机因素大,这样方程就有意义.所以我们考虑用SSM/SSE构造检验统计量.§9.2回归分析9.2.1一元线性回归分析2.回归方程的显著性检验可以证明,当原假设H0成立时,即1=0时,有将作为检验统计量,H0的拒绝域为若F统计量的观测值为F0,则P值为§9.2回归分析9.2.1一元线性回归分析2.回归方程的显著性检验回归方程的显著性检验结果,通常汇总为方差分析表,如表9-2所示.表9-2方差分析表来源Source平方和SunofSquare自由度DF平均平方和MeanSquareF统计量FvalueP值Pr>F回归SSM1SSMP残差SSEn–2SSE/(n–2)总计SSTn–1§9.2回归分析9.2.1一元线性回归分析2.回归方程的显著性检验【实验9-1】使用Excel建立表9-1中y与x之间的回归方程实验准备:ABCD1序号含碳量x合金钢强度y210.14241.3725……………4120.236058.64955参数1132.899461SSM=327.9294216参数028.0825853F=191.4013367SST=345.0625P=7.5853E-088SSE=17.133079=B18/B17*10)=FDIST(B19,1,10)=SLOPE(C2:C13,B2:B13)=INTERCEPT(C2:C13,B2:B13)§9.2回归分析9.2.1一元线性回归分析2.回归方程的显著性检验【实验9-1】使用Excel建立表9-1中y与x之间的回归方程实验结果:§9.2回归分析9.2.1一元线性回归分析2.回归方程的显著性检验【实验9-1】使用Excel建立表9-1中y与x之间的回归方程据此得到回归方程:ABCD1序号含碳量x合金钢强度y210.14241.3725……………4120.236058.64955参数1132.899461SSM=327.9294216参数028.0825853F=191.4013367SST=345.0625P=7.5853E-088SSE=17.133079§9.2回归分析9.2.1一元线性回归分析2.回归方程的显著性检验【实验9-1】使用Excel建立表9-1中y与x之间的回归方程P=7.59×10-8<0.05,拒绝原假设,回归方程显著ABCD1序号含碳量x合金钢强度y210.14241.3725……………4120.236058.64955参数1132.899461SSM=327.9294216参数028.0825853F=191.4013367SST=345.0625P=7.5853E-088SSE=17.133079§9.2回归分析9.2.1一元线性回归分析3.回归方程的判定系数前面已讲到观测数据y1,y2,…,yn的总变差平方和SST可以分解为回归平方和SSM与残差平方和SSE两部分,即SST=SSM+SSE将回归平方和与总变差平方和之比值称为判定系数,记为R2,即§9.2回归分析9.2.1一元线性回归分析3.回归方程的判定系数判定系数R2可以解释为y1,y2,…,yn的总变化量中被回归方程所描述的比例.R2越大,总变化量中被回归方程所描述的比例就越大,说明自变量对因变量的影响越大.从而残差平方和就越小,即拟合效果越好.可见R2反映了回归方程对数据的拟合程度,是衡量拟合优劣的一个很重要的统计量,称R2为回归方程的拟合优度§9.2回归分析9.2.1一元线性回归分析3.回归方程的判定系数如果所有观测数据的散点都落在回归直线上,残差平方和SSE=0,R2=1,拟合是完全的;如果y的变换与x无关,x完全无助于解释y的变差,此时则R2=0.可见,0

R2

1.R2越接近于1,表明回归平方和占总变差中平方和的比例就越大,回归直线与各观测点越接近,用x解释y的变差部分就越多,回归直线的拟合程度就越好;反之,R2越接近于0,回归直线的拟合程度就越差.§9.2回归分析9.2.1一元线性回归分析3.回归方程的判定系数在一元回归模型中,可以证明R恰好是由(xi,yi),i=1,2,…,n计算得到的样本相关系数r,即有R2=r2.事实上,由于由(9.8)式§9.2回归分析9.2.1一元线性回归分析3.回归方程的判定系数所以于是§9.2回归分析9.2.1一元线性回归分析3.回归方程的判定系数 【实验9-2】使用Excel画出表9-1中合金钢的强度y与含碳量x之间的回归直线,并计算回归方程的拟合优度.(1)在Excel中画出y与x之间的散点图,如图9-7所示.图9-7画散点图§9.2回归分析9.2.1一元线性回归分析3.回归方程的判定系数 【实验9-2】使用Excel画出表9-1中合金钢的强度y与含碳量x之间的回归直线,并计算回归方程的拟合优度.(2)用鼠标右键单击散点图中的数据点,在弹出的快捷菜单中选择“添加趋势线”,如图9-9所示.图9-9添加趋势线§9.2回归分析9.2.1一元线性回归分析3.回归方程的判定系数 【实验9-2】使用Excel画出表9-1中合金钢的强度y与含碳量x之间的回归直线,并计算回归方程的拟合优度.(3)在打开的“添加趋势线”对话框中,“类型”取默认的“线性”;在“选项”选项卡中,修改“趋势预测”中“前推”和“倒推”为0.1,选中“显示公式”和“显示R平方值”复选框,如图9-10所示.§9.2回归分析9.2.1一元线性回归分析3.回归方程的判定系数 【实验9-2】使用Excel画出表9-1中合金钢的强度y与含碳量x之间的回归直线,并计算回归方程的拟合优度.(3)图9-10“添加趋势线”对话框§9.2回归分析9.2.1一元线性回归分析3.回归方程的判定系数 【实验9-2】使用Excel画出表9-1中合金钢的强度y与含碳量x之间的回归直线,并计算回归方程的拟合优度.(3)单击“确定”按钮,得到回归直线、回归方程与拟合优度,如图9-11所示.图中显示,回归直线的方程方程的拟合优度为0.9503.图9-11回归直线与拟合优度

§9.2回归分析9.2.1一元线性回归分析3.回归方程的判定系数 【实验9-2】合金钢强度y与含碳量x之间的回归直线实验操作:§9.2回归分析9.2.1一元线性回归分析4.误差方差的估计在一元线性回归模型y=0+1x+,~N(0,

2)中,随机误差

的大小可由它的方差

2衡量,

2越小,回归方程拟合数据的程度就越好,如何估计

2?由观测值(x1,y1),(x2,y2),…,(xn,yn),通过参数估计得到了回归方程,残差平方和说明了实际观测值yi与估计值之间的差异程度.我们称为均方残差(也记为MSE).可以证明§9.2回归分析9.2.1一元线性回归分析4.误差方差的估计因此,我们将作为随机误差的标准差

的估计,称为随机误差的估计标准误差,简称标准误差,或叫根均方残差.§9.2回归分析9.2.1一元线性回归分析4.误差方差的估计估计标准误差反映了回归方程预测因变量y时预测误差的大小,若各观测点靠近回归直线,越小,回归直线对各观测点的代性就越好,根据回归方程进行预测也就越准确.可见也从一个侧面反映了回归直线的拟合程度.在实验9-1中,SSE=17.133(见图9-8),所以回归方程的估计标准差为§9.2回归分析9.2.1一元线性回归分析5.残差分析在一元线性回归模型(9.4)式中假定了误差i(i=1,2,…,n)的正态性、独立性和同方差性.其中,误差i=yi–(0+1xi)(i=1,2,…,n)是未知的,不可观测的.若所建回归方程合适,残差(i=1,2,…,n)可近似看做i,即应基本上反映未知误差i的上述特性.利用残差(i=1,2,…,n)的特征反过来考察原模型的合理性就是残差分析的基本思想.§9.2回归分析9.2.1一元线性回归分析5.残差分析在将回归方程应用于实际之前必须进行残差分析,这是十分重要的一个环节.如果残差基本符合模型中对误差的假定,才能最终认为选模型是合适的,所建回归方程是可行的,可以用于预测和控制,否则,所选模型可能不合适,需要改进,所建回归方程也不能应用于实际.残差的正态性检验可以通过第八章所讲分布拟合检验法进行检验,也可以用频率检验、残差图分析等方法进行检验.下面简单介绍一下残差正态性的频率检验及残差图分析方法.§9.2回归分析9.2.1一元线性回归分析5.残差分析(1)残差正态性的频率检验残差正态性的频率检验是一种很直观的检验方法.其基本思想是将残差落在某范围的频率与正态分布在该范围的概率(或称为理论频率)相比较,通过二者之间偏差的大小评估残差的正态性.§9.2回归分析9.2.1一元线性回归分析5.残差分析(1)残差正态性的频率检验在回归模型中,若假定i~N(0,2),则(i=1,2,…,n).由于均方残差(MSE)是2的无偏估计.因此,当n较大时,(i=1,2,…,n)可近似认为是取自标准正态分布总体的样本.称(i=1,2,…,n)为标准化残差.§9.2回归分析9.2.1一元线性回归分析5.残差分析(1)残差正态性的频率检验由于服从N(0,1)分布的随机变量取值在(–1,1)内的概率约为0.68,在(–1.5,1.5)内的概率约为0.87,在(–2,2)内的概率约为0.95等等,因此理论上,标准化残差(i=1,2,…,n)中有大约68%应在(–1,1)内,87%应在(–1.5,1.5)内,95%应在(–2,2)内等等.如果残差在某些区间内的频率与上述理论频率有较大的偏差,则有理由怀疑从而i(i=1,2,…,n)的正态性假定的合理性.§9.2回归分析9.2.1一元线性回归分析5.残差分析(1)残差正态性的频率检验用这种方法检验残差的正态性是十分方便的.在实际应用中,一般取二三个具有代表性的区间即可.(2)残差图分析凡是以残差为纵坐标,而以观测值yi,拟合值自变量xi(i=1,2,…,n)或序号、观测时间等为横坐标的散点图,均称为残差图.§9.2回归分析9.2.1一元线性回归分析5.残差分析(2)残差图分析凡是以残差为纵坐标,而以观测值yi,拟合值自变量xi(i=1,2,…,n)或序号、观测时间等为横坐标的散点图,均称为残差图.可以通过残差图对误差项的正态性、等方差性、独立性及对模型中是否应该包含自变量的高次项、观测值中是否有异常值存在等作出直观的考察.§9.2回归分析9.2.1一元线性回归分析5.残差分析(2)残差图分析如果线性回归模型的假定成立,标准化残差(i=1,2,…,n)应相互独立且近似服从N(0,1),那么残差图中绝大多数散点(95%)应随机地分布在–2到+2的带子里.这样的残差图称为合适的残差图,如图9-12左.

图9-12正常的残差、非等方差以及模型形式不合适时的残差§9.2回归分析9.2.1一元线性回归分析5.残差分析(2)残差图分析图9-12中表明残差的方差随自变量的增大而增大,不是常数.图9-12右散点分布有二次趋势,表明回归模型不合适,可以考虑在回归模型加入自变量的二次项,建立非线性回归方程.§9.2回归分析9.2.1一元线性回归分析5.残差分析(2)残差图分析【实验9-3】使用Excel数据分析功能对表9-1中合金钢的强度y与含碳量x作一元线性回归分析.设例9-3中数据已整理如图9-7所示,回归分析步骤如下:1)在Excel主菜单中选择“工具”“数据分析”,打开“数据分析”对话框,在“分析工具”列表中选择“回归”选项,单击“确定”按钮.§9.2回归分析9.2.1一元线性回归分析5.残差分析(2)残差图分析【实验9-3】使用Excel数据分析功能对表9-1中合金钢的强度y与含碳量x作一元线性回归分析.2)在打开的“回归”对话框中,依次输入“Y值输入区域”和“X值输入区域”,选中“残差”和“残差图”,如图9-13所示,单击“确定”按钮.得到回归分析的结果如图9-14和9-15所示.

§9.2回归分析9.2.1一元线性回归分析5.残差分析(2)残差图分析【实验9-3】使用Excel数据分析功能对表9-1中合金钢的强度y与含碳量x作一元线性回归分析.结果显示,回归方程为图9-14回归分析结果§9.2回归分析9.2.1一元线性回归分析5.残差分析(2)残差图分析【实验9-3】使用Excel数据分析功能对表9-1中合金钢的强度y与含碳量x作一元线性回归分析.2)方程的拟合优度R2为0.9503.F统计量的P值=7.5910-8<0.05,说明1显著非0,回归方程显著.其中回归系数1=132.90,§9.2回归分析9.2.1一元线性回归分析5.残差分析(2)残差图分析【实验9-3】使用Excel数据分析功能对表9-1中合金钢的强度y与含碳量x作一元线性回归分析.2)意味着含碳量每增加0.01%,合金钢的强度平均增加1.329个107Pa.从残差图可以看出,所建回归模型是合适的.§9.2回归分析9.2.1一元线性回归分析5.残差分析(2)残差图分析【实验9-3】使用Excel数据分析功能对表9-1中合金钢的强度y与含碳量x作一元线性回归分析.实验操作:§9.2回归分析9.2.1一元线性回归分析6.利用回归方程进行估计和预测在回归方程通过各种检验后,就可以利用它对因变量的取值进行预测了.对因变量的取值进行预测分为点预测(点估计)和区间预测(区间估计),点预测是根据回归方程代入自变量的值,得到对应因变量的预测值,而区间预测则是在点预测的基础上,给出给定置信水平下的因变量的预测区间.§9.2回归分析9.2.1一元线性回归分析6.利用回归方程进行估计和预测(1)点预测假设通过各种检验的“最优”回归方程为对给定的x0值,代入回归方程中就可得的值.它即可以作为实际值的估计值,也可以作为的估计值,这就是所谓的点预测.例如,对合金钢强度y对含碳量x的回归方程§9.2回归分析9.2.1一元线性回归分析6.利用回归方程进行估计和预测(1)点预测假设通过各种检验的“最优”回归方程为对给定的x0值,代入回归方程中就可得的值.它即可以作为实际值的估计值,也可以作为的估计值,这就是所谓的点预测.当已知含碳量x0=0.22时,就可以预测合金钢强度为§9.2回归分析9.2.1一元线性回归分析6.利用回归方程进行估计和预测(2)预测区间预测区间分为个体的预测区间和均值的预测区间,这里只介绍个体的预测区间.对给定的x0值,因变量y的相应值y0记成由于y0服从正态分布,且可以证明§9.2回归分析9.2.1一元线性回归分析6.利用回归方程进行估计和预测(2)预测区间对给定的x0值,因变量y的相应值y0记成由于y0服从正态分布,且可以证明其中,§9.2回归分析9.2.1一元线性回归分析6.利用回归方程进行估计和预测(2)预测区间因此,对给定的x0,在给定的置信水平1–下,y0的置信区间为可以看出,对于给定的n和,lxx越大或x0越靠近预测区间的长度就越短,预测精度就越高.由于刻画了观测点x1,x2,…,xn的分散程度,因此,想提高预测精度就要使x1,x2,…,xn尽量分散.§9.2回归分析9.2.1一元线性回归分析6.利用回归方程进行估计和预测(2)预测区间因此,对给定的x0,在给定的置信水平1–下,y0的置信区间为例如,对合金钢强度y对含碳量x的回归方程当已知含碳量x0=0.22时,就可以得到合金钢强度置信水平为95%的预测区间:(54.01,60.63).§9.2回归分析9.2.2可化为线性回归的一元非线性回归现实世界中严格的线性模型并不多见,它们或多或少都带有某种程度的近似;在不少情况下,非线性模型可能更加符合实际,因此,非线性回归与线性回归同样重要.下面主要介绍可化为线性回归的一元非线性回归分析.§9.2回归分析9.2.2可化为线性回归的一元非线性回归在对数据进行分析时,常常先描出数据的散点图,判断两个变量间可能存在的函数关系.如果两个变量间存在线性关系,我们可以用前面所述的方法建立一元线性回归方程来描述,如果它们之间存在着一种非线性关系,这时常用的方法是通过变量变换,使新变量之间具有线性关系,从而利用一元线性回归方法对其进行分析.§9.2回归分析9.2.2可化为线性回归的一元非线性回归表9-3给出了一些常见的可线性化的一元非线性函数及线性化方法.表9-3典型函数及线性化方下面通过一个具体实例说明一元非线性回归分析的方法.函数名称函数表达式线性化方法双曲线函数1/y=a+b/xu=1/x

v=1/y幂函数y=axbu=lnx

v=lny指数函数y=aebxu=x

v=lnyy=aeb/xu=1/x

v=lny对数函数y=a+blnxu=lnx

v=yS型函数y=1/(a+be-x)u=e-x

v=1/y§9.2回归分析9.2.2可化为线性回归的一元非线性回归【实验9-4】设随机变量x与y的观测数据如下,试建立y与x的回归模型.下面分三步进行分析建立模型1.确定回归函数可能形式为确定可能的函数形式,首先描出数据的散点图.步骤如下:x23457810111415161819y106.42108.20109.58109.50110.00109.93110.49110.59110.60110.90110.76111.00111.20§9.2回归分析9.2.2可化为线性回归的一元非线性回归【实验9-4】设随机变量x与y的观测数据如下,试建立y与x的回归模型.1.确定回归函数可能形式选中单元格区域:B2:C14,并选择主菜单“插入”“图表”,打开“图表向导”对话框,选中图表类型“XY散点图”,单击“完成”按钮,即可得到散点图,如图9-16所示§9.2回归分析9.2.2可化为线性回归的一元非线性回归【实验9-4】设随机变量x与y的观测数据如下,试建立y与x的回归模型.1.确定回归函数可能形式散点图呈现出明显的向上且上凸的趋势,可选的函数关系有很多,比如可以给出如下三种曲线函数:

图9.16

y与x的散点图§9.2回归分析9.2.2可化为线性回归的一元非线性回归【实验9-4】设随机变量x与y的观测数据如下,试建立y与x的回归模型.1.确定回归函数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论