CHAPTER7概率统计课件_第1页
CHAPTER7概率统计课件_第2页
CHAPTER7概率统计课件_第3页
CHAPTER7概率统计课件_第4页
CHAPTER7概率统计课件_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章回归分析第7.1节一元回归分析模型第7.2节回归系数的最小二乘估计第7.3节回归估计的统计推断第7.4节预测第7.5节多元回归分析返回变量间的关系确定性关系或函数关系y=f(x)人的身高和体重家庭的收入和消费商品的广告费和销售额粮食的产量和施肥量股票的价格和时间学生的期中和期末考试成绩,…非确定性关系如果对于任何已知的x值,变量y和按某个概率取某些特殊的值,则x和y之间的关系为随机的.xY实变量随机变量非确定性关系第7.1节一元回归分析模型(x,y)采集样本信息(xi,yi)回归分析散点图回归方程回归方程的显著性检验对现实进行预测与控制基本思想如果数学关系式描写了一个变量与另一个变量之间的关系,则称其为一元回归分析;如果数学关系式描写了一个变量与另多个变量之间的关系,则称其为多元回归分析,并且称这一个变量是被影响变量(因变量:DependentVariable);称这多个变量是影响变量(自变量:IndependentVariable).回归分析是根据变量观测数据分析变量间关系的常用统计分析方法.通常把变量观测数据称为样本.某市场在t时刻黄瓜销量的数据如下(其中qt表示t时刻销售黄瓜的数量,单位为:斤,pt表示t时刻的销售价格,单位为:元):这是一个确定性关系:例如

若x、y之间的关系是随机的,例如这时,方程的形式为称为随机扰动或随机误差项.其中为随机变量.表8.4.1合金钢强度y与碳含量x的数据

序号x(%)y(×107Pa)序号x(%)y(×107Pa)10.1042.070.1649.020.1143.080.1753.030.1245.090.1850.040.1345.0100.2055.050.1445.0110.2155.060.1547.5120.2360.0为找出两个量间存在的回归函数的形式,可以画一张图:把每一对数(xi,yi)看成直角坐标系中的一个点,在图上画出n个点,称这张图为散点图,见图8.4.1

对于回归模型,我们假设:可得到:如果给出a和b的估计量分别为,则经验回归方程为:一般地,称为残差,y称为因变量,x称为自变量,称为随机扰动,a,b称为待估计的回归参数,下标i表示第i个观测值。两个变量之间的线性关系,其回归模型为残差可视为扰动的“估计量”。设对y及x做n次观测得数据(xi,yi)

(i=1,2,…,n).以(xi,yi)为坐标在平面直角坐标系中描点,所得到的这张图便称之为散点图.若散点呈直线趋势,则认为y与x的关系可以用一元回归模型来描述.设线性回归方程为

Y=a+bx+ε

其中:ε是随机误差,ε~N(0,σ2).将(xi,yi)(i=1,2,…,n)逐一代入上式:第7.2节回归系数的最小二乘估计

二元函数的最小值点称为a,b的最小二乘估计(简记为OLSE).记其中所以方程组有解,解得其中即最小二乘估计所得回归方程为例7.2.1某市场连续12天卖出黄瓜的价格和数量的调查数据如下:试求:黄瓜销量对价格的回归方程.1.a,b的点估计(1)估计量分别是a,b的无偏估计量;(2)由于均为相互独立正态变量的线性组合,根据正态分布的性质,它们也一定是正态的。2.a,b的点估计的方差(2)自变量x的值越分散,的方差越小.(1)扰动εi的方差σ2越大,的方差也越大.(3)当时,的方差最小.第7.3节回归估计的统计推断

总体方差的一个无偏估计量是:它们的算术平方根分别称为a,b的估计标准误差。3.的点估计和a,b的估计标准误差得到方差的无偏估计量分别是:4.a和b的区间估计置信水平为的区间估计是:5.的区间估计计算得所以,记则的置信水平为的区间估计是:=06.y的样本变差的分解

其中故反映了回归自变量变差的贡献反映了其它因素的影响回归平方和残差平方和

离差平方和=回归平方和+残差平方和即

SST=SSR+SSE称R2=SSR/SST为判定系数,它度量了经验回归方程对观测数据的拟和程度.0≤R2≤1,它的值越大,表明因变量与自变量之间的相关性越强.提出原假设和备择假设

H0:b=0;H1:b≠0(2)选择检验统计量(3)对于给定的显著性水平α,当时就拒绝H0,认为回归方程有显著意义.7.回归方程的显著性检验

或者提出原假设和备择假设

H0:b=0;H1:b≠0(2)选择检验统计量(3)对于给定的显著性水平α,当时就拒绝H0,认为回归方程有显著意义.注以上两种方法检验结果相同,后一种检验可用于多个自变量的情况.我们从一组样本数据进行回归系数的估计,得到经验回归方程,因为还要进行区间估计、显著性检验,所以必须求出回归估计量的标准误差,以及判定系数,通常可写成表达式:,=…()()其中括号内填写相应的t-检验显著性概率值。这样就较全面地表述了样本回归估计式。8.回归分析的表述例7.3.1某市场连续12天卖出黄瓜的价格和数量的调查数据如下:由此可知:(1)R2=0.889,S=8.360=(698.889/10)0.5,平方和分解SST=6300=5601.111+698.889=SSR+SSE,(2)回归方程的显著性检验,从t检验和F检验均有:显著性概率值p=4.34E-06<<0.05,所以认为回归方程是显著的。(3)a的95%置信区间是(182.435,238.454)b的95%置信区间是(-197.047,-118.508)(4)经验回归方程:(1.21E-08)(4.34E-06)下面我们求的95%置信区间:已知,对应预测因变量y的取值为y0,称为的预测值.点预测值即为回归方程计算所得回归值.1.预测值(predictionvalue)第7.4节预测

例7.4.1

对于例7.2.1,预测当价格分别为1.2,1.1,0.85,0.75,0.45时,黄瓜的销量情况。解:经验回归方程为:实际值与其预测值之间有预测误差,即预测误差总方差()=随机扰动产生的方差()+抽样误差产生的方差(),通过计算可知:从而易见:如果要降低,可以采取如下措施(1)增大样本容量n;(2)增大样本中自变量的分散性(即增大);(3)减少x0与自变量样本均值之间的距离。所求即为x=x0时,对应y0的1-α置信区间.所以y0的1-α预测区间为记则对给定的概率水平1-α2.预测区间

例7.4.2

承例7.4.1,求每个自变量值所对应的因变量值的预测区间。多元回归模型的一般形式为:其中y是因变量,为k个自变量,为随机扰动,为回归参数。对因变量和所有自变量进行n次观测,得到样本数据假定第i次观测的随机误差为,且服从正态分布则第7.5节多元回归分析根据最小二乘法,对例7.5.1

某住宅小区附近的家具商城认为住宅销售户数和新婚对数这两个因素对家具的销售额有明显的作用。为了确定该商城每季度家具的进货和销售,他们对全市各个小区家具店收集了12组市场调查资料如下:由微积分求极值方法求最小值.得多元经验回归方程为:请为商城人员建立二元经验回归方程并进行统计推断。所求结果为(1)提出原假设:H0:bi=0;备择假设H1:bi≠0(i=1,2,…,k)(2)选择检验统计量1.t检验(3)若则拒绝原假设,说明对应的自变量作用是显著的;反之,则接受原假设,认为该自变量的作用是不显著的。多元线性回归方程的显著性检验2.F检验F检验的原假设H0:判定系数统计量的真值等于零.选择检验统计量若就拒绝原假设,认为已建立起来的线性回归模型整体上显著有效。例7.5.2

天津某区关于“电脑销售量、人均收入和电脑平均价格”的调查资料如下:试建立电脑销售量的二元经验回归方程并进行统计推断,检验回归效果的显著性.电脑销售量的二元经验回归方程为:F=103.39151,P(F(2,6)>103.39151)=2.242E-05<<0.05,所以认为回归方程是显著有效的。(1)复相关分析复相关是指一个因变量同多个自变量之间的相关关系。复相关系数的计算指标为R,它表明所有自变量同因变量关系的密切程度,也是对回归模型拟和优度的测定.(2)偏相关分析偏相关是指多元回归中各个自变量在其它自变量固定不变时,单个自变量同因变量的相关关系.其相关程度用偏回归系数测定(偏相关系数的计算要使用更高级的统计分析软件,如SAS、SPSS等来实现)。多元线性回归模型的相关分析从散点图我们发现12个点基本在一条直线附近,这说明两个变量之间有一个线性相关关系,这个相关关系可以表示为y=

0+

1x+

(8.4.2)这便是y关于x的一元线性回归的数据结构式。通常假定

E(

)=0,Var(

)=

2(8.4.3)在对未知参数作区间估计或假设检验时,还需要假定误差服从正态分布,即

y~N(

0+

1x,

2)(8.4.4)显然,假定(8.4.4)比(8.4.3)要强。

由于

0,

1均未知,需要我们从收集到的数据(xi,yi),i=1,2,…,n,出发进行估计。在收集数据时,我们一般要求观察独立地进行,即假定y1,y2,

,yn,相互独立。综合上述诸项假定,我们可以给出最简单、常用的一元线性回归的数学模型:(8.4.5)

由数据(xi,yi),i=1,2,…,n,可以获得

0,

1的估计,称(8.4.6)为y关于x的经验回归函数,简称为回归方程,其图形称为回归直线。给定x=x0后,称为回归值(在不同场合也称其为拟合值、预测值)。

8.4.3回归系数的最小二乘估计

一般采用最小二乘方法估计模型(8.4.5)中的

0,

1:令:

应该满足

称这样得到的称为

0,

1的最小二乘估计,记为LSE。

最小二乘估计可以通过求偏导数并命其为0而得到:(8.4.7)这组方程称为正规方程组,经过整理,可得(8.4.8)

解(8.4.8)可得(8.4.9)这就是参数的最小二乘估计,其中

表8.4.2例8.4.2的计算表

xi=1.90n=12

yi=590.5

xi2=0.3194

xiyi=95.9250

yi2=29392.75lxx=0.0186lxy=2.4292lyy=335.2292由此给出回归方程为:

例8.4.2

使用例8.4.1种合金钢强度和碳含量数据,我们可求得回归方程,见下表.

定理8.4.1在模型(8.4.5)下,有(1)(2)(3)对给定的x0,关于最小二乘估计的一些性质罗列在如下定理之中

定理8.4.1说明

分别是

0,

1的无偏估计;

是E(y0)=

0+

1x0的无偏估计;

除外,与是相关的;

要提高的估计精度(即降低它们的方差)就要求n大,lxx大(即要求x1,x2,

,xn较分散)。

8.4.4回归方程的显著性检验

在使用回归方程作进一步的分析以前,首先应对回归方程是否有意义进行判断。如果

1=0,那么不管x如何变化,E(y)不随x的变化作线性变化,那么这时求得的一元线性回归方程就没有意义,称回归方程不显著。如果

10,E(y)随x的变化作线性变化,称回归方程是显著的。综上,对回归方程是否有意义作判断就是要作如下的显著性检验:H0:

1=0vsH1:

10拒绝H0表示回归方程是显著的。一、F检验采用方差分析的思想,我们从数据出发研究各yi不同的原因。数据总的波动用总偏差平方和表示。引起各yi不同的原因主要有两个因素:其一是H0可能不真,E(y)随x的变化而变化,从而在每一个x的观测值处的回归值不同,其波动用回归平方和表示;其二是其它一切因素,包括随机误差、x对E(y)的非线性影响等,这可用残差平方和表示。且有如下平方和分解式:ST=SR+Se(8.4.13)

在一元线性回归中有三种等价的检验方法,下面分别加以介绍。定理8.4.2设yi=

i+

1

xi

+

i,其中

i

n相互独立,且E

i=0,Var(yi)=

2,i=1,

,n,沿用上面的记号,有(8.4.14)(8.4.15)这说明是

2的无偏估计。

关于SR

Se所含有的成分可由如下定理说明。

进一步,有关SR

Se的分布,有如下定理。

定理8.4.3

设y1,y2,

,yn相互独立,且

yi~N(

i+

1

xi

,

2),i=1,

,n,则在上述记号下,有(1)Se/

2~

2(n2),(2)若H0成立,则有SR/

2~

2(1)(3)SR与Se,独立(或与Se,独立)。

如同方差分析那样,我们可以考虑采用F比作为检验统计量:

1

=0时,F~F(1,n

2),其中fR=1,fe=n

2.对于给定的显著性水平

,拒绝域为

F

F1-

(1,n

2)整个检验也可列成一张方差分析表。

来源平方和自由度均方和F比回归SR=317.2589fA=1MSA=317.2589176.55残差Se=17.9703fe=10MSe=1.79703总和ST=335.2292fT=11例8.4.3在合金钢强度的例8.4.2中,我们已求出了回归方程,这里我们考虑关于回归方程的显著性检验。经计算有

若取=0.01,则F0.99(1,10)=10<F,因此在显著性水平0.01下回归方程是显著的。

二、t检验对H0:

1

=0的检验也可基于t分布进行。由于,因此在H0为真时,有,其中,它可用来检验假设H0。对给定的显著性水平

,拒绝域为.由于,称为的标准误,即的标准差的估计。

注意到t2=F,因此,t检验与F检验是等同的。以例8.4.2中数据为例,可以计算得到若取

=0.01,则由于13.2872>3.1698,因此,在显著性水平0.01下回归方程是显著的。

三、相关系数检验一元线性回归方程是反映两个随机变量x与y间的线性相关关系,它的显著性检验还可通过对二维总体相关系数

的检验进行。它的一对假设是H0:

=0vsH1:

0(8.4.18)所用的检验统计量为样本相关系数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论