绝密版-直线相关和直线回归【可编辑的】课件_第1页
绝密版-直线相关和直线回归【可编辑的】课件_第2页
绝密版-直线相关和直线回归【可编辑的】课件_第3页
绝密版-直线相关和直线回归【可编辑的】课件_第4页
绝密版-直线相关和直线回归【可编辑的】课件_第5页
已阅读5页,还剩135页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十二章双变量关联性分析第十二章双变量关联性分析1

概述

变量间关系问题

两个关系肺活量~体重、药物剂量~疗效等。年龄~身高、年龄~血压、体温~脉膊、互依关系:两变量间的彼此关系

——相关分析依存关系:一变量随另一变量变化而变化

——回归分析概述变量间关系问题两个关系肺活量~体重、药物剂量~疗2

主要内容直线相关与回归的概念直线回归方程的建立相关系数与回归系数的假设检验直线相关与回归的区别与联系直线相关与回归的应用主要内容直线相关与回归的概念直线回归方程的建立相3

直线相关

(linearcorrelation)

又称简单相关或Pearson相关分析,用于研究两个数值变量间是否存在线性相关关系统计分析方法。一、直线相关的概念直线相关(linearcorrelat4两种事物或现象之间的相关关系基本上有下列四种情况:正相关负相关无关(零相关)非线性相关二、相关的类型两种事物或现象之间的相关关系基本上有下列四5正相关:一种现象的数值伴随另一种现象的数值的增加而递增,如图11.6(a);若X、Y呈正比,那么散点基本上在一直线上,称为完全正相关如图11.6(b);负相关:一种现象的数值伴随另一种现象的数值的增加而递减,如图11.6(c);若X、Y呈反比,那么散点基本上在一直线上,称为完全负相关如图11.6(d);相关性质可由散点图直观的说明

正相关:一种现象的数值伴随另一种现象的数值的负相关:一种6

无关(零相关):

若变量x无论增加或减少,变量y不受到影响,如图11.6(e);

非线性相关:

变量x

与y的增减在坐标上排列不呈直线性分布如弧形、抛物线形、S形等如图11.6(f)反映两变量间的相关关系的统计方法可用相关图和相关系数两种方法表示无关(零相关):若变量x无论增加或减少,变量y7三、直线相关的应用条件又称积差相关系数或Pearson相关系数,说明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标。要求两个变量均呈正态分布(双变量正态分布)四、相关系数(correlationcoefficient)及其意义r

表示样本相关系数,ρ表示总体相关系数。三、直线相关的应用条件又称积差相关系数或Pearso8相关系数(r)

意义:描述两个变量直线相关的方向与密切程度的指标。表示方法:-1≤

r

≤1

(无单位)

r值为正——正相关r值为负——负相关|r|=1——完全相关|r|=0——零相关相关系数(r)表示方法:-1≤r≤1(无单位)9五、直线相关分析的基本步骤绘制散点图计算相关系数

相关系数的假设检验目的:①初步了解两个变量间有无直线关系②有无可疑的异常点t-test,r-test五、直线相关分析的基本步骤绘制散点图计算相关系数相关10P170例12-1表12-12000年某地16名7岁男孩体重与胸围资料编号12345678910111213141516体重24.527.023.528.523.026.726.824.624.819.719.517.220.019.020.221.0

(Kg)胸围61.062.060.064.059.358.458.658.758.556.055.654.553.052.058.057.0(cm)P170例12-1表12-12000年某地16名7岁男孩11

绘制散点图:初步了解两个变量间的相关关系2000年某地16名7岁男孩体重与胸围散点图绘制散点图:初步了解两个变量间的相关关系2000年某地1612

计算相关系数其中:公式

为X和Y的离均差积和为X的离均差平方和为Y的离均差平方和为x,y的均数计算相关系数其中:公式为X和Y的离均差积和为X的离均13绝密版-直线相关和直线回归【可编辑的】课件14

r的计算结果说明了两个变量X与Y之间关联的

密切程度(绝对值大小)与关联的性质(正负号)r的计算结果说明了两个变量X与Y之间关联的15

从以上计算结果我们能否得出结论:

该地7岁男孩体重与胸围之间呈正相关系,相关系数是0.8343。为什么?

问题?

本例中的相关系数r=0.8343,说明了含16例7岁男孩体重与胸围之间存在相关关系。但是,这16例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,当总体相关系数()为零时,由于抽样误差,从总体抽出的16例,其r可能不等于零。从以上计算结果我们能否得出结论:

该地7岁男孩体重16总体相关系数的假设检验检验r是否来自总体相关系数为零的总体

(即ρ=0)目的:r≠0的两种可能

①X、Y间确实有相关关系(ρ≠0)②抽样误差的影响(ρ=0)总体相关系数的假设检验检验r是否来自总体相关系数为零目17t检验

r检验:方法:r的标准误r界值表t检验r检验:方法:r的标准误r界值表18

相关关系密切程度的判断

低度相关

中度相关

高度相关

一般说来,当样本量较大(n>100),并对r进行假设检验,有统计学意义时(即),r绝对值越大,说明两个变量之间关联程度越强。相关关系密切程度的判断低度相关中度相关高度相关19六、相关分析中应用注意的问题

不能把毫无关联的两种现象作直线相关分析资料要求两变量x、y都应是来自正态分布总体应绘制散点图,当观察点的分布有直线趋势时,才适宜作直线相关分析。不能只根据r的绝对值的大小来判断相关的密切程度若r很小,即使t检验有统计学意义,但专业上意义不大。相关关系可能是因果关系,

也可能是伴随关系

相关分析主要为进一步的研究提供线索。六、相关分析中应用注意的问题不能把毫无关联的两种现象作直线20在例12-1中我们讨论了7岁男孩体重与胸围之间的关系,知道了二者之间成正相关。如果我们知道了一位7岁男孩体重,能推断出其胸围吗?或其胸围可能在什么范围内?体重的增加,胸围也在增加,假如体重增加

2Kg,那么胸围增加多少cm?

问题?在例12-1中我们讨论了7岁男孩体重与胸围如果21

直线回归

(linearregression)

又称简单回归,用于研究两个数值变量间的依存关系,从而预测或控制未知变量的一种统计分析方法。一、直线回归的概念直线回归(linearregression)22P180例13-1

两种变量

自变量

(independentvariable)

应变量

(dependentvariable)

两种关系

函数关系——函数方程:

回归关系——回归方程:

欲用容易测定的体重来预测和估计心脏横径x,y呈确定性关系x,y呈非确定性关系P180例13-1两种变量自变量(independ2313名8岁正常男童体重与心脏横径散点图

直线回归是分析两变量间线性依存变化

的数量的关系。13名8岁正常男童体重与心脏横径散点图直线24二、直线回归的应用条件

要求Y变量呈正态分布,X变量可以是精确测量和控制的变量。二、直线回归的应用条件要求Y变量呈正态分布25三、直线回归方程式及回归系数:为Y的估计值,读作‘Yhat’

a

:为截距,即时的值

b

:

为样本回归系数(直线的斜率);其统计学意义是X

每增加(减)一个单位Y

平均改变b个单位直线回归方程的一般表达式为:即X取某一定数值时相应Y的样本均数(也是相应Y的点估计值)

a、b是决定直线的两个系数

三、直线回归方程式及回归系数26

回归系数b

和截距a

的计算

根据最小二乘法原理(该法原理可保证各实测点至直线的纵向距离的平方和最小)可导出:为X和Y的离均差积和为X

的离均差平方和其中:回归系数b和截距a的计算根据最小二乘法原27四、直线回归分析的基本步骤绘制散点图计算回归系数b与截距a对回归系数b进行假设检验列出回归方程

回归直线的绘制四、直线回归分析的基本步骤绘制散点图计算回归系数b与28五、回归系数的统计推断

回归系数的假设检验

总体回归系数β

的估计

五、回归系数的统计推断回归系数的假设检验总体回归系数β29回归系数的假设检验

假设检验方法:t检验方差分析

r检验代替

回归系数的假设检验假设检验方法:t检验方差分析r30

其中:

Sb

为回归系数b的标准误

SY.X

为剩余标准差,反映扣除了X

的影响后Y的变异

t检验其中:Sb为回归系数b的标准误t31例13-1

tb

检验步骤

H0

β=0,即体重和心脏横径间无直线回归关系

H1:β≠0,即体重和心脏横径间有直线回归关系

=0.05

b=0.2041,n=13,Sb=0.03098代入公式:查t值表,t0.05/2(11)=2.201,tb=6.59>2.201,则P<0.05,按=0.05水准拒绝H0,接受H1,可认为该地8岁男孩体重与心脏横径间直线关系存在,所求线性回归方程成立。

例13-1tb检验步骤H0:β=0,即32

r检验代替

在实际应用中,如果已对相关系数进行了假设检验,则可代替回归系数的假设检验。对于同一资料,tr=tb即如果相关系数的假设检验有统计学意义,则回归系数检验也有统计学意义,反之亦然。相关系数的假设检验方法比回归系数假设检验方法简便易做r检验代替在实际应用中,如果已对相关系数进行了33总体回归系数的区间估计像样本均数不一定恰好等于总体均数一样,求得样本回归系数b以后,利用上述对回归系数t检验的公式,可以较为容易的得到总体回归系数β的1-α双侧可信区间为:

其中:

Sb

为回归系数b的标准误总体回归系数的区间估计像样本均数不一定恰好等于总体均34

其中:

SY.X

为剩余标准差,反映扣除了

X的影响后Y的变异

为残差平方和

其中:SY.X为剩余标准差,反映扣除了35例13.1例13.136总体回归系数β的95%双侧可信区间:即总体回归系数β的95%双侧可信区间为:0.1359cm~0.2723cm

该区间不包括0,可按相应的水准同样得到总体回归系数不为0的结论,即用区间估计回答相同时的假设检验问题。总体回归系数β的95%双侧可信区间:即总体回归系数β的37

描述两变量的依存关系

利用回归方程进行预测

X—预报因子Y—预报量

利用个体Y值的容许区间方法进行计算

利用回归方程进行统计控制

利用个体Y值的容许区间方法进行计算五、直线回归分析的应用描述两变量的依存关系五、直线回归分析的应用38不能把毫无关联的两种现象作直线回归分析应绘制散点图,当观察点的分布有直线趋势时,才适宜作直线回归分析。观察异常点考虑回归分析的应用条件直线回归方程的适用范围一般以自变量的取值范围为限,不可随意外延。六、直线回归分析的应用注意事项不能把毫无关联的两种现象作直线回归分析六、直线回归分析的应用39直线相关与直线回归的区别与联系

回归要求自变量X是可以精确测量和严格控制的选定变量,对确定的X,应变量Y是服从正态分布的随机变量,只能由推算出,不能颠倒。相关要求X和Y均呈正态分布的资料。1、应用条件不同区别直线相关与直线回归的区别与联系回归要求自变量X40

相关反映两变量的相互关系,是一种双向变化的关系(即在两个变量中,任何一个的变化都会引起另一个的变化)。

回归是反映两个变量间数量上的依存关系,只是一种由自变量估计应变量的单向关系。3、意义不同2、用途不同研究两变量间的相关关系用相关;研究两变量间依存变化的数量关系用回归。区别相关反映两变量的相互关系,是一种双向变化3、意义不同414、r与b的意义与取值范围均不同,越大,散点图中的各散点越趋向于回归直线,表明两变量间相关密切程度越强;

b可以是任何实数,越大,即回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样。区别4、r与b的意义与取值范围均不同42

r与b的方向一致

r与b的假设检验等价对同一组数据若同时计算r与b,其正负号是一致的。对同一样本,r和b的假设检验得到的t值相等(即tr=tb

)。联系r与b的方向一致r与b的假设检验等价43

r与b值可相互换算联系r与b值可相互换算联系44

用回归解释相关r2

的意义:

它反应应变量y的总变异中,可用回归解释的比例,反映回归模型拟合效果的指标联系r的平方即为决定系数(coefficientofdetermination)用回归解释相关r2的意义:它反应应变量y的总变异中45小结直线相关直线回归小结直线相关461、根据样本算得一相关系数r,经t检验,P<0.01,说明r来自高度相关的相关总体()思考题是非题1、根据样本算得一相关系数r,经t检验,思考题是非题472、两变量间有直线回归关系存在,即可认为两变量间有因果关系()思考题是非题2、两变量间有直线回归关系存在,即可思考题是非题48思考题3、相关分析和回归分析有何不同?3、

回归系数b和截距a分别表示什么意义?预习:第十六章、常用的统计图和统计表思考题3、相关分析和回归分析有何不同?3、回归系数b49谢谢!谢谢!50相关关系示意:0<r<1-1<r<0正相关负相关-1<r<00<r<1

-1<r<0

相关关系示意:0<r<1-1<r<0正相关负51相关关系示意:r=0r=0非线性相关非线性相关相关关系示意:r=0r=0非线性相关非线性相关52相关关系示意:r=1r=-1完全正相关完全负相关相关关系示意:r=1r=-1完全正相关完全负相关53相关关系示意:r=1r=-1完全正相关完全负相关r=0r=0r=0零相关零相关零相关相关关系示意:r=1r=-1完全正相关完全负相关r54例12-1

tr

检验步骤

H0:

=0,即7岁男孩体重和胸围间无直线相关关系

H1:

≠0,即7岁男孩体重和胸围间有直线相关关系

=0.05

r=0.8343,n=16,代入公式:查t值表,t0.05/2(14)=2.145,tr=5.6623>2.145,则P<0.05,按=0.05水准拒绝H0,接受H1,差异有统计学意义,可认为体重和胸围之间有正相关关系。

例12-1tr检验步骤H0:=0,55

查表法r=0.8343,ν=16-2=14,查r界值表(P349附表14)

r0.05(14)=0.497r=0.8343>0.497,

P<0.05,按=0.05水准拒绝H0,接受H1,差异有统计学意义,可认为该地男孩体重和胸围之间有正相关关系。查表法r=0.8343,ν=16-2=14,查r界值56现有两个样本:r1=0.612,ν1=7;r2=0.435,ν2=50。不能根据r1>r2就说r1比r2相关更密切。因为查相关系数界值表,样本1得

P>0.05,样本2得P<0.01按检验水准α=0.05,前者可认为无相关而后者有相关,可见正确推断有无相关必须经过假设检验。例:现有两个样本:r1=0.612,ν1=57a

为截距,即x=0时的y值a(a=0)(a>0)(a<0)a为截距,即x=0时的y值a(a=0)(a>058b为回归系数,即直线的斜率(b>0)(b<0)(b=0)b个单位1个单位b=0时X与Y无直线关系

X每增加(减)一个单位,Y平均改变b个单位

b为回归系数,即直线的斜率(b>0)(b<0)(59绝密版-直线相关和直线回归【可编辑的】课件6013名8岁正常男童体重与心脏横径散点图

a、b

是根据最小二乘法原理(各实测点至直线的纵向距离的平方和最小)求得●●P1P2(残差)●●●13名8岁正常男童体重与心脏横径散点图a、b是根据最61例13-1例13-162

在自变量X的实测范围内任取相距较远易读的两个值,求出相应Y的估计值,用直线连接。

13名8岁正常男童体重与心脏横径散点图(0,a)●●●●●P1(20,8.29)P2(26,9.52)(59.26,142.87)y=4.2121+0.2041x在自变量X的实测范围内任取相距较远易读的两63SAH患者第一天血清和脑脊液IL-6(pg/ml)检测结果散点图●P1(23,100.1)●P2(96,186.24)●●●●●●●y=72.96+1.18x●●●(59.26,142.87)(0,a)

在自变量X的实测范围内任取相距较远易读的两个值,求出相应Y的估计值,用直线连接。

●●SAH患者第一天血清和脑脊液IL-6(pg/ml)检测结果散64利用回归方程进行预测即利用回归方程,由一个容易测量的变量值(自变量X—预报因子)推算另一个不易测得的变量值(应变量Y—预报量)。

如由儿童年龄推算其体重,将预报因子

X

(儿童年龄)代入回归方程后,求得值为应变量Y

(体重)的估计值,这属于点值估计;其波动范围可求个体Y值的容许区间,即为区间估计。

利用回归方程进行预测即利用回归方程,由一个容易测量65利用回归方程进行统计控制

统计控制是指为了满足Y最高不超过(或最低不低于)限定的某一个数值,X应控制在多大范围?这是利用回归方程进行逆估计。如:汽车的数量与大气中的NO2浓度呈直线回归关系,为了控制大气污染,可通过限制汽车的数量来实现。如果大气中NO2最大允许浓度一定,则通过直线回归方程可求出汽车的最大允许流量。利用回归方程进行统计控制统计控制是指为了满足Y最66

在自变量X的实测范围内任取相距较远易读的两个值,求出相应Y的估计值,用直线连接。

绘制直线回归图

取易读数且离得相对较远的两个X

值代入直线回归方程求得两个Y

,得两点并连线即可。在自变量X的实测范围内任取相距较远易读的两67直线回归是分析两变量间线性依存变化的数量的关系。

直线回归是分析两变量间线性依存变化的数量的关系。

68确定性关系(函数关系):两变量的取值完全一一对应如:y=2r非确定性的关系(回归关系):两变量的取值并非完全一一对应,而是具有随机性的一种“趋势”

两变量间关系如:年龄~身高、年龄~血压、体温~脉膊等确定性关系(函数关系):两变量的取值完全一一对应如:y69绝密版-直线相关和直线回归【可编辑的】课件70第十二章双变量关联性分析第十二章双变量关联性分析71

概述

变量间关系问题

两个关系肺活量~体重、药物剂量~疗效等。年龄~身高、年龄~血压、体温~脉膊、互依关系:两变量间的彼此关系

——相关分析依存关系:一变量随另一变量变化而变化

——回归分析概述变量间关系问题两个关系肺活量~体重、药物剂量~疗72

主要内容直线相关与回归的概念直线回归方程的建立相关系数与回归系数的假设检验直线相关与回归的区别与联系直线相关与回归的应用主要内容直线相关与回归的概念直线回归方程的建立相73

直线相关

(linearcorrelation)

又称简单相关或Pearson相关分析,用于研究两个数值变量间是否存在线性相关关系统计分析方法。一、直线相关的概念直线相关(linearcorrelat74两种事物或现象之间的相关关系基本上有下列四种情况:正相关负相关无关(零相关)非线性相关二、相关的类型两种事物或现象之间的相关关系基本上有下列四75正相关:一种现象的数值伴随另一种现象的数值的增加而递增,如图11.6(a);若X、Y呈正比,那么散点基本上在一直线上,称为完全正相关如图11.6(b);负相关:一种现象的数值伴随另一种现象的数值的增加而递减,如图11.6(c);若X、Y呈反比,那么散点基本上在一直线上,称为完全负相关如图11.6(d);相关性质可由散点图直观的说明

正相关:一种现象的数值伴随另一种现象的数值的负相关:一种76

无关(零相关):

若变量x无论增加或减少,变量y不受到影响,如图11.6(e);

非线性相关:

变量x

与y的增减在坐标上排列不呈直线性分布如弧形、抛物线形、S形等如图11.6(f)反映两变量间的相关关系的统计方法可用相关图和相关系数两种方法表示无关(零相关):若变量x无论增加或减少,变量y77三、直线相关的应用条件又称积差相关系数或Pearson相关系数,说明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标。要求两个变量均呈正态分布(双变量正态分布)四、相关系数(correlationcoefficient)及其意义r

表示样本相关系数,ρ表示总体相关系数。三、直线相关的应用条件又称积差相关系数或Pearso78相关系数(r)

意义:描述两个变量直线相关的方向与密切程度的指标。表示方法:-1≤

r

≤1

(无单位)

r值为正——正相关r值为负——负相关|r|=1——完全相关|r|=0——零相关相关系数(r)表示方法:-1≤r≤1(无单位)79五、直线相关分析的基本步骤绘制散点图计算相关系数

相关系数的假设检验目的:①初步了解两个变量间有无直线关系②有无可疑的异常点t-test,r-test五、直线相关分析的基本步骤绘制散点图计算相关系数相关80P170例12-1表12-12000年某地16名7岁男孩体重与胸围资料编号12345678910111213141516体重24.527.023.528.523.026.726.824.624.819.719.517.220.019.020.221.0

(Kg)胸围61.062.060.064.059.358.458.658.758.556.055.654.553.052.058.057.0(cm)P170例12-1表12-12000年某地16名7岁男孩81

绘制散点图:初步了解两个变量间的相关关系2000年某地16名7岁男孩体重与胸围散点图绘制散点图:初步了解两个变量间的相关关系2000年某地1682

计算相关系数其中:公式

为X和Y的离均差积和为X的离均差平方和为Y的离均差平方和为x,y的均数计算相关系数其中:公式为X和Y的离均差积和为X的离均83绝密版-直线相关和直线回归【可编辑的】课件84

r的计算结果说明了两个变量X与Y之间关联的

密切程度(绝对值大小)与关联的性质(正负号)r的计算结果说明了两个变量X与Y之间关联的85

从以上计算结果我们能否得出结论:

该地7岁男孩体重与胸围之间呈正相关系,相关系数是0.8343。为什么?

问题?

本例中的相关系数r=0.8343,说明了含16例7岁男孩体重与胸围之间存在相关关系。但是,这16例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,当总体相关系数()为零时,由于抽样误差,从总体抽出的16例,其r可能不等于零。从以上计算结果我们能否得出结论:

该地7岁男孩体重86总体相关系数的假设检验检验r是否来自总体相关系数为零的总体

(即ρ=0)目的:r≠0的两种可能

①X、Y间确实有相关关系(ρ≠0)②抽样误差的影响(ρ=0)总体相关系数的假设检验检验r是否来自总体相关系数为零目87t检验

r检验:方法:r的标准误r界值表t检验r检验:方法:r的标准误r界值表88

相关关系密切程度的判断

低度相关

中度相关

高度相关

一般说来,当样本量较大(n>100),并对r进行假设检验,有统计学意义时(即),r绝对值越大,说明两个变量之间关联程度越强。相关关系密切程度的判断低度相关中度相关高度相关89六、相关分析中应用注意的问题

不能把毫无关联的两种现象作直线相关分析资料要求两变量x、y都应是来自正态分布总体应绘制散点图,当观察点的分布有直线趋势时,才适宜作直线相关分析。不能只根据r的绝对值的大小来判断相关的密切程度若r很小,即使t检验有统计学意义,但专业上意义不大。相关关系可能是因果关系,

也可能是伴随关系

相关分析主要为进一步的研究提供线索。六、相关分析中应用注意的问题不能把毫无关联的两种现象作直线90在例12-1中我们讨论了7岁男孩体重与胸围之间的关系,知道了二者之间成正相关。如果我们知道了一位7岁男孩体重,能推断出其胸围吗?或其胸围可能在什么范围内?体重的增加,胸围也在增加,假如体重增加

2Kg,那么胸围增加多少cm?

问题?在例12-1中我们讨论了7岁男孩体重与胸围如果91

直线回归

(linearregression)

又称简单回归,用于研究两个数值变量间的依存关系,从而预测或控制未知变量的一种统计分析方法。一、直线回归的概念直线回归(linearregression)92P180例13-1

两种变量

自变量

(independentvariable)

应变量

(dependentvariable)

两种关系

函数关系——函数方程:

回归关系——回归方程:

欲用容易测定的体重来预测和估计心脏横径x,y呈确定性关系x,y呈非确定性关系P180例13-1两种变量自变量(independ9313名8岁正常男童体重与心脏横径散点图

直线回归是分析两变量间线性依存变化

的数量的关系。13名8岁正常男童体重与心脏横径散点图直线94二、直线回归的应用条件

要求Y变量呈正态分布,X变量可以是精确测量和控制的变量。二、直线回归的应用条件要求Y变量呈正态分布95三、直线回归方程式及回归系数:为Y的估计值,读作‘Yhat’

a

:为截距,即时的值

b

:

为样本回归系数(直线的斜率);其统计学意义是X

每增加(减)一个单位Y

平均改变b个单位直线回归方程的一般表达式为:即X取某一定数值时相应Y的样本均数(也是相应Y的点估计值)

a、b是决定直线的两个系数

三、直线回归方程式及回归系数96

回归系数b

和截距a

的计算

根据最小二乘法原理(该法原理可保证各实测点至直线的纵向距离的平方和最小)可导出:为X和Y的离均差积和为X

的离均差平方和其中:回归系数b和截距a的计算根据最小二乘法原97四、直线回归分析的基本步骤绘制散点图计算回归系数b与截距a对回归系数b进行假设检验列出回归方程

回归直线的绘制四、直线回归分析的基本步骤绘制散点图计算回归系数b与98五、回归系数的统计推断

回归系数的假设检验

总体回归系数β

的估计

五、回归系数的统计推断回归系数的假设检验总体回归系数β99回归系数的假设检验

假设检验方法:t检验方差分析

r检验代替

回归系数的假设检验假设检验方法:t检验方差分析r100

其中:

Sb

为回归系数b的标准误

SY.X

为剩余标准差,反映扣除了X

的影响后Y的变异

t检验其中:Sb为回归系数b的标准误t101例13-1

tb

检验步骤

H0

β=0,即体重和心脏横径间无直线回归关系

H1:β≠0,即体重和心脏横径间有直线回归关系

=0.05

b=0.2041,n=13,Sb=0.03098代入公式:查t值表,t0.05/2(11)=2.201,tb=6.59>2.201,则P<0.05,按=0.05水准拒绝H0,接受H1,可认为该地8岁男孩体重与心脏横径间直线关系存在,所求线性回归方程成立。

例13-1tb检验步骤H0:β=0,即102

r检验代替

在实际应用中,如果已对相关系数进行了假设检验,则可代替回归系数的假设检验。对于同一资料,tr=tb即如果相关系数的假设检验有统计学意义,则回归系数检验也有统计学意义,反之亦然。相关系数的假设检验方法比回归系数假设检验方法简便易做r检验代替在实际应用中,如果已对相关系数进行了103总体回归系数的区间估计像样本均数不一定恰好等于总体均数一样,求得样本回归系数b以后,利用上述对回归系数t检验的公式,可以较为容易的得到总体回归系数β的1-α双侧可信区间为:

其中:

Sb

为回归系数b的标准误总体回归系数的区间估计像样本均数不一定恰好等于总体均104

其中:

SY.X

为剩余标准差,反映扣除了

X的影响后Y的变异

为残差平方和

其中:SY.X为剩余标准差,反映扣除了105例13.1例13.1106总体回归系数β的95%双侧可信区间:即总体回归系数β的95%双侧可信区间为:0.1359cm~0.2723cm

该区间不包括0,可按相应的水准同样得到总体回归系数不为0的结论,即用区间估计回答相同时的假设检验问题。总体回归系数β的95%双侧可信区间:即总体回归系数β的107

描述两变量的依存关系

利用回归方程进行预测

X—预报因子Y—预报量

利用个体Y值的容许区间方法进行计算

利用回归方程进行统计控制

利用个体Y值的容许区间方法进行计算五、直线回归分析的应用描述两变量的依存关系五、直线回归分析的应用108不能把毫无关联的两种现象作直线回归分析应绘制散点图,当观察点的分布有直线趋势时,才适宜作直线回归分析。观察异常点考虑回归分析的应用条件直线回归方程的适用范围一般以自变量的取值范围为限,不可随意外延。六、直线回归分析的应用注意事项不能把毫无关联的两种现象作直线回归分析六、直线回归分析的应用109直线相关与直线回归的区别与联系

回归要求自变量X是可以精确测量和严格控制的选定变量,对确定的X,应变量Y是服从正态分布的随机变量,只能由推算出,不能颠倒。相关要求X和Y均呈正态分布的资料。1、应用条件不同区别直线相关与直线回归的区别与联系回归要求自变量X110

相关反映两变量的相互关系,是一种双向变化的关系(即在两个变量中,任何一个的变化都会引起另一个的变化)。

回归是反映两个变量间数量上的依存关系,只是一种由自变量估计应变量的单向关系。3、意义不同2、用途不同研究两变量间的相关关系用相关;研究两变量间依存变化的数量关系用回归。区别相关反映两变量的相互关系,是一种双向变化3、意义不同1114、r与b的意义与取值范围均不同,越大,散点图中的各散点越趋向于回归直线,表明两变量间相关密切程度越强;

b可以是任何实数,越大,即回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样。区别4、r与b的意义与取值范围均不同112

r与b的方向一致

r与b的假设检验等价对同一组数据若同时计算r与b,其正负号是一致的。对同一样本,r和b的假设检验得到的t值相等(即tr=tb

)。联系r与b的方向一致r与b的假设检验等价113

r与b值可相互换算联系r与b值可相互换算联系114

用回归解释相关r2

的意义:

它反应应变量y的总变异中,可用回归解释的比例,反映回归模型拟合效果的指标联系r的平方即为决定系数(coefficientofdetermination)用回归解释相关r2的意义:它反应应变量y的总变异中115小结直线相关直线回归小结直线相关1161、根据样本算得一相关系数r,经t检验,P<0.01,说明r来自高度相关的相关总体()思考题是非题1、根据样本算得一相关系数r,经t检验,思考题是非题1172、两变量间有直线回归关系存在,即可认为两变量间有因果关系()思考题是非题2、两变量间有直线回归关系存在,即可思考题是非题118思考题3、相关分析和回归分析有何不同?3、

回归系数b和截距a分别表示什么意义?预习:第十六章、常用的统计图和统计表思考题3、相关分析和回归分析有何不同?3、回归系数b119谢谢!谢谢!120相关关系示意:0<r<1-1<r<0正相关负相关-1<r<00<r<1

-1<r<0

相关关系示意:0<r<1-1<r<0正相关负121相关关系示意:r=0r=0非线性相关非线性相关相关关系示意:r=0r=0非线性相关非线性相关122相关关系示意:r=1r=-1完全正相关完全负相关相关关系示意:r=1r=-1完全正相关完全负相关123相关关系示意:r=1r=-1完全正相关完全负相关r=0r=0r=0零相关零相关零相关相关关系示意:r=1r=-1完全正相关完全负相关r124例12-1

tr

检验步骤

H0:

=0,即7岁男孩体重和胸围间无直线相关关系

H1:

≠0,即7岁男孩体重和胸围间有直线相关关系

=0.05

r=0.8343,n=16,代入公式:查t值表,t0.05/2(14)=2.145,tr=5.6623>2.145,则P<0.05,按=0.05水准拒绝H0,接受H1,差异有统计学意义,可认为体重和胸围之间有正相关关系。

例12-1tr检验步骤H0:=0,125

查表法r=0.8343,ν=16-2=14,查r界值表(P349附表14)

r0.05(14)=0.497r=0.8343

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论