统计2回归与相关蓝_第1页
统计2回归与相关蓝_第2页
统计2回归与相关蓝_第3页
统计2回归与相关蓝_第4页
统计2回归与相关蓝_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

4回4英国人类学家F.Galton首次在《自然遗传》 计学家KarlPearson对上千个家庭的儿子身高(Y,英寸)与父亲身高(X,英寸)性关系:ˆ33.730.516X也即高个子父代的子代在成年之后的身高平于其父代水平。Galton将这种趋向于种族稳定“回归”已成为表示变量之间某种数量依存关系的统计学术语,相关并且衍生出“回归方程”“回归系数”等统计学概念。如研究 人血糖与其胰岛素水平的关系,研究儿童与体重的关系等。即便具有相同的体重,肺活量也不一定相同YY

X女大学生体重(X)与肺活量(Y)的散点图 即便具有相同的2岁身高,成年后的身高也不一定相同 X2岁身高X与成年后身高Y的散点2岁身高影响成年的身高,但并非确定地决定它(determineitexactly);宏观上来讲,他们呈直线关系,但并不能YabX函数式(例如圆周长与半径:y=2πr)来描述。ˆabX“hat”表示估计值,给定x时y的条件均数函数关系:确定。例如圆周长与半径:y=2πr回归关系:不确定。例如血压和 的关系,称为直线回归(linearregression)。依存关系:应变量(dependentvariable)Y化 ——回归分互依关系:应变量Y与自变量X ˆa Y(dependentvariable,response (independentvariable,explanatory条件:Y是服从正态分布的 ˆaa:截距(intercept),直线与Y轴交点的纵坐标。:斜率(slope),回归系数(regressioncoefficient)。b>0,Y随X的增大而增大(减少而减少)——斜上;b<0,Y随X的增大而减小(减少而增加)——斜下; ——水平条件:Y随量,总体为正态分布

ˆaYX

例7-1某地方病 12345678X7:只有一个自变量,称简单回归(simpleregression); :

3.6尿肌酐含量尿肌酐含量3.23.02.82.62.44.0 6.0 8.0 10.0()

12.0 14.0图9-18名儿童 与其尿肌酐含量的散点X squaremethod):使各散点到直线的 Yˆ2最小。 Q(Yˆ)

(Yˆ)2YabX b(XX)(YY)XYXY/n(XXaYb

1 123946586787

232.617623.87/764762/5.8450回归方程:ˆ

XX/n76/8YY/n23.87/8aY①由于抽样误差引起,总体回归系数②存在回归关系,总体回归系数β②tY总情况(YY

ˆ ˆY)回归部Y (YY)(Yˆ)ˆYˆ)(ˆ所以有(YY)2(Yˆ)2(YˆY即SSSSSS=剩+2SS总=(YY),Y的离均差平方和(totalsumof2未考虑X与Y的回归关系时的总变异。υ=n-SS=(Yˆ )为剩余平方和(residualsumof对Y法用解释的部分。SS剩越小,回归效果越好。υ=n- 为回归平方和(regressionsumof,由于X与的直线关系而使变异减小的部分,即总变异中,FSS回/回MS回SS残/ MS1残nYˆ2YYSSSSSS回SS

2ˆY

b2l

ˆ

X

Y

Y(5)=(3)-(4)

(Yˆ)2 - - - - ˆ

计算

12123946586787 /842

Y2(Y)2/相关系 公1,nH0:1,nH1:β≠0,即尿肌酐含量 之间有直线关

FSS/回MS

0.8134

SS回

SS残/ MS SS残=SS总-SS回

回 残nFP7 1 6v1=1;ν2=6,查F界值表,得P<0.01.按 H0接受H1可以认为两者有直线关公 t

bbSbb

SY. SY.XXXXn n

过H0:β=0 前面已计算过n=8,SS残 SS

0.23280.1970,Y.

n 8 SY.

0.19700.0304, 42tb00.13924.579,Sb 0.0304 H0…注意 F SpssSpss.139t检Spss结0.1392ˆ0.1392ˆTheinterceptisaTheinterceptisa=No直线回归方程的区间估(一)总体回归系数的区间估(b-t/2(n-2)Sb,b+t/2(n-2)Sb)简记为bt/2(n-(0.1392-2.447×0.0304,=(0.0648,(二)总体均数µ的区间估(三 Y值的容许区 Y|X的区间估

本例: 时ˆˆ1.66170.13921.66170.1392(3.3321-2.447×0.1031, Y缩写本例: =12时值的95%容许区间,9595%uX|Y的可信区间 容许区尿肌尿肌酐含量(

可信区

()

图9-3总体均数的可信区间和 ˆ 控 回 变量间的依存关相 变量间的互依关直线相关(linearcorrelation)简单相关(simplecorrelation),用于双变量正态分布资料。图

、Y同时增减---正相关(positivecorrelation);、Y此增彼减---负相关(negativecorrelation) 、Y变化趋势相同----相关系数示意 反向变化 、Y变化互不影 相关(zerocorrelation)图 相关系数示意相关系数(correlationcoefficient),又称积差相关系数(coefficientofproduct–momentcorrelation),或Pearson相关系数(软件中常说明相关的密切程度和方向的指标r——相关系数的意XXYY XYY

lXXlXXlYYr无单位,-1r≤1。r——为负——(与回归系数的符号相同|r|=1---完全相关,|r|=0---零相关。x,y相关系数的计对例 的相关关由例9-1算得,r lXY lXX

5.845

0.8818r≠0rr1rr1rnSr

n=8,t

0.8818

4.579,n21r 10.88182n 8P<0.05,按0.05水 H0,接受可以认为两者成直线关必须将r转为或 公式tanh为双曲线正切函数tanh-1为双曲线反正切函数,r的取值范围为-1<r<1,Z取值范围-∞<Z<+∞。按正态) (1z=tanh-1

2ln(1z的95%可信区间为1.3838±1.96/8 =(0.5073,3.2749)e2z

上限tanhz=tanh0.5073=e2

tanh

e2z1

1下 e2z

总体相关系数95%可信区间为公式l /

l R

lXX SS取值0到1之 MS回F 回

,1,

n

SS/残MS

②X、Y服从双变量正态分 回归— 由一个变量值推算另一个变量相关——假设检验等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论