直线相关与回归课件_第1页
直线相关与回归课件_第2页
直线相关与回归课件_第3页
直线相关与回归课件_第4页
直线相关与回归课件_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

直线相关与回归2024/12/24直线相关与回归两变量关联性分析

2024/12/24直线相关与回归一、线性相关(LinearCorrelation

)(一)概念及其统计描述1、散点图(scatterplot)为了确定相关变量之间的关系,首先收集一些数据,这些数据应该是成对的。例如,每人的身高和体重。然后在直角坐标系上描述这些点,这一组点集称为散点图。两变量关联性分析

2024/12/24直线相关与回归为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。

2024/12/24直线相关与回归相关的类型

★正相关★负相关★完全正相关★完全负相关★零相关

2024/12/24直线相关与回归2、相关系数(correlationcoefficient

)1)定义:说明两变量之间关联的密切程度(绝对值大小)与关联的性质(正负号),又称Pearson积差相关系数。2)符号:总体相关系数——

样本相关系数——r2024/12/24直线相关与回归3)计算公式-1≤r≤1ⅼrⅼ≈0——线性相关性差;ⅼrⅼ≈1——线性相关性好。2024/12/24直线相关与回归4)计算过程:例:一个产科医师发现孕妇尿中雌三醇含量与产儿的体重有关。于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重,见下表。问尿中雌三醇含量与产儿体重之间相关系数是多少?是正相关还是负相关?2024/12/24直线相关与回归编号

(1)尿雌三醇mg/24h(2)产儿体重kg(3)编号

(1)尿雌三醇mg/24h(2)产儿体重kg(3)172.517173.2292.518253.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.024193.49163.025183.510163.126173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.2

2024/12/24直线相关与回归X(尿雌三醇)Y(产儿体重)X•YX2Y279912…

…2.52.52.52.7…

…XY(X•Y)

X2

Y2XY计算表:2024/12/24直线相关与回归

∑X=534,∑Y=99.2,

∑X2=9876,∑Y2=324.8,∑XY=1750

从计算结果可以知道,31例待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是0.61。2024/12/24直线相关与回归(二)相关系数的统计推断1、原因:

=0抽样误差的存在

r≠02、前提条件:两个变量均服从(或近似服从)正态分布的定量资料。2024/12/24直线相关与回归3、假设检验:

①直接查表②

t检验H0=0(两者之间无线性相关)H1

≠0(两者之间有线性相关)检验统计量rt

=n-2

2024/12/24直线相关与回归(三)应用线性相关应注意的问题1、r≈0不意味两变量间一定无相关性,只能说无直线相关,可能有曲线性;2、两变量应均为随机样本才可作相关分析;3、注意异常值;4、相关未必有内在联系;5、分层资料盲目合并易出假象。2024/12/24直线相关与回归二、秩相关(RankCorrelation

)(一)概念及统计描述1、应用条件:当两变量不服从正态分布,或总体分布未知时,利用两变量的秩次大小做线性相关分析,属非参数统计方法。2024/12/24直线相关与回归2、性质:秩相关又叫等级相关,其中最常用的是Spearman秩相关。3、Spearman秩相关系数、等级相关系数(rs):说明两个非正态分布或分布类型未知的变量间相关的密集程度和相关方向。2024/12/24直线相关与回归4、rs计算过程:1)将x、y分别从小到大排秩,x秩次为p,y秩次为q,观察值相同的取平均秩次;2)以p、q分别替换x、y计算相关系数rs,rs=lpq/lpp•lqq2024/12/24直线相关与回归xpp2yqq2p•qpp2q

q2(p•q)计算表2024/12/24直线相关与回归(二)假设检验H0:s=0,两者之间无线性相关H1:s≠0,两者之间有线性相关

=0.05①当n≤50,直接以rs查rs临界值表,若rs

>rs,

,则P<

;②n>50,做t检验,计算t值,查t界值表,得P值,做出推论。2024/12/24直线相关与回归三、分类变量的关联性分析(一)交叉分类2X2表的关联性分析例:一份随机样本(82例患儿)同时按两个属性(是否腹泻、喂养方式)分类,结果见下表喂养方式腹泻有无人工30(a)10(b)母乳17(c)25(d)2024/12/24直线相关与回归1、目的:检验两个属性之间有无关联。2、基本步骤:H0:两属性之间互相独立(无关联)H1:两属性之间有关联

=0.05χ

2=(ad-bc)2

•n(a+b)(c+d)(a+c)(b+d)=1

确定P值,做出推论。2024/12/24直线相关与回归3、Pearson列联系数1)定义:说明两个分类变量关联的程度大小,用r表示。2)计算公式:r=χ

2/(χ

2+n

)0<r<13)假设检验:可做

=0的t检验,t值的计算公式与前相同;与χ

2检验等价(即目的相同)。2024/12/24直线相关与回归4、比较:从以下几个方面与一般四格表χ

2检验相比较:1)设计类型不同;2)目的不同;3)χ

2计算公式相同;4)结果解释不同。2024/12/24直线相关与回归(二)2X2配对资料的关联性分析1、资料形式:一组观察对象,分别用两种处理方法进行观察,观察结果皆为相同的两个分类,形成双向交叉排列的资料形式。甲乙+–+ab–cd2024/12/24直线相关与回归2、目的:检验两个处理方法的结果之间有无关联。3、步骤:H0:两个处理方法的结果之间互相独立(无关联)H1:两个处理方法的结果之间有关联

=0.05χ

2=(ad-bc)2

•n(a+b)(c+d)(a+c)(b+d)=1

确定P值,做出推论。也可计算列联系数,公式同前。2024/12/24直线相关与回归4、比较与2X2配对资料的χ

2检验相比较:1)设计类型相同;2)目的不同;3)χ

2计算公式不同;4)结果解释不同。2024/12/24直线相关与回归(三)RXC表分类资料的关联性分析1、资料形式:一组观察对象按两种属性分类,一个属性分成R类,另一个属性分成C类,形成交叉排列的结果。如下表。ⅠⅡ1234甲乙丙2024/12/24直线相关与回归2、目的:检验两属性之间有无关联。3、步骤:H0:Ⅰ与Ⅱ无关,H1:Ⅰ与Ⅱ有关,=0.05χ

2

=n•[

(A2/nR•nC)

–1]=(R-1)x(C-1)

χ

2与χ

20.05,

比较,得P值,做出推论。同时也可以计算列联系数(略)。2024/12/24直线相关与回归4、比较与完全随机设计的多组样本χ2检验比较:1)设计类型不同;2)目的不同;3)χ2计算公式相同。2024/12/24直线相关与回归直线回归2024/12/24直线相关与回归一个自变量X(independentvariable)一个应变量Y(dependentvariable)分析X与Y之间的数量依存变化关系,用函数关系式表达。直线回归2024/12/24直线相关与回归一、概念及统计描述1、概念:以自变量X为横轴,以应变量Y为纵轴,做散点图。2024/12/24直线相关与回归两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在严格的函数关系,那么它们的变化可用函数方程来表示。但在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为直线回归方程,这种关系为直线回归。2024/12/24直线相关与回归2、统计描述1)直线回归方程:

ŷ=a+b•xa:截距,即X=0时的y值;

b:样本的回归系数。2024/12/24直线相关与回归b的统计学意义为:X变化1个单位,Y平均改变b个单位。b=0——说明X与Y之间无直线关系;b>0——说明Y随着X的增加而增大;b<0——说明Y随着X的增加而减小。2024/12/24直线相关与回归2)回归线:以回归方程作图,把X的两个值代入方程,x1→

ŷ1,x2→

ŷ2,两点决定一条直线。直线通过两个特殊点:(0,a)、(

X,Y)2024/12/24直线相关与回归二、回归模型的前提假设(LINE)1、线性(linear):x与y之间呈线性关系;2、独立(independent):各观察值之间互相独立;3、正态性(normal):x、y均服从正态分布;4、方差齐性(equal):不论x取任何值,y都具有相同的方差。2024/12/24直线相关与回归2024/12/24直线相关与回归三、回归参数的估计1、最小二乘法原则:每个散点到回归线上的纵向距离平方和最小。2、估计方法(计算过程)——计算a、b。2024/12/24直线相关与回归四、y的总变异的分解:YXyxyy=y+(y-ŷ

)+(ŷ-y)ŷ=a+b*x2024/12/24直线相关与回归y=y+(y-ŷ

)+(ŷ-y)y-y=(y-ŷ

)+(ŷ-y)Σ(y-y)2=Σ(y-ŷ

)2+Σ(ŷ-y)2SS总=SS剩余

+SS回归

ν总=ν剩

+ν回ν总=n-1,ν回=1,ν剩

=n-22024/12/24直线相关与回归SS回反映的是,在Y的总变异中可以由自变量X来解释的部分;SS剩反映的是随机误差的部分。(y-ŷ

)称为残差。2024/12/24直线相关与回归五、总体回归系数β的统计推断1、Sb:描述一组样本回归系数b的离散程度,称为回归系数的标准误。2024/12/24直线相关与回归2、Sy.x

Sy.x=SS剩/(n-2)

SS剩=

(y

-

ŷ)2Sy.x为剩余标准差;ss剩为剩余平方和,反映散点围绕回归直线的分散程度。2024/12/24直线相关与回归3、β的假设检验1)原因:

β=0

抽样误差的存在

b≠02024/12/24直线相关与回归2)t检验:H0:β=0,两者之间无直线关系H1:β

≠0,两者之间有直线关系=0.05t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论