第十讲相关与回归演示文稿_第1页
第十讲相关与回归演示文稿_第2页
第十讲相关与回归演示文稿_第3页
第十讲相关与回归演示文稿_第4页
第十讲相关与回归演示文稿_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十讲相关与回归演示文稿相关与回归1第一页,共三十五页。相关与回归2(优选)第十讲相关与回归第二页,共三十五页。直线相关LinearCorrelation第三页,共三十五页。散点图为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的。例如,每人的身高和体重。然后在直角坐标系上描述这些点,这一组点集称为散点图。第四页,共三十五页。为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。

第五页,共三十五页。相关的类型★正相关★负相关★完全正相关★完全负相关★称零相关

第六页,共三十五页。相关系数

样本的相关系数用r(correlationcoefficient)相关系数r的值在-1和1之间,但可以是此范围内的任何值。正相关时,r值在0和1之间,散点云图是斜向上的,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,散点云图是斜向下的,此时一个变量增加,另一个变量将减少。r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。第七页,共三十五页。相关系数的计算公式r的计算结果说明了两个变量X与Y之间关联的密切程度(绝对值大小)与关联的性质(正负号)。第八页,共三十五页。例一一个产科医师发现孕妇尿中雌三醇含量与产儿的体重有关。于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。问尿中雌三醇含量与产儿体重之间相关系数是多少?是正相关还是负相关?分析问题:目的、变量、关系

第九页,共三十五页。编号

(1)尿雌三醇mg/24h(2产儿体重kg(3)编号

(1)尿雌三醇mg/24h(2)产儿体重kg(3)172.517173.2292.518253.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.024193.49163.025183.510163.126173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.2

待产妇尿雌三醇含量与产儿体重关系

第十页,共三十五页。∑X=534∑Y=99.2∑X2=9876∑Y2=324.8∑XY=1750N=31第十一页,共三十五页。计算结果从计算结果可以知道,31例待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是0.61。第十二页,共三十五页。问题:我们能否得出结论说明待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是0.61。为什么?第十三页,共三十五页。相关系数的假设检验

上例中的相关系数r等于0.61,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是,这31例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,总体相关系数()为零时,由于抽样误差,从总体抽出的31例,其r可能不等于零。所以,要判断该样本的r是否有意义,需与总体相关系数=0进行比较,看两者的差别有无统计学意义。这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。

第十四页,共三十五页。对相关系数的假设检验,常用t检验,选用统计量t的计算公式如下:

=n-2

第十五页,共三十五页。H0:

=0

H1:

≠0=0.05r=0.61,n=31,代入公式t==n-2=31-2=29

t=4.14查t值表,t0.05(29)=2.045

查t值表,t0.05(29)=2.756,上述计算t=4.14>2.045,由t所推断的P值小于0.05,按=0.05水准拒绝,接受,认为临产妇24小时内尿中雌三醇浓度与产儿体重之间有正相关关系。

第十六页,共三十五页。直线相关的应用

前面我们已经讲过,相关是研究两个变量间的相互关系,而且这种相互关系是用相关系数反应的。在确实存在相关关系的前提下,如果r的绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;如果r绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。一般说来,当样本量较大(n>100),并对r进行假设检验,有统计学意义时,r的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r的绝对值大于0.2,小于等于0.4时,则两个变量低度相关。

第十七页,共三十五页。

前面我们讨论了待产妇尿中雌三醇含量和产儿体重之间的关系,知道了二者之间成正相关。那么,如果我们知道了一位待产妇的尿雌三醇含量,能推断出产儿的体重吗?或产儿的体重可能在什么范围内呢?还有,随着身高的增加,体重也在增大,它们之间也成正相关关系。那么,身高每增加1厘米,体重增加多少克呢?上面的相关关系分析不能提供给我们需要的答案。这些要用直线回归的方法来解决。第十八页,共三十五页。直线回归SimpleRegression第十九页,共三十五页。当我们知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。但在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为直线回归方程,这种关系为直线回归.第二十页,共三十五页。直线回归就是用来描述一个变量如何依赖于另一个变量

第二十一页,共三十五页。回归方程

直线回归的任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做直线回归方程。

式中的是由自变量X推算应变量Y的估计值,a是回归直线在Y轴上的截距,即X=0时的Y值;b为样本的回归系数,即回归直线的斜率,表示当X变动一个单位时,Y平均变动b个单位。如果a、b已知,代入上式,就可求得直线回归方程。

第二十二页,共三十五页。回归系数根据上例的数据,求待产妇尿中雌三醇含量与产儿体重之间的回归方程。从相关系数的计算中,已经求得:第二十三页,共三十五页。这就是我们求得的二者关系的回归方程第二十四页,共三十五页。回归直线的描绘

根据求得的回归方程,可以在自变量X的实测范围内任取两个值,代入方程中,求得相应的两个Y值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。回归直线一定经过(0,a),()。这两点可以用来核对图线绘制是否正确。第二十五页,共三十五页。第二十六页,共三十五页。与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。为了判断抽样误差的影响,需对回归系数进行假设检验。总体的回归系数一般用β表示。

第二十七页,共三十五页。=2.15+0.061X

是否一定能说明雌三醇与产儿体重之间存在回归关系?

第二十八页,共三十五页。1.方差分析F=MS组间/MS组内2.t检验

回归系数的假设检验H0:β=0H1:β≠0α=0.05选择合适的假设检验方法,计算统计量计算概率值P做出推论:统计学结论和专业结论第二十九页,共三十五页。采用t检验方法其中Sy.x为各观察值Y到回归直线的距离的标准差,表示去除X影响后Y的变异程度,

第三十页,共三十五页。自由度=31-2=29,查t值表,t0.05(29)=2.045,P<0.05,按=0.05检验水准,拒绝H0,认为待产妇24小时尿中雌三醇含量与产儿体重之间存在直线回归关系。第三十一页,共三十五页。直线回归的应用

描述两变量之间的依存关系:通过回归系数的假设检验,若认为两变量之间存在直线回归关系,则可用直线回归来描述。例如上例回归方程:就是待产妇尿雌三醇含量与产儿出生体重的定量表达式。利用回归方程进行预测:把自变量代入回归方程,对应变量进行估计,可求出应变量的波动范围。例如,已知某待产妇的尿雌三醇浓度,代入回归方程,再用区间估计的方法,即可知道生产时,产儿的体重的范围。

利用回归方程进行统计控制

利用多元回归描述多因素的影响

第三十二页,共三十五页。应用直线相关与回归的注意事项

1.实际意义进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。例如,有人说,孩子长,公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加慌谬。

2.相关关系相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素‑‑年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。

第三十三页,共三十五页。3.利用散点图对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关回归分析。4.变量范围相关分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量的相关关系和原来的回归关系。第三十四页,共三十五页。相关与回归的区别

1.意义:相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。2.应用:研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。3.研究性质:相关是对两个变量之间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论