




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
直线相关与直线回归分析1第1页,课件共71页,创作于2023年2月学习目标1.说出直线相关与直线回归的概念;2.说出等级相关的适用范围;3.能计算直线相关系数与回归系数、进行假设检验;4.能从专业角度考虑相关与回归的实际意义。2第2页,课件共71页,创作于2023年2月两个变量之间的关系大致分为两种:3第3页,课件共71页,创作于2023年2月1.两个变量共同变化的,是一种相互依赖的关系例如身高与体重的关系。可以用相关分析方法去研究这种关系。可以研究两个变量之间的相互关系的密切程度和变化趋势,并用恰当的统计指标表达。4第4页,课件共71页,创作于2023年2月2.一个变量对另外一个变量有着某种依存关系例如儿子的身高与父亲的身高有着某种依存关系,可以用回归分析的方法去研究这种关系,即把两个变量间的数量依存关系用函数形式表示出来,用一个或多个变量去推测另一个变量的估计值和波动范围,这就是回归分析。5第5页,课件共71页,创作于2023年2月为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。6第6页,课件共71页,创作于2023年2月第一节直线相关分析
LinearCorrelation7第7页,课件共71页,创作于2023年2月1.直线相关概念概念:描述和推断两个(事件、现象)正态变量(x、y)总的变化趋势上协同变化规律性的密切程度和方向(但又非确定的函数关系)的统计分析方法。协同变化:同增同减,此增彼减8第8页,课件共71页,创作于2023年2月2.直线相关的特点:两变量同时进入数据分析;两变量不区别为原因变量和结果变量,是一种互为因果的数量协同变化关系;变量类型:两变量应同时满足正态分布的条件(实际工作中近似正态分布)。9第9页,课件共71页,创作于2023年2月相关分析1.图示法:有无相关、相关程度、相关方向2相关系数:在求相关系数前,最好先做图。10第10页,课件共71页,创作于2023年2月相关分析:无自变量、因变量、地位平等。回归分析:有自变量、因变量,两者从属关系。11第11页,课件共71页,创作于2023年2月绘制散点图分析研究两个变量x与y之间的关系时,两个变量的值可视为直角坐标系的一个点。为直观地判断两个变量间的关系,可把每对(x,y)变量值在直角坐标系标点出来,此为散点图。若一个变量x由小到大(或由大变小),则另一变量相应地由小到大(或由大到小),两个变量的散点图呈直线趋势,可称这种现象为共变。12第12页,课件共71页,创作于2023年2月3、相关的类型★正相关★负相关★完全正相关★完全负相关★零相关
13第13页,课件共71页,创作于2023年2月一、直线相关统计量14第14页,课件共71页,创作于2023年2月相关系数及意义相关系数:相关系数是用以衡量两个变量线形相关有无、强弱与方向的统计指标。总体参数:样本相关系数:r15第15页,课件共71页,创作于2023年2月相关系数的计算公式16第16页,课件共71页,创作于2023年2月r的计算结果:说明了两个变量X与Y之间关联的密切程度(绝对值大小)与关联的性质(正负号)。17第17页,课件共71页,创作于2023年2月r是无量刚的统计量;-1<r<1
r可正可负(正表正相关,负表负相关);r=0零相关(无线性相关)r的大小表示相关的程度,越接近1,表相关性越好,越接近0,表相关性越差。相关系数的特点:18第18页,课件共71页,创作于2023年2月二、直线相关系数的计算例15-1某医师研究12名癫痫病人口服鲁米那后两小时唾液药物浓度与血液药物浓度之间的数量关系。试计算两种体液药物浓度间的直线相关关系。19第19页,课件共71页,创作于2023年2月1.根据原始数据做散点图,从图中各点的分布情况看,血液药物浓度Y随唾液药物浓度X增加而增加的趋势。2.计算相关系数(1)计算基础数据根据原始数据求得20第20页,课件共71页,创作于2023年2月21第21页,课件共71页,创作于2023年2月(3)直线相关系数的假设检验上例中的相关系数r等于0.9256,说明了12名癫痫病人的唾液药物浓度与血液药物浓度之间存在相关关系。但是,这12名癫痫病人只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,总体相关系数()为零时,由于抽样误差,从总体抽出的12例,其r可能不等于零。所以,要判断该样本的r是否有意义,需与总体相关系数=0进行比较,看两者的差别有无统计学意义。这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。22第22页,课件共71页,创作于2023年2月
对相关系数的假设检验,常用t检验,选用统计量t的计算公式如下:
=n-2
23第23页,课件共71页,创作于2023年2月(1)建立假设H0:=0,即X与Y间无直线相关关系H1:≠0,即X与Y间有直线相关关系(2)确定检验水准:=0.05(3)确定单双测检验:本例选择双测检验(4)计算t值:r=0.9256,n=12,代入公式=n-2=12-2=10
t=7.73,查t值表P436,上述计算t=7.73>2.228,由t所推断的P值小于0.05,按=0.05水准拒绝H0,接受H1,r为正值,说明唾液药物浓度与血液药物浓度存在正相关关系。24第24页,课件共71页,创作于2023年2月相关一定有内在联系吗?某君喜得贵子,庭前种一小树,每月测子高与树高,积累了数据。统计计算发现,子高与树高具有相关性,难道两者真有内在联系?原来子高与树高均与日俱增,时间变量与两者得潜在联系,造成了子高与树高的虚假联系。25第25页,课件共71页,创作于2023年2月相关关系与因果关系是一回事吗?相关关系可能是:(1)两个变量之间存在依存因果关系,如由于遗传的原因,子女的身高数值的大小在很大程度上取决于父母的身高。(2)两个变量之间存在相互的伴随关系,如“蛙鸣而燕至”,虽然年年如此,但蛙鸣永远也不能成为燕至的原因。26第26页,课件共71页,创作于2023年2月直线相关的应用
相关是研究两个变量间的相互关系,而且这种相互关系是用相关系数反应的。在确实存在相关关系的前提下,如果r的绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;如果r绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。一般说来,当样本量较大(n>100),并对r进行假设检验,有统计学意义时,r的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r的绝对值大于0.2,小于等于0.4时,则两个变量低度相关。
27第27页,课件共71页,创作于2023年2月
前面我们讨论了12名癫痫病人的唾液药物浓度和血液药物浓度之间的关系,知道了二者之间成正相关。那么,如果我们知道了一位癫痫病人的唾液药物浓度,能推断出血液药物浓度的大小吗?或血液药物浓度可能在什么范围内呢?还有,唾液药物浓度和血液药物浓度。那么,体重每增加1微克,血液药物浓度增加多少呢?上面的相关关系分析不能提供给我们需要的答案。这些要用直线回归的方法来解决。28第28页,课件共71页,创作于2023年2月五、直线相关分析的注意点作直线相关分析时,应结合散点图来判断两变量的数量协同变化关系是否呈直线关系,避免将某些曲线关系误判为直线关系;应该注意假相关情况;当两变量均明显不呈正态分布时,最好采用秩相关统计分析方法计算秩相关系数。29第29页,课件共71页,创作于2023年2月第二节直线回归分析linearRegression30第30页,课件共71页,创作于2023年2月“回归”一词的来由“回归”一词最早由Golton在一项有关父亲与儿子身高的研究中提出。儿子的身高(Y)与父亲的身高(X)自然是相关的,他发现身材高大的父亲所生儿子的高度不少要比其父亲矮,而身材矮小的父亲所生的儿子不少要比其父亲高;也就是说,无论是身材高还是身材矮的父亲所生儿子的身高有向人群的平均身高“回归”的趋势,这就是“回归”的生物学内涵。后来人们借助“回归”一词来描述通过自变量的数值预测反应变量的平均水平。31第31页,课件共71页,创作于2023年2月为了通过可测或易测的变量对未知或难测或不可测量的状态进行估计,可以借助回归分析。例如:我们可以用身高、体重、肺活量这些容易测得的指标来估计心室血输出量、体循环总血量等相对难测的指标;通过对产妇的尿雌三醇含量的检测来估计腹中胎儿体重,以便采取必要的措施降低生产过程的难产风险。32第32页,课件共71页,创作于2023年2月(1)当我们知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。(2)但在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为直线回归方程,这种关系为直线回归.33第33页,课件共71页,创作于2023年2月直线回归的定义分析两个变量X、Y之间确切的定量关系,建立一个方程式,从而可由X变量的大小推算出Y变量的估计值。直线回归就是用来描述一个变量如何依赖于另一个变量。34第34页,课件共71页,创作于2023年2月回归方程
直线回归的任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做直线回归方程。
:是由自变量X推算应变量Y的估计值(读作Yhat)a:是回归直线在Y轴上的截距,即X=0时的Y值;b:为样本的回归系数,即回归直线的斜率,表示当X变动一个单位时,Y平均变动b个单位。35第35页,课件共71页,创作于2023年2月直线回归分析的特点:两变量同时进入数据分析;两变量必须区分为自变量X和应变量Y;要求应变量Y为正态分布,或对应同一X值的应变量Y与直线回归方程估计值的差值服从正态分布适用于两变量数量协同变化关系密切的情况,否则回归估计误差过大,无应用价值。36第36页,课件共71页,创作于2023年2月直线回归分析的意义可以用来较准确描述两变量的定量关系;可以在一定自变量变化线性范围内由自变量预报应变量值,给定应变量的控制限值,利用直线方程寻找自变量的控制限值。37第37页,课件共71页,创作于2023年2月
要使是最适合的直线,
必须满足下列条件:
(1)直线上方各点离回归线的距离(以平行于Y轴计算)之和与直线下方各点离回归线的距离之和绝对值相等,但方向相反,因此:38第38页,课件共71页,创作于2023年2月(2)此直线是使得误差平方和为最小值的直线,即因变量的实际观察值y与理论值之差的平方和取最小值。对于每一个x值来说,它所对应实际的y值,与估计的值往往会存在差异,这个差异就是用估计值来代替实际y值所产生的误差,即,误差越小越好,由于理论上,因此要把为最小值的直线当作回归直线是很困难的。一个最佳且能表达同样目的的方法,那就是将此直线定义为使得误差平方和为最小值的直线。这个方法称为最小二乘法。39第39页,课件共71页,创作于2023年2月根据最小二乘法原理,a和b的计算公式Lxy为离均差积和,Lxx为x的离均差平方和40第40页,课件共71页,创作于2023年2月三、直线回归分析的方法步骤与作图例15-2根据例15-1的资料以唾液药物浓度作自变量X,以血药物浓度作应变量Y,进行直线回归分析,并作出回归直线。具体过程见书P26941第41页,课件共71页,创作于2023年2月例16-3某研究人员采用不同剂量山莨菪碱测得小白鼠的扩瞳指数,试分析山莨菪碱和扩瞳指数之间的回归关系。1.绘制散点图有相关关系,再作回归分析2.计算回归系数42第42页,课件共71页,创作于2023年2月(1)编制回归系数计算表:求基础数据43第43页,课件共71页,创作于2023年2月(2)计算离均差平方和及离均差积和44第44页,课件共71页,创作于2023年2月(3)计算b,a,得回归方程:45第45页,课件共71页,创作于2023年2月=0.445+0.117X是否一定能说明山莨菪碱与扩瞳指数之间存在回归关系?
46第46页,课件共71页,创作于2023年2月回归直线的描绘
根据求得的回归方程,可以在自变量X的实测范围内任取两个值,代入方程中,求得相应的两个Y值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。回归直线一定经过(0,a),()。这两点可以用来核对图线绘制是否正确。47第47页,课件共71页,创作于2023年2月与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。为了判断抽样误差的影响,需对回归系数进行假设检验。总体的回归系数一般用β表示。
48第48页,课件共71页,创作于2023年2月1.方差分析F=MS组间/MS组内2.t检验
回归系数的假设检验H0:β=0H1:β≠0α=0.05选择合适的假设检验方法,计算统计量计算概率值P做出推论:统计学结论和专业结论当变量Y服从正态分布时,回归系数得显著性检验可用t检验,也可用方差分析49第49页,课件共71页,创作于2023年2月1.采用方差分析
(了解)50第50页,课件共71页,创作于2023年2月1.平方和与自由度的分解因变量Y得变化规律:y值的变异可用离均差平方和来反映:51第51页,课件共71页,创作于2023年2月52第52页,课件共71页,创作于2023年2月是回归值与平均数之差的平方和,根据回归方程,回归值因此可以把看做是由于x的变化而引起的y值的变化,所有这些量的平方和
反映了在y总的变异中由于x与y的线性关系而引起y变化的部分,称它为回归平方和,用SS回表示,y的这部分变异是由x解释的。因此回归平方和也就是考虑了x与y的线性关系,或者说作了回归后能使总平方和减少的部分,所以越大,说明回归效果越好。53第53页,课件共71页,创作于2023年2月是所有观察点距回归直线的剩余的平方和,根据前述的最小二乘法原理,这个量是在所有类似的直线中与观测点距离平方和最小的一个,它除了x对y的线性影响之外的一切因素对y变异的作用,称为剩余平方和(或残差平方和)用SS剩表示,也就是在总平方和中无法用x解释的部分。在散点图中,各实测点与回归直线越近,也就越小,说明直线回归的估计误差越小。54第54页,课件共71页,创作于2023年2月为y的离均差平方和,又称总平方和,用SS总表示,说明未考虑x与y的回归关系时y的变异,三者之间的关系:SS总=SS回+SS剩V总=v回+v剩V总=N-1,N为样本含量V回:对应于自变量的个数,因此v回=1,v剩=N-2以离均差平方和除以自由度可得均方,即MS回=SS回/v回MS=SS回/v回如果回归均方显著地大于剩余均方,则说明回归是显著的,因此可用方差分析的方法来检验回归方程是否有显著性意义。55第55页,课件共71页,创作于2023年2月2.采用t检验方法将除以它的自由度n-2,即得估计值的方差,称为剩余方差,开方即得剩余标准差,其中Sy.x为各观察值y到回归直线的距离的标准差,它的意义是指当x对y的影响被扣除后,y仍有剩余变异,其变异的程度可用来衡量,故用来反映y的剩余变异。56第56页,课件共71页,创作于2023年2月自由度=5-2=3,查t值表,t0.05(3)=3.182,6.573>3.182,P<0.05,按=0.05检验水准,拒绝H0,说明扩瞳指数与山莨菪碱之间存在直线回归关系。57第57页,课件共71页,创作于2023年2月六、直线回归分析中应注意的问题1、作直线回归分析适合在两变量数量协同变化直线关系较为密切时进行,否则直线回归方程预报误差过大,无实用价值。2、直线回归方程原则上只适用于样本资料提供的自变量线性范围内,不能任意外延。自变量线性范围以外尚不知道两变量是否存在直线关系。58第58页,课件共71页,创作于2023年2月3.直线回归分析只要求应变量Y或对应同一X值的Y-Yhat值呈正态分布,对数值型自变量X无正态分布要求。4.应用直线回归分析方法制作实验方法的工作曲线时,由于工作曲线应用属于“逆预报”,是通过应变量Y推X值,故必须满足X与Y呈近似直线函数关系时,才能这样做。为此,要求作为样本资料中自变量的各标准液浓度应重复测定几次,取对应每一标准液浓度的Y的均值,建立直线回归方程并绘出工作曲线。59第59页,课件共71页,创作于2023年2月七、直线相关与直线回归分析的比较60第60页,课件共71页,创作于2023年2月(一)联系两种分析方法都是研究两变量数量协同变化直线关系的统计方法;关系:
能进行回归分析的变量之间存在相关关系。所以,对于两组新数据(两个变量)可先做散点图,求出它们的相关系数,对于确有相关关系的变量再进行回归分析,求出回归方程。61第61页,课件共71页,创作于2023年2月相关系数r与回归系数b
r与b的符号一致。r为正时,b也为正,表示两变量是正相关,是同向变化。r为负时,b也为负,表示两变量是负相关,是反向变化。r与b的假设检验结果一致,可用r的显著检验代替b的显著性检验。
62第62页,课件共71页,创作于2023年2月同一资料直线相关系数与直线回归系数假设检验的结果和水平一致,即tr=tb同一资料r2=byx.bxy63第63页,课件共71页,创作于2023年2月相关与回归的区别
1.意义:相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。2.应用:研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。64第64页,课件共71页,创作于2023年2月3.研究性质:相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。4.相关系数r与回归系数b:r与b的绝对值反映的意义不同。r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b的绝对值越大,回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样。
65第65页,课件共71页,创作于2023年2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 阿克苏职业技术学院《妇产科护理学》2023-2024学年第一学期期末试卷
- 陇东学院《语文学科教学能力综合训练》2023-2024学年第一学期期末试卷
- 8.3 金属资源的利用和保护-2022-2023学年九年级化学下册精讲精练(人教版)(解析版)
- 陕西工商职业学院《足球理论与实践Ⅲ》2023-2024学年第一学期期末试卷
- 陕西旅游烹饪职业学院《随机微分方程》2023-2024学年第一学期期末试卷
- 陕西省合阳城关中学2025届初三下学期期中(第三次月考)考试物理试题含解析
- 陕西省工大、铁一、交大2024-2025学年中考考前模拟考试物理试题理试题含解析
- 五年级上册教学工作总结模版
- 医学知识 病毒感染及其致病性 学习课件
- 陕西省西安市长安区2024-2025学年数学四年级第二学期期末学业水平测试试题含解析
- 3.2《做自尊的人》课件-2024-2025学年统编版道德与法治七年级下册
- T-CALI 1101-2024 家用太阳能光伏照明产品-性能要求
- 中国特色社会主义政治经济学课件
- 设计院挂靠合作协议书范本
- 2025年江苏省职业院校技能大赛高职组(智慧物流)参考试题库资料及答案
- 上海市松江区届2024-2025学年高三上学期一模考试历史试题(解析版)
- 2025年浙江省高职单招《职业适应性测试》高频必练考试题(附答案)
- 《影视照明技术》课件:照亮影视作品的灵魂
- 2025年上海青浦新城发展(集团)限公司自主招聘9名高频重点模拟试卷提升(共500题附带答案详解)
- 雪茄烟叶晾制技术规程
- 船舶概论习题及答案
评论
0/150
提交评论