版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十一章第十一章 直线相关与回归直线相关与回归 线性相关线性相关线性回归线性回归一、线性相关一、线性相关 (一概念:如果两个随机变量中,一个变量由(一概念:如果两个随机变量中,一个变量由小到大变化时,另一个变量也相应地由小到大小到大变化时,另一个变量也相应地由小到大( (或由大到小或由大到小) )地变化,并且测得两变量组成的坐地变化,并且测得两变量组成的坐标点在直角坐标系中呈直线趋势,就称这两个标点在直角坐标系中呈直线趋势,就称这两个变量存在直线相关关系。变量存在直线相关关系。 线性相关,直线相关线性相关,直线相关(1inear correlation)(1inear correlation)
2、又称简单相又称简单相关关(simple correlation)(simple correlation),要求两个变量均为正态分,要求两个变量均为正态分布布(normal distribution)(normal distribution)资料。一般来说,两个变资料。一般来说,两个变量都是随机变动的,不分主次,处于同等地位。量都是随机变动的,不分主次,处于同等地位。 一、线性相关一、线性相关 o两变量间的直线相关关系用相关系数两变量间的直线相关关系用相关系数 r r 描画。描画。o直线相关的性质可由散点图直观地说明。直线相关的性质可由散点图直观地说明。 o见图见图10-210-2 (a)0r1
3、 (b)-1r0 (c)r =1 (d)r = -1 (e)r =0 (f)r =0 (g)r =0 (h)r =0图图10-2 相关系数示意相关系数示意一、线性相关一、线性相关 一、线性相关一、线性相关 (二相关系数的意义及计算(二相关系数的意义及计算用用r r表示样本相关系数,表示样本相关系数, 表示总体相关系数。表示总体相关系数。它是说明有直线关系的两变量间,相关关系密切它是说明有直线关系的两变量间,相关关系密切程度和相关方向的统计指标。程度和相关方向的统计指标。 计算:计算:YYXXXYlllYYXXYYXXr22)()()(一、线性相关一、线性相关 (二相关系数的意义及计算(二相关系
4、数的意义及计算相关系数没有单位,其值相关系数没有单位,其值-1r1-1r1。当两变量呈同。当两变量呈同向变化时,向变化时,0r10r1,为正相关;两变量呈反向变,为正相关;两变量呈反向变化,化,-1 -1r r0 0,为负相关;,为负相关;r r0 0为零相关,表示为零相关,表示无直线相关关系;两变量呈同向或反向变化且点无直线相关关系;两变量呈同向或反向变化且点子分布在一条直线上,子分布在一条直线上,|r|r|1 1为完全相关。为完全相关。 例例1 1 根据下表资料,试计算根据下表资料,试计算8 8岁健康男孩体重与心岁健康男孩体重与心脏横径的相关系数。脏横径的相关系数。 表表1. 13名名8岁
5、健康男童体重与心脏横径的关系岁健康男童体重与心脏横径的关系 编号编号体重体重(kg,X)(kg,X)心脏横径心脏横径(cm,Y)(cm,Y)1 125.525.59.29.22 219.519.57.87.83 324.024.09.49.44 420.520.58.68.65 525.025.09.09.06 622.022.08.88.87 721.521.59.09.08 823.523.59.49.49 926.526.59.79.7101023.523.58.88.8111122.022.08.58.5121220.020.08.28.2131328.028.09.99.9o已算得,
6、lXX=80.2692,lYY=4.1923, o lXY=16.38468932. 01923. 42692.803846.16r一、线性相关一、线性相关 (三相关系数的假设检验(三相关系数的假设检验相关系数相关系数r是样本相关系数,它只是总体相关系数是样本相关系数,它只是总体相关系数 的估计值。的估计值。即使从即使从 = 0的总体作随机抽样,由于抽样误差的的总体作随机抽样,由于抽样误差的影响,所得影响,所得 r 值也不一定等于零。值也不一定等于零。 故当计算算出故当计算算出 r 值后,接着应做值后,接着应做 = 0的假设检验,的假设检验,以判断两变量的总体是否有直线相关关系。以判断两变量的
7、总体是否有直线相关关系。 一、线性相关一、线性相关 (三相关系数的假设检验(三相关系数的假设检验1.常用常用t 检验:检验: 假设假设 H0 : = 0 H1: 0 05. 02,2102nnrrSrtro知 n=13, r=0.8932 11213 ,587. 62138932. 018932. 02t一、直线相关一、直线相关 (三相关系数的假设检验(三相关系数的假设检验2.查表法:按查表法:按 查查P210 附表附表11r界值表)界值表) 2 n二、直线回归二、直线回归(一直线回归的概念(一直线回归的概念直线回归直线回归(linear regression)是用直线回归方程表是用直线回归方
8、程表示两个数量变量间依存关系的统计分析方法,属示两个数量变量间依存关系的统计分析方法,属双变量分析的范畴。双变量分析的范畴。如果某一个变量随着另一个变量的变化而变化,并如果某一个变量随着另一个变量的变化而变化,并且它们的变化在直角坐标系中呈直线趋势,就可且它们的变化在直角坐标系中呈直线趋势,就可以用一个直线方程来定量地描述它们之间的数量以用一个直线方程来定量地描述它们之间的数量依存关系,这就是直线回归分析。依存关系,这就是直线回归分析。 二、直线回归二、直线回归(一直线回归的概念(一直线回归的概念直线回归分析中两个变量的地位不同,其中直线回归分析中两个变量的地位不同,其中一个变量是依赖另一个变
9、量而变化的,因一个变量是依赖另一个变量而变化的,因此分别称为因变量此分别称为因变量(dependent variable)和和自变量自变量(independent variable),习惯上分,习惯上分别用别用y和和x来表示。来表示。二、直线回归二、直线回归(二直线回归分析的应用条件(二直线回归分析的应用条件1.两变量的变化趋势呈直线趋势两变量的变化趋势呈直线趋势(linear);2.因变量因变量y属于正态随机变量属于正态随机变量(normal distribution);3.对于对于I型回归要求对于每个选定的型回归要求对于每个选定的x ,y都有一个都有一个正态分布的总体,并且这些总体的方差都
10、相等正态分布的总体,并且这些总体的方差都相等(equal variance);对于;对于II型回归,要求型回归,要求x、y均服均服从正态分布。从正态分布。 二、直线回归二、直线回归(三直线回归分析的一般步骤(三直线回归分析的一般步骤 1.将将n个观察单位的变量对个观察单位的变量对(x,y)在直角坐标系中绘在直角坐标系中绘制散点图,若呈直线趋势,则可拟合直线回归方程。制散点图,若呈直线趋势,则可拟合直线回归方程。2.求回归方程的回归系数和截矩。求回归方程的回归系数和截矩。3.写出回归方程,写出回归方程, ,画出回归直线。,画出回归直线。4.对回归方程进行假设检验。对回归方程进行假设检验。 bXa
11、Y二、直线回归二、直线回归(四直线回归方程及其求法(四直线回归方程及其求法 直线回归方程直线回归方程其中其中 b 称为回归系数称为回归系数(coefficient of regression),含义为当,含义为当x每变化每变化1个单位时,个单位时,因变量因变量Y平均变化的单数;平均变化的单数;a称为截矩称为截矩(intercept),为回归直线或其延长线与,为回归直线或其延长线与 y 轴交轴交点的纵坐标。点的纵坐标。直线回归方程的求法直线回归方程的求法: bXaY式中式中lxylxy为为X X、Y Y的离均差积和,的离均差积和,lxxlxx为为X X的离均差平方和;的离均差平方和;XXXYll
12、XXYYXXb2)()(nXXlXX22)(nYXXYlXY)(XbYa二、直线回归二、直线回归(五直线回归方程的假设检验(五直线回归方程的假设检验 回归系数的检验亦即是回归关系的检验,又称回回归系数的检验亦即是回归关系的检验,又称回归方程的检验,其目的是检验求得的回归方程归方程的检验,其目的是检验求得的回归方程在总体中是否成立,即是否样本代表的总体也在总体中是否成立,即是否样本代表的总体也有直线回归关系。有直线回归关系。 即使即使X X、Y Y的总体回归系数的总体回归系数 为零,由于抽样误差为零,由于抽样误差的原因,其样本回归系数的原因,其样本回归系数b b也不一定为零,因也不一定为零,因此
13、,需作此,需作 是否为零的假设检验。是否为零的假设检验。二、直线回归二、直线回归(五直线回归方程的假设检验(五直线回归方程的假设检验 方法有以下两种:方法有以下两种:1. 1.方差分析:基本思想是将应变量方差分析:基本思想是将应变量Y Y的总变异的总变异SSSS总分解为总分解为SSSS回归和回归和SSSS剩余,然后利用剩余,然后利用F F检验来检验来判断回归方程是否成立。判断回归方程是否成立。 SS SS总即总即 为为Y Y的离均差平方和,反映的离均差平方和,反映未考虑未考虑X X与与Y Y的回归关系时的回归关系时Y Y的变异,其意义可的变异,其意义可通过下图加以说明。通过下图加以说明。 2)
14、(YYP(X,Y) )(YY)(YY)(YY 图图1. 应变量应变量Y的平方和划分示意图的平方和划分示意图Y XXY任一点任一点P的纵坐标被回归直线与均数的纵坐标被回归直线与均数 截成三段截成三段 Y 表示实测点表示实测点P P与回与回归直线的纵向距离,即实归直线的纵向距离,即实际值际值Y Y与估计值与估计值 之差,之差,称为剩余或残差。称为剩余或残差。)(YY Y 即即Y估计值估计值 与均数与均数 之差,它与回归系数的大小有关。之差,它与回归系数的大小有关。|b|值越大,值越大, 也越大,反之亦然。也越大,反之亦然。当当b=0时,回归直线不能使残差减小。时,回归直线不能使残差减小。 )(YY
15、YY)(YY SSSS总总 = SS = SS回回 + SS + SS剩剩 SSSS回为回归平方和,它反映在回为回归平方和,它反映在Y Y的总变异中由于的总变异中由于X X与与Y Y的直线关系而使的直线关系而使Y Y变异减小的部分,也就变异减小的部分,也就是在总平方和中可以用是在总平方和中可以用X X解释的部分。解释的部分。SSSS回越回越大,说明回归效果越好大,说明回归效果越好, ,即即SSSS总中可用总中可用X X与与Y Y线线性关系解释的变异越多。性关系解释的变异越多。SSSS剩为剩余平方和,它反映剩为剩余平方和,它反映X X对对Y Y的线性影响之的线性影响之外的一切因素对外的一切因素对
16、Y Y的变异的作用,也就是在总的变异的作用,也就是在总平方和平方和SSSS总中无法用总中无法用X X解释的部分。在散点图解释的部分。在散点图中,各实测点离回归直线越近,中,各实测点离回归直线越近, SS SS剩也就越小,剩也就越小,说明直线回归的估计误差越小。说明直线回归的估计误差越小。 222)()()(YYYYYYnYYYYSS222)()(总XXXYXYllblSS2回SS剩= SS总 - SS回 剩回剩剩回回MSMSSSSSF/ 总总=回回+剩剩 总总= n-1, = n-1, 回回= 1, = 1, 剩剩= n-2 = n-2 二、直线回归二、直线回归(五直线回归方程的假设检验(五直
17、线回归方程的假设检验 2. t 2. t检验:作检验:作b b与与 的比较判断回归方程是否成立。的比较判断回归方程是否成立。实际应用中,由于相关系数的检验简单并与之等价实际应用中,由于相关系数的检验简单并与之等价, ,故一般用相关系数故一般用相关系数r r的检验来代替回归系数的检验来代替回归系数b b的检的检验。验。 2,0nSbtbXXXYblSS.22)(2.nSSnYYSXY剩阐明:两种检验方法是等价的,阐明:两种检验方法是等价的,F=t2F=t2直线回归方程的应用直线回归方程的应用 1. 1.定量描述两变量之间的依存关系:对回归系数定量描述两变量之间的依存关系:对回归系数b b进行假设
18、检验时,假设进行假设检验时,假设 , , 可认为两变量间存可认为两变量间存在直线回归关系,则直线回归方程即为两个变在直线回归关系,则直线回归方程即为两个变量间依存关系的定量表达式。量间依存关系的定量表达式。2.2.利用回归方程进行预测:把预报因子即自变利用回归方程进行预测:把预报因子即自变量量x x代入回归方程对预报量即因变量代入回归方程对预报量即因变量Y Y进进行估计,即可得到个体行估计,即可得到个体Y Y值的容许区间。值的容许区间。3.3.利用回归方程进行统计控制:规定利用回归方程进行统计控制:规定Y Y值的变化,值的变化,通过控制通过控制X X的范围来实现统计控制的目标的范围来实现统计控
19、制的目标, ,所以所以统计控制是利用回归方程进行的逆估计。统计控制是利用回归方程进行的逆估计。 P应用直线相关和回归应注意的问题应用直线相关和回归应注意的问题1. 1.作直线相关和回归分析要有实际意义;作直线相关和回归分析要有实际意义;2.2.在进行分析之前,应先绘制散点图,当其分布有在进行分析之前,应先绘制散点图,当其分布有直线趋势时,才适宜作直线相关回归分析。散点直线趋势时,才适宜作直线相关回归分析。散点图还能提示资料有无异常点。图还能提示资料有无异常点。3.3.两变量间存在直线相关关系,并不一定是因果关两变量间存在直线相关关系,并不一定是因果关系,可能是伴随关系;系,可能是伴随关系;4.
20、4.直线回归方程的适用范围一般以自变量的取值范直线回归方程的适用范围一般以自变量的取值范围为限,在此范围内求出的估计值称内插;超此围为限,在此范围内求出的估计值称内插;超此范围所得范围所得称外延。若无充分理由应避免外延。称外延。若无充分理由应避免外延。5.5.相关系数假设检验中的概率相关系数假设检验中的概率P P的大小只反映结论的大小只反映结论的可靠性,不能说明相关关系的密切程度。的可靠性,不能说明相关关系的密切程度。 直线相关与回归的区别与联系直线相关与回归的区别与联系 (一区别(一区别1. 1. 资料要求不同:相关要求两个变量是双变量正态分资料要求不同:相关要求两个变量是双变量正态分布;回
21、归要求应变量布;回归要求应变量Y Y服从正态分布,而自变量服从正态分布,而自变量X X是能精确测量和严格控制的变量。是能精确测量和严格控制的变量。2. 2. 统计意义不同:相关反映两变量间的伴随关系这种统计意义不同:相关反映两变量间的伴随关系这种关系是相互的,对等的;不一定有因果关系;回归关系是相互的,对等的;不一定有因果关系;回归则反映两变量间的依存关系,有自变量与应变量之则反映两变量间的依存关系,有自变量与应变量之分,一般将分,一般将“因或较易测定、变异较小者定为自因或较易测定、变异较小者定为自变量。这种依存关系可能是因果关系或从属关系。变量。这种依存关系可能是因果关系或从属关系。3. 3
22、. 分析目的不同:相关分析的目的是把两变量间直线分析目的不同:相关分析的目的是把两变量间直线关系的密切程度及方向用一统计指标表示出来;回关系的密切程度及方向用一统计指标表示出来;回归分析的目的则是把自变量与应变量间的关系用函归分析的目的则是把自变量与应变量间的关系用函数公式定量表达出来。数公式定量表达出来。直线相关与回归的区别与联系直线相关与回归的区别与联系 (二联络(二联络1. 1.变量间关系的方向一致:对同一资料,其变量间关系的方向一致:对同一资料,其r r与与b b的正的正负号一致。负号一致。2. 2.假设检验等价:对同一样本,假设检验等价:对同一样本,t r = t bt r = t b,由于,由于t bt b计计算较复杂,实际中常以算较复杂,实际中常以r r的假设检验代替
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物业装修管理2025年度合同2篇
- 二零二五版智慧城市建设综合服务合同5篇
- 2025年度定制门窗设计与安装服务合同4篇
- 2025版企业食堂特色牛羊肉原料供应及配送合作协议3篇
- 烟台某零售企业2025年度供货合同的标的与义务3篇
- 2025年高校食堂直供生鲜水果采购合作协议3篇
- 2025年餐饮店食品安全监管服务合同范本3篇
- 2025年铁艺栏杆工程制作、安装及保养服务协议3篇
- 二零二五年房产中介佣金调整补充协议书3篇
- 2025年度智能教育平台建设与运营合同范本3篇
- 2024年安全教育培训试题附完整答案(夺冠系列)
- 2025新译林版英语七年级下单词默写表
- 《锡膏培训教材》课件
- 断绝父子关系协议书
- 福建省公路水运工程试验检测费用参考指标
- 《工程勘察资质分级标准和工程设计资质分级标准》
- 小学语文阅读教学落实学生核心素养方法的研究-中期报告
- 眼内炎患者护理查房课件
- 2021-2022学年四川省成都市武侯区部编版四年级上册期末考试语文试卷(解析版)
- 中国传统文化服饰文化
- 大气污染控制工程 第四版
评论
0/150
提交评论