直线相关与回归_第1页
直线相关与回归_第2页
直线相关与回归_第3页
直线相关与回归_第4页
直线相关与回归_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十一章第十一章直线相关与回归直线相关与回归前前 言言变量间的关系变量间的关系: :1.函数关系函数关系有精确的数学表达式有精确的数学表达式(确定性的关系)(确定性的关系) Y=a+bx2.相关关系相关关系(不确定的关系)(不确定的关系) 回归分析回归分析 相关分析相关分析食盐摄入量与血压的关系食盐摄入量与血压的关系年龄与血脂的关系年龄与血脂的关系 对于两个相关变量,一个变量用符号对于两个相关变量,一个变量用符号x表表示,另一个变量用示,另一个变量用y表示,如果通过试验或表示,如果通过试验或调查获得两个变量的成对观测值,可表示调查获得两个变量的成对观测值,可表示为(为(x1,y1),(),(x

2、2,y2),),(,(xn,yn)。)。为了直观地看出为了直观地看出x和和y间的变化趋势,间的变化趋势,可将每一对观测值在平面直角坐标系描点,可将每一对观测值在平面直角坐标系描点,作出散点图。作出散点图。 第一节第一节 直线相关直线相关一、线性相关和相关系数的概念一、线性相关和相关系数的概念 图图1(x,y)的散点图的散点图散点图的作用:散点图的作用:1.两个变量间关系的性质(是正相关还是负两个变量间关系的性质(是正相关还是负 相关)和程度(是相关密切还是不密切);相关)和程度(是相关密切还是不密切);2.两个变量间关系的类型,是直线型还是曲两个变量间关系的类型,是直线型还是曲 线型;线型;3

3、.是否有异常观测值的干扰。是否有异常观测值的干扰。散点图直观地、定性地表示了两个变量之间散点图直观地、定性地表示了两个变量之间的关系。的关系。为了探讨它们之间的规律性,还必须根据观为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来。测值将其内在关系定量地表达出来。二、二、Pearson相关系数相关系数(The Pearson Correlation Coefficient)它是说明具有直线关系的两变量间相关关系它是说明具有直线关系的两变量间相关关系的密切程度与相关方向的指标;总体相关系的密切程度与相关方向的指标;总体相关系数记数记 ,样本相关系数记为样本相关系数记为r。(Th

4、e Pearson correlation coefficient measures the strength and direction of a linear relationship between the X and Y variables. Like other numerical measures, the population correlation coefficient is (the Greek letter rho) and the sample correlation coefficient is denoted by r. )22)()()(yyxxyyxxlllry

5、yxxxy公式公式(Formula):nyxxyyyxxlxy)(nxxxxlxx222)()(nyyyylyy222)()((x的的离均差平方和)离均差平方和)(y y的离均差平方和)的离均差平方和)(x 和和y的离均差积和)的离均差积和)特点:1.相关系数相关系数r无单位。无单位。2. -1 r 1, -1 1; r为正表示正相关,为正表示正相关,r为负表示负相关,等于为负表示负相关,等于0表示零相关。表示零相关。r与与 存在抽样误差。存在抽样误差。3.它与变量的标识无关(它与变量的标识无关( 哪个是哪个是x,哪个哪个是是y无关)。无关)。例例11-1某医师测得某医师测得10名名3岁儿童的

6、岁儿童的体表面积体表面积(m2)与体重与体重(kg)原始资料见原始资料见表表11-1第第2、3栏栏, 试分析三岁儿童体试分析三岁儿童体表面积与体重间的相关关系。表面积与体重间的相关关系。三、相关系数的计算表表11-1 某地某地10名三岁儿童体重与体表面积名三岁儿童体重与体表面积1.绘制散点图绘制散点图图11-2 10名三岁儿童的体重与体表面积的散点图 2.计算统计指标计算统计指标 X、 Y、 XY、 X2、 Y2、lXX、lYY与与lXY。 2222XX()134.4()1831.2424.90410XlXxXn222YY()5.7266=X=3.29480.015410YlyYnXY()()

7、(134.4)(5.7266)()()77.55950.594010XYlXx YyXYn3. 计算相关系数计算相关系数 XYXXYY0.59400.959224.904 0.0154lrll(1) t检验检验H0: 0 H1: 0 0.05rSrt0212nrSr n2 4.相关系数的假设检验相关系数的假设检验本例本例t t检验的步骤如下:检验的步骤如下:(1)建立假设检验建立假设检验H0:0 H1:0 0.05(2)计算检验统计量计算检验统计量 n28(3)作出统计作出统计 推断推断查查t界值表,得界值表,得 t0.05/2,8=2.306, 9.59592.306 , P0.05,拒绝拒

8、绝H0。5959. 92109592. 019592. 02122 nrrt(2)查表法查表法当当n50时,直接查附表时,直接查附表15进行判断。进行判断。H0: 0 H1: 0 0.05当当|r| r/2, , P ,拒绝拒绝H0,线形关系成立;线形关系成立;当当|r|,不拒绝不拒绝H0,尚不能认为线尚不能认为线形关系成立。形关系成立。本例本例r=0.9592, r0.05/2,8=0.632, P F0.05,(1,8),所以所以Pt0.05/2,8,P0.05,拒绝H0.注:当自变量只有一个时,回归方程的假设检验等价于回归系数的检验,且Ft2。01261. 022) (2.nSSnyyS

9、xy剩002525. 09040.2401261. 0.xxblxSyS44. 9002525. 002385. 0bbSbt(1)总体回归系数总体回归系数 的区间估计的区间估计 /2,(2)/2,(2)(,)nbnbbtSbtS例例113 试用例试用例111所计算的样本回归系数所计算的样本回归系数b0.02385估计其总体回归系数估计其总体回归系数 的的95%可信可信区间。区间。(0.023852.3060.002525,0.023852.3060.002525)(0.01805,0.02965)3.直线回归的区间估计直线回归的区间估计(2)Y的区间估计的区间估计 ),()2( , 2/)2

10、( , 2/ynynstysty20.2()1()Y XYXXSSnXXys:当自变量:当自变量x取某一定值时取某一定值时y y 与与的误差。的误差。(3)个体)个体Y值的容许区间值的容许区间 ),()2( , 2/)2( , 2/ynynstysty20.2()11()YY XXXSSnXXSy为为x取某一定值下取某一定值下y的标准差。的标准差。4.直线回归方程的应用直线回归方程的应用(1)描述两变量的依存关系)描述两变量的依存关系(2)利用回归方程进行预测)利用回归方程进行预测(3)利用回归方程进行统计控制)利用回归方程进行统计控制个体个体Y值的容许区间值的容许区间 20.2()11()Y

11、Y XXXSSnXX ) , () 2( , 2/) 2( , 2/ynynstysty把自变量把自变量X代入回归方程对应变量代入回归方程对应变量Y进进行估计,其波动范围可按求个体容许行估计,其波动范围可按求个体容许区间的公式计算。区间的公式计算。 仍用例仍用例11-2所得的回归方程进行预测,若已知某所得的回归方程进行预测,若已知某岁儿童的体重为岁儿童的体重为13.5kg, 试估计该儿童体表面积。试估计该儿童体表面积。 X=13.5, 得得 574095. 05 .1302385. 025212. 0Y0039921. 09040.2444.135 .131011012615. 02YS得得9

12、5%预测区间为预测区间为:(0.5740952.3060.0039921,0.5740952.3060.0039921)(0.564889,0.583301) 例例117 某市环境监测站在某交通点连某市环境监测站在某交通点连续测定续测定3天,每天定时采样天,每天定时采样3次,测定大次,测定大气中气中NO2浓度浓度Y(mg/m3)与当时汽车流)与当时汽车流量量X(辆(辆/小时),共小时),共9对数据,求得回归对数据,求得回归方程方程 XY000133. 0064866. 0剩余标准差剩余标准差SY,X0.032522, 若若NO2的最大容许浓度为的最大容许浓度为0.15mg/m3,则汽,则汽车流

13、量应如何控制?设车流量应如何控制?设 =0.05。 本例中本例中SY 未知未知, 用用SY.X替替SY 进行分析进行分析, 0.15作为单侧预测区间的作为单侧预测区间的95的上限的上限 xySt.7 ,05. 0Y15. 0 已知已知SY,X0.032522,查,查t界值表得单侧界值表得单侧t0.05,71.895,则,则 0.15 (-0.0648660.000133X) +1.8950.032522解方程得解方程得X 1152。即只要把汽车流量控制。即只要把汽车流量控制在在1152辆辆/小时以下,空气中小时以下,空气中NO2浓度的浓度的95%容许区间不超过容许区间不超过0.15mg/m3。

14、5.直线回归分析注意事项直线回归分析注意事项(1)做回归分析要有实际意义做回归分析要有实际意义(2)直线回归分析的条件。直线回归分析的条件。线性(线性(linear) 独立性(独立性(independent) 正态性(正态性(normal) 方差齐性(方差齐性(equal variance) (5)直线回归方程的适用范围一般不能超直线回归方程的适用范围一般不能超过自变量的取值范围过自变量的取值范围 (4) 结果的正确解释结果的正确解释 (3)用残差图考察上述回归分析的条件用残差图考察上述回归分析的条件 相关:相关关系相关:相关关系 区别:区别: (1)资料要求不同)资料要求不同回归:型(回归:

15、型(Y正态分布)、正态分布)、II型都可以。型都可以。相关:相关:II型资料(双变量正态分布)型资料(双变量正态分布) (2)应用情况不同)应用情况不同回归:依存关系回归:依存关系第三第三 节节 直线回归与相关的区别和联系直线回归与相关的区别和联系1. r和和b方向一致方向一致2.假设检验等价,假设检验等价,tr=tb联系:联系:3r与与b值可相互换算值可相互换算 XXYYYYXXYYXXXXXYYYXXXYllrbllblllllllr4.用回归解释相关用回归解释相关r的平方称为决定系数:的平方称为决定系数:总回SSSSllllllrYYXXXYYYXXXY/222xyyxbb 3.特别是有

16、率或构成比等相对数作变特别是有率或构成比等相对数作变量,或本来就是等级资料。量,或本来就是等级资料。1.不服从双变量正态分布;不服从双变量正态分布;2.总体分布类型未知;总体分布类型未知;第四节第四节 等级相关等级相关基本思想:基本思想:分别对分别对x和和y 进行秩变换,秩次分别记进行秩变换,秩次分别记为为Pi和和Qi,di=Pi-Qi, 按下列公式计算相关系数。按下列公式计算相关系数。22()()()()iisiiPP QQrPPQQ)1(6122nndrs相同秩次较多时,相同秩次较多时,r rs s的校正:的校正:t=(tj3-tj)/12, tj为x或y中出现相同秩次的个数yxyxstn

17、ntnndttnnr2626)(63323总体等级相关系数的假设检验总体等级相关系数的假设检验 H0:s0 H1:s0,或单侧或单侧s0)当当n50时时直接查直接查rs界值表。界值表。当当n rs0.05/2,10,所以所以P0.05,有统计学意义,按有统计学意义,按 =0.05水准,拒绝水准,拒绝H0,接受接受H1,可认为承保深可认为承保深度与赔付系数间呈负相关度与赔付系数间呈负相关 。26 49610.734312(121)sr data li11_1;input x y;cards;11.0 0.5283 11.8 0.5299 12.0 0.5358 12.3 0.5292 13.1 0.560213.7 0.6014 14.4 0.5830 14.9 0.6102 15.2 0.6075 16.0 0.6411 ;proc univariate normal;var y;proc gplot; plot y*x;proc reg;model y=x/stb P cli

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论