版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第第6章章 相关与回归分析相关与回归分析6.1 相关与回归分析概述相关与回归分析概述6.1.1 相关与回归分析的任务和种类相关与回归分析的任务和种类1. 相关与回归分析基本概念相关与回归分析基本概念 相关分析(相关分析(Correlation Analysis )是用来考察两)是用来考察两变量间(变量间(x与与y)的相互变化的关联关系。)的相互变化的关联关系。x与与y的的地位是平等的,两变量间没有因果关系。地位是平等的,两变量间没有因果关系。回归分析(回归分析(Regression Analysis)是研究一个或多个)是研究一个或多个随机变量(称因变量)随机变量(称因变量)y1,y2,yn与另
2、一些变与另一些变量(称自变量)量(称自变量)x1,x2,xk关系的统计方法。关系的统计方法。主要思想是用最小二乘法拟合因变量与自变量间主要思想是用最小二乘法拟合因变量与自变量间的回归模型,从而把具有不确定关系的若干变量的回归模型,从而把具有不确定关系的若干变量转化为有确定关系的方程模型来近似地分析,通转化为有确定关系的方程模型来近似地分析,通过自变量的变化预测因变量的变化趋势。过自变量的变化预测因变量的变化趋势。2. 回归分析要解决的问题回归分析要解决的问题当人们从一组对象上获得当人们从一组对象上获得2个或多个指标的观测值时,往往需个或多个指标的观测值时,往往需要回答下述几个问题:要回答下述几
3、个问题:1) 如何实现预测,即如何由个或多个指标如何实现预测,即如何由个或多个指标(自变量自变量)的值去的值去推算另个或多个指标推算另个或多个指标(因变量因变量)的值。的值。2) 如何实现控制,即事先给出产品质量应达到的标准(自变如何实现控制,即事先给出产品质量应达到的标准(自变量的取值范围),根据变量之间的数量关系去控制那些影量的取值范围),根据变量之间的数量关系去控制那些影响产品质量的因素(因变量)的变化区间。响产品质量的因素(因变量)的变化区间。3) 如何实现修匀,由于所研究的指标带有变异性,当用散布如何实现修匀,由于所研究的指标带有变异性,当用散布图将变量之间的关系呈现出来时,散点所形
4、成的轨迹并非图将变量之间的关系呈现出来时,散点所形成的轨迹并非像数学中初等函数那样有规律,需要用合适的数学方法像数学中初等函数那样有规律,需要用合适的数学方法(如用直线或某种光滑曲线)对资料进行修匀,使变量之(如用直线或某种光滑曲线)对资料进行修匀,使变量之间本质联系更清楚地呈现出来。间本质联系更清楚地呈现出来。3相关分析的种类相关分析的种类实际工作中的相关问题主要包括线性相关(实际工作中的相关问题主要包括线性相关(Linear Correlation)和秩相关()和秩相关(Rank Correlation),),前者属于参数统计分析方法的范畴,后者则属于前者属于参数统计分析方法的范畴,后者则
5、属于非参数统计分析方法。线性相关又称为简单相关非参数统计分析方法。线性相关又称为简单相关(Simple Correlation),适用于双变量符合正态),适用于双变量符合正态分布类型的数据。秩相关又称等级相关,适用于分布类型的数据。秩相关又称等级相关,适用于双变量等级资料类型的数据。具体来讲,秩相关双变量等级资料类型的数据。具体来讲,秩相关分析方法适用于下列类型的资料:分析方法适用于下列类型的资料:不服从双变量正态分布而不宜做积差相关分析的数不服从双变量正态分布而不宜做积差相关分析的数据。据。总体分布类型未知的数据。总体分布类型未知的数据。以等级表示的数据。以等级表示的数据。 4回归分析的种类
6、回归分析的种类如果因变量是如果因变量是(非时间的非时间的)连续变量(即一般定连续变量(即一般定量资料),设自变量的个数为量资料),设自变量的个数为k,当,当k=1时,时,回归分析的种类有:回归分析的种类有:直线回归分析。直线回归分析。通过直线化实现的简单曲线回归分析(以下简通过直线化实现的简单曲线回归分析(以下简称为曲线拟合)。称为曲线拟合)。非线性曲线拟合。非线性曲线拟合。一般多项式曲线拟合。一般多项式曲线拟合。正交多项式曲线拟合。正交多项式曲线拟合。6.1.2 直线回归与相关分析直线回归与相关分析1. 直线回归与相关分析方法的异同点直线回归与相关分析方法的异同点2散点图在这两种分析中的作用
7、散点图在这两种分析中的作用3直线相关分析直线相关分析4直线回归分析直线回归分析22)()()(yyxxyyx(x)1 (12rpninADJRSQ6.1.3 直线相关与回归分析的应用举例直线相关与回归分析的应用举例6.2 相关、回归过程说明相关、回归过程说明6.2.1 CORR相关过程相关过程 PROC CORR 选择项选择项 ; VAR 变量变量 ; WITH 变量变量 ; BY 变量变量 ; FREQ 变量变量 ; WEIGHT 变量变量 ; RUN ;6.2.2 PLOT过程过程 PROC PLOT 选择项选择项1 ; BY 变量变量 ; PLOT 垂直变量垂直变量 * 水平变量水平变量
8、 / 选择项选择项2 ; RUN ;例例6.3 SAS程序程序corr6_3.sas此图为原始数据的散点图,纵轴为小麦结实率此图为原始数据的散点图,纵轴为小麦结实率y,横轴为孕穗期平均温度,横轴为孕穗期平均温度x1、平均最低温、平均最低温度度x2、抽穗期平均温度、抽穗期平均温度x3、平均最低温度、平均最低温度x4,四个二维图重叠在一起,小麦结实率四个二维图重叠在一起,小麦结实率y与四与四个变量都有一定的相关性。个变量都有一定的相关性。6.2.3 REG 回归过程回归过程9几点说明:几点说明: 在在REG回归分析过程中回归分析过程中MODEL语句不能写语句不能写成:成: model y=x1 x
9、1*x1 ; REG过程不能产生新的变量,如想在回归过程不能产生新的变量,如想在回归模型中考虑变量的二次项模型中考虑变量的二次项x12(=x1*x1),),必须使用必须使用DATA步创建数据集,或构造所需步创建数据集,或构造所需要的新变量来表示要的新变量来表示x1*x1 。 以上以上MODEL语句在语句在PROC GLM中是有效中是有效的。的。例例6.4 小麦小麦-玉米玉米/花生间套作肥料试验,研究花生间套作肥料试验,研究不同处理的施肥利润。变量说明:不同处理的施肥利润。变量说明:n:施氮:施氮肥量肥量(kg/亩亩)、po:施磷肥量:施磷肥量(kg/亩亩)、k:施:施钾肥量钾肥量(kg/亩亩)
10、、y:平均施肥利润:平均施肥利润(元元/亩亩)。分析平均施肥利润分析平均施肥利润y与施氮肥量与施氮肥量n、施磷肥量、施磷肥量po、施钾肥量、施钾肥量k之间的关系。之间的关系。SAS程序程序reg6_4.sas6.2.3回归诊断方法回归诊断方法1.用条件数和方差分量来进行共线性诊断用条件数和方差分量来进行共线性诊断各入选变量的共线性诊断借助各入选变量的共线性诊断借助SAS的的MODEL语句的语句的选择项选择项COLLIN或或COLLINOINT来完成。二者来完成。二者都给出数据矩阵的特征根和条件数都给出数据矩阵的特征根和条件数(Condition Number),还以百分数的形式给出各变量的方差
11、,还以百分数的形式给出各变量的方差在各主成分上的分解在各主成分上的分解(Decomposition),每个入选,每个入选变量上的方差分量之和为。变量上的方差分量之和为。COLLIN和和COLLINOINT的区别在于后者对模型中截距项的区别在于后者对模型中截距项作了校正。当截距项有显著性时,看由作了校正。当截距项有显著性时,看由COLLIN输出的结果;反之,应看由输出的结果;反之,应看由COLLINOINT输出输出的结果。的结果。1) 条件数条件数2)方差分量方差分量2.用方差膨胀因子来进行共线性诊断用方差膨胀因子来进行共线性诊断1)容许度容许度(Tolerance,MODEL语句斜杠后的选项为
12、语句斜杠后的选项为TOL)对一个入选变量而言,其容许度等于对一个入选变量而言,其容许度等于1-R2,这里,这里R2是把该自是把该自变量当作因变量对模型中所有其余回归变量的决定系数,变量当作因变量对模型中所有其余回归变量的决定系数, R2大大(趋于趋于1),则,则1-R2=TOL小小(趋于趋于0),容许度差,该变,容许度差,该变量不由其他变量说明的部分相对较小。量不由其他变量说明的部分相对较小。2)方差膨胀因子方差膨胀因子(VIF)VIF=1/TOL,该统计量称为,该统计量称为“方差膨胀因子方差膨胀因子”(Variance Inflation Factor)。对于不好的试验设计,。对于不好的试验
13、设计,VIF的取值可的取值可能趋于无限大。能趋于无限大。VIF达到什么数值就可认为自变量间存达到什么数值就可认为自变量间存在共线性,尚无正规的临界值。在共线性,尚无正规的临界值。陈希孺、王松桂,陈希孺、王松桂,1987根据经验得出:根据经验得出:VIF5或或10时,就有严重的多重共线性时,就有严重的多重共线性存在。存在。6.2.4 用各种回归方法筛选变量用各种回归方法筛选变量6.3直线回归分析直线回归分析6.3.1 概述概述回归分析中安排重复试验的目的回归分析中安排重复试验的目的2重复试验数据的收集与格式重复试验数据的收集与格式3重复试验数据的回归分析方法重复试验数据的回归分析方法1)建立直线
14、回归方程建立直线回归方程2)回归方程拟合效果的检验回归方程拟合效果的检验6.3.2 可直线化的简单曲线拟合可直线化的简单曲线拟合2曲线拟合的基本步骤曲线拟合的基本步骤曲线拟合的基本步骤可概述如下曲线拟合的基本步骤可概述如下:首先画出首先画出(x,y)的散点图,根据散点图的变化趋势,的散点图,根据散点图的变化趋势,并结合常见曲线图形的形状和专业知识,初步选并结合常见曲线图形的形状和专业知识,初步选定几种最可能的曲线类型定几种最可能的曲线类型;根据所选定的曲线方程的特点,作相应的变量变换,根据所选定的曲线方程的特点,作相应的变量变换,使曲线直线化使曲线直线化;建立直线化后的直线回归方程,并作显著性
15、检验建立直线化后的直线回归方程,并作显著性检验;将变量还原,写出用原变量表达的曲线方程将变量还原,写出用原变量表达的曲线方程;若对同一批资料拟合了几个可能的模型,需作曲线若对同一批资料拟合了几个可能的模型,需作曲线的拟合优度检验,看它们在描述同一批资料上是的拟合优度检验,看它们在描述同一批资料上是否有显著差别否有显著差别;对拟合得最好的曲线方程作残差分析,考察所拟合对拟合得最好的曲线方程作残差分析,考察所拟合的曲线回归方程在专业上是否成立,是否值得应的曲线回归方程在专业上是否成立,是否值得应用。用。6.3.3 应用举例应用举例data data_prg.reg6_6a;set data_prg
16、.reg6_6;x11=x1*x1;x22=x2*x2;x33=x3*x3;run;proc reg data=data_prg.reg6_6a;model y=x1-x3 x11 x22 x33/selection=stepwise ; model y=x1-x3 x11 x22 x33/selection=b noint; model y=x1-x3 x11 x22 x33/selection=f noint; model y=x2 x22 x33/selection=stepwise noint r cli influence collin ; run; quit;程序说明:按对数曲线方
17、程和幂函数曲线方程程序说明:按对数曲线方程和幂函数曲线方程分别求出各点上的估计值分别求出各点上的估计值yhat1和和yhat2、残差残差resid1和和resid2、残差平方和、残差平方和scrs1和和scrs2。使用。使用PLOT过程将原始数据与预测值过程将原始数据与预测值绘在一张图上。绘在一张图上。6.3.4一般多项式曲线拟合一般多项式曲线拟合程序说明:用程序说明:用DATA步建立新变量:步建立新变量:x2、x3分别为分别为x对数的二次方和三次方,在对数的二次方和三次方,在MODEL语句中将这两语句中将这两个新变量加入,用逐步回归法重新拟合对数曲线,个新变量加入,用逐步回归法重新拟合对数曲
18、线,将预测值和残差值输出到数据集将预测值和残差值输出到数据集reg6_10out中,然中,然后用后用PLOT过程将预测值与原始数据绘制在一张图过程将预测值与原始数据绘制在一张图上,从图形上可以较直观地比较预测值的效果好上,从图形上可以较直观地比较预测值的效果好坏。首先我们使用下面这条坏。首先我们使用下面这条MODEL语句进行模型语句进行模型拟合:拟合: model y=x1 x2 x3/selection=stepwise P cli R ;由输出结果发现截距项在模型中不显著(输出省由输出结果发现截距项在模型中不显著(输出省略),所以添加上略),所以添加上NOINT选项,去掉模型中的截选项,去
19、掉模型中的截距项重新拟合。距项重新拟合。6.4非线性回归过程非线性回归过程NLIN6.4.1 NLIN过程简介过程简介 PROC NLIN 选择项选择项 ; MODEL 因变量因变量=自变量表达式自变量表达式 ; PARAMETERS或或PARMS 参数参数=数值数值 参数参数=数值数值 ; BY 语句语句 ; BOUNDS 语句语句 ; (参数约束语句)(参数约束语句) DER 语句语句 ; (微商语句)(微商语句) OUTPUT OUT=SAS数据集,数据集,KEYWORD=变量变量名名 ; RUN ;6.4.2 NLIN应用举例应用举例程序说明:程序说明:先将原始数据生成先将原始数据生成
20、SAS数据集:数据集:nlin6_11.sas7bdat,选用牛顿法选用牛顿法(NEWTON)进行迭代计算,因而需求进行迭代计算,因而需求出出y关于系数关于系数a、b、c、d的一阶偏导数,如果需要的一阶偏导数,如果需要求求a、b、c、d的二阶混合偏导数时,只准许给出的二阶混合偏导数时,只准许给出个个der.a.b.或或der.b.a. ,不能同时给出,不能同时给出2个。其它个。其它系数的混合偏导数要求同样。在步长搜索法没指系数的混合偏导数要求同样。在步长搜索法没指定时,缺省值为定时,缺省值为SMETHOD=HVALVE,即各次迭,即各次迭代的步长代的步长k依次取为依次取为k=1,0.5,0.2
21、5,;在;在SMETHOD=后除选用后除选用HVALVE外,还可选用外,还可选用GOLDEN(黄金分割法黄金分割法)、ARMGOLD和和CUBIC。程序说明:因变量程序说明:因变量y与自变量与自变量x满足负指数函数满足负指数函数模型:模型:y=b0(1-e-b1x)。有两个参数。有两个参数b0和和b1用用MARQUARDT方法求参数的最小二乘估计。方法求参数的最小二乘估计。参数的初值:参数的初值:b0取取0、0.5、1、1.5、2共共5个个值,值,b1取取0.01、0.02、0.09共共9个值,所个值,所以可能的组合为以可能的组合为5*9=45种,选种,选best=10要求要求输出残差平方和最
22、小的前输出残差平方和最小的前10种组合。种组合。6.4.3多条回归直线的方差比较多条回归直线的方差比较6.5多元线性回归分析多元线性回归分析6.5.1多元线性回归分析的概述多元线性回归分析的概述1回归分析的任务回归分析的任务2.自变量为定性变量的数量化方法自变量为定性变量的数量化方法3.变量筛选变量筛选4.回归诊断回归诊断6.5.2 应用举例应用举例例例6.18 采用采用NLIN过程对方程:过程对方程:y=0.66617x1+1.93325x3+0.34291x4-0.04042x32进行参数精确估计。对去掉第进行参数精确估计。对去掉第17、21两点的数两点的数据进行模型拟合。据进行模型拟合。
23、SAS程序:程序:regnlin6_18.sas6.6 RSREG过程(二次响应面回归过程)过程(二次响应面回归过程)6.6.1 RSREG过程说明过程说明RSREG过程用于拟合完全二次响应曲面的回归模型。过程用于拟合完全二次响应曲面的回归模型。并通过分析研究拟合曲面的形状来最佳响应的因并通过分析研究拟合曲面的形状来最佳响应的因子水平或范围。子水平或范围。假定某个响应变量假定某个响应变量y在两个因子变量在两个因子变量x1和和x2的一些组的一些组合值上被测量,关于响应变量合值上被测量,关于响应变量y的二次响应曲面的二次响应曲面回归模型为:回归模型为:y= 0+ 1x1+ 2x2+ 3x12+ 4
24、x22+ 5x1x2+ 对这样的数据进行分析一般有以下三项任务:对这样的数据进行分析一般有以下三项任务:模型拟合及对参数估计作方差分析;模型拟合及对参数估计作方差分析;为了调查预测响应曲面的形状而进行典型相关分析;为了调查预测响应曲面的形状而进行典型相关分析;为了寻找最佳响应的范围而进行岭嵴分析。为了寻找最佳响应的范围而进行岭嵴分析。6.6.2 RSREG过程语句格式过程语句格式 PROC RSREG 选择项选择项1 ; MODEL 响应变量响应变量=自变量自变量 / 选择项选择项2 ; RIDGE 选择项选择项3 ; WEIGHT 变量变量 ; ID 变量变量 ; BY 变量变量 ; RUN
25、; PROC RSREG和和MODEL语句是必须的,其语句是必须的,其它语句用户可根据需要选择使用。它语句用户可根据需要选择使用。3. RIDGE 选择项选择项3 6.6.3 应用举例应用举例例例6.20 鞍面的岭嵴分析鞍面的岭嵴分析 此例考察的指标是化学反应过程的收率,影此例考察的指标是化学反应过程的收率,影响收率的因素有二个:反应时间(响收率的因素有二个:反应时间(time)和)和温度(温度(temp)。这是一个双因子模型,该模)。这是一个双因子模型,该模型中所估计的曲面没有唯一最佳点。利用岭型中所估计的曲面没有唯一最佳点。利用岭嵴分析来决定最佳点的范围。目的是在化学嵴分析来决定最佳点的范围。目
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 青海省大通回族自治县第二完全中学2024-2025学年高一上学期期中教学质量检测地理试题(含答案)
- 树立正确的消费观教案
- 生活中的优化问题举例 教学设计 教案
- 基础日语1知到智慧树章节测试课后答案2024年秋山西大学
- 2024年北京版小学三年级上学期期中英语试题及解答参考
- 牛津译林版初一上学期期中英语试题与参考答案
- 《建筑分析故宫》课件
- 计算机病毒的教学设计
- 《广告精美画面》课件
- 《中医药适宜技术》课件
- 国家公祭日国旗下主持稿
- +云南省昭通市2023-2024学年八年级上学期期末数学试卷
- 颞叶简介课件
- 2023铁塔线路铁塔组立架线施工合同x正规版
- 仪器设备维修保护方案范本
- 2023年湖南省雪天盐业集团股份有限公司招聘笔试参考题库含答案解析
- 《秘书职业技能大赛》课件
- 技术传授合作协议书(菜品)
- 英语演讲智慧树知到课后章节答案2023年下重庆大学
- 预防艾滋病梅毒和乙肝母婴传播阻断项目培训讲义
- 送达地址确认书
评论
0/150
提交评论