第7章 相关与线性回归分析正式课件_第1页
第7章 相关与线性回归分析正式课件_第2页
第7章 相关与线性回归分析正式课件_第3页
第7章 相关与线性回归分析正式课件_第4页
第7章 相关与线性回归分析正式课件_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章

相关与线性回归分析一元线性相关和回归分析在科学研究和生产实践中,经常要进行两类变量间关系的分析,例如仔畜的初生重与断奶重、饲料的营养浓度与畜禽增重速度的关系。相关与回归分析用于相关和线性回归分析的SAS过程主要有三个:CORR过程仅用于相关分析,REG和GLM过程主要进行回归分折,REG过程在进行回归分析的同时,还可通过相应的选项计算出变量间的相关系数。第1节

相关与线性回归分析简介第2节

相关分析一、相关分析的概念(correlationanalysis)研究变量间的相关性质及其密切程度。变量间的关系是平行的或相互制约、不分主次的。例如个体某一阶段的体高与体重的关系等。第2节相关分析在两个变量中,当一个变量的数值增大或减少时,另一个变量也会相应地随之增大或减少,且这种增大或减少在一定范围内呈现一定的比例,则表示两个变量间存在着线性相关的关系。两个线性相关变量之间的相关性质和密切程度,通常用相关系数r(correlationcoefficient)的正负及其大小来衡量。若:-1≤r<0负相关r=0零相关(不相关)0<r≤1正相关∴线性相关分析的主要工作就是计算出变量间的相关系数并对其显著性进行检验。

二、用于相关分析的SAS过程—CORR过程1、

CORR过程的调用格式

PROCCORR选项;VAR变量名表;WITH变量名表;PARTIAL变量名表;当进行普通相关分析时,只有PROCCORR语句是必须的,当进行偏相关分析时,PARTIAL语句也是必须的。其他语句都是可选择性的。第2节相关分析2、语句说明PROCCORR语句

该语句用于调用CORR过程进行相关分析,其常用的选项主要包括:①PEARSON计算通常的Pearson相关系数,即直线相关系数,缺省时系统会默认计算出该相关系数。②Spearman计算Spearman等级相关系数(或秩相关系数)。③NOSIMPLE取消打印每个变量的描述性统计量(如平均数、标准差等)。如果该项缺省,则会打印出每个分析变量的基本统计量。

第2节相关分析(2)VAR语句用于指明所要分析的变量,如果缺省,则系统默认对其他语句中没有提及的所有数值型变量进行分析。(3)WITH语句用于设定放在左边的变量,与VAR语句配合使用,此时VAR语句的变量间和WITH语句的变量间相关系数不给出,只输出VAR变量和WITH变量间的相关系数。如果该语句缺省,系统会计算VAR语句中的所有变量之间的两两相关系数。

3、结果输出CORR过程在执行后,其输出的结果包括简单统计量、相关系数及显著性检验。

第2节相关分析

4、实例应用分析【例7.1】某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表7-1,试分析尿肌酐含量与年龄之间的相关关系。第2节相关分析编号12345678年龄131195810127尿肌酐含量3.543.013.092.482.563.363.182.65本例年龄与尿肌酐含量假定为双变量正态分布,可通过计算线性相关系数表示该两变量间的相关关系。程序7-1DATAEX7_1;INPUTXY@@;CARDS;133.54113.0193.0962.4882.56103.36123.1872.65;PROCCORR;VARXY;RUN第2节相关分析本例r=0.88177,p=0.0038,p<0.05,说明两变量间存在正相关关系。第3节回归分析一、回归分析概念(regressionanalysis)回归分析是通过建立回归方程来揭示变量间的回归关系,并据此从自变量的变化去估测因变量的变化。回归分析中变量有自变量和因变量之分,一般将独立变化的变量叫做自变量(independentvariable),依赖自变量变化的变量称为因变量或依变量(dependentvariable)。如家畜的生长速度受营养和饲养管理水平等因素的影响。二、回归分析种类(根据所涉及自变量数目的多少)一元回归或直线回归(linearregression):只研究两个变量间。多元回归(multipleregression):涉及到多个自变量的回归。三、回归分析涉及以下几方面内容:1、估计。估计与方程有关的未知参数,并检验对于这些参数所做的统计假设,建立相应的回归模型2、预报。用所得的回归方程对自变量的一组值估计因变量的值(点/区间估计)3、自变量选择。从可能对因变量Y有影响的一组自变量中,挑选出对Y有影响的变量,剔除影响不大的变量,或按某一标准,建立最优的回归方程4、模型诊断。检查数据、回归方程、统计推断方法中可能存在的问题,建立较合理的、稳健的模型.第3节回归分析四、建立回归方程的应用:1、描述。描述某种现象与其影响因素的数量依存关系。例如,某疾病发病率与气温、湿度的关系。2、预测。把预报因子(自变量)代入回归方程对预报量(因变量)及其波动范围进行估计。3、控制。回归方程逆运算,即要求因变量在一定范围内波动,可以通过调控自变量的取值来实现。五、线性回归分析的SAS过程可采用REG和GLM两个过程来完成。REG过程进行一元或多元回归以及可线性化的非线性回归分析,通过适当的选项还可计算出变量间的简单相关系数,即采用REG过程可同时完成线性相关和回归分析。第3节回归分析1、REG过程的调用格式

PROCREG选项;MODEL因变量=自变量/选项;

BY变量;WEIGHT变量;PRINT选项;PLOTy轴变量*x轴变量[=‘符号’];

上述语句中,PROCREG和MODEL语句是必须的,其他语句是可选择性的。第3节回归分析2、语句说明PROCREG语句PROCREG选项;指明调用REG过程作回归分析。其常用的选项主要有:①数据集选项DATA=SAS数据集:指定分析数据集,如果缺省,则对最新创建的数据集进行分析;OUTEST=SAS数据集,要求将参数估计和选择的统计量输出到SAS数据集中等。②结果输出选项(CORR/SIMPLE)

CORR:对在MODEL和VAR语句中列出的所有变量计算简单r,并输出相关系数矩阵;SIMPLE:对用REG过程进行分析的每个变量输出所有观测的总和、均值、标准差和平方和等简单统计量。第3节回归分析MODEL语句(1)功用:定义所用的回归分析数学模型。在MODEL语句中出现的变量必须是用于分析的数据集中的数值型变量。如想考虑模型中X1的二次项,不能在MODEL语句中使用XI*X1,而必须用DATA步骤产生一个新变量(如XISQUARE=X1*XI),然后再在MODEL语句中使用这个新变量。(2)MODEL语句常用的选项主要有:①SELECTION=模型选择方法用于规定选择模型的方法,包括(共9种方法):NONE(全回归模型)STEPWISE(逐步回归)FORWARD(逐个选入)BACKWARD(逐个剔除)MAXR(最大R2增量法)MINR(最小R2增量法)RSQUARE(所有可能的R2)CP(总平方误差法)ADJRSQ(调整的R2法)其中在畜牧试验数据分析中,以前4种方法最为常用。该选项缺省时,模型选择方法为NONE。第3节回归分析②INCLUDE=n

指定列在MODEL语句中的前n个自变量必须包含在模型中,筛选变量的方法仅对MODEL语句中的其他变量进行。当使用SELECTION=NONE选项时,该选项无效。③NOINT取消通常包含在模型中的常数项(即截距)。④SLENTRY(LSE)=概率值

对FORWARD和STEPWISE方法规定变量选入回归模型里的显著性水平。对FORWARD方法,其缺省值为0.05,而对STEPWISE方法则为0.15。第3节回归分析第3节回归分析⑤SLSTAY(或SLS)=概率值

对BACKWARD和STEPWISE方法规定变量保留在模型里的显著水平。对BACKWARD方法而言,其缺省值为0.10,而STEPWISE方法则为0.15。⑥结果输出选项STB为标准偏回归系数(即直接通径系数);CLM和CLI分别为条件总体平均数的置信区间和观察值的预测区间;P为预测值;R为离回归误差分析;ALL为所有输出项。BY语句

指定分类变量,以便得到由BY变量定义的几个观测组的独立分析。当出现BY语句时,过程要求输入数据事先已按BY变量进行了排序。WEIGHT语句

指定加权系数变量。PRINT语句

打印分析结果。PLOT语句

用于画散点图。3、

结果输出

REG过程输出的结果包括方差分析过程及相关的统计量,参数的估计值及其有关统计量以及其他选择性的结果输出内容。在进行多元回归分析时,如果设定了模型选择方法,则会输出模型选择的具体过程。第3节回归分析4、线性回归的应用实例例7.2利用例7.1的数据资料,运用SAS进行直线回归分析。第3节回归分析程序7.2DATAEX7_2;INPUTXY@@;CARDS;133.54113.0193.0962.4882.56103.36123.1872.65;PROCREG;MODELY=X/STBPCLICLM;RUN;REG过程必须用MODEL语句表明回归模型,”Y=X”是表明直线回归;”=“前是因变量,其后面是自变量;STP、P、CLI和CLM为选项第3节回归分析第一部分第一部分为方差分析的结果,本例F=20.97,P=0.0038,P<0.05,回归显著,说明模型是有意义的第3节回归分析第二部分第三部分第三部分:参数估计的结果。1、常数项Intercept估计值为1.66167,标准误=0.29700;t=5.59,P=0.0014<0.05,表示常数项与0的差别有统计意义。2、变量X的回归系数(回归方程中的b)为=0.13917,t=4.58,p=0.0038<0.05,表示回归显著,即两变量间存在回归关系。回归方程为:Y=0.13917X+1.66167第二部分:描述性的统计量,RootMSE=误差均方的平方根(剩余标准差;DependentMean=因变量的均数;CoeffVar=因变量的变异系数;R-Square=决定系数AdjR-Sq=矫正决定系数。第3节回归分析因变量的原始值CLI选项结果=预测值均数95%置信区间CLM选项结果预测值95%置信区间第四部分残差本章实习作业2、10头育肥猪的饲料消耗(x)和增重(y)资料如下表7-3(单位:kg),试对增重与饲料消耗进行直线回归分析,并

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论