统计分析软件教程相关与回归分演示文稿_第1页
统计分析软件教程相关与回归分演示文稿_第2页
统计分析软件教程相关与回归分演示文稿_第3页
统计分析软件教程相关与回归分演示文稿_第4页
统计分析软件教程相关与回归分演示文稿_第5页
已阅读5页,还剩114页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计分析软件教程相关与回归分演示文稿现在是1页\一共有119页\编辑于星期三(优选)统计分析软件教程相关与回归分现在是2页\一共有119页\编辑于星期三34/10/2023第五章34/10/2023目录5.1相关与回归分析概述5.2线性相关分析的CORR过程5.3线性回归分析的REG过程5.4非线性回归分析过程*5.5Logistic回归分析过程*现在是3页\一共有119页\编辑于星期三44/10/2023第五章44/10/20235.1相关与回归分析概述

1.相关与回归分析基本概念·相关分析(CorrelationAnalysis):是研究变量之间依存关系的密切程度。·回归分析(RegressionAnalysis):是根据相关关系的具体形态,选择一个合适的数学模型,近似地表达变量间的平均变化关系。现在是4页\一共有119页\编辑于星期三54/10/2023第五章54/10/2023

·两者的关系:具有共同的研究对象,在应用中互相补充。相关分析需要回归分析来进一步表明变量相关的具体形式,而回归分析则需要相关分析所表明的变量间是否存在相关及相关程度的高低作为依据。只有变量之间高度相关时,进行回归分析寻求其相关的具体形式才有意义。而在相关程度很低的情况下回归函数表达式的代表性几乎就不存在了。现在是5页\一共有119页\编辑于星期三64/10/2023第五章64/10/2023

·两者的区别:第一,相关分析没有自变量和因变量之分。回归分析必须事先确定变量中哪个是自变量,哪个是因变量,两个变量的地位不是对等的;第二,相关分析所涉及的两个变量都是随机变量,在回归分析中通常把因变量作为随机变量,而自变量作为非随机变量;第三,相关分析通过相关系数描述变量的关系。改变两变量的地位不影响相关系数的数值。而回归分析是通过回归方程进行估计和预测。改变两变量的地位后所形成的回归方程的性质是不同的。现在是6页\一共有119页\编辑于星期三74/10/2023第五章74/10/20232.相关分析的内容与种类

相关分析的主要内容有:确定相关关系的存在,相关关系呈现的形态和方向,相关关系的密切程度。其主要方法是绘制相关图表和计算相关系数。在分析过程中的按分析方法分主要包括两类:

•线性相关(LinearCorrelation):又称为简单相关(SimpleCorrelation),适用于双变量符合正态分布类型的数据属于参数统计分析方法的范畴。现在是7页\一共有119页\编辑于星期三84/10/2023第五章84/10/2023

•秩相关(RankCorrelation):秩相关又称等级相关,适用于双变量等级资料类型的数据。属于非参数统计分析方法。秩相关分析方法适用于下列类型的资料:①不服从变量正态分布的数据。②总体分布类型未知的数据。③以等级表示的数据。

现在是8页\一共有119页\编辑于星期三94/10/2023第五章94/10/2023相关关系非线性相关线性相关正相关正相关负相关负相关完全相关不相关按关系类型分:现在是9页\一共有119页\编辑于星期三104/10/2023第五章104/10/2023不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关相关关系的图示现在是10页\一共有119页\编辑于星期三114/10/2023第五章114/10/2023SAS系统中相关分析的方法主要包括:

Pearson(皮尔逊)积差相关Spearman(斯皮尔曼)等级相关Kendall(卡德尔)等级相关HOEFFDING(霍夫丁)D相关现在是11页\一共有119页\编辑于星期三124/10/2023第五章124/10/20233.回归分析的内容与种类

如果因变量是(非时间的)连续变量(即一般定量资料),设自变量的个数为k,当k=1时,回归分析的种类有:①直线回归分析②通过直线化实现的简单曲线回归分析(以下简称为曲线拟合)

非线性曲线拟合一般多项式曲线拟合。正交多项式曲线拟合。现在是12页\一共有119页\编辑于星期三134/10/2023第五章134/10/20235.2线性相关分析的CORR过程

SAS系统的线性相关分析过程是由CORR过程完成的。该过程由系统的BASE模块提供,可以计算:PEARSON(皮尔逊)积差相关系数、SPEARMAN(斯皮尔曼)秩相关系数、KENDALL(卡德尔)TAU-B统计量、HOEFFDING(霍夫丁)独立性分析统计量D以及Pearson、Spearman以及Kendall线性偏相关系数。另外,它还对用于估计可靠性的Cronbach系数α进行计算。现在是13页\一共有119页\编辑于星期三144/10/2023第五章144/10/20231.语句格式:

PROCCORR[选择项];VAR变量表;WITH变量表;PARTIAL变量表;WEIGHT变量;FREQ变量;BY变量表;现在是14页\一共有119页\编辑于星期三154/10/2023第五章154/10/20232.常用选项:

(1)PROCCORR语句的选择项:1.DATA=SAS数据集2.PEAESON计算皮尔逊相关系数(默认)3.SPEARMAN计算斯皮尔曼系数4.HOEFFDING计算霍夫丁D统计量5.KENDALL计算卡德尔系数6.OUT(P│S│K│H)=SAS数据集输出数据集。分别对应与四个系数输出数据集现在是15页\一共有119页\编辑于星期三164/10/2023第五章164/10/2023

7.NOMISS分析时剔除缺失值8.NOSIMPLE不列出描述统计量9.COV列出协方差矩阵10.ALPHA计算并输出阿尔法系数(CRONBACH系数)(2)功能语句

1.VAR语句:计算所有数值型变量间的相关系数2.WITH语句:必须与VAR语句同时使用,只计算VAR变量与WITH变量的相关系数。3.PARTIAL:偏相关变量表;/*偏相关*/4.BY语句:数据集按照BY语句中变量的值分组,在每组内分别进行相关系数的计算。数据集内的数据必须先按照BY变量的值排序现在是16页\一共有119页\编辑于星期三174/10/2023第五章174/10/2023[例5-1]

数据集MYDATA.CPI是某地区30户居民家庭的月可支配收入(INCOME)和月消费支出(CSPT)的原始资料,试通过相关分析月可支配收入和月消费支出两个变量间是否存在相关关系。

由于这两个分析变量均为连续变量。因此,可以使用PEARSON积差相关分析过程。为了更直观的反映两个变量之间的关系,在使用CORR过程分析之前,使用PLOT过程作散点图。现在是17页\一共有119页\编辑于星期三184/10/2023第五章184/10/2023

编程PROCGPLOTDATA=DATA.CPI;PLOTCSP*INCOME;RUN;PROCCORRDATA=DATA.CPIOUTS=DA1;VARINCOMECSP;RUN;现在是18页\一共有119页\编辑于星期三194/10/2023第五章194/10/2023输出结果—散点图

从散点图中可以看到两个变量基本上呈现直线关系

现在是19页\一共有119页\编辑于星期三204/10/2023第五章204/10/2023输出结果—相关分析结果

现在是20页\一共有119页\编辑于星期三214/10/2023第五章214/10/2023结果分析CORR过程的默认输出结果分为两部分:

第一部分“SimpleStatistics”为描述分析,输出VAR语句中所有变量的描述统计量的基本信息变量名(Variable)观测数(N)均值(Mean)变量值的和(Sum)标准差(StdDev)最小值(Minimum)最大值(Maximum)变量标签(Label)现在是21页\一共有119页\编辑于星期三224/10/2023第五章224/10/2023结果分析

第二部分“PearsonCorrelationCoefficients”为默认的PEARSON(皮尔逊)积差相关分析结果。是在原假设为总体相关系数等于零(Prob>|r|underH0:Rho=0)条件下的PEARSON积差相关系数矩阵,该矩阵是一个对角方阵。可以看出两变量的线性相关系数值为0.967,说明两变量为高度线性相关,其检验概率为Prob>|r|小于0.0001。小于默认的显著性水平,因此从总体上可以认为两个变量呈高度线性相关。现在是22页\一共有119页\编辑于星期三234/10/2023第五章234/10/2023[例5-2]

数据集DST.BCLASS是某学校学生身体状况的资料。运行下列两组程序,了解WITH语句的作用。

程序1:

程序2:PROCCORRDATA=DST.BCLASSNOSIMPLE;VARAGEHEIGHTWEIGHT;RUN;PROCCORRDATA=DST.BCLASSNOSIMPLE;VARHEIGHTWEIGHT;WITHAGE;RUN;现在是23页\一共有119页\编辑于星期三244/10/2023第五章244/10/2023运行结果运行结果-未使用WITH语句运行结果-使用WITH语句现在是24页\一共有119页\编辑于星期三254/10/2023[例5-3]数据集MYDATA.VITAL是一组肺活量、身高体重的实测资料要求:

(1)对三个变量进行简单线性相关分析;(2)分别以身高与体重为控制变量进行一阶偏相关分析。编程1:简单线性相关分析(CORR的一般过程)PROCCORRNOSIMPLE;VARHEIGHTWEIGHT;WITHVITAL;RUN;第五章254/10/2023现在是25页\一共有119页\编辑于星期三264/10/2023运行结果第五章264/10/2023现在是26页\一共有119页\编辑于星期三274/10/2023编程2:偏相关过程(以WEIGHT为控制变量)

PROCCORRNOSIMPLE;VARHEIGHTVITAL;PARTIALWEIGHT;RUN;第五章274/10/2023现在是27页\一共有119页\编辑于星期三284/10/2023编程3:偏相关过程(以HEIGHT为控制变量)

PROCCORRNOSIMPLE;VARWEIGHTVITAL;PARTIALHEIGHT;RUN;第五章284/10/2023现在是28页\一共有119页\编辑于星期三294/10/2023[例5-4]

大型企业以“你在企业改革中最需要解决什么?”为题,分别对企业管理人员和普通员工共200名进行了问卷调查。经整理后得下表所列的资料。分析两种人员“需要”的相关程度。由于两变量是离散变量,因此需要使用秩相关分析过程。第五章294/10/2023现在是29页\一共有119页\编辑于星期三304/10/2023第五章304/10/2023现在是30页\一共有119页\编辑于星期三314/10/2023DATALI54;INPUTworkermanager@@;CARDS;2619102116825165116159733;PROCPRINT;RUN;第五章314/10/2023创建数据集现在是31页\一共有119页\编辑于星期三324/10/2023PROCRANKDATA=LI54OUT=LI54_R;VARworkermanager;RANKSR_workerR_manager;PROCPRINT;RUN;PROCCORRDATA=LI54_RSPEARMAN;VARR_workerR_manager;RUN;第五章324/10/2023分析过程现在是32页\一共有119页\编辑于星期三334/10/2023运行结果第五章334/10/2023

两变量的线性相关系数值为0.61905,说明两变量为中度线性相关,但其检验概率值Prob>|r|为0.1017,大于默认的显著性水平,因此从总体上不能认为两个变量具有线性相关关系。现在是33页\一共有119页\编辑于星期三

数据集EXAM包含四个子测验的分数,分别是VOCAB(词汇)、READING(阅读)、SPELLING(拼写)、USAGE(语法)等,分析这些子测验成绩是否与英语总成绩有关。编程:PROCCORRDATA=EXAMALPHANOSIMPLE;VARVOCABREADINGSPELLINGUSAGE;RUN;344/10/2023[示例5-1]*第五章现在是34页\一共有119页\编辑于星期三运行结果354/10/2023第五章现在是35页\一共有119页\编辑于星期三结果说明

输出结果的第一部分(CronbachCoefficientAlpha)含两个阿尔法系数,第一个值(Raw)Alpha=0.895444是根据原始分数导出的,第二个值(Standardized)Alpha=0.889552是根据标准化后的分数导出的,二者的值都相当高。因此,可下结论说由这四个子测验分数的总和所形成英语总成绩的显示极高的可信度。364/10/2023第五章现在是36页\一共有119页\编辑于星期三

输出结果的第二部分是各子测验与总成绩的相关系数,就READING(阅读)而言,该子测验与总分的相关最高r=0.921181(根据原始分数)或r=0.902411(根据标准化分数)。如果考试中不包括此子测验,则阿尔法信度减为0.802956(根据原始分数),或0.801067(根据标准化分数)。输出结果的第三部分是一个的Pearson(皮尔逊相关系数矩阵),其元素为四个子测验两两相关的相关系数以及其统计检验的显著程度。374/10/2023第五章现在是37页\一共有119页\编辑于星期三384/10/20235.3线性回归分析的REG过程

SAS系统中主要回归分析过程:

1、GLM(GenerallinearModel):通用线性模型。用最小二乘法拟合,既可处理连续变量也处理离散变量。主要用于建立一般线性回归模型和方差分析2、CATMOD(CategoricalDataModeling):对数模型。用于对频数表的分析,可拟合对数线性模型、Logistic回归模型等3、REG:线性回归的基本过程。第五章384/10/2023现在是38页\一共有119页\编辑于星期三394/10/2023

1.可处理多个MODEL语句。2.提供9种模型选择的方法。3.允许交互式修改模型或建模用数据。4.可对线性及多变量假设进行检验。5.作数据或统计量的散点图。6.可进行回归诊断并给出相应统计量。7.可利用相关矩阵或协方差阵作为建模的数据。8.可进行回归预测并估计预测值、残差、置信度等第五章394/10/2023REG过程的主要功能:现在是39页\一共有119页\编辑于星期三404/10/2023PROCREG[选择项];MODEL因变量=自变量1自变量2•••/[选择项];VAR变量;FREQ变量;BY变量;第五章404/10/2023REG过程语句格式现在是40页\一共有119页\编辑于星期三414/10/2023REG过程语句说明1.PROCREG语句:调用REG过程,可使用的选择项包括:

①DATA=SAS数据集②OUTEST=SAS数据集将有关模型的参数输出③OUTSSCP=SAS数据集将变量的平方和和内乘积输出到数据集④ALL屏幕输出所有内容。⑤CORR输出列在MODEL语句和VAR语句中的所有变量间的相关矩阵。⑥NOPRINT不在屏幕输出。⑦SIMPLE在屏幕仅输出变量的和、均值、方差标准差和未校正平方和。第五章414/10/2023现在是41页\一共有119页\编辑于星期三424/10/2023

2.MODEL语句选择项:

(REG过程中必须有MODEL语句):

1、SELECTION=方法名;2、SLENTRY=:确定变量进入方程的显著性水平;3、SLSTAY=:确定变量留在方程中的显著性水平;4、COLLIN:要求详细分析变量间的共线性。包括特征值、条件指数、及相对于每个特征值估计方差的分解;5、NOINT输出结果中不包括截距项;6、PCORR1输出偏相关系数矩阵;第五章424/10/2023现在是42页\一共有119页\编辑于星期三434/10/2023

7、CLI:计算并输出个体观测预测值的95%上、下限这个置信界反映了误差的偏差,以及参数估计的偏差;8、CLM:计算并输出每个观测输出因变量期望值的95%上、下限,它不是预测区间,因它仅考虑到参数估计的偏差,没有考虑误差项的偏差;9、P:由输入数据和估计模型来计算预测值,输出包括观测序号、ID变量、实际值、预测值和残差值。如果CLI,CLM或R已规定,P就不需要规定;第五章现在是43页\一共有119页\编辑于星期三444/10/2023

10、R:请求分析残差,输出包括选择项P要求的一切内容,加上预测值和残差值的标准误差、学生化残差和CooK‘sD统计量,D统计量用来度量在参数估计中每个观测对预测值的影响大小,通过D统计量的大小,可以找到原始数据中的强影响点;11、INFLUENCE:要求输出在估计值和预测值方面每个观测的影响的详细分析12、VIF:输出这些参数估计的方差膨胀因子。方差膨胀因子是容许值的倒数第五章现在是44页\一共有119页\编辑于星期三454/10/2023REG过程输出内容REG过程的基本输出内容包括三部分:

(1)AnalysisofVariance(方差分析)方差来源自由度平方和均方F值显著性概率SumofMeanSourceDFSquaresSquareFValueProb>FModel15609.665609.6626.8550.0001Error193968.908208.889CTotal209578.57143

结论:如果检验概率值Prob>F的值小于默认的显著性水平,则回归效果显著。第五章454/10/2023现在是45页\一共有119页\编辑于星期三464/10/2023REG过程输出内容

(2)拟和程度检验

(可决系数)(标准差)RootMSE14.453R-square0.5856(因变量均值)DepMean64.857AdjR-sq0.563(变异系数)C.V.22.28440第五章464/10/2023现在是46页\一共有119页\编辑于星期三474/10/2023REG过程输出内容(3)ParameterEstimates(参数估计)

(变量自由度参数估计标准误差参数为0T统计量显著性概率)ParameterStandardTforH0:VariableDFEstimateErrorParameter=0Prob>|T|INTERCEP127.8510727.806538273.5680.0021X15.3410821.030670095.1820.0001小于0.5有显著意义估计线性回归方程:Y=27.851072+5.341082X第五章474/10/2023现在是47页\一共有119页\编辑于星期三484/10/2023[例5-5]恩格尔系数反映了食品支出与收入水平之间的关系:假定商品价格不变,实际食品支出与实际收入水平之间的关系,可以用一元线性回归模型表示。下表是关于15个居民家庭的月人均食品支出(Y)与人均月收入(X)的数值要求:①绘制散点图;②建立回归模型并进行残差分析;③绘制95%的置信区间图。第五章484/10/2023现在是48页\一共有119页\编辑于星期三494/10/2023第五章494/10/2023现在是49页\一共有119页\编辑于星期三504/10/2023编程PROCGPLOTDATA=MYDATA.ENGLE;PLOTY*X;RUN;PROCREGDATA=MYDATA.ENGLE;MODELY=X/CLICLMR;PLOTY*XPREDICTED.*XL95.*XU95.*X/OVERLAY;PLOTY*XPREDICTED.*XL95M.*XU95M.*X/OVERLAY;QUIT;第五章504/10/2023现在是50页\一共有119页\编辑于星期三514/10/2023运行结果-散点图第五章514/10/2023现在是51页\一共有119页\编辑于星期三运行结果-CLI图524/10/2023第五章现在是52页\一共有119页\编辑于星期三运行结果-CLM图534/10/2023第五章现在是53页\一共有119页\编辑于星期三544/10/2023运行结果-回归分析第五章544/10/2023现在是54页\一共有119页\编辑于星期三554/10/2023运行结果-置信区间第五章554/10/2023现在是55页\一共有119页\编辑于星期三564/10/2023运行结果-残差分析第五章564/10/2023现在是56页\一共有119页\编辑于星期三574/10/2023输出残差分析结果:

包括残差的标准误差(StdErrorResidual)、学生化残差(StudentResidual)以及学生化残差图,图上出现四个及以上“*”号的点所对应的学生化残差的绝对值大于2,认为是残差较大的可疑点。如果这样的点所占的比例较大,表明模型拟合得不合适。对于出现的可疑点,应检查原始记录和数据输入时是否有失误。第五章574/10/2023现在是57页\一共有119页\编辑于星期三584/10/2023COOK的D统计量(Cook‘sD):COOK统计量是度量各个观测点影响大小的指标,D值大的点称为强势影响点,一般使用的标准为|D|>4/N,为强势影响点。从残差图中可以看到第6个观测和第12个观测为强势影响点。在实际应用中可以删除这两个观测重新建立回归模型,可以提高模型的分析精度。第五章584/10/2023现在是58页\一共有119页\编辑于星期三回归模型违反假设及其处理自相关问题的诊断与解决方法

诊断用DW统计量,解决用差分法异方差问题及其解决方法

诊断观察残差图和计算Spearman等级相关系数,解决用加权最小二乘多重共线性问题及其解决方法逐步回归现在是59页\一共有119页\编辑于星期三604/10/2023第五章604/10/2023

多元线性回归(Multiplelinearregression)为线性回归中自变量在两个以上的情形,此时回归模型的选择具有很大的灵活性。对于全部自变量可以将它们全部放在模型中,也可以只选择其中一部分进行回归分析。在REG过程,根据“最优”变量及“最佳”方程的不同判断标准,提供了9种模型选择方法。其中最简单的方法就是拟合全部自变量的回归方程,其余8种均涉及变量筛选方法。其语句选择项为:

MODEL因变量=自变量1…自变量n/selection=…;多元线性回归的REG过程现在是60页\一共有119页\编辑于星期三614/10/2023第五章614/10/2023主要的模型选择方法与相应语句

1前进法(FORWARD)

预先确定进入方程的显著性水平;按自变量对因变量的贡献,由大至小依次挑选进入方程。

语句格式:

PROCREG[选择项];MODEL因变量=自变量1自变量2•••/SELECTION=FORWARDSLENTRY=;

‘SLENTRY=’根据需要选择显著性水平(默认值0.50)现在是61页\一共有119页\编辑于星期三624/10/2023第五章624/10/20232后退法(BACKWARD)预先确定剔除自变量的显著性水平;按自变量对因变量的贡献由小至大依次剔除。

语句格式:

PROCREG[选择项];MODEL因变量=自变量1自变量2•••/SELECTION=BACKWARDSLENTRY=;‘SLENTRY=’根据需要选择显著性水平(默认值0.10)现在是62页\一共有119页\编辑于星期三634/10/2023第五章634/10/20233逐步回归法(STEPWISE)预先确定进入方程的显著性水平SLE和剔除自变量的显著性水平SLS(两者默认值0.15);引入偏回归平方和经检验显著的变量,并且将方程中对模型贡献不显著的变量剔除出去。

语句格式:

(1)PROCREG[选择项];MODEL因变量=自变量1自变量2•••/SELECTION=STEPWISESLENTRY=SLSTAY=;

(2)PROCSTEPWISE[选择项];MODEL因变量=自变量1自变量2•••;现在是63页\一共有119页\编辑于星期三644/10/2023第五章644/10/20234其他方法

R²最大增量法(MAXR)R²最小增量法(MINR)R²选择法(RSQUARE)R²校正选择法(ADJRSQ)现在是64页\一共有119页\编辑于星期三654/10/2023第五章654/10/2023[例5-6]

数据集REALTY是某地区1992-2004年的部分经济核算指标。包括住宅需求量(Y)、年度(YEAR)、国内生产总值(X1)、人均住房支出(X2)、市区人口总量(X3)、职工平均工资(X4)、本年住宅平均售价(X5)、上年住宅平均售价(X51)、人均居住面积(X6)、年市场化利率(X7)、年末总户数(X8)、本年人均可支配收入(X9)、下年人均可支配收入(X91),研究这些因素对住宅需求量(Y)的影响。PROCREGDATA=MYDATA.REALTY;MODELY=x1x2x3x4x5x51x6x7x8x9x91;QUIT;现在是65页\一共有119页\编辑于星期三664/10/2023第五章664/10/2023输出结果-方差分析(AnalysisofVariance)现在是66页\一共有119页\编辑于星期三674/10/2023第五章674/10/2023输出结果-参数估计(ParameterEstimates)现在是67页\一共有119页\编辑于星期三684/10/2023第五章684/10/2023结果讨论一

F检验的检验值,其对应的概率值为,远远小于显著性水平,表明变量间线性关系显著,拟合的回归模型回归效果是显著的;拟合精度(RootMSE)的值为7.94654,拟合优度的值为0.9988,调整的拟合优度(AdjR-Sq)的值为0.9925,表明因变量变化的99.25%是由自变量引起的。说明该回归模型自变量对因变量的线性关系的拟合是可靠的。现在是68页\一共有119页\编辑于星期三694/10/2023第五章694/10/2023结果讨论二

由于没有指定分析方法,因此系统默认使用全部进入法。该方法的默认显著性水平为。因此在确定回归方程时,检验概率的值大等于0.5的变量可以不写入回归模型。所以该模型可以写为:现在是69页\一共有119页\编辑于星期三704/10/2023第五章704/10/2023[例5-7]利用例5-6的资料进行逐步回归法分析:

PROCSTEPWISEDATA=MYDATA.REALTY;MODELY=x1x2x3x4x5x51x6x7x8x9x91;QUIT;现在是70页\一共有119页\编辑于星期三714/10/2023第五章714/10/2023输出结果(1):STEP1的方差分析现在是71页\一共有119页\编辑于星期三724/10/2023第五章724/10/2023输出结果(1):STEP1的参数估计现在是72页\一共有119页\编辑于星期三734/10/2023第五章734/10/2023讨论

在逐步回归分析过程中,变量进入方程的次序是按照其对因变量变化的贡献的大小,以及检验概率的值确定的,由于变量X5对因变量变化的贡献最大,检验概率的值最小,因此首先进入方程。现在是73页\一共有119页\编辑于星期三744/10/2023第五章744/10/2023输出结果(2):STEP2现在是74页\一共有119页\编辑于星期三754/10/2023第五章754/10/2023讨论

第二步,根据上述原则变量X9进入方程。当所有检验概率小于显著性水平(逐步回归的系统默认值为0.15)的变量全部进入方程后,系统提示如下:逐步回归过程结束。其确定的线性回归方程为:

Allvariablesleftinthemodelaresignificantatthe0.1500level.Noothervariablemetthe0.1500significancelevelforentryintothemodel.现在是75页\一共有119页\编辑于星期三764/10/2023第五章764/10/2023

回归诊断的任务是检验所选模型中的各变量之间共线性的情况(即判断某些自变量之间是否具有线性关系);根据模型推算出与自变量取各样本值时对应的因变量的估计值,反过来检验所测得的Y是否可靠。针对SAS系统的REG过程运行后不同输出结果,回归诊断的方法包括以下几个方面。REG过程的回归诊断*现在是76页\一共有119页\编辑于星期三774/10/2023第五章774/10/20231.用条件数和方差分量来进行共线性诊断

各入选变量的共线性诊断借助SAS的MODEL语句的选择项COLLIN或COLLINOINT来完成。二者都给出信息矩阵的特征根和条件数(ConditionNumber),还给出各变量的方差在各主成分上的分解(Decomposition),以百分数的形式给出,每个入选变量上的方差分量之和为1。

COLLIN和COLLINOINT的区别在于后者对模型中截距项作了校正。当截距项无显著性时,看由COLLIN输出的结果;反之,应看由COLLINOINT输出的结果。现在是77页\一共有119页\编辑于星期三784/10/2023第五章784/10/2023(1)条件数

先计算出信息矩阵|X`X|的各个特征根,然后计算条件指数。

条件指数(conditionindices)是指:最大特征根与每个特征根比值的平方根。其中最大条件指数(K)称为信息矩阵|X`X|的条件数。条件数越大回归模型存在共线性的可能性越大。一般情况下,如果0<K<10,认为模型不存在多重共线性,如果10≤K≤30则认为存在中等程度或较强的多重共线性,如果K>30则认为存在严重的多重共线性。现在是78页\一共有119页\编辑于星期三794/10/2023第五章794/10/2023(2)方差分量

较强的多重共线性同时还会表现在变量的方差分量上,对于大的条件数并且同时有两个以上变量的方差分量超过50%,就意味这些变量间有一定程度的线性相关。现在是79页\一共有119页\编辑于星期三804/10/2023第五章804/10/20232.利用方差膨胀因子进行共线性诊断

(1)容许度(ToleranceValue)

其在Model语句中的选择项为TOL。对一个入选回归模型的变量而言,其容许度统计量等于,其中是把某自变量当作因变量时对模型中所有其余回归变量的拟合程度。其数值大,说明该变量受其他变量影响的程度大,相对应容许度的值就小,变量的共线性强。现在是80页\一共有119页\编辑于星期三814/10/2023第五章814/10/2023(2)方差膨胀因子(VIF)

VIF=1/TOL,统计量称为“方差膨胀因”(VarianceInflationFactor),表示由于共线性的存在而使参数估计值的方差增大的情况。根据经验一般情况下,VIF>5或10时,就有严重的多重共线性存在。现在是81页\一共有119页\编辑于星期三824/10/2023第五章824/10/20233.利用学生化残差对观测中的强影响点进行诊断

对因变量的预测值影响特别大,甚至容易导致相反结论的观测点,被称为强影响点或称为异常点。在实际工作中经常利用学生化残差STUDENT统计量诊断来分析哪些点对因变量的预测值影响最大。当该统计量的值大于2时,所对应的观测点往往被认为可能是异常点。现在是82页\一共有119页\编辑于星期三834/10/2023第五章834/10/2023[例5-8]

对例5-6的资料进行回归诊断PROCREGDATA=MYDATA.REALTY;MODELY=x1x2x3x4x5x51x6x7x8x9x91/RTOL

VIF;QUIT;现在是83页\一共有119页\编辑于星期三844/10/2023第五章844/10/2023

运行结果容许度(ToleranceValue)与方差膨胀因子(VarianceInflationFactor)的检验结论现在是84页\一共有119页\编辑于星期三854/10/2023第五章854/10/2023结论

从运行结果中看,各变量的容许度值较小,方差膨胀因子的较大,说明各变量间存在较严重的共线性。现在是85页\一共有119页\编辑于星期三864/10/2023第五章864/10/2023运行结果学生化残差的诊断结论现在是86页\一共有119页\编辑于星期三874/10/2023第五章874/10/2023REG过程的菜单操作Analyst现在是87页\一共有119页\编辑于星期三884/10/2023第五章884/10/2023REG过程的菜单操作OpenBySASName现在是88页\一共有119页\编辑于星期三894/10/2023第五章894/10/2023REG过程的菜单操作现在是89页\一共有119页\编辑于星期三904/10/2023第五章904/10/2023REG过程的菜单操作RegressionLinear现在是90页\一共有119页\编辑于星期三914/10/2023第五章914/10/2023REG过程的菜单操作现在是91页\一共有119页\编辑于星期三924/10/2023第五章924/10/2023REG过程的菜单操作现在是92页\一共有119页\编辑于星期三934/10/20235.4非线性回归分析的过程一、可直线化的简单曲线拟合

曲线拟合一般可分为2类:第一:曲线直线化法,即利用变量变换的方法,使变换后的2个变量之间呈直线关系。求出直线回归方程后,再将方程中的变量还原,即得曲线回归方程。这一类又可分为以下两种情况:①直线化后的方程中只保留1个自变量。②直线化后的方程中有多个自变量,但它们都是由最初始的1个自变量变换得来的。既所谓的多项式回归,其本质是把一元回归间题转变成多元线性回归。第二:有些曲线方程不能经过变量变换使之直线化或给定初值后直接拟合曲线方程属于非线性回归问题。第五章934/10/2023现在是93页\一共有119页\编辑于星期三944/10/2023曲线拟合的基本步骤①画出(x,y)的散点图,根据散点图的变化趋势,并结合常见曲线图形的形状和专业知识,初步选定几种最可能的曲线类型;②根据所选定的曲线方程的特点,作相应的变量变换,使曲线直线化;③建立直线化后的直线回归方程,并作显著性检验;④将变量还原,写出用原变量表达的曲线方程;若对同一批资料拟合了几个可能的模型,需作曲线的拟合优度检验,看它们在描述同一批资料上是否有显著差别,对拟合得最好的曲线方程作残差分析,考察所拟合的曲线回归方程在专业上是否成立,是否值得应用。现在是94页\一共有119页\编辑于星期三954/10/2023[例5-9]

观测11个水稻品种的各种性状:穗数X1、枝梗数X2、批粒数X3、200粒重y,每种水稻以5株为一个单位。研究水稻200粒的重量与穗数、枝梗数、批粒数之间的关系,分析哪些因素对200粒重量的影响较大。(数据存在于数据集DATA.LI59)。数据处理,建立原变量的二次项:X11,X22,X33

datali59a;setdata.li59;x11=x1*x1;x22=x2*x2;x33=x3*x3;quit;现在是95页\一共有119页\编辑于星期三964/10/2023编程:proc

regdata=li59a;modely=x1x2x3x11x22x33/selection=stepwise;modely=x1x2x3x11x22x33/selection=backwardnoint;modely=x1x2x3x11x22x33/selection=forwardnoint;modely=x2x22x33/selection=stepwisenointrcliinfluencecollin;quit;现在是96页\一共有119页\编辑于星期三974/10/2023程序说明:

第一个REG过程调用数据集LI59A进行分析,用了4个模型,前三个模型是对变量的筛选,第4个模型是在前三个模型变量筛选后添加上的。选项说明:

NOINT:要求模型中不含截距项;

R:要求进行残差分析,输出选择项R要求的一切内容,包括预测值和残差值的标准误差、学生化残差和COOK‘sD统计量来度量在参数估计中每个观测对预测值的影响大小。

CLI:对各个预测值y要求输出95%的置信上界和下界。这个置信区间反映了误差的偏差,以及参数估计的偏差。

COLLIN:要求详细分析回归变量间的共线性,包括特征值、条件指数及相对于每个特征值这些估计的方差的分解。

INFLUENCE:要求输出在估计值和预测值方面每个观测影响的详细分析.现在是97页\一共有119页\编辑于星期三984/10/2023[例5-10]

试对以下一组数据选择指数曲线、幂函数曲线以及对数曲线进行拟和。

首先绘制散点图,观察其变化趋势,XY250.2500.311000.472000.513000.645000.727000.8510000.91第五章现在是98页\一共有119页\编辑于星期三994/10/2023编程DATALI5_10;INPUTXY@@;Y1=LOG(Y);X1=LOG(X);CARDS;250.2500.311000.472000.513000.645000.727000.8510000.91;PROCPRINT;RUN;PROCGPLOTDATA=LI5_10;PLOTY*XY*X1Y1*XY1*X1;RUN;PROCREGDATA=LI5_10;MODELY=X;MODELY=X1;MODELY1=X;MODELY1=X1;QUIT;现在是99页\一共有119页\编辑于星期三1004/10/2023程序说明:

DATA步中的表达式y1=1og(y),x1=1og(x)分别表示取y和x的自然对数,即y1=ln(y),x1=ln(x)。如果取以10为底的对数据,则需写成:y1=log10(y),x1=log10(x)。

REG过程中的第1个MODEL语句是拟合直线方程;第2个MODEL语句是拟合对数曲线方程;第3个MODEL语句是拟合指数曲线方程;第4个MODEL语句是拟合幂函数。现在是100页\一共有119页\编辑于星期三1014/10/2023二、多项式曲线拟合[例5-10]用一个简单的曲线方程描述了数据之间关系的大致情况,但残差分析的结果不太理想,可以试着在不改变曲线类型的前提下,通过改变变量的次数,以得到最佳的方程。即为多项式曲线拟和[例5-11]。现在是101页\一共有119页\编辑于星期三1024/10/2023[例5-11]DATALI5_11;INPUTXY@@;X1=LOG(X);X2=X1*X1;X3=X2*X1;CARDS;250.2500.311000.472000.513000.645000.727000.8510000.91;PROCPRINT;RUN;PROCREGDATA=LI5_11;MODELY=X1X2X3/SELECTION=SETPWISEPRNOINT;OUTPUTOUT=LI5_11OUTP=YHATR=RESID;QUIT;PROCGPLOTDATA=LI5_11OUT;PLOTY*XYHAT*X/OVERLAY;RUN;现在是102页\一共有119页\编辑于星期三1034/10/2023程序说明:

用DATA步建立新变量:x2、x3分别为x对数的二次方和三次方,在MODEL语句中将这两个新变量加入,用逐步回归法重新拟合对数曲线,将预测值和残差值输出到数据集LI5_10out中,用PLOT过程将预测值与原始数据绘制在一张图上,从图形上可以较直观地比较预测值的效果好坏。从输出结果上看,截距项在模型中不显著。所以添加上NOINT选项,去掉模型中的截距项重新拟合。现在是103页\一共有119页\编辑于星期三1044/10/20235.5Logistic回归分析过程*

LOGISTIC回归分析过程用于处理二分或二分以上的类别数据。分析方法包括逐步回归分析以及各种诊断统计量。统计模型的形式可以是概率模型或逻辑斯谛模型。当模型中的自变量数目过多时,LOGISTIC过程可提供逐步排除的方法来挑选最精简的模型。输出结果包含回归模型的诊断以及预测值、预测误差等。

1044/10/2023现在是104页\一共有119页\编辑于星期三1054/10/2023

其统计理论基础是逻辑斯谛回归分析(LogisticRegression),这个分析所用的参数估计法是最大似然法。二分的因变量(或称反应变量)表达现象的两种可能性。其分析的目的是为了找出这个因变量值与一组连续变量(或称自变量)之间的线性关系。这个线性关系的表示可用因变量的对数奇数比单位(Logit)、正态数单位(Normit)、或双对数单位(Log-Log)等。因此,产生了三类线性函数表示法。此外,LOGISTIC过程也可利用三种简化模型的方式来找到一个更精简的函数关系。现在是105页\一共有119页\编辑于星期三

这三种简化模型的方式由MODEL语句中的选项“SELECTION=”来界定。对于定序变量可以通过同样的控制来找出其与一组连续变量之间的线性关系,

逻辑斯谛回归模型的反应变量可以是一个二分的变量或次序变量。因此,模型的量化单位则可以是Logit、Normit或Log-Log等三种形式。这几种可能情况的排列组合就形成逻辑斯谛回归模型的不同类型。1064/10/2023现在是106页\一共有119页\编辑于星期三

二分反应变量的模型:如果反应变量的值只可以是二分的(如1=正向结果,2=负向结果),则任何一个观测在此变量上得1(即正向结果)的概率:p=Prob(Y=1|X),可用对数奇数比的单位来表示。其回归模型为:

其中:

代表一组自变量,

是模型中的截距,是对应自变量的回归系数(即待估计参数)。该回归模型与一般的线性模型相同。都代表因变量Y的平均数,即Prob(Y=1)与一组连续变量间的函数对应关系。1074/10/2023现在是107页\一共有119页\编辑于星期三

次序变量的模型

如果反应变量为次序变量,则系统用1,2,┅,k,k+1的整数来代表这些组别,由于组别数可能大于2。因此,LOGISTIC程序得将回归模型改写成:其中:

。因此,(k+1)组只需k个截距参数再加上k个与斜率有关的参数即可解释次序变量上反应分布的情况。1084/10/2023现在是108页\一共有119页\编辑于星期三1094/10/2023LOGISTIC过程的程序无论在功能上或基本语法上和其它的回归程序类似。假设Y为一个二分的因变量,X1、X2分别是两个自变量,则其程序的写法在LOGISTIC过程中与REC过程是完全一致的。

例如:PROCLOGISTIC;MODELY=X1X2;QUIT;

其中Y

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论