SAS 系统基础.ppt

上传人：过*** IP属地：江西上传时间：2020-01-17 格式：PPT 页数：280 大小：3.90MB 积分：12 举报 版权申诉

免费预览已结束，剩余275页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

采用GLM过程进行回归和方差分析 1 GLM应用背景2 GLM原理简介3 GLM的功能4 GLM的格式5 GLM作一元线性回归6 GLM作多元线性回归7 GLM作多项式回归8 虚拟变量的设置9 多个随机实验组协方差分析 GLM应用 10趋势面回归分析 GLM应用 11非线性回归分析一对数多项式回归 12非线性回归二拟合Logistic曲线与正负指数的回归 13方差分析 ANOVA 14多因素二水平排列组合方差分析 ANOVA的应用 15随机配伍组与对照组的方差分析 ANOVA的应用采用GLM过程进行回归和方差分析 1 GLM应用背景相关分析只能反映两变量之间的相关性强弱及趋势但无法给出变量间因果关系的函数关系即函数方程回归分析可以给出因变量随机变量与自变量可控变量的相关关系的函数关系式 GLM就是研究相关关系广泛的使用的方法 2 GLM原理简介一最小二乘法原理GLM原理是使用最小二乘法 leastsquaremethod 研讨一个线性模型一最小二乘法原理一背景基本介绍在实际应用中如金融经济变量之间的关系大体上可以分为两种 1 函数关系 Y f X1 X2 XP 其中Y的值是由Xi i 1 2 p 所唯一确定的 2 相关关系 Y f X1 X2 XP 这里Y的值不能由Xi i 1 2 p 精确的唯一确定一最小二乘法原理图5 1表示的是我国货币供应量M2 y 与经过季节调整的GDP x 之间的关系数据为1995年第一季度到2004年第二季度的季度数据一最小二乘法原理但有时候我们想知道当x变化一单位时 y平均变化多少可以看到由于图中所有的点都相对的集中在图中直线周围因此我们可以以这条直线大致代表x与y之间的关系如果我们能够确定这条直线我们就可以用直线的斜率来表示当x变化一单位时y的变化程度由图中的点确定线的过程就是回归一最小二乘法原理但有时候我们想知道当x变化一单位时 y平均变化多少可以看到由于图中所有的点都相对的集中在图中直线周围因此我们可以以这条直线大致代表x与y之间的关系如果我们能够确定这条直线我们就可以用直线的斜率来表示当x变化一单位时y的变化程度由图中的点确定线的过程就是回归一最小二乘法原理对于变量间的相关关系我们可以根据大量的统计资料找出它们在数量变化方面的规律即平均的规律这种统计规律所揭示的关系就是回归关系 regressiverelationship 所表示的数学方程就是回归方程 regressionequation 或回归模型 regressionmodel 一最小二乘法原理图5 1中的直线可表示为 5 1 根据上式在确定的情况下给定一个x值我们就能够得到一个确定的y值然而根据式 2 1 得到的y值与实际的y值存在一个误差即图2 1中点到直线的距离一最小二乘法原理如果我们以表示误差则方程 5 1 变为其中t 1 2 3 T 表示观测数 5 2 5 3 式 2 3 即为一个简单的双变量回归模型因其仅具有两个变量x y 的基本形式一最小二乘法原理其中yt被称作因变量 dependentvariable 被解释变量 explainedvariable 结果变量 effectvariable xt被称作自变量 independentvariable 解释变量 explanatoryvariable 原因变量 causalvariable 一最小二乘法原理为参数 parameters 或称回归系数 regressioncoefficients t通常被称为随机误差项 stochasticerrorterm 或随机扰动项 randomdisturbanceterm 简称误差项在回归模型中它是不确定的服从随机分布相应的 yt也是不确定的服从随机分布一最小二乘法原理为什么将 t包含在模型中 1 有些变量是观测不到的或者是无法度量的又或者影响因变量yt的因素太多 2 在yt的度量过程中会发生偏误这些偏误在模型中是表示不出来的 3 外界随机因素对yt的影响也很难模型化比如恐怖事件自然灾害设备故障等一最小二乘法原理假设线性回归模型为t 1 2 3 T 5 4 对y产生影响的解释变量共有k 1 x2t x3t xkt 个系数 1 2 k 分别衡量了解释变量对因变量y的边际影响的程度最小二乘法的基本原则是最优拟合直线应该使各点到直线的距离的和最小也可表述为距离的平方和最小一最小二乘法原理方差分析SST SSE SSRSST SSE SSR的关系以下图来表示更加直观一些图5 2SST SSE SSR的关系一最小二乘法原理 5 5 是被模型所解释的部分称为回归平方和 theexplainedsumofsquares 简记SSR 是不能被模型所解释的残差平方和 SSE 即配置最佳线性方程的条件是 1 SSR达到最小2 因变量的偏离其均值的偏差和为零采用GLM过程进行回归和方差分析 1 GLM应用背景2 GLM原理简介3 GLM的功能4 GLM的格式5 GLM作一元线性回归6 GLM作多元线性回归7 GLM作多项式回归8 虚拟变量的设置9 多个随机实验组协方差分析 GLM应用 10趋势面回归分析 GLM应用 11非线性回归分析一对数多项式回归 12非线性回归二拟合Logistic曲线与正负指数的回归 13方差分析 ANOVA 14多因素二水平排列组合方差分析 ANOVA的应用 15随机配伍组与对照组的方差分析 ANOVA的应用概述本章目录 GLM中语句的格式 ProcGLM data dataname output 输出统计量 order formated freq data internal Class分类变量此为第二条语句后面需model配合 Model因变量Y 自变量X NOINT INT intercept NounI solution tolerrance E E1 E2 E3 E4 SS1 SS2 SS3 SS4 P CLM CLI ALPHA XPX INVERSE SINGULAR 1E 8或0 ZETA 1E 8或0 GLM过程 GLM中语句的格式续 CONTRAST 对照说明 10个汉字 20个字符向量L及元素 E E effect或默认为MS ETYPE n SINGULAR number ESTIMATE 估计的说明小于20个字符值1值2 E DIViSOR number SINGULAR number LSMEANSeffect E effect ETYPE n SINGULAR number STDERR PDIFF NMAMES namesPREFIX name PRINTHPRINTEHTYPE nETYPE nCANONICALSUMMARYORTH GLM过程 GLM中语句的格式续 outputout 数据集名称predicted 变量表 P 变量表 RESIDUAL 变量表 R 变量表 Randomeffect Q REPEATED因变量名因子1因子2因子3 值1值2 转换的关键字选项详见ANOVA一章 TESTH effectsE effect HTYPE ETYPE 详见ANOVA一章 GLM过程 GLM中语句的格式续 BY变量表 ABSORB变量表变量表须预先sort 此语句使GLM无法产生预测值或输出一个数据集 FREQ变量表按变量表中的观察值n 显示n次 ID变量表要求在同行上显示出各变量值预测值及残差 MEANSEffcet 选项详见ANOVA一章means语句 GLM过程 GLM中各语句的格式说明 1 主语句procGLM的说明ProcGLM data dataname output 输出统计量 order formated freq data internal order 关键字 order formated freq data internal可选4个中的某个 order formated 要求人为指定数据显示格式order freq 要求按观察值频次降序排列 GLM过程 GLM中各语句的格式说明续 order data 要求按数据录入顺序即原始数据行显示数据行 order internal 按系统默认格式显示数据行 GLM过程 GLM中各语句的格式说明续 2 Class分类变量格式为 classV1V2 V1V2 均为分类变量字符型变量限于10个字符内 Class分类变量此为第二条语句后面必需与model配合 GLM过程 GLM中各语句的格式说明续 Model语句必不可少 Model语句必不可少用于建立各种回归模型或方差分析模型例设A B C代表分类变量 V1 V3代表连续变量可用Model语句建立三类模型 GLM过程 GLM中各语句的格式说明续 GLM过程 GLM中各语句的格式说明续 Model备注 1 modelY Abca ba cb ca b c等效于modelY a b c 等号右边为自变量或独立变量比如Ab等号左边为因变量 3 控制标准假设检验方面的选项 E 要求GLM显示所有估计函数的一般格式 E1 显示每个效应 effect 第一类 TYPEI 的估计函数 E2 显示每个效应 effect 第二类 TYPE2 的估计函数 E3 显示每个效应 effect 第三类 TYPE3 的估计函数 E4 显示每个效应 effect 第四类 TYPE4 的估计函数 3 控制标准假设检验方面的选项续 ss1 显示每个效应配合type1估计函数所产生的平方和ssss2 显示每个效应配合type2估计函数所产生的平方和ssss3 显示每个效应配合type3估计函数所产生的平方和ssss4 显示每个效应配合type4估计函数所产生的平方和ss 4 预测值与残差值的选项 P 要求GLM显示每个观测值预测值残差及DW统计量 Clm显示每个观测值预测值的置信度Cli显示每个观测值置信度ALPHA p 指定置信区间的ALPHA值 5 显示中间结果 XPX 要求显示XTX矩阵Inverse 显示XTX矩阵逆矩阵或一般化矩阵 6 调整模型 Singular 值n 调整回归模型对线性关系的敏感性默认值为n 1E 8ZETA 值m 对可估计的type3和type4两检验函数的敏感性进行检验 m 1E 8Procglm Classabc Modely a b c E2E3ZETA 1E 6 GLM过程 Contrast 对照语句 Contrast格式contrast 对照说明向量L值1值2 选项该语句可以对结果进行假设检验如单变量 H0 LB 0 多变量 H0 LBM 0 GLM过程 Contrast 对照语句例如ModelY AB A有五种值 B有三种值向量L元素为 miuA1A2A3A4A5B1B2B3 H0 A合并线性 pooledAliner 与A二次效应为0L矩阵 0 2 101200 02 1 2 1200 GLM过程 Contrast 对照语句后的选项E要求显示整个L向量E effect 在模型中指定一个effect项为误差项省略用估计的MS作为误差项ETYPE nn 1234指明E effect类型Singular number 用于检查估计值 GLM过程 Contrast 对照语句 Procglm Classabc Modely a b c E2E3ZETA 1E 6Contrast A的线性与二次效应 A 2 1012A2 1 2 12 ESingular 1E 2 GLM过程 Estimate语句该句用于估计参数的线性函数它必须紧跟在MODEL之后格式 model estimate 标签内容 20个字符向量名称元素1 Edivisor m 向量中元素除以m singular n 估计向量L所用的检验值 GLM过程 Lsmeans语句格式 Lsmeans BC EstderrpdiffE effctEtype nsingular number 说明同上 Procglm Classabc Modely abca b Lsmeansy abca b Lsmeans语句要求显示abc主效应及a b交互效应中每个水平 lever 的最小二乘法的均值 GLM过程 Manova语句 ManovaH effectE effectM 式1 式2 Mnames V1 Prefix 被转换的变量名 printhprinteshortCanonicalsummary 说明见ANOVA ANOVA 全称是AnalysisOfVariation GLM过程 Output语句 Outputout 数据及名称predicted P VnResidual R vnVn为新变量名例如 Procglm Classabc Modely abca b Outputout new1P YhatR Resid Run GLM过程 RANDOM 该语句指定模型中具有随机性的effect项以便显示type1 type4中每个effect的期望值格式 Randomabc q Qx显示出主效应中期望均方的完整二次型 Eg Randomsexedc q GLM过程 Repeated语句该语句表示同一试验单位下在model语句中因变量值具有的重复测量格式repeated因变量名因子1因子2 GLM过程其他语句 AbsorbV1V2 BYV1V2 FreqV IDV1V2 GLM过程实例1 optionsnodatenonumber procformat valuegroupfmt1 Hydrolysate I 2 Hydrolysate II 3 Casein dataaconova1 doi 1to8 dogroup 1to3 inputagefoodweight output end end formatgroupgroupfmt cards 6281 7375309 8248259 38210274 0476317 8435241 2668253 83710326 1606248 5745261 4348322 1507242 8797272 8427323 5478255 7825272 2276321 2427254 3766272 3325311 8395244 6737293 24410324 55310243 890 procglm classgroup modelweight groupagefood solution lsmeansgroup pdiffstderr run GLM过程实例1 TheSASSystemTheGLMProcedureDependentVariable weightSumofSourceDFSquaresMeanSquareFValuePr FModel48557 6897092139 422427142 31 0001Error19285 64362515 033875CorrectedTotal238843 333333 GLM过程实例1解释 R SquareCoeffVarRootMSEweightMean0 9677007 2700393 87735453 33333SourceDFTypeISSMeanSquareFValuePr Fgroup27364 3333333682 166667244 92Fgroup24452 0346762226 017338148 07 0001age1868 748973868 74897357 79 0001food169 15070869 1507084 600 0451TypeIIISS表示每一个自变量分别最后选入到回归模型时model ssR 的增加值 GLM过程实例1解释 StandardParameterEstimateErrortValuePr t Intercept 52 36421256B32 01484931 1 640 1184groupCasein49 08673657B7 518895226 53 0001groupHydrolysate I4 50030871B5 151752580 870 3933groupHydrolysate II0 00000000B age3 737626120 491681847 60 0001food0 220537000 102829712 140 0451 GLM过程实例1解释 TheGLMProcedureLeastSquaresMeansweightStandardLSMEANgroupLSMEANErrorPr t NumberCasein84 55772153 5301129 00011Hydrolysate I39 97129361 5696985 00012Hydrolysate II35 47098494 2399044 00013显示每个效应下的均值及标准误差 GLM过程实例1解释 LeastSquaresMeansforeffectgroupPr t forH0 LSMean i LSMean j DependentVariable weighti j1231 0001 00012 00010 39333 00010 3933显示所有可能的概率值 GLM过程 5 调用GLM程序作一元线性回归例如 Procglm Formatedcedcf Formatsexsexf modelsal2 edc Outputout new1P predictR residual Procplot Plotsal2 edcpredict edc p overlay Plotresidual edc vref 0 Run GLM过程结果说明 P表示图点Vref表示正负分界线残差不独立说明 GLM过程第二节一元回归估计与检验理论估计 LSE 检验 F 第一节估计理论参数的最小二乘估计一方法介绍本章所介绍的是普通最小二乘法 ordinaryleastsquares 简记OLS 最小二乘法的基本原则是最优拟合直线应该使各点到直线的距离的和最小也可表述为距离的平方和最小假定根据这一原理得到的估计值为则直线可表示为直线上的yt值记为称为拟合值 fittedvalue 实际值与拟合值的差记为称为残差 residual 可以看作是随机误差项的估计值根据OLS的基本原则使直线与各散点的距离的平方和最小实际上是使残差平方和 residualsumofsquares 简记RSS 最小即最小化 RSS 2 4 根据最小化的一阶条件将式2 4分别对求偏导并令其为零即可求得结果如下 2 5 2 6 二一些基本概念1 总体 thepopulation 和样本 thesample 总体是指待研究变量的所有数据集合可以是有限的也可以是无限的而样本是总体的一个子集 2 总体回归方程 thepopulationregressionfunction 简记PRF 样本回归方程 thesampleregressionfunction 简记SRF 总体回归方程 PRF 表示变量之间的真实关系有时也被称为数据生成过程 DGP PRF中的值是真实值方程为 2 7 样本回归方程 SRF 是根据所选样本估算的变量之间的关系函数方程为注意 SRF中没有误差项根据这一方程得到的是总体因变量的期望值 2 8 于是方程 2 7 可以写为 2 9 总体y值被分解为两部分模型拟合值和残差项 3 线性关系对线性的第一种解释是指 y是x的线性函数比如 y 对线性的第二种解释是指 y是参数的一个线性函数它可以不是变量x的线性函数比如y 就是一个线性回归模型但则不是在本课程中线性回归一词总是对指参数为线性的一种回归即参数只以一次方出现对解释变量x则可以是或不是线性的有些模型看起来不是线性回归但经过一些基本代数变换可以转换成线性回归模型例如 2 10 可以进行如下变换 2 11 令则方程 2 11 变为 2 12 可以看到模型2 12即为一线性模型 4 估计量 estimator 和估计值 estimate 估计量是指计算系数的方程而估计值是指估计出来的系数的数值最小二乘估计量的性质和分布一经典线性回归模型的基本假设 1 即残差具有零均值 2 var 即残差具有常数方差且对于所有x值是有限的 3 cov 即残差项之间在统计意义上是相互独立的 4 cov 即残差项与变量x无关 5 t N 即残差项服从正态分布二最小二乘估计量的性质如果满足假设 1 4 由最小二乘法得到的估计量具有一些特性它们是最优线性无偏估计量 BestLinearUnbiasedEstimators 简记BLUE 估计量 estimator 意味着是包含着真实值的估计量线性 linear 意味着与随机变量y之间是线性函数关系无偏 unbiased 意味着平均而言实际得到的值与其真实值是一致的最优 best 意味着在所有线性无偏估计量里 OLS估计量具有最小方差三 OLS估计量的方差标准差和其概率分布1 OLS估计量的方差标准差给定假设 1 4 估计量的标准差计算方程如下其中是残差的估计标准差 2 21 2 22 参数估计量的标准差具有如下的性质 1 样本容量T越大参数估计值的标准差越小 2 和都取决于s2 s2是残差的方差估计量 s2越大残差的分布就越分散这样模型的不确定性也就越大如果s2很大这意味着估计直线不能很好地拟合散点 3 参数估计值的方差与成反比其值越小散点越集中这样就越难准确地估计拟合直线相反如果越大散点越分散这样就可以容易地估计出拟合直线并且可信度也大得多比较图2 2就可以清楚地看到这点图2 2直线拟合和散点集中度的关系 4 项只影响截距的标准差不影响斜率的标准差理由是衡量的是散点与y轴的距离越大散点离y轴越远就越难准确地估计出拟合直线与y轴的交点即截距反之则相反 2 OLS估计量的概率分布给定假设条件 5 即则也服从正态分布系数估计量也是服从正态分布的 2 30 2 31 需要注意的是如果残差不服从正态分布即假设 5 不成立但只要CLRM的其他假设条件还成立且样本容量足够大则通常认为系数估计量还是服从正态分布的其标准正态分布为 2 32 2 33 但是总体回归方程中的系数的真实标准差是得不到的只能得到样本的系数标准差用样本的标准差去替代总体标准差会产生不确定性并且将不再服从正态分布而服从自由度为T 2的t分布其中T为样本容量即 2 34 2 35 3 正态分布和t分布的关系图2 3正态分布和t分布形状比较从图形上来看 t分布的尾比较厚均值处的最大值小于正态分布随着t分布自由度的增大其对应临界值显著减小当自由度趋向于无穷时 t分布就服从标准正态分布了所以正态分布可以看作是t分布的一个特例第二节一元线性回归模型的统计检验一拟合优度 goodnessoffitstatistics 检验拟合优度可用R2表示模型所要解释的是y相对于其均值的波动性即总平方和 thetotalsumofsquares 简记TSS 这一平方和可以分成两部分 2 36 是被模型所解释的部分称为回归平方和 theexplainedsumofsquares 简记ESS 是不能被模型所解释的残差平方和 RSS 即 TSS ESS RSS的关系以下图来表示更加直观一些图2 4TSS ESS RSS的关系拟合优度因为TSS ESS RSS所以R2 2 39 2 37 2 38 R2越大说明回归线拟合程度越好 R2越小说明回归线拟合程度越差由上可知通过考察R2的大小我们就能粗略地看出回归线的优劣但是 R2作为拟合优度的一个衡量标准也存在一些问题 1 如果模型被重新组合被解释变量发生了变化那么R2也将随之改变因此具有不同被解释变量的模型之间是无法来比较R2的大小的 2 增加了一个解释变量以后 R2只会增大而不会减小除非增加的那个解释变量之前的系数为零但在通常情况下该系数是不为零的因此只要增加解释变量 R2就会不断的增大这样我们就无法判断出这些解释变量是否应该包含在模型中 3 R2的值经常会很高达到0 9或更高所以我们无法判断模型之间到底孰优孰劣为了解决上面第二个问题我们通常用调整过的R2来代替未调整过的R2 对R2进行调整主要是考虑到在引进一个解释变量时会失去相应的自由度调整过的R2用来表示公式为其中T为样本容量 K为自变量个数 2 40 二假设检验假设检验的基本任务是根据样本所提供的信息对未知总体分布某些方面的假设做出合理解释假设检验的程序是先根据实际问题的要求提出一个论断称为零假设 nullhypothesis 或原假设记为H0 一般并列的有一个备择假设 alternativehypothesis 记为H1 然后根据样本的有关信息对H0的真伪进行判断做出拒绝H0或不能拒绝H0的决策假设检验的基本思想是概率性质的反证法概率性质的反证法的根据是小概率事件原理该原理认为小概率事件在一次实验中几乎是不可能发生的在原假设H0下构造一个事件即检验统计量这个事件在原假设H0是正确的的条件下是一个小概率事件如果该事件发生了说明原假设H0是正确的是错误的因为不应该出现的小概率事件出现了应该拒绝原假设H0 假设检验有两种方法置信区间检验法 confidenceintervalapproach 和显著性检验法 testofsignificanceapproach 显著性检验法中最常用的是t检验和F检验前者是对单个变量系数的显著性检验后者是对多个变量系数的联合显著性检验一 t检验下面我们具体介绍对方程 2 3 的系数进行t检验的主要步骤 1 用OLS方法回归方程 2 3 得到的估计值及其标准差 2 假定我们建立的零假设是备则假设是这是一个双侧检验则我们建立的统计量服从自由度为T 2的t分布 3 选择一个显著性水平通常是5 我们就可以在t分布中确定拒绝区域和非拒绝区域如图2 5 如果选择显著性水平为5 则表明有5 的分布将落在拒绝区域图2 5双侧检验拒绝区域和非拒绝区域分布 4 选定显著性水平后我们就可以根据t分布表求得自由度为T 2的临界值当检验统计值的绝对值大于临界值时它就落在拒绝区域因此我们拒绝的原假设而接受备则假设反之则相反可以看到 t检验的基本原理是如果参数的假设值与估计值差别很大就会导致小概率事件的发生从而导致我们拒绝参数的假设值二置信区间法仍以方程2 3的系数为例置信区间法的基本思想是建立围绕估计值的一定的限制范围推断总体参数是否在一定的置信度下落在此区间范围内置信区间检验的主要步骤所建立的零假设同t检验 1 用OLS法回归方程 2 3 得到的估计值及其标准差 2 选择一个显著性水平通常为5 这相当于选择95 的置信度查t分布表获得自由度为T 2的临界值 3 所建立的置信区间为 2 41 4 如果零假设值落在置信区间外我们就拒绝的原假设反之则不能拒绝需要注意的是置信区间检验都是双侧检验尽管在理论上建立单侧检验也是可行的三 t检验与置信区间检验的关系在显著性检验法下当的绝对值小于临界值时即 2 42 时我们不能拒绝原假设对式 2 41 变形我们可以得到 2 43 可以看到式 2 43 恰好是置信区间法的置信区间式 2 41 因此实际上t检验法与置信区间法提供的结果是完全一样的四第一类错误和第二类错误如果有一个零假设在5 的显著性水平下被拒绝了有可能这个拒绝是不正确的这种错误被称为第一类错误它发生的概率为5 另外一种情况是我们得到95 的一个置信区间落在这个区间的零假设我们都不能拒绝当我们接受一个零假设的时候也可能犯错误因为回归系数的真实值可能是该区间内的另外一个值这一错误被称为第二类错误在选择显著性水平时人们面临抉择降低犯第一类错误的概率就会增加犯第二类错误的概率五 P值P值是计量经济结果对应的精确的显著性水平 P值度量的是犯第一类错误的概率即拒绝正确的零假设的概率 P值越大错误地拒绝零假设的可能性就越大 p值越小拒绝零假设时就越放心现在许多统计软件都能计算各种统计量的p值如Eviews Stata等第三节多变量线性回归模型的统计检验一多变量模型的简单介绍考察下面这个方程 t 1 2 3 T 2 44 对y产生影响的解释变量共有k 1 x2t x3t xkt 个系数 1 2 k 分别衡量了解释变量对因变量y的边际影响的程度方程 2 44 的矩阵形式为这里 y是T 1矩阵 X是T k矩阵是k 1矩阵 u是T 1矩阵 2 46 在多变量回归中残差向量为 2 47 残差平方和为 2 48 可以得到多变量回归系数的估计表达式 2 49 同样我们可以得到多变量回归模型残差的样本方差 2 50 参数的协方差矩阵 2 51 二拟合优度检验在多变量模型中我们想知道解释变量一起对因变量y变动的解释程度我们将度量这个信息的量称为多元判定系数R2 在多变量模型中下面这个等式也成立 TSS ESS RSS 2 52 其中 TSS为总离差平方和 ESS为回归平方和 RSS为残差平方和与双变量模型类似定义如下即 R2是回归平方和与总离差平方和的比值与双变量模型唯一不同的是 ESS值与多个解释变量有关 R2的值在0与1之间越接近于1 说明估计的回归直线拟合得越好 2 53 可以证明 2 54 因此 2 55 三假设检验一 t检验在多元回归模型中 t统计量为 2 56 均服从自由度为 n k 的t分布下面的检验过程跟双变量线性回归模型的检验过程一样二 F检验F检验的第一个用途是对所有的回归系数全为0的零假设的检验第二个用途是用来检验有关部分回归系数的联合检验就方法而言两种用途是完全没有差别的下面我们将以第二个用途为例对F检验进行介绍为了解联合检验是如何进行的考虑如下多元回归模型 2 57 这个模型称为无约束回归模型 unrestrictedregression 因为关于回归系数没有任何限制假设我们想检验其中q个回归系数是否同时为零为此改写公式 2 57 将所有变量分为两组第一组包含k q个变量包括常项第二组包含q个变量 2 58 如果假定所有后q个系数都为零即建立零假设则修正的模型将变为有约束回归模型 restrictedregression 零系数条件 2 59 关于上述零假设的检验很简单若从模型中去掉这q个变量对有约束回归方程 2 59 进行估计的话得到的误差平方和肯定会比相应的无约束回归方程的误差平方和大如果零假设正确去掉这q个变量对方程的解释能力影响不大当然零假设的检验依赖于限制条件的数目即被设定为零的系数个数以及无约束回归模型的自由度检验的统计量为 2 60 在这里分子是误差平方和的增加与零假设所隐含的参数限制条件的个数之比分母是模型的误差平方和与无条件模型的自由度之比如果零假设为真式 2 60 中的统计量将服从分子自由度为q 分母自由度为N K的F分布对回归系数的子集的F检验与对整个回归方程的F检验做法一样选定显著性水平比如1 或5 然后将检验统计量的值与F分布的临界值进行比较如果统计量的值大于临界值我们拒绝零假设认为这组变量在统计上是显著的一般的原则是必须对两个方程分别进行估计以便正确地运用这种F检验 F检验与R2有密切的联系回想则 2 61 两个统计量具有相同的因变量因此将上面的两个方程代入 2 60 检验的统计量可以写成 2 62 第四节预测一预测的概念和类型一预测的概念金融计量学中所谓预测就是根据金融经济变量的过去和现在的发展规律借助计量模型对其未来的发展趋势和状况进行描述分析形成科学的假设和判断二预测原理条件期望 conditionalexpectations 在t期Y的t 1期的条件期望值记作它表示的是在所有已知的t期的信息的条件下 Y在t 1期的期望值假定在t期我们要对因变量Y的下一期即t 1期值进行预测则记作在t期对Y的下一期的所有预测值中 Y的条件期望值是最优的即具有最小方差因此我们有 2 65 三预测的类型 1 无条件预测和有条件预测所谓无条件预测是指预测模型中所有的解释变量的值都是已知的在此条件下所进行的预测所谓有条件预测是指预测模型中某些解释变量的值是未知的因此想要对被解释变量进行预测必须首先预测解释变量的值 2 样本内 in sample 预测和样本外 out of sample 预测所谓样本内预测是指用全部观测值来估计模型然后用估计得到的模型对其中的一部分观测值进行预测样本外预测是指将全部观测值分为两部分一部分用来估计模型然后用估计得到的模型对另一部分数据进行预测 3 事前预测和事后模拟顾名思义事后模拟就是我们已经获得要预测的值的实际值进行预测是为了评价预测模型的好坏事前预测是我们在不知道因变量真实值的情况下对其的预测 4 一步向前 one step ahead 预测和多步向前 multi step ahead 预测所谓一步向前预测是指仅对下一期的变量值进行预测例如在t期对t 1期的值进行预测在t 1期对t 2期的值进行的预测等多步向前预测则不仅是对下一期的值进行预测也对更下期值进行预测例如在t期对t 1期 t 2期 t r期的值进行预测二预测的评价标准平均预测误差平方和 meansquarederror 简记MSE 平均预测误差绝对值 meanabsoluteerror 简记MAE 变量的MSE定义为 MSE 2 66 其中的预测值实际值 T 时段数变量的MAE定义如下 MAE 变量的定义同前 2 67 可以看到 MSE和MAE度量的是误差的绝对大小只能通过与该变量平均值的比较来判断误差的大小误差越大说明模型的预测效果越不理想 2 Theil不相等系数其定义为 2 68 注意 U的分子就是MSE的平方根而分母使得U总在0与1之间如果U 0 则对所有的t 完全拟合如果U 1 则模型的预测能力最差因此 Theil不等系数度量的是误差的相对大小 Theil不等系数可以分解成如下有用的形式其中分别是序列和的平均值和标准差是它们的相关系数即 2 69 定义不相等比例如下 2 70 2 71 2 72 偏误比例表示系统误差因为它度量的是模拟序列与实际序列之间的偏离程度方差比例表示的是模型中的变量重复其实际变化程度的能力协方差比例度量的是非系统误差即反映的是考虑了与平均值的离差之后剩下的误差理想的不相等比例的分布是比例分别称为U的偏误比例方差比例协方差比例它们是将模型误差按特征来源分解的有效方法第五节模型选择一好模型具有的特性1 节省性 parsimony 一个好的模型应在相对精确反应现实的基础上尽可能的简单 2 可识别性 identifiability 对于给定的一组数据估计的参数要有唯一确定值 3 高拟合性 goodnessoffit 回归分析的基本思想是用模型中包含的变量来解释被解释变量的变化因此解释能力的高低就成为衡量模型好坏的重要的标准 4 理论一致性 theoreticalconsistency 即使模型的拟合性很高但是如果模型中某一变量系数的估计值符号与经济理论不符那么这个模型就是失败的 5 预测能力 predictivepower 著名经济学家弗里德曼 M Friedman 认为对假设模型的真实性唯一有效的检验就是将预测值与经验值相比较因此一个好的模型必须有对未来的较强的预测能力二用于预测的模型的选择因为R2将随着模型解释变量的增多而不断增加按照此标准我们将不会得到最佳的预测模型因此必须对由于解释变量增多而造成自由度丢失施加一个惩罚项其中的一个标准就是对自由度丢失惩罚更为严格的标准 Akaike的信息准则 Akaikeinformationcriterion 简记为AIC 和Schwarz的信息准则 Schwarzinformationcriterion 简记为SC 其中是方程随机误差项方差的估计值 k是解释变量的个数 T是样本容量可以看到 AIC和SC的惩罚项比更为严厉而且相对来说SC标准对自由度的惩罚比AIC更为严厉无论是AIC标准还是SC标准从预测的角度来看度量值越低模型的预测会更好 GLM过程多元回归 Procglm modelsal2 edcocu1 run 回归平方和的解释见结果 GLM过程多项式回归例如销售额与广告费及广告费用的平方datasales inputyx Xsq x 2 list cards 10001010001250116000150016500020002090002500264000 procprint procGLM modely xXsq outputout sap predictr residual procprintdata sa run GLM过程采用reg过程进行多元回归分析同学们自学格式Procregdata 名字ModelvarIdFreWeightAddDeleteDelobsn Printall Collinointpr Outputout new By GLM过程方差分析 ANOVA 单因素试验的方差分析在实际生活中经常需要对几个总体进行分析比较研究它们之间的差异以及产生这些差异的原因这时我们就要采用一种称为方差分析的方法来解决例如例8 1某大型集团公司的销售主管想比较五种不同的推销方法有无显著的效果差异在条件基本相同且无销售经验的人员中选取若干名分成五组分别进行不同销售方法的培训培训后观察他们在一个月内的销售额列于下表 GLM过程 8 1单因素试验的方差分析在实际生活中经常需要对几个总体进行分析比较研究它们之间的差异以及产生这些差异的原因这时我们就要采用一种称为方差分析的方法来解决例8 1某大型集团公司的销售主管想比较五种不同的推销方法有无显著的效果差异在条件基本相同且无销售经验的人员中选取若干名分成五组分别进行不同销售方法的培训培训后观察他们在一个月内的销售额列于下表在试验中我们所要考察的指标称为试验指标影响试验指标的条件称为因素这里的因素主要是指可以人为控制的条件如原料反映温度化肥种类等等因素所处的状态称为因素的水平只有一个因素在改变的试验称为单因素试验多于一个因素在改变的试验称为多因素试验例8 1中的试验指标为销售额销售方法为因素 5种不同的方法代表5种不同的水平这是一项单因素试验试验的目的是了解不同销售方法水平对销售额有无显著影响一般地试验指标记为X 对其有影响的因素记为A 设A有t个水平A1 A2 At 每个水平下的试验指标都是一个总体共有t个总体在水平Ai下进行了ni次独立试验得到第i个总体的样本 X1i X2i Xnii i 1 2 t 总共进行了n n1 n2 nt次试验试验得到的结果可列成下表的形式设在水平Ai下试验指标Aji来自正态总体N i 2 其中 i及 2均未知这里 2与i无关称为方差齐性记 ji Xji i 则 ji N i 2 表示随机误差这样单因素模型可表示为对于上述的模型方差分析的主要任务是 1 检验在各个水平下的均值是否相等即检验假设 H0 1 2 t H1 1 2 t不全相等 2 作出未知参数 1 2 t 2的估计记称为总平均称为因素A在第i个水平Ai下的主效应它反映了在水平Ai下总体均值与总平均的差异显然因此检验假设 H0 1 2 t H1 1 2 t不全相等等价于H0 a1 a2 at 0 H1 a1 a2 at不全为零原模型等价于方差分析的基本思想如果被考察的因素对试验结果没有显著的影响即各正态总体的均值是相等的则试验数据的波动完全是由于随机误差引起的反之如果因素有明显的效应即各正态总体的均值不全相等则试验数据的波动除了随机误差的影响外还包含有被考察因素的效应的影响据此需要寻找一个适当的统计量来表示数据的波动程度并且设法将这个统计量分解为两部分一部分是纯粹由随机误差引起的另一部分除了随机误差的影响外还包含着因素的效应的影响然后将这两部分进行比较如果后者明显地比前者大就说明因素的效应是显著的记为样本总平均为总平方和反映出全部数据的总影响为水平Ai下的样本均值则ST可分解为 0 所以ST SE SA这表明我们将ST分解成SA与SE的和其中SE反映随机误差对总体指标的影响程度称为误差平方和组内平方和 SA反映了在A的不同水平下对总体指标的影响程度它是由水平Ai以及随机误差引起的称为因素的效应平方和组间平方和记定理8 1设单因素试验方差分析模型 SA与SE相互独立且SE 2 2 n t 当H0 a1 a2 at 0成立时 SA 2 2 t 1 从而其中 fA fE分别称为SA与SE的自由度分别称为SA与SE的均方由定理8 1可知对于假设检验H0 a1 a2 at 0 H1 a1 a2 at不全为零选取统计量当H0为真时 F F t 1 n t 对于给定的显著性水平有当F F1 t 1 n t 时拒绝H0 当F F1 t 1 n t 时接受H0 通常将上面的结果列成下表称为方差分析表单因素试验方差分析表在实际计算时可以按下面的简便公式进行 SE ST SA 其中 i 1 2 t 例8 2 续例8 1 对例8 1进行检验 n 35 T 2 n 17646 82 ST 18295 74 17646 82 648 92 SA 377 93 SE ST SA 270 99 列出方差分析表返回对于给定的显著性水平 0 05 由于F 10 46 F1 t 1 n t F0 95 4 30 2 69 拒绝H0 即不同的销售方法对销售额由显著的影响单因素方差分析表单因素模型中未知参数的估计为 2的无偏估计为的无偏估计为 i的无偏估计如果拒绝H0即认为效应a1 a2 at显著时可得效应ai的无偏估计 i 1 2 t 例8 3 续例8 1 求和ai的估计值解如果假设检验的结果是拒绝H0 则可进一步找出因素A取哪一个水平时试验指标最佳对不同水平作两两比较检验 H0 i j i j i j 1 2 t 取检验统计量 H0 为真时 Tij t n t 对于给定的显著性水平 Tij t1 2 fE 时拒绝原假设H0 Sasprocanova datatest dotime 1to4 dofactory A B C D don

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

SAS 系统基础.ppt

文档简介

温馨提示

最新文档

评论

SAS 系统基础.ppt

文档简介

温馨提示

最新文档

评论

相关文档