SAS 系统基础.ppt_第1页
SAS 系统基础.ppt_第2页
SAS 系统基础.ppt_第3页
SAS 系统基础.ppt_第4页
SAS 系统基础.ppt_第5页
已阅读5页,还剩275页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

采用GLM过程进行回归和方差分析 1 GLM应用背景2 GLM原理简介3 GLM的功能4 GLM的格式5 GLM作一元线性回归6 GLM作多元线性回归7 GLM作多项式回归8 虚拟变量的设置9 多个随机实验组协方差分析 GLM应用 10趋势面回归分析 GLM应用 11非线性回归分析一 对数 多项式回归 12非线性回归二 拟合Logistic曲线与正负指数的回归 13方差分析 ANOVA 14多因素二水平排列组合方差分析 ANOVA的应用 15随机配伍组与对照组的方差分析 ANOVA的应用 采用GLM过程进行回归和方差分析 1 GLM应用背景相关分析只能反映两变量之间的相关性强弱及趋势 但无法给出变量间因果关系的函数关系 即函数方程 回归分析可以给出因变量 随机变量 与自变量 可控变量 的相关关系的函数关系式 GLM就是研究相关关系广泛的使用的方法 2 GLM原理简介 一 最小二乘法原理GLM原理 是使用最小二乘法 leastsquaremethod 研讨一个线性模型 一 最小二乘法原理 一 背景基本介绍在实际应用中如 金融 经济变量之间的关系 大体上可以分为两种 1 函数关系 Y f X1 X2 XP 其中Y的值是由Xi i 1 2 p 所唯一确定的 2 相关关系 Y f X1 X2 XP 这里Y的值不能由Xi i 1 2 p 精确的唯一确定 一 最小二乘法原理 图5 1表示的是我国货币供应量M2 y 与经过季节调整的GDP x 之间的关系 数据为1995年第一季度到2004年第二季度的季度数据 一 最小二乘法原理 但有时候我们想知道当x变化一单位时 y平均变化多少 可以看到 由于图中所有的点都相对的集中在图中直线周围 因此我们可以以这条直线大致代表x与y之间的关系 如果我们能够确定这条直线 我们就可以用直线的斜率来表示当x变化一单位时y的变化程度 由图中的点确定线的过程就是回归 一 最小二乘法原理 但有时候我们想知道当x变化一单位时 y平均变化多少 可以看到 由于图中所有的点都相对的集中在图中直线周围 因此我们可以以这条直线大致代表x与y之间的关系 如果我们能够确定这条直线 我们就可以用直线的斜率来表示当x变化一单位时y的变化程度 由图中的点确定线的过程就是回归 一 最小二乘法原理 对于变量间的相关关系 我们可以根据大量的统计资料 找出它们在数量变化方面的规律 即 平均 的规律 这种统计规律所揭示的关系就是回归关系 regressiverelationship 所表示的数学方程就是回归方程 regressionequation 或回归模型 regressionmodel 一 最小二乘法原理 图5 1中的直线可表示为 5 1 根据上式 在确定 的情况下 给定一个x值 我们就能够得到一个确定的y值 然而根据式 2 1 得到的y值与实际的y值存在一个误差 即图2 1中点到直线的距离 一 最小二乘法原理 如果我们以 表示误差 则方程 5 1 变为 其中t 1 2 3 T 表示观测数 5 2 5 3 式 2 3 即为一个简单的双变量回归模型 因其仅具有两个变量x y 的基本形式 一 最小二乘法原理 其中yt被称作因变量 dependentvariable 被解释变量 explainedvariable 结果变量 effectvariable xt被称作自变量 independentvariable 解释变量 explanatoryvariable 原因变量 causalvariable 一 最小二乘法原理 为参数 parameters 或称回归系数 regressioncoefficients t通常被称为随机误差项 stochasticerrorterm 或随机扰动项 randomdisturbanceterm 简称误差项 在回归模型中它是不确定的 服从随机分布 相应的 yt也是不确定的 服从随机分布 一 最小二乘法原理 为什么将 t包含在模型中 1 有些变量是观测不到的或者是无法度量的 又或者影响因变量yt的因素太多 2 在yt的度量过程中会发生偏误 这些偏误在模型中是表示不出来的 3 外界随机因素对yt的影响也很难模型化 比如 恐怖事件 自然灾害 设备故障等 一 最小二乘法原理 假设线性回归模型为t 1 2 3 T 5 4 对y产生影响的解释变量共有k 1 x2t x3t xkt 个 系数 1 2 k 分别衡量了解释变量对因变量y的边际影响的程度 最小二乘法的基本原则是 最优拟合直线应该使各点到直线的距离的和最小 也可表述为距离的平方和最小 一 最小二乘法原理 方差分析SST SSE SSRSST SSE SSR的关系以下图来表示更加直观一些 图5 2SST SSE SSR的关系 一 最小二乘法原理 5 5 是被模型所解释的部分 称为回归平方和 theexplainedsumofsquares 简记SSR 是不能被模型所解释的残差平方和 SSE 即 配置最佳线性方程的条件是 1 SSR达到最小2 因变量的偏离其均值的偏差和为零 采用GLM过程进行回归和方差分析 1 GLM应用背景2 GLM原理简介3 GLM的功能4 GLM的格式5 GLM作一元线性回归6 GLM作多元线性回归7 GLM作多项式回归8 虚拟变量的设置9 多个随机实验组协方差分析 GLM应用 10趋势面回归分析 GLM应用 11非线性回归分析一 对数 多项式回归 12非线性回归二 拟合Logistic曲线与正负指数的回归 13方差分析 ANOVA 14多因素二水平排列组合方差分析 ANOVA的应用 15随机配伍组与对照组的方差分析 ANOVA的应用 概述 本章目录 GLM中语句的格式 ProcGLM data dataname output 输出统计量 order formated freq data internal Class分类变量 此为第二条语句 后面需model配合 Model因变量Y 自变量X NOINT INT intercept NounI solution tolerrance E E1 E2 E3 E4 SS1 SS2 SS3 SS4 P CLM CLI ALPHA XPX INVERSE SINGULAR 1E 8或0 ZETA 1E 8或0 GLM过程 GLM中语句的格式 续 CONTRAST 对照说明 10个汉字 20个字符 向量L及元素 E E effect或默认为MS ETYPE n SINGULAR number ESTIMATE 估计的说明 小于20个字符 值1值2 E DIViSOR number SINGULAR number LSMEANSeffect E effect ETYPE n SINGULAR number STDERR PDIFF NMAMES namesPREFIX name PRINTHPRINTEHTYPE nETYPE nCANONICALSUMMARYORTH GLM过程 GLM中语句的格式 续 outputout 数据集名称predicted 变量表 P 变量表 RESIDUAL 变量表 R 变量表 Randomeffect Q REPEATED因变量名因子1因子2因子3 值1值2 转换的关键字 选项 详见ANOVA一章 TESTH effectsE effect HTYPE ETYPE 详见ANOVA一章 GLM过程 GLM中语句的格式 续 BY变量表 ABSORB变量表 变量表须预先sort 此语句使GLM无法产生预测值或输出一个数据集 FREQ变量表 按变量表中的观察值n 显示n次 ID变量表 要求在同行上显示出各变量值 预测值及残差 MEANSEffcet 选项 详见ANOVA一章means语句 GLM过程 GLM中各语句的格式说明 1 主语句procGLM的说明ProcGLM data dataname output 输出统计量 order formated freq data internal order 关键字 order formated freq data internal可选4个中的某个 order formated 要求人为指定数据显示格式order freq 要求按观察值频次降序排列 GLM过程 GLM中各语句的格式说明 续 order data 要求按数据录入顺序 即原始数据行 显示数据行 order internal 按系统默认格式显示数据行 GLM过程 GLM中各语句的格式说明 续 2 Class分类变量 格式为 classV1V2 V1V2 均为分类变量 字符型变量限于10个字符内 Class分类变量 此为第二条语句 后面必需与model配合 GLM过程 GLM中各语句的格式说明 续 Model语句 必不可少 Model语句 必不可少 用于建立各种回归模型或方差分析模型 例 设A B C代表分类变量 V1 V3代表连续变量 可用Model语句建立三类模型 GLM过程 GLM中各语句的格式说明 续 GLM过程 GLM中各语句的格式说明 续 Model备注 1 modelY Abca ba cb ca b c等效于modelY a b c 等号右边为自变量或独立变量 比如Ab等号左边为因变量 3 控制标准假设检验方面的选项 E 要求GLM显示所有估计函数的一般格式 E1 显示每个效应 effect 第一类 TYPEI 的估计函数 E2 显示每个效应 effect 第二类 TYPE2 的估计函数 E3 显示每个效应 effect 第三类 TYPE3 的估计函数 E4 显示每个效应 effect 第四类 TYPE4 的估计函数 3 控制标准假设检验方面的选项 续 ss1 显示每个效应配合type1估计函数所产生的平方和ssss2 显示每个效应配合type2估计函数所产生的平方和ssss3 显示每个效应配合type3估计函数所产生的平方和ssss4 显示每个效应配合type4估计函数所产生的平方和ss 4 预测值与残差值的选项 P 要求GLM显示每个观测值 预测值 残差及DW统计量 Clm显示每个观测值 预测值的置信度Cli显示每个观测值置信度ALPHA p 指定置信区间的ALPHA值 5 显示中间结果 XPX 要求显示XTX矩阵Inverse 显示XTX矩阵逆矩阵或一般化矩阵 6 调整模型 Singular 值n 调整回归模型对线性关系的敏感性 默认值为n 1E 8ZETA 值m 对可估计的type3和type4两检验函数的敏感性进行检验 m 1E 8Procglm Classabc Modely a b c E2E3ZETA 1E 6 GLM过程 Contrast 对照 语句 Contrast格式contrast 对照说明 向量L值1值2 选项 该语句可以对结果进行假设检验如单变量 H0 LB 0 多变量 H0 LBM 0 GLM过程 Contrast 对照 语句 例如ModelY AB A有五种值 B有三种值向量L元素为 miuA1A2A3A4A5B1B2B3 H0 A合并线性 pooledAliner 与A二次效应为0L矩阵 0 2 101200 02 1 2 1200 GLM过程 Contrast 对照 语句 后的选项E要求显示整个L向量E effect 在模型中指定一个effect项为误差项 省略用估计的MS作为误差项ETYPE nn 1234指明E effect类型Singular number 用于检查估计值 GLM过程 Contrast 对照 语句 Procglm Classabc Modely a b c E2E3ZETA 1E 6Contrast A的线性与二次效应 A 2 1012A2 1 2 12 ESingular 1E 2 GLM过程 Estimate语句 该句用于估计参数的线性函数 它必须紧跟在MODEL之后格式 model estimate 标签内容 20个字符 向量名称元素1 Edivisor m 向量中元素除以m singular n 估计向量L所用的检验值 GLM过程 Lsmeans语句 格式 Lsmeans BC EstderrpdiffE effctEtype nsingular number 说明同上 Procglm Classabc Modely abca b Lsmeansy abca b Lsmeans语句要求显示abc主效应及a b交互效应中每个水平 lever 的最小二乘法的均值 GLM过程 Manova语句 ManovaH effectE effectM 式1 式2 Mnames V1 Prefix 被转换的变量名 printhprinteshortCanonicalsummary 说明见ANOVA ANOVA 全称是AnalysisOfVariation GLM过程 Output语句 Outputout 数据及名称predicted P VnResidual R vnVn为新变量名例如 Procglm Classabc Modely abca b Outputout new1P YhatR Resid Run GLM过程 RANDOM 该语句指定模型中具有随机性的effect项 以便显示type1 type4中每个effect的期望值 格式 Randomabc q Qx显示出主效应中期望均方的完整二次型 Eg Randomsexedc q GLM过程 Repeated语句 该语句表示同一试验单位下 在model语句中因变量值具有的重复测量格式repeated因变量名因子1因子2 GLM过程 其他语句 AbsorbV1V2 BYV1V2 FreqV IDV1V2 GLM过程实例1 optionsnodatenonumber procformat valuegroupfmt1 Hydrolysate I 2 Hydrolysate II 3 Casein dataaconova1 doi 1to8 dogroup 1to3 inputagefoodweight output end end formatgroupgroupfmt cards 6281 7375309 8248259 38210274 0476317 8435241 2668253 83710326 1606248 5745261 4348322 1507242 8797272 8427323 5478255 7825272 2276321 2427254 3766272 3325311 8395244 6737293 24410324 55310243 890 procglm classgroup modelweight groupagefood solution lsmeansgroup pdiffstderr run GLM过程实例1 TheSASSystemTheGLMProcedureDependentVariable weightSumofSourceDFSquaresMeanSquareFValuePr FModel48557 6897092139 422427142 31 0001Error19285 64362515 033875CorrectedTotal238843 333333 GLM过程实例1解释 R SquareCoeffVarRootMSEweightMean0 9677007 2700393 87735453 33333SourceDFTypeISSMeanSquareFValuePr Fgroup27364 3333333682 166667244 92Fgroup24452 0346762226 017338148 07 0001age1868 748973868 74897357 79 0001food169 15070869 1507084 600 0451TypeIIISS表示每一个自变量分别最后选入到回归模型时model ssR 的增加值 GLM过程实例1解释 StandardParameterEstimateErrortValuePr t Intercept 52 36421256B32 01484931 1 640 1184groupCasein49 08673657B7 518895226 53 0001groupHydrolysate I4 50030871B5 151752580 870 3933groupHydrolysate II0 00000000B age3 737626120 491681847 60 0001food0 220537000 102829712 140 0451 GLM过程实例1解释 TheGLMProcedureLeastSquaresMeansweightStandardLSMEANgroupLSMEANErrorPr t NumberCasein84 55772153 5301129 00011Hydrolysate I39 97129361 5696985 00012Hydrolysate II35 47098494 2399044 00013显示每个效应下的均值及标准误差 GLM过程实例1解释 LeastSquaresMeansforeffectgroupPr t forH0 LSMean i LSMean j DependentVariable weighti j1231 0001 00012 00010 39333 00010 3933显示所有可能的概率值 GLM过程 5 调用GLM程序作一元线性回归 例如 Procglm Formatedcedcf Formatsexsexf modelsal2 edc Outputout new1P predictR residual Procplot Plotsal2 edcpredict edc p overlay Plotresidual edc vref 0 Run GLM过程 结果说明 P表示图点Vref表示正负分界线残差不独立说明 GLM过程 第二节一元回归估计与检验理论 估计 LSE 检验 F 第一节估计理论 参数的最小二乘估计 一 方法介绍本章所介绍的是普通最小二乘法 ordinaryleastsquares 简记OLS 最小二乘法的基本原则是 最优拟合直线应该使各点到直线的距离的和最小 也可表述为距离的平方和最小 假定根据这一原理得到的 估计值为 则直线可表示为 直线上的yt值 记为 称为拟合值 fittedvalue 实际值与拟合值的差 记为 称为残差 residual 可以看作是随机误差项的估计值 根据OLS的基本原则 使直线与各散点的距离的平方和最小 实际上是使残差平方和 residualsumofsquares 简记RSS 最小 即最小化 RSS 2 4 根据最小化的一阶条件 将式2 4分别对 求偏导 并令其为零 即可求得结果如下 2 5 2 6 二 一些基本概念1 总体 thepopulation 和样本 thesample 总体是指待研究变量的所有数据集合 可以是有限的 也可以是无限的 而样本是总体的一个子集 2 总体回归方程 thepopulationregressionfunction 简记PRF 样本回归方程 thesampleregressionfunction 简记SRF 总体回归方程 PRF 表示变量之间的真实关系 有时也被称为数据生成过程 DGP PRF中的 值是真实值 方程为 2 7 样本回归方程 SRF 是根据所选样本估算的变量之间的关系函数 方程为 注意 SRF中没有误差项 根据这一方程得到的是总体因变量的期望值 2 8 于是方程 2 7 可以写为 2 9 总体y值被分解为两部分 模型拟合值 和残差项 3 线性关系对线性的第一种解释是指 y是x的线性函数 比如 y 对线性的第二种解释是指 y是参数的一个线性函数 它可以不是变量x的线性函数 比如y 就是一个线性回归模型 但则不是 在本课程中 线性回归一词总是对指参数 为线性的一种回归 即参数只以一次方出现 对解释变量x则可以是或不是线性的 有些模型看起来不是线性回归 但经过一些基本代数变换可以转换成线性回归模型 例如 2 10 可以进行如下变换 2 11 令 则方程 2 11 变为 2 12 可以看到 模型2 12即为一线性模型 4 估计量 estimator 和估计值 estimate 估计量是指计算系数的方程 而估计值是指估计出来的系数的数值 最小二乘估计量的性质和分布 一 经典线性回归模型的基本假设 1 即残差具有零均值 2 var 即残差具有常数方差 且对于所有x值是有限的 3 cov 即残差项之间在统计意义上是相互独立的 4 cov 即残差项与变量x无关 5 t N 即残差项服从正态分布 二 最小二乘估计量的性质如果满足假设 1 4 由最小二乘法得到的估计量 具有一些特性 它们是最优线性无偏估计量 BestLinearUnbiasedEstimators 简记BLUE 估计量 estimator 意味着 是包含着真实 值的估计量 线性 linear 意味着 与随机变量y之间是线性函数关系 无偏 unbiased 意味着平均而言 实际得到的 值与其真实值是一致的 最优 best 意味着在所有线性无偏估计量里 OLS估计量具有最小方差 三 OLS估计量的方差 标准差和其概率分布1 OLS估计量的方差 标准差 给定假设 1 4 估计量的标准差计算方程如下 其中 是残差的估计标准差 2 21 2 22 参数估计量的标准差具有如下的性质 1 样本容量T越大 参数估计值的标准差越小 2 和都取决于s2 s2是残差的方差估计量 s2越大 残差的分布就越分散 这样模型的不确定性也就越大 如果s2很大 这意味着估计直线不能很好地拟合散点 3 参数估计值的方差与成反比 其值越小 散点越集中 这样就越难准确地估计拟合直线 相反 如果越大 散点越分散 这样就可以容易地估计出拟合直线 并且可信度也大得多 比较图2 2就可以清楚地看到这点 图2 2直线拟合和散点集中度的关系 4 项只影响截距的标准差 不影响斜率的标准差 理由是 衡量的是散点与y轴的距离 越大 散点离y轴越远 就越难准确地估计出拟合直线与y轴的交点 即截距 反之 则相反 2 OLS估计量的概率分布给定假设条件 5 即 则也服从正态分布系数估计量也是服从正态分布的 2 30 2 31 需要注意的是 如果残差不服从正态分布 即假设 5 不成立 但只要CLRM的其他假设条件还成立 且样本容量足够大 则通常认为系数估计量还是服从正态分布的 其标准正态分布为 2 32 2 33 但是 总体回归方程中的系数的真实标准差是得不到的 只能得到样本的系数标准差 用样本的标准差去替代总体标准差会产生不确定性 并且 将不再服从正态分布 而服从自由度为T 2的t分布 其中T为样本容量 即 2 34 2 35 3 正态分布和t分布的关系 图2 3正态分布和t分布形状比较 从图形上来看 t分布的尾比较厚 均值处的最大值小于正态分布 随着t分布自由度的增大 其对应临界值显著减小 当自由度趋向于无穷时 t分布就服从标准正态分布了 所以正态分布可以看作是t分布的一个特例 第二节一元线性回归模型的统计检验 一 拟合优度 goodnessoffitstatistics 检验拟合优度可用R2表示 模型所要解释的是y相对于其均值的波动性 即 总平方和 thetotalsumofsquares 简记TSS 这一平方和可以分成两部分 2 36 是被模型所解释的部分 称为回归平方和 theexplainedsumofsquares 简记ESS 是不能被模型所解释的残差平方和 RSS 即 TSS ESS RSS的关系以下图来表示更加直观一些 图2 4TSS ESS RSS的关系 拟合优度 因为TSS ESS RSS所以R2 2 39 2 37 2 38 R2越大 说明回归线拟合程度越好 R2越小 说明回归线拟合程度越差 由上可知 通过考察R2的大小 我们就能粗略地看出回归线的优劣 但是 R2作为拟合优度的一个衡量标准也存在一些问题 1 如果模型被重新组合 被解释变量发生了变化 那么R2也将随之改变 因此具有不同被解释变量的模型之间是无法来比较R2的大小的 2 增加了一个解释变量以后 R2只会增大而不会减小 除非增加的那个解释变量之前的系数为零 但在通常情况下该系数是不为零的 因此只要增加解释变量 R2就会不断的增大 这样我们就无法判断出这些解释变量是否应该包含在模型中 3 R2的值经常会很高 达到0 9或更高 所以我们无法判断模型之间到底孰优孰劣 为了解决上面第二个问题 我们通常用调整过的R2来代替未调整过的R2 对R2进行调整主要是考虑到在引进一个解释变量时 会失去相应的自由度 调整过的R2用来表示 公式为 其中T为样本容量 K为自变量个数 2 40 二 假设检验假设检验的基本任务是根据样本所提供的信息 对未知总体分布某些方面的假设做出合理解释假设检验的程序是 先根据实际问题的要求提出一个论断 称为零假设 nullhypothesis 或原假设 记为H0 一般并列的有一个备择假设 alternativehypothesis 记为H1 然后根据样本的有关信息 对H0的真伪进行判断 做出拒绝H0或不能拒绝H0的决策 假设检验的基本思想是概率性质的反证法 概率性质的反证法的根据是小概率事件原理 该原理认为 小概率事件在一次实验中几乎是不可能发生的 在原假设H0下构造一个事件 即检验统计量 这个事件在 原假设H0是正确的 的条件下是一个小概率事件 如果该事件发生了 说明 原假设H0是正确的 是错误的 因为不应该出现的小概率事件出现了 应该拒绝原假设H0 假设检验有两种方法 置信区间检验法 confidenceintervalapproach 和显著性检验法 testofsignificanceapproach 显著性检验法中最常用的是t检验和F检验 前者是对单个变量系数的显著性检验 后者是对多个变量系数的联合显著性检验 一 t检验下面我们具体介绍对方程 2 3 的系数进行t检验的主要步骤 1 用OLS方法回归方程 2 3 得到 的估计值及其标准差 2 假定我们建立的零假设是 备则假设是 这是一个双侧检验 则我们建立的统计量服从自由度为T 2的t分布 3 选择一个显著性水平 通常是5 我们就可以在t分布中确定拒绝区域和非拒绝区域 如图2 5 如果选择显著性水平为5 则表明有5 的分布将落在拒绝区域 图2 5双侧检验拒绝区域和非拒绝区域分布 4 选定显著性水平后 我们就可以根据t分布表求得自由度为T 2的临界值 当检验统计值的绝对值大于临界值时 它就落在拒绝区域 因此我们拒绝的原假设 而接受备则假设 反之则相反 可以看到 t检验的基本原理是如果参数的假设值与估计值差别很大 就会导致小概率事件的发生 从而导致我们拒绝参数的假设值 二 置信区间法仍以方程2 3的系数 为例 置信区间法的基本思想是建立围绕估计值的一定的限制范围 推断总体参数 是否在一定的置信度下落在此区间范围内 置信区间检验的主要步骤 所建立的零假设同t检验 1 用OLS法回归方程 2 3 得到 的估计值及其标准差 2 选择一个显著性水平 通常为5 这相当于选择95 的置信度 查t分布表 获得自由度为T 2的临界值 3 所建立的置信区间为 2 41 4 如果零假设值落在置信区间外 我们就拒绝的原假设 反之 则不能拒绝 需要注意的是 置信区间检验都是双侧检验 尽管在理论上建立单侧检验也是可行的 三 t检验与置信区间检验的关系 在显著性检验法下 当的绝对值小于临界值时 即 2 42 时 我们不能拒绝原假设 对式 2 41 变形 我们可以得到 2 43 可以看到 式 2 43 恰好是置信区间法的置信区间式 2 41 因此 实际上t检验法与置信区间法提供的结果是完全一样的 四 第一类错误和第二类错误 如果有一个零假设在5 的显著性水平下被拒绝了 有可能这个拒绝是不正确的 这种错误被称为第一类错误 它发生的概率为5 另外一种情况是 我们得到95 的一个置信区间 落在这个区间的零假设我们都不能拒绝 当我们接受一个零假设的时候也可能犯错误 因为回归系数的真实值可能是该区间内的另外一个值 这一错误被称为第二类错误 在选择显著性水平时人们面临抉择 降低犯第一类错误的概率就会增加犯第二类错误的概率 五 P值P值是计量经济结果对应的精确的显著性水平 P值度量的是犯第一类错误的概率 即拒绝正确的零假设的概率 P值越大 错误地拒绝零假设的可能性就越大 p值越小 拒绝零假设时就越放心 现在许多统计软件都能计算各种统计量的p值 如Eviews Stata等 第三节多变量线性回归模型的统计检验 一 多变量模型的简单介绍考察下面这个方程 t 1 2 3 T 2 44 对y产生影响的解释变量共有k 1 x2t x3t xkt 个 系数 1 2 k 分别衡量了解释变量对因变量y的边际影响的程度 方程 2 44 的矩阵形式为这里 y是T 1矩阵 X是T k矩阵 是k 1矩阵 u是T 1矩阵 2 46 在多变量回归中残差向量为 2 47 残差平方和为 2 48 可以得到多变量回归系数的估计表达式 2 49 同样我们可以得到多变量回归模型残差的样本方差 2 50 参数的协方差矩阵 2 51 二 拟合优度检验在多变量模型中 我们想知道解释变量一起对因变量y变动的解释程度 我们将度量这个信息的量称为多元判定系数R2 在多变量模型中 下面这个等式也成立 TSS ESS RSS 2 52 其中 TSS为总离差平方和 ESS为回归平方和 RSS为残差平方和 与双变量模型类似 定义如下 即 R2是回归平方和与总离差平方和的比值 与双变量模型唯一不同的是 ESS值与多个解释变量有关 R2的值在0与1之间 越接近于1 说明估计的回归直线拟合得越好 2 53 可以证明 2 54 因此 2 55 三 假设检验 一 t检验在多元回归模型中 t统计量为 2 56 均服从自由度为 n k 的t分布 下面的检验过程跟双变量线性回归模型的检验过程一样 二 F检验F检验的第一个用途是对所有的回归系数全为0的零假设的检验 第二个用途是用来检验有关部分回归系数的联合检验 就方法而言 两种用途是完全没有差别的 下面我们将以第二个用途为例 对F检验进行介绍 为了解联合检验是如何进行的 考虑如下多元回归模型 2 57 这个模型称为无约束回归模型 unrestrictedregression 因为关于回归系数没有任何限制 假设我们想检验其中q个回归系数是否同时为零 为此改写公式 2 57 将所有变量分为两组 第一组包含k q个变量 包括常项 第二组包含q个变量 2 58 如果假定所有后q个系数都为零 即建立零假设 则修正的模型将变为有约束回归模型 restrictedregression 零系数条件 2 59 关于上述零假设的检验很简单 若从模型中去掉这q个变量 对有约束回归方程 2 59 进行估计的话 得到的误差平方和肯定会比相应的无约束回归方程的误差平方和大 如果零假设正确 去掉这q个变量对方程的解释能力影响不大 当然 零假设的检验依赖于限制条件的数目 即被设定为零的系数个数 以及无约束回归模型的自由度 检验的统计量为 2 60 在这里 分子是误差平方和的增加与零假设所隐含的参数限制条件的个数之比 分母是模型的误差平方和与无条件模型的自由度之比 如果零假设为真 式 2 60 中的统计量将服从分子自由度为q 分母自由度为N K的F分布 对回归系数的子集的F检验与对整个回归方程的F检验做法一样 选定显著性水平 比如1 或5 然后将检验统计量的值与F分布的临界值进行比较 如果统计量的值大于临界值 我们拒绝零假设 认为这组变量在统计上是显著的 一般的原则是 必须对两个方程分别进行估计 以便正确地运用这种F检验 F检验与R2有密切的联系 回想 则 2 61 两个统计量具有相同的因变量 因此将上面的两个方程代入 2 60 检验的统计量可以写成 2 62 第四节预测 一 预测的概念和类型 一 预测的概念金融计量学中 所谓预测就是根据金融经济变量的过去和现在的发展规律 借助计量模型对其未来的发展趋势和状况进行描述 分析 形成科学的假设和判断 二 预测原理条件期望 conditionalexpectations 在t期Y的t 1期的条件期望值记作 它表示的是在所有已知的t期的信息的条件下 Y在t 1期的期望值 假定在t期 我们要对因变量Y的下一期 即t 1期 值进行预测 则记作 在t期对Y的下一期的所有预测值中 Y的条件期望值是最优的 即具有最小方差 因此 我们有 2 65 三 预测的类型 1 无条件预测和有条件预测所谓无条件预测 是指预测模型中所有的解释变量的值都是已知的 在此条件下所进行的预测 所谓有条件预测 是指预测模型中某些解释变量的值是未知的 因此想要对被解释变量进行预测 必须首先预测解释变量的值 2 样本内 in sample 预测和样本外 out of sample 预测所谓样本内预测是指用全部观测值来估计模型 然后用估计得到的模型对其中的一部分观测值进行预测 样本外预测是指将全部观测值分为两部分 一部分用来估计模型 然后用估计得到的模型对另一部分数据进行预测 3 事前预测和事后模拟顾名思义 事后模拟就是我们已经获得要预测的值的实际值 进行预测是为了评价预测模型的好坏 事前预测是我们在不知道因变量真实值的情况下对其的预测 4 一步向前 one step ahead 预测和多步向前 multi step ahead 预测所谓一步向前预测 是指仅对下一期的变量值进行预测 例如在t期对t 1期的值进行预测 在t 1期对t 2期的值进行的预测等 多步向前预测则不仅是对下一期的值进行预测 也对更下期值进行预测 例如在t期对t 1期 t 2期 t r期的值进行预测 二 预测的评价标准 平均预测误差平方和 meansquarederror 简记MSE 平均预测误差绝对值 meanabsoluteerror 简记MAE 变量的MSE定义为 MSE 2 66 其中 的预测值 实际值 T 时段数 变量的MAE定义如下 MAE 变量的定义同前 2 67 可以看到 MSE和MAE度量的是误差的绝对大小 只能通过与该变量平均值的比较来判断误差的大小 误差越大 说明模型的预测效果越不理想 2 Theil不相等系数其定义为 2 68 注意 U的分子就是MSE的平方根 而分母使得U总在0与1之间 如果U 0 则对所有的t 完全拟合 如果U 1 则模型的预测能力最差 因此 Theil不等系数度量的是误差的相对大小 Theil不等系数可以分解成如下有用的形式 其中分别是序列和的平均值和标准差 是它们的相关系数 即 2 69 定义不相等比例如下 2 70 2 71 2 72 偏误比例表示系统误差 因为它度量的是模拟序列与实际序列之间的偏离程度 方差比例表示的是模型中的变量重复其实际变化程度的能力 协方差比例度量的是非系统误差 即反映的是考虑了与平均值的离差之后剩下的误差 理想的不相等比例的分布是 比例分别称为U的偏误比例 方差比例 协方差比例 它们是将模型误差按特征来源分解的有效方法 第五节 模型选择 一 好 模型具有的特性1 节省性 parsimony 一个好的模型应在相对精确反应现实的基础上尽可能的简单 2 可识别性 identifiability 对于给定的一组数据 估计的参数要有唯一确定值 3 高拟合性 goodnessoffit 回归分析的基本思想是用模型中包含的变量来解释被解释变量的变化 因此解释能力的高低就成为衡量模型好坏的重要的标准 4 理论一致性 theoreticalconsistency 即使模型的拟合性很高 但是如果模型中某一变量系数的估计值符号与经济理论不符 那么这个模型就是失败的 5 预测能力 predictivepower 著名经济学家弗里德曼 M Friedman 认为 对假设 模型 的真实性唯一有效的检验就是将预测值与经验值相比较 因此一个好的模型必须有对未来的较强的预测能力 二 用于预测的模型的选择因为R2将随着模型解释变量的增多而不断增加 按照此标准我们将不会得到最佳的预测模型 因此必须对由于解释变量增多而造成自由度丢失施加一个惩罚项 其中的一个标准就是 对自由度丢失惩罚更为严格的标准 Akaike的信息准则 Akaikeinformationcriterion 简记为AIC 和Schwarz的信息准则 Schwarzinformationcriterion 简记为SC 其中是方程随机误差项方差的估计值 k是解释变量的个数 T是样本容量 可以看到 AIC和SC的惩罚项 比更为严厉 而且相对来说SC标准对自由度的惩罚比AIC更为严厉 无论是AIC标准还是SC标准 从预测的角度来看 度量值越低 模型的预测会更好 GLM过程 多元回归 Procglm modelsal2 edcocu1 run 回归平方和的解释见结果 GLM过程 多项式回归 例如销售额与广告费及广告费用的平方datasales inputyx Xsq x 2 list cards 10001010001250116000150016500020002090002500264000 procprint procGLM modely xXsq outputout sap predictr residual procprintdata sa run GLM过程 采用reg过程进行多元回归分析 同学们自学 格式Procregdata 名字ModelvarIdFreWeightAddDeleteDelobsn Printall Collinointpr Outputout new By GLM过程 方差分析 ANOVA 单因素试验的方差分析在实际生活中 经常需要对几个总体进行分析比较 研究它们之间的差异以及产生这些差异的原因 这时我们就要采用一种称为方差分析的方法来解决 例如 例8 1某大型集团公司的销售主管想比较五种不同的推销方法有无显著的效果差异 在条件基本相同且无销售经验的人员中选取若干名 分成五组分别进行不同销售方法的培训 培训后观察他们在一个月内的销售额列于下表 GLM过程 8 1单因素试验的方差分析 在实际生活中 经常需要对几个总体进行分析比较 研究它们之间的差异以及产生这些差异的原因 这时我们就要采用一种称为方差分析的方法来解决 例8 1某大型集团公司的销售主管想比较五种不同的推销方法有无显著的效果差异 在条件基本相同且无销售经验的人员中选取若干名 分成五组分别进行不同销售方法的培训 培训后观察他们在一个月内的销售额列于下表 在试验中 我们所要考察的指标称为试验指标 影响试验指标的条件称为因素 这里的因素主要是指可以人为控制的条件如原料 反映温度 化肥种类等等 因素所处的状态称为因素的水平 只有一个因素在改变的试验称为单因素试验 多于一个因素在改变的试验称为多因素试验 例8 1中的试验指标为销售额 销售方法为因素 5种不同的方法代表5种不同的水平 这是一项单因素试验 试验的目的是了解不同销售方法水平对销售额有无显著影响 一般地 试验指标记为X 对其有影响的因素记为A 设A有t个水平A1 A2 At 每个水平下的试验指标都是一个总体 共有t个总体 在水平Ai下进行了ni次独立试验 得到第i个总体的样本 X1i X2i Xnii i 1 2 t 总共进行了n n1 n2 nt次试验 试验得到的结果可列成下表的形式 设在水平Ai下 试验指标Aji来自正态总体N i 2 其中 i及 2均未知 这里 2与i无关 称为方差齐性 记 ji Xji i 则 ji N i 2 表示随机误差 这样单因素模型可表示为 对于上述的模型 方差分析的主要任务是 1 检验在各个水平下的均值是否相等 即检验假设 H0 1 2 t H1 1 2 t不全相等 2 作出未知参数 1 2 t 2的估计 记 称为总平均 称为因素A在第i个水平Ai下的主效应 它反映了在水平Ai下总体均值与总平均的差异 显然 因此 检验假设 H0 1 2 t H1 1 2 t不全相等 等价于H0 a1 a2 at 0 H1 a1 a2 at不全为零 原模型等价于 方差分析的基本思想 如果被考察的因素对试验结果没有显著的影响 即各正态总体的均值是相等的 则试验数据的波动完全是由于随机误差引起的 反之 如果因素有明显的效应 即各正态总体的均值不全相等 则试验数据的波动除了随机误差的影响外 还包含有被考察因素的效应的影响 据此 需要寻找一个适当的统计量 来表示数据的波动程度 并且设法将这个统计量分解为两部分 一部分是纯粹由随机误差引起的 另一部分除了随机误差的影响外还包含着因素的效应的影响 然后将这两部分进行比较 如果后者明显地比前者大 就说明因素的效应是显著的 记 为样本总平均 为总平方和 反映出全部数据的总影响 为水平Ai下的样本均值 则ST可分解为 0 所以ST SE SA这表明 我们将ST分解成SA与SE的和 其中SE反映随机误差对总体指标的影响程度 称为误差平方和 组内平方和 SA反映了在A的不同水平下对总体指标的影响程度 它是由水平Ai以及随机误差引起的 称为因素的效应平方和 组间平方和 记 定理8 1设单因素试验方差分析模型 SA与SE相互独立 且SE 2 2 n t 当H0 a1 a2 at 0成立时 SA 2 2 t 1 从而 其中 fA fE分别称为SA与SE的自由度 分别称为SA与SE的均方 由定理8 1可知 对于假设检验H0 a1 a2 at 0 H1 a1 a2 at不全为零选取统计量 当H0为真时 F F t 1 n t 对于给定的显著性水平 有 当F F1 t 1 n t 时 拒绝H0 当F F1 t 1 n t 时 接受H0 通常将上面的结果列成下表 称为方差分析表 单因素试验方差分析表 在实际计算时 可以按下面的简便公式进行 SE ST SA 其中 i 1 2 t 例8 2 续例8 1 对例8 1进行检验 n 35 T 2 n 17646 82 ST 18295 74 17646 82 648 92 SA 377 93 SE ST SA 270 99 列出方差分析表 返回 对于给定的显著性水平 0 05 由于F 10 46 F1 t 1 n t F0 95 4 30 2 69 拒绝H0 即不同的销售方法对销售额由显著的影响 单因素方差分析表 单因素模型中未知参数的估计 为 2的无偏估计 为 的无偏估计 为 i的无偏估计 如果拒绝H0即认为效应a1 a2 at显著时 可得效应ai的无偏估计 i 1 2 t 例8 3 续例8 1 求 和ai的估计值 解 如果假设检验的结果是拒绝H0 则可进一步找出因素A取哪一个水平时试验指标最佳 对不同水平作两两比较检验 H0 i j i j i j 1 2 t 取检验统计量 H0 为真时 Tij t n t 对于给定的显著性水平 Tij t1 2 fE 时 拒绝原假设H0 Sasprocanova datatest dotime 1to4 dofactory A B C D don

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论