统计分析模型诊断_第1页
统计分析模型诊断_第2页
统计分析模型诊断_第3页
统计分析模型诊断_第4页
统计分析模型诊断_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计与数量分析第1讲1.3 模型诊断 I普通最小二乘2022年3月19日/下午7时41分 普通最小二乘普通最小二乘相关系数 相关系数(Correlation Coefficient)是度量两个变量之间线性相关的方向和强度的测度。 散点图只是粗略地刻画两个变量之间线性相关关系的方向、强度和形式,不能确切地度量变量之间的相关关系的密切程度。相关系数可以具体度量变量之间的相关关系的密切程度,并且用一个相对数数值表述出来,使之具有直接的可比性。 一般使用样本统计量来估计总体相关系数的数值水平,有 相关系数所反映的是线性相关关系。 该相关系数是数值型变量的统计量。yyxxxyLLLr 2022年3月19

2、日/下午7时41分 普通最小二乘普通最小二乘 相关系数是总体相关系数真值的样本统计量。因此,相关系数只是总体相关系数的在一定样本分布下的估计值,尤其是当计算相关系数的样本容量较小时,相关系数的数值的变异增大。所以,必须对不同样本容量情况下计算出来的相关系数的统计显著性进行假设检验。 有假设 相关系数的抽样分布,服从于自由度为n-2的t分布。一般采用T检验统计量对相关系数进行显著性检验, 2122ntrnrT00:H2022年3月19日/下午7时41分 普通最小二乘普通最小二乘一元线性回归模型 1理论模型 从回归模型的一般形式可以表述为 回归模型(Regression Model)是指因变量依赖

3、自变量和随机误差项取值的方程。 因变量的取值由两个部分构成。一部分反映了自变量的变动引起的线性变化;另一部分为剩余变动,反映了不能为自变量和因变量之间的线性关系所解释的其它剩余的变异。 在理论上,回归分析总是假定一元线性回归模型,即具有统计显著性,有效地解释了因变量的变动,剩余变动为不可观测的随机误差。因此,上式为一元线性回归理论模型。 xy102022年3月19日/下午7时41分 普通最小二乘普通最小二乘 关于随机误差,线性回归理论模型具有以下三项假定。(1) 0均值。剩余变动为不可观测的随机误差,其数学期望为0。(2)方差齐性。对于所有的自变量x,随机误差的方差相同。(3)独立性。各项随机

4、误差之间,以及各项随机误差与对应的自变量之间均不相关,即有0jiEnji, 2 , 1,ji 0iixE2022年3月19日/下午7时41分 普通最小二乘普通最小二乘2回归方程 根据回归理论模型中对随机误差的三项假定,有 因此有变量的数学期望为自变量的线性函数。 回归方程(Regression Equation)是指因变量y的数学期望依赖自变量x取值的方程。 有一元线性回归方程为 一元线性回归方程在直角坐标系中为一条直线,所以也称为直线回归方程。 20,N xyE102022年3月19日/下午7时41分 普通最小二乘普通最小二乘3估计的回归方程 由回归方程中可知,当回归系数确定之后,可以计算出

5、因变量在给定自变量数值时的数学期望。在回归方程中的回归系数和随机误差的方差均为未知,需要利用样本数据进行统计估计。当根据样本推断出回归方程中的回归系数的估计量时,就得到了由样本推断出来的估计的回归方程。 估计的回归方程(Estimated Regression Equation)是指根据样本数据的估计量构成的回归方程。 估计的一元线性回归方程为 当估计的一元线性回归方程式中的自变量给定某一具体数值时,因变量的对应的取值,也就随之确定下来了。xy102022年3月19日/下午7时41分 普通最小二乘普通最小二乘一元线性回归方程的最小二乘估计 最小二乘估计(Least Square Estimat

6、ion)是指估计量使因变量的观察值与其估计值的离差平方和最小的方法。这里介绍的是普通最小二乘估计(Ordinary Least Square Estimation, OLSE)。 根据回归方程和最小二乘估计定义,一元线性回归方程关于回归系数估计量的解为非负二次函数,必然存在最小值。 因而,可以得出求解一元线性回归方程回归系数估计量的正规方程组,并利用离差平方和的形式,可写为 计算得到的就是一元线性回归方程回归系数的普通最小二乘估计(OLS)估计量。xyLLxxxy1012022年3月19日/下午7时41分 普通最小二乘普通最小二乘一元线性回归方程的拟合优度 将回归直线与观察值的距离作为评价回归

7、方程拟合精度的测度,称为拟合优度(Goodness of Fit)。 1判定系数 在回归分析中,将因变量的观察值之间的变异称为的总离差,反映了因变量的观察值与其均值的离差的距离;并将总离差分解为自变量能够解释的部分,和自变量不能解释的两个部分。 为了避免离差的正负相抵,采用离差平方和的形式,来度量因变量的总离差,并对其进行分解。将因变量的个观察值与其均值的离差平方和称为因变量的总离差平方和(Total Deviation Sum of Squares),记为SST,实际上这一总离差平方和就是变量的离差平方和Lyy。有yyniiTLyySS122022年3月19日/下午7时41分 普通最小二乘普

8、通最小二乘 可将SST分解为 式中等号右边估计值与观察值的均值的离差平方和,称为回归离差平方和(Regression Sum of Squares),记为SSR。反映了在观察值的总变异中,估计的回归方程所解释的这一部分变异的总和。有 niiniiiiiiniiTyyyyyyyyyySS1212212niiRyySS122022年3月19日/下午7时41分 普通最小二乘普通最小二乘 式中等号右边观察值与其估计值的离差平方和,称为剩余离差平方和,或残差离差平方和(Residual Sum of Squares),记为SSE。反映了在观察值的总变异中,估计的回归方程所未能解释的那一部分变异的总和。有

9、 从而,可将式(9.15)记为 回归直线拟合程度决定于SSR与SSE的比较,当SSR的数值越是显著大于SSE时,说明各观察值与回归直线的离差之和越小,回归直线对于因变量的解释能力越强。而SSR与SSE又是对总离差平方和的一个完备的分割,两者存在互为消长的数量关系。因此以与之比作为度量回归方程的拟合优度的测度,称之为判定系数。niiiEyySS12ERTSSSSSS2022年3月19日/下午7时41分 普通最小二乘普通最小二乘 判定系数(Coefficient of Determination)是指回归离差平方和占总离差平方和的比重,有 由于 ,所以 可知,判定系数就是相关系数的平方。判定系数的

10、取值在0到1 之间,当判定系数的取值趋近于1时,表示回归直线的拟合程度很好;当判定系数的取值趋近于0时,则表示回归直线的拟合程度很差。TRSSSSr 2xyxyxxniiRLLLyy SS22112yyxxxTRLLLSSSSr2y22022年3月19日/下午7时41分 普通最小二乘普通最小二乘 判定系数是度量回归直线拟合优度的重要测度。有 ( 判定系数是一个重要的数量界限,它将因变量的离差平方和分为了能够为自变量所解释的部分,和不能为自变量所解释的部分。判定系数就是在因变量的总离差平方和中自变量所解释的部分所占的份额。yyTRLrSSrSS22yyTELrSSrSS22112022年3月19

11、日/下午7时41分 普通最小二乘普通最小二乘一元线性回归方程的显著性检验 估计的回归方程是依据样本数据拟合的,样本容量大小,因变量和自变量的抽样分布,都会对回归方程中估计量的与总体参数真值之间的误差生产影响,仅凭回归方程拟合优度的有关测度,不能认定因变量与自变量之间是否真的存在这种线性关系,还需要对估计的回归方程进行假设检验。 一元回归方程的显著性检验的原假设为参数的真值为0,即 当原假设成立,可将因变量的变异归结于剩余因素,表明自变量对因变量不具有显著的线性关系,一元线性方程对于因变量没有显著的解释能力。这时,估计的回归方程不具备任何实际意义,不能用于预测和控制。若原假设不成立,说明因变量的

12、变异显著地来源于自变量,这时估计的回归方程才具有实际意义。010:H2022年3月19日/下午7时41分 普通最小二乘普通最小二乘 在一元线性回归分析中,有回归均方与剩余均方分别服从自由度为1和自由度为n-2的卡方分布,则由回归均方与剩余均方的比值构造的F检验统计量服从第一自由度为1和第二自由度为n-2的F分布。即 利用判定系数,可写为便于计算的形式,即 2121nFMSMSnSSSSFERER,2112212222nrrrLnrLnSSSSFyyyyER2022年3月19日/下午7时41分 普通最小二乘普通最小二乘 同样,可以采用方差分析表来反映在一元线性回归分析的显著性检验中,对变量的离差

13、平方和分解的分析过程和有关数据。一元线性回归的方差分析表构成差异源平方和自由度均方F检验统计量回归1剩余总和RSSRMSERERMSMSnSSSSF21ESSEMSTSS1nTMS2n多重共线性与主成分分析指标综合的方法很多,最简单的方法是将这些指标用线型组合的方法将它们组合起来。因此,可设定其综合指标的形式为这些指标的线型组合,即 y1 =11 x1 + 12 x2 + + 1p xp显然,各指标组合的系数不同,就得到不同的综合指标。 假如希望构造少数几个这样的综合指标,并且这几个综合指标之间是不相关的。并且,这少数几个综合指标应该在一定程度上反映原始观测指标的变动。其中反映原始观测指标的变

14、动程度最大的综合指标最重要,我们称其为原始观测指标的第一主成分;而反映原始观测指标的变动程度次大的综合指标,称为原始观测指标的第二主成分;反映原始观测指标变动程度第三大的综合指标,称为第三主成分;,即以反映原始观测指标变动的大小顺序排列,第k 个综合指标称为原始观测指标的第 k个主成分。主成分的概念主成分的概念设 个p指标(随机变量) 是 p维随机变量,其协方差矩阵为 式中,协方差 。现求X的线性函数 使得 的方差尽可能的大。TKXXXX),(21PPPPPPppXCOV212222111211)()()(jjiiijXEXXEXEXT)1 (XT)1 (根据线性代数的理论, 就是1相应的特征

15、向量,成为随机向量的第一主成分。第一主成分可能只说明了p个指标的一大部分变动,如果只用第一主成分可能丧失的信息太多,则往往还要计算 的第二主成分 。 显然,第二主成分不应该在重复反映第一主成分已经反映的内容,所以求第二主成分时,还必须加上第二主成分与第一主成分不相关这一条件,即 即第二主成分的特征向量必须与第一主成分的特征向量正交。类似地,我们可以求出第三主成分,和第p主成分。)1(0),()1 ()2()1 ()2(XXCOVTT由于协方差矩阵 为非负定矩阵,故有p个非负特征根, 从而可求出p个特征向量 。将每一个特征向量作为一个主成分的系数向量,就可得出 p个主成分。若记p 个主成分组成的

16、主成分向量为 ,特征向量 组成的矩阵为A,即则可写成主成向量的表达形式为021pTPFFFF),(21)()2()1(,p),()()2()1(pAXAFT有 即 不相关,各自的方差为 ,总的方差是我们从 中,选出对方差贡献最大的部分指标,达到主成分分析的目的。PTOOAXCOVAFCOV1)()(PFF,1p,1tr1PFF,1样本主成分计算样本主成分计算在解决实际问题时,总体的协方差和相关阵往往都是未知的,需要通过样本来进行估计。样本协方差矩阵为 用标准化变换后的数据矩阵 可计算出样本相关矩阵为 然后计算求出样本主成分。)()(111ijTiniisxxxxnS)(jjijsxxXXXnr

17、RTij11)(主成分的提取主成分的提取由主成分分析的基本思想和计算过程可以看出,主成分分析是把 p个随机变量的总方差分解为p个不相关的随机变量的方差之和 。各个主成分的方差即相应的特征根表明了该主成分的方差,方差 的值越大,表明该主成分对综合原始变量 X的能力越强。在实际应用中,通常第一主成分并不足以代表原始变量,所以要选取几个方差最大的主成分。按照方差从大到小的顺序排列,前几个主成分的方差之和与总方差的比值称为主成分 的累计贡献率。在研究实际问题时,一般要求累计贡献率不小于85。由于主成分的方差 一般下降较快,所以只要取为数不多的主成分就足以反映 个原始变量的变化情况。当用它进行预测时,就可使预测因子减少,达到降维的作用。piimiim11并没有表达某个变量被提取了多少信息,因此仅仅使用累计贡献率这一准则,并不能保证每个变量都被提取了足够的信息。此时,往往需要另外一个辅助的准则。为原

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论