




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、对体育科研中多元回归方程病态设计阵的分析及其LS估计的改进彭 大 松( 安徽师范大学体育学院 芜湖 241000)摘要:本文针对多元回归方程设计阵病态情况下LS估计失去优良性进行分析,讨论了体育科研中多元回归方程设计阵呈病态的原因及其识别方法。并从直观上分析了该种数据导致LS估计不理想的原因。从两个角度提出了有偏估计的办法对LS进行改进。关键词: 体育科研 多元回归 设计阵 病态 有偏估计On the Analysis of Abnormal cases in Multiplied Regression Estimation in Research of sports SciencePeng
2、Dasong(College of Physical Education,Anhui Normal University ,Wuhu, 214000)Abstract: With the analysis of the loss of excellence in LS estimation in abnormal cases in multiplied regression eqution programming matrix, this paper discusses the causes for the abnormality in sports research and the mean
3、s to distinguish it, with which the author directly perceives the causes for the loss of excellence in LS estimation ,and offers the means of biased estimation as a solution to the improvement of LS estimation .Key words: PE research ,Multiplied regression equation ,Programming matrix , Abnormality,
4、 Biased estimation1前言 在多元回归分析中,设计阵5X病态被表述为X´X 中至少有一个特征根非常小即接近于0(又称多元共线性)13。在体育领域里设计阵病态是一种常见的现象。对这种数据若不加考虑的任用LS方法对回归系数进行估计,会导致严重的后果,常见的是系数估计不稳定,误差过大,甚至出现与实际上相反的符号,此时的LS方法已失去其优良性。 本文拟对体育领域中设计阵呈病态进行分析,从直观上说明其破坏LS估计优良性的原因,讨论了体育科研中识别病态数据的方法,并从应用的角度介绍了两种常用的对LS估计不佳的改进办法。2 最小二乘估计(LS估计)考虑线性模型1: (1) 当取得样
5、本观测值后,回归系数的最小二乘估计为: (2)其中, , 是矩阵 , ,n是样本含量。将x ,y 标准化后,得到标准回归方程是: (3)经标准化后xx变成了相关阵。若x 是正常的那么LS估计将是优良的 。3 设计阵病态时对LS估计的影响 在实际应用中,当出现设计阵病态(又称多元共线性),最小二乘估计不再具有优良的性质13。甚至让分析者得出错误的结论。常见的后果有以下几个方面:对系数的估计误差过大,系数估计不稳定,增减样本时系数改变特别大,甚至出现与实际相违背系数符号。 理论上设计阵X 呈病态时则|x´x|0。为了从直观上说明LS估计不理想,以及为后面的有偏估计的提出提供理论基础而引进
6、一个评价系数估计优劣的一个标准-均方误差2。3.1 估计值的均方误差MSE()311 均方误差的定义:若为参数的估计值则MSE=E(|-|2)称之为估计值的均方误差。(数理统计上符号|a|表示向量的长度3)312 MSE的分解MSE=E(|-|2)是估计值与参数真值偏离大小的一个度量。具体地,对于一个好的估计,MSE不应该过大。为了更清楚的说明问题,我们对MSE进一步分解:MSE=E(-)´(-)=E(-E)+(E-)´(E-)+( E-) =trcov()+|E-|2 (4)若记´为(1,2,p)那么(4)式的第一项又可以写成度量的是i各分量估计值的方差。同样(
7、4)式第二项可以写成度量的是估计值I各分量的偏差。理论上这两项均应达到较小才可以被认为是一个好的估计3。32最小二乘估计的均方误差MSE() 在对MSE分解的基础上,来讨论一下最小二乘估计的均方误差MSE()。回归方程同(1)式标准化形式同(3)式,当yN(x,2/n)有MSE()E|-|2在统计理论上已经证明了E|-|2tr(x´x)-1D|-|222tr(x´x)-2,其理论依据参见3。 若x´x的特征根分别是12p 由线性代数知识得到:和 的特征根分别是: 因而有: E(|-|2)2 (5) D(|-|2)= 24 (6)(5)式度量了系数估计的误差,(6)
8、式度量了的稳定情况(或说是度量了的波动情况)若设计阵正常LS估计无疑是合适的。但要上X呈病态即x´x有接近于0的特征根,直观上(5),(6)两式特别大。说明此时LS估计的均方误差过大且系数不稳定,从而LS估计失去了优良性。4体育科研中设计阵病态的成因与识别方法41 成因分析导致多元回归方程系数设计阵病态的因素很多,这里仅就体育领域中常见设计阵病态成因进行,有以下几个原因:4.1.1由于数据收集的局限性同其他学科的研究相比,体育科学研究存在着自身的复杂性和独特性。因此,数据收集往往受到各种客观条件的限制。如比赛时动作的不可重复性。用统计的语言来表达就是:所收集的P个指标(变量)x1 x
9、2.xp近似的落在低于P维的 Rn 平面内3。原则上可以通过收集更多的数据来打破病态数据的共线性。但是数据的收集客观上存在很多困难。即便收集更多数据时可行的,但可能会因此带来的新问题如高杠杆点,高影响点等,同样会给分析者造成麻烦。回归方程自变量之间客观上存在着一定程度的线性相关性体育科学研究与其他学科相比,存在着自身的复杂性与独特性。体育动作的完成以及在运动过程中各种生理生化反应都是以复杂联系的人体为载体。人体是个复杂的系统。对这个复杂的系统研究的还欠完善,这就给选取指标带来困难,如对所要选取的指标间的相关性还不是十分清楚等 伪变量个数过多体育科研中有许多问题的研究涉及到对定性变量进行定量分析
10、,若以若干定性指标建立回归方程,通常的做法是借助于“0 1”变量(又称伪变量).若伪变量选择过多也会造成设计阵完全共线性.通常伪变量的个数应是自变量个数减去1。体育工作者理论基础不扎实由于分析者理论知识水平限制而把事实上存在相关性的一个或几个变量引入回归方程,造成设计阵呈现病态.或者是分析者粗心而疏于考虑所选指标间的相关性,同样也会造成严重的后果。另外,由于计算机科学的高速发展,许多体育工作者过分的依赖计算机,特别是处理多变量大型回归问题时根本就不从专业知识的角度来考虑而一味地将自己主观上所选地变量统统输入计算机。这样做可能就会将客观上存在共线性的变量选入回归方程从而造成设计阵病态。4.2 设
11、计阵病态的识别方法 设计阵病态的识别方法有很多,这里从应用的角度出发介绍几种常用的识别方法。 相关系数识别法 具体做法是凭专业知识,通过分析指标间的相关性来识别.若指标间相关系数达到 0.75通常认为是高度相关3从而造成设计阵病态。但有一点需要注意,就是相关性识别法只能识别两两指标间的关系,而对于多指标间的共线性关系将无法识别。4.2.2 F检验与t检验相矛盾识别法 对回归方程进行检验,若F检验发现所选入的变量均与因变量关系显著。但对单个变量进行t检验发现几个或全部变量都不显著。这样F检验t检验相矛盾是多元共线性的一个好的标志4。由此可以判断设计阵呈病态。 特征根识别法(又称主成分识别法) 对
12、(3)式(相关阵)进行谱分解,得到特征根分别为1,2,p。若其中的一个或几个接近于0表明原自变量间存在着共线性1从而造成设计阵病态。5. LS估计的改进方法 从上面的分析知道设计阵病态,LS 估计的效果不好,反映在均方误差上即MSE() 特别大。其原因是 中存在接近于0的特征根。对此,LS改进的直观想法就是对进行适当的变换打破其共线性,使特征根接近于0的程度得到改善。下面就从减少均方误差的角度引入岭估计,从消除自变量间的多元共线性角度引入主成分有偏估计对设计阵病态下LS估计进行改进。5.1 岭估计 5.1.1 岭估计的直观思想 由(3)式得估计为=(,我们设想在的主对角元上都添加一个很小的正数
13、k通常(0k1)。使x´x中接近于0的特征根得到改善。从而使系数的估计均方误差较小且稳定。依照岭估计的思想其的估计表达式是:(k)(kIp)-1。为了更清楚的看清其结构,我们对该式展开得:统计理论上已证明了k0时总能找到合适得k使得MSE(k)达到最小并且有MSE(k)MSE成立6。512岭参数K值的选择 岭估计中引入了一个小的正数k称为岭参数。其值的确定要依靠样本数据而定,所以比较难以确定,下面介绍一种常见的确定岭参数的方法即岭迹法4。所谓岭迹法就是以不同的k(0k1) 值为横坐标以i(k)为纵坐标所描绘出的轨迹称为岭迹。那么什么时候的k值才是最佳的呢?文献 指出当所描绘的岭迹均处
14、于稳定状态,且没有不合理的符号和残差平方和上升不太大。此时的k值即为所选。由于岭迹的计算比较麻烦为了避免必较复杂的逆的计算下面给出一个较为方便的岭迹计算式:(k)(kIp)-1=(8)其中i ,i 是x,x特征根和特征根所对应的特征向量。513实例分析 例1 因变量 y 与自变量x1, x2, x3 原始数据见表-1和表-2 表-1 观测号 x1 x2 x3 y1 149.3 4.2 108.1 15.92 161.2 4.1 114.8 16.43 171.5 3.1 123.2 19.0 4 175.5 3.1 126.9 19.1 5 180.8 1.1 132. 18.886 190.
15、7 2.2 137.7 20.47 202.1 2.1 146.0 22.78 212.4 5.6 154.1 26.59 226.1 5.0 162.3 28.110 231.9 5.1 164.3 27.611 239.0 0.7 167.6 26.3 表2系数项相关系数系数估计标准系数估计X1X2X3yX110.0260.9970.965-0.051-0.3394X210.0360.2510.5870.2130X310.9720.2871.3028y -10.130分析:依原始数据有 =.(9)其三个特征根为1=1.999 2=0.998 3=0.003 从(9)式(相关阵)知x1与x3
16、相关系数高达0.997即存在着高度相关。另外,从特征根3=0.003 几乎接近于零。这些迹象均表明设计阵病态,故可以用岭估计得方法对LS估计进行改进。具体做法是: 记 为原变量 x1 ,x2 ,x3 ,y 标准化,标准化以后的回归方程记为: 其中,b1 b2 b3 是不同K值对应的岭迹见表-3,与之相对应的岭迹图如下:表-3K b b b SSE0.0000.0010.0020.0030.0040.0050.0060.0070.0080.0090.0100.0200.0300.0400.0500.7000.8000.9000.100-0.339 0.213 1.303 -0.117 0.215
17、 1.0800.010 0.216 0.9520.092 0.217 0.8700.150 o.217 0.8110.193 0.217 0.768 0.225 0.217 0.7350.251 0.217 0.7090.272 0.217 0.6870.290 0.217 0.669 0.304 0.217 0.6540.379 0.216 0.5750.406 0.214 0.5430.420 0.213 0.5250.427 0.211 0.513.0.354 0.135 0.3610.342 0.128 0.3480.330 0.121 0.3360.319 0.115 0.3251.
18、6731.7281.8091.8811.9411.9902.0312.0662.0952.1202.1422.2762.3522.4162.48016.91119.95723.04726.194 从岭迹图上可以看出在k=0.040时各条岭迹趋于平稳,且无异常符号,残差平方和也不大。故取k=0.040时较合理。于是有回归方程再将此方程还原为原变量方程即可。5.2.1 主成分有偏估计 从上面分析知设计阵病态即|,|0,会产生多元共线性现象。主成分偏估计1就是从消除多元共性角度提出来的。主成分有偏估计的思想也很直观即对病态设计阵,产生的接近于0的特征根剔除掉打破其共线性,从而使LS计得到改善。具体做
19、法是: 对标准化的设计阵进行谱分解5,得到特征根1 ,2 ,3p和相应的特征向量根据实际情况,舍弃掉接近于0的特征根和特征向量。未被舍弃的主成分进入回归方程。 由于主成分估计的做法是舍弃较小的特征根,这样必然会带来部分信息损失。所以在应用中要根据实际问题,合理的舍弃特征根较小的主成分。通常根据贡献率大小来判断。具体的,p个主成分特征根之和为那么 反映的是第i主成分的贡献率,如果前k个主成分累积贡献率达到预先期望达到的数如95%,那么后(p-k)个主成分可以舍弃掉。另外,对于小于0.01的特征根所对应的主成分舍弃掉通常是合理的。下面通过一个例子来说明主成分有偏估计的具体做法。5.2.2 实例分析 例2 沿用例1的数据,计算出三个特征根为 :1=1.999 2=0.998 3=0.003 个特征根所对应的特征向量为:主成分是:由于第三个特征根=0.003很小,且前两个主成分的累积贡献率达到99.9%。因此,舍弃掉第三个主成分是合理的,于是Z1 Z2 进入回归方程。经计算得回归方程为 然后还原为原自变量的形式即可。 6. 关于有偏估计的几点说明
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024经济形势对投资的影响试题及答案
- 2024人力资源行业热点试题及答案
- 2024部编道德与法治七下第一单元《青春时光》中考真题汇编
- 黑龙江林业职业技术学院《数字营销传播案例解读》2023-2024学年第二学期期末试卷
- 黑龙江省哈尔滨三十二中2025届高三毕业班第十七模英语试题含解析
- 黑龙江省哈尔滨市巴彦县2025年三下数学期末学业质量监测模拟试题含解析
- 黑龙江省尚志中学2025届高三年级五校联考(一)物理试题含解析
- 黑龙江省牡丹江市重点中学2024-2025学年高三适应性月考(六)生物试题含解析
- 黑龙江省虎林市2025年高三二模热身考试历史试题试卷含解析
- 黑龙江省鹤岗市东山区2024-2025学年五年级数学第二学期期末质量跟踪监视试题含答案
- 2024-2030年版越南投资环境行业投资分析及未来发展规划研究报告
- 罗汉果行业深度研究与市场前景分析报告
- 2024年安防监控系统技术标准与规范
- 春节序曲 课件
- 七年级下学期生物苏教版电子教材
- 8.2-立体图形的直观图公开课教案教学设计课件案例试卷
- 《管理学-原理与方法》历年考试真题试题库(含答案)
- 2024年全国职业院校技能大赛(植物病虫害防治赛项)考试题库-上(单选题)
- 欧洲门窗标准
- DL∕T 5131-2015 农村电网建设与改造技术导则
- 2024年泉州市泉港区小升初考试数学试卷含解析
评论
0/150
提交评论