回归分析与因子分析_第1页
回归分析与因子分析_第2页
回归分析与因子分析_第3页
回归分析与因子分析_第4页
回归分析与因子分析_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、回归分析与因子分析之比较刘婷玉数学与统计学院06级【摘 要】回归分析与因子分析是数理统计中常用的两种数据处理方 法,本文对他们进行比较,分析了两种方法的区别与联系,各自的使 用和适用范围,对教学质量的提高及在实际中对于有效选择此两种统 计方法提供了依据。【关键词】回归分析因子分析 比较一、问题提出回归分析和因子分析都是研究因变量与因子间关系的一种数据处理 方法,在模型上看,只是因子结构不一样,他们之间到底有什么内在 联系,值得我们研究并加以利用。二、问题分析1、统计模型和类型多元线性回归模型表示方法为Y = b + bX + b X + + b X + u01122k k个样本观测值(Y, X

2、., X2.,X .)i = 1,2,n得:Y = b + bX + bX + . + bX + ui 01 1i 2 2 ik ki i其解析表达式为:= b + bX + b X + + b X + u TOC o 1-5 h z 0111221kk 11= b + bX + b X + + b X + u0112222k k22Y = b + bX + b X + + b X + uk kn nn 01 1n2 2n多元模型的矩阵表达式为fY1f1XXX21Y11X111222:2=:Y1:XX2nJ1nY = XB + U.XXk 1 k2.Xknf b Ibb2bJfY1f1XX.X

3、 1Y11X11X21V k1 X:2X =. 12 :22 :k 2Y1: XX.X 1J1n2nkn Y =B=fb b b:2b k般地,U =f u11 u:2u77n设 X=(x1, x2,xp)为可观测的随机变量,且有X = p+ a , f + a , f +. + a , f + ei i i11 i 22im m i。在因子分析中,p维的变量向量x被赋予一个随机结构,x =a+Af+具体也可以写成以下形式:x p = a f + a f +. + a f + 811 112 21m m 1x p = a f + a f +. + a f + 8x p = a f + a f

4、+. + a f +8 pp1 1 p 2 2pm m p21 122 22m m 2(1)其中a是p维向量,A是pXr参数矩阵,f是r维潜变量向量,称为公共因子(Common factors),而e是p维的变量向量,称为特殊因子(Specific factors),满足下列假定:E( e ) =0, cov( e ) 二 (对角矩阵)E(f) =0, cov (f, e )=0, cov(f) =I (2)它把每个变量分解为两部分,一部分是由这些变量内含的公共因 子所构成的,即公共因子部分,另一部分是每个变量各自独有的因子, 即所谓特殊因子部分。应当注意,因子模型不具有唯一性,设T是一 个正

5、交矩阵,由TT I可知,因子模型x = a +Af+ e与模型x = a+(AT)(T f)+e等价。后者载荷矩阵为AT,新的公共因子T f。正是由于因子模型的不唯一性,所以当原模型不适合专业解释时,则作 一个正交变换T,把原模型改变为新模型,在新模型中再去寻找因子 的专业解释,这就为因子旋转提供了理论的基础。由两者的比较可知,两种模型都是用某几个因子来解释变量的, 只是因子构成不一样,回归分析的因子之间可能存在相关关系,但是 后者却是独立的。回归分析模型写成了原观测变量的线性组合,因子 分析是描述原指标X协方差阵结构的一种模型,对原观测变量分解 成公共因子和特殊因子两部分,当公共因子的个数m

6、=原变量个数p 时,就不能考虑特殊因子了,此时因子分析也对应于一种线性组合了, 饿而且因子模型的系数矩阵表明了原变量和公共因子的相关程度。2、目的和作用回归分析是为了分析一个变量如何依赖其它变量而提出的一种 统计分析方法,它的目的是要确定引起因变量变化的各个因素,多元 线性回归是研究一个因变量(Y)和多个自变量(Xi)之间数量上相互依存的线性关系。利用回归分析可以进行因素分析、调整混杂因素和统计预测。因子分析是用于研究个体测量指标的协方差(或相关)结构的探 索性数据分析的多元技术。它找出若干可以解释可观测指标之间的变 差或者联系的潜变量从而简化高维数据,并对相似指标进行分组及检 测多重共线性,

7、将高维数据在低维空间中图示以利于直观考察数据的 分布情况及检测异常值。目标是通过减少变量的个数来了解数据的结 构,在某种意义上可以取代原始数据,而且通过图示和多元推断技术 更容易进行研究。它就是用少数几个有意义因子来描述多个指标或因 素之间的联系,与此同时,又能保存住原有数据结构所提供的大部分 信息,这样就可以找出潜在的特征。其目的为化简数据、浓缩信息、 探讨内在结构,也就是说将分散在多个变量中的同类信息集中起来、 提纯,从而便于分析、解释和利用。同样是因变量和因子之间的关系,但是回归分析却能得出确切的 数值关系,而且通常是定量的(不过对定性因素可以采用虚拟变数的 处理方法)。但因子分析一般适

8、用于定性的,不可观测的数据。不过, 回归分析的关系不精简明了,而且确定的因子也是根据人为经验事先 定好的,不如因子分析的全面,可能还得做逐步回归等才能剔除或增 加变量。3、适用顾首先,回归分析和因子分析使用的数据不一样。回归分析同时需 要因子和因变量的数据,数据结构为因变量和因子对应的顺序数据, 即,XJ = 1,2, ,n。而因子分析只需要在不同情况下对应的因变量 的值,无需知道X的确切数值,只要根据调的数值就行了,也即这 种方法可以揭示因子内部的关系。其次,样本容量的要求也不同。回归分析最小样本容量 n N k+1。对B =(XX)-1XY,有(xX)-l 存在 ol XX I 丰 0 o

9、 XX 为 k+1 阶的满秩阵,R(AB) W min(R(A),R(B),R(X) N k+1,因此,必 须有nNk+1。根据经验,有n N 30或者n N 3(k+1)才能满足模 型估计的基本要求。n N 3(k+1)时,t分布才稳定,检验才较为有 效。根据Gromuch(1983)的观点,因子分析的样本量要求如下:一般原 则是要求样本数目至少是变量个数的五倍,能有一比十的比例是较可 被接受的,有些研究建议观察值个数为变量个数的二十倍;总样本最 好应有100个或以上的观察值,通常不要少于50个观察值。最后,模型假设也有不同之处:在回归分析中,有如下假设:解释变量Xi是确定性变量,不是随机变

10、量;解释变量 之间互不相关,即无多重共线性。随机误差项具有0均值和同方差。随机误差项不存在序列相关关系。随机误差项与解释变量之间不相关。随机误差项服从0均值、同方差的正态分布。在因子分析中,假定:公共因子的均数为0,方差为1。特殊因子的均数为0,方差为6i,且特殊因子互不相关。公共因子与特殊因子相互独立。由比较可知,两种分析方法在两类因子的相关性上有相似之处, 差别主要在于回归分析中的随机误差项要求服从0均值、同方差的正 态分布。4、模型的解七回归分析应用最小二乘估计,其矩阵表示如下:Y = xB Y = XB + UE = Y - Y = Y - XBQ = &2 = (y y )i i=1

11、=ee = (Y XB)(Y XB)Q = (Y B X f)(Y XB)=(Y Y Y XB B XY + B X XB)为什么 Y XB = B XY ? 人_-X Y + X XB = 0=Y Y 2 B XY + B BXXB竺=06 2 = een k 1它具有线性(估计量都是被解释变量观测值的线性组合)无aBB = ( XX )-1 XY偏性(估计量的数学期望=被估计的真值)有效性(估计量的方差是所有线性无偏估计中最小的)而因子分析有若干种方法 主成分法(principal component factor)a = . 1,2,p; j 1,2,m每一个公共因子的载荷系数之平方和等

12、于对应的特征根,即该P C-公共因子的方差。人=z a 2 = g2 jij i。i=1主因子法(principal factor)设原变量的相关矩阵为R=(七),其逆矩阵为R-1=( rij )。各变量 特征方差的初始值取为逆相关矩阵对角线元素的倒数,& ;=1/r。则共同度的初始值为h 2 La 2。1ijj=1极大似然法(maximum likelihood factor)假定原变量服从正态分布,公共因子和特殊因子也服从正态分 布,构造因子负荷和特殊方差的似然函数,求其极大,得到唯一解。由上可知,因子载荷的统计意义是第个变量与第j个公共因子 的相关系数,表示X,依赖巧的份量(比重)。统计

13、中应称为权。现称 载荷,表示第i个变量在第j个因子上的负荷,反映了第i个变量在 第j个因子上的相对重要性。另外,回归的系数是唯一确定的,而因 子模型的系数矩阵不唯一,且该矩阵表明了原变量和公共因子的相关 程度。差阵的特征值所对应的特征向量。某解释变量前回归系数的含 义是,在其他解释变量保持不变的条件下,该变量变化一个单位,被 解释变量将平均发生偏回归系数大小的变动。另外,因子分析中的载 荷矩阵是不可逆的,只能通过可观测的原变量去估计不可观测的公共 因子,bj是因子载荷矩阵中的元素,是第变量Xi与第j个公共因 子Z j的相关系数,即表示Xi依赖Z j的份量,是第i变量在第j个 公共因子上的负荷,

14、它反映了第变量在第j个公共因子上的相对重的均要性。e y是第/个原观测变量的特殊因子,且此处的X.与Z. 值都为0,方差都为1。5、效果检验对多元线性回归可作如下平方和分解: (Y - Y)2 = (Y - Y )2 + (Y Y)2ii iiTSS = RSS + ESS总离差平方和=回归平方和+残差平方和自由度:n-1=k-1+ n-k回归方程的总体检验:H 0 : P1 = P 2 = P k = 0H1 :并非所有的P都为零*据给定的a n F根据样本资料计算统计量F乙 / y - ;IkMSR SSR k I、JMSE SSEn - 1 - k 、-;力 -k*如果FF则拒绝H 0,

15、否则接收H 0回归系数的检验:H0: pk =0H1 : Pk 公 0 *据给定的an F计算统计量 FFLssr lx 1, X 2,/. Xk) SSR l 1, X 2,Xk_1 刀/1SSex 1 , X 2 , X k,/ n 1 k . _.* 如果FF则拒绝H 0,否则接收H 0而对于因子分析而言,是没有统计检验的,只是在模型中各个量 的统计意义上有所表现:特征根(Eigenvalue),(H.Kaiser)所谓特征值,是指每一行因子 负荷量平方加总后之总和,表示该因子能解释全体变异的能力。每一 个公共因子的载荷系数之平方和等于对应的特征根,即该公共因子的 方差。它可以被看成是主

16、成分影响度的指标,代表引入因子、主成分 后可解释平均多少原始变量的信息。因每一变量之变异数均为1,若 所抽取的因子特征根小于1,说明该主成分的解释力度还不如直接引 入一个原变量的平均解释力度大。因此一般可以用特征根大于1作为 纳入标准。变量共同度(Communalities),也称为公共方差(common variance),反映全部公共因子变量对原有变量X.的总方差解释说明 比例。原有变量X.的共同度为因子载荷矩阵A中第,行元素的平方和h12 =Y a, h;越接近于1(原有变量X.标准化前提下,总j=1方差为1),说明公共因子解释原有变量越多的信息。如果大部分变量 的共同度都高于0.8,则

17、说明提取出的公共因子已经基本反映了各原 始变量80%以上的信息,仅有较少的信息丢失,因子分析效果较好。 可以说,各个变量的共同度是衡量因子分析效果的一个指标公共因子 F 的方差贡献定义为因子载荷矩阵A中第/列各元素的平方和,方 差贡献反映了该因子对所有原始变量总方差的解释能力,其值越高, 说明因子重要程度越高。累积贡献率达到80%85%就比较满意了。因子载荷(负荷)a j是随机变量x,与公共因子匕的相关系数。 设称g 2为公共因子匕对X的“贡献”,是衡量公共因子fj重要性的一 个指标。6、步骤回归分析A、找出被选变量B、试建回归模型C、评核回归模型D、修改回归模型E、解释并应用回归模型因子分析

18、A、输入原始数据Xn*p,计算样本均值和方差,进 行标准化计算(处理);B、求样本相关系数矩阵R=(.);j p*pC、求相关系数矩阵的特征根人(人,人,人。)和i 12 p相应的标准正交的特征向量l ;iD、确定公共因子数;E、计算公共因子的共性方差七2;F、对载荷矩阵进行旋转,以求能更好地解释公共因子;G、对公共因子作出专业性的解释。三、结束语回归分析和因子分析是两种常用的数据处理方法,通过主成分分 析和因子分析的对比,我们可以很清楚的看出回归分析和因子分析有 一定的关系,本文只给出一部分区别和联系。希望通过本文的分析, 能给初学者有一定的帮助,在学习和研究中能提供信息。另外,由以 上比较可知,在处理数据时,若数据包含因子的信息,则可以先进行 回归分析,再用因子分析进行进一步验证和扩展,发现其内在规律, 以尽量全面客观的解释客观事实。参考文献1高惠璇.应用多元统计分析M.北京大学出版社,2005,1.2何晓群,刘义卿.应用回归分析M.中国人民大学出版社.3张尧庭.多元统计分析选讲.北京:中国统计出版社出版,20024数学建模方法及其应用韩中庚北京:高等教育出版社,20055回归分析及其试验设计茆诗松、丁元、周纪芗、吕乃刚华东师范大学出版社,20016多元线性回归的数学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论