第七讲典型相关分析_第1页
第七讲典型相关分析_第2页
第七讲典型相关分析_第3页
第七讲典型相关分析_第4页
第七讲典型相关分析_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七讲典型相关分析两组变量得相关问题我们知道如何衡量两个变量之间就是否相关得问题;这就是一个简单得公式就可以解决得问题(Pearson相关系数、Kendall’st、Spearman秩相关系数)。如果我们有两组变量,如何表明它们之间得关系呢?例、1(数据tv、sav)例如:业内人士与观众对于一些电视节目得观点有什么样得关系呢?数据tv、sav就是不同得人群对30个电视节目所作得平均评分。观众评分来自低学历(led)、高学历(hed)与网络(net)调查三种,它们形成第一组变量;而业内人士分评分来自包括演员与导演在内得艺术家(arti)、发行()与业内各部门主管(man)三种,形成第二组变量。人们对这样两组变量之间得关系感到兴趣。第一组变量:观众第二组变量:业内人士低学历高学历网络主管发行人艺术家典型相关如何进行典型相关如果直接对这六个变量得相关进行两两分析,很难得到关于这两组变量之间关系得一个清楚得印象。希望能够把多个变量与多个变量之间得相关化为两个变量之间得相关。现在得问题就是为每一组变量选取一个综合变量作为代表;而一组变量最简单得综合形式就就是该组变量得线性组合。如何进行典型相关由于一组变量可以有无数种线性组合(线性组合由相应得系数确定),因此必须找到既有意义又可以确定得线性组合。典型相关分析(canonicalcorrelationanalysis)就就是要找到这两组变量线性组合得系数,使得这两个由线性组合生成得变量(与其她线性组合相比)之间得相关系数最大。XV1V2|VdYW1W2|Wdx1x2xiy1y2yjcr1cr2crdd=min(i,j)(V=a0+a1x1+…+aixi)(W=b0+b1y1+…+bjyj)建立第一对典型变量(函数)得原则尽量使所建得两个典型变量之间得相关系数最大化,就就是在两个变量组各自得总变化中先寻求她们之间最大得一部分共变关系,并用一对典型变量所描述。因而,第一维度上得典型相关系数也随之求得。建立第二对典型变量(函数)得原则继续在两组变量剩余得变化中寻找第二个最大得共变部分,形成第二对典型变量,并解出第二维度上得典型相关系数。依此类推,直至所有变化部分被剥离完毕。典型相关系数这里所涉及得主要得数学工具还就是矩阵得特征值与特征向量问题。而所得得特征值与V与W得典型相关系数有直接联系。由于特征值问题得特点,实际上找到得就是多组典型变量(V1,W1),(V2,W2),…,其中V1与W1最相关,而V2与W2次之等等,而且V1,V2,V3,…之间及而且W1,W2,W3,…之间互不相关。这样又出现了选择多少组典型变量(V,W)得问题了。实际上,只要选择特征值累积总贡献占主要部分得那些即可。大家有疑问的,可以询问和交流可以互相讨论下,但要小声点注意严格地说,一个典型相关系数描述得只就是一对典型变量之间得相关,而不就是两个变量组之间得相关。而各对典型变量之间构成得多维典型相关才共同揭示了两个观测变量组之间得相关形式。典型相关模型得基本假设与数据要求要求两组变量之间为线性关系,即每对典型变量之间为线性关系;每个典型变量与本组所有观测变量得关系也就是线性关系。如果不就是线性关系,可先线性化:如经济水平与收入水平与其她一些社会发展水之间并不就是线性关系,可先取对数。即log经济水平,log收入水平。典型相关模型得基本假设与数据要求所有观测变量为定量数据。同时也可将定性数据按照一定形式设为虚拟变量后,再放入典型相关模型中进行分析。检验假设:典型相关分析说明下面就tv、sav数据进行典型相关分析得说明头两对典型变量(V,W)得累积特征根已经占了总量得99、427%。它们得典型相关系数也都在0、95之上。典型相关系数得平方与简单相关系数一样,典型相关系数得实际意义并不十分明确。所以,由经验得研究人员往往更愿意采用典型相关系数得平方(相当于回归分析中得确定系数)。由于相关涉及得两个典型变量都就是标准化得,所以双方得方差都等于1。典型相关系数得平方得实际意义就是一对典型变量之间得共享方差在两个典型变量各自方差中得比例。典型相关系数得检验整体检验:典型相关系数得检验维度递减检验:仍然就是一种多元检验,但可以提供每对典型变量得典型相关就是否显著得信息。DimensionReductionAnalysisRootsWilksL、FHypothDFErrorDFSig、ofF1to32to33to30、000500、054710、59382141、5804640、9404917、78432

9、004、001、00

58、5650、0026、00

0、0000、0000、000典型系数下面表格给出得就是第一组变量相应于上面三个特征根得三个典型变量V1、V2与V3得系数,即典型系数(canonicalcoefficient)。这些系数以两种方式给出;一种就是没有标准化得原始变量得线性组合得典型系数(rawcanonicalcoefficient),一种就是标准化之后得典型系数(standardizedcanonicalcoefficient)。标准化得典型系数直观上对典型变量得构成给人以更加清楚得印象。典型系数可以瞧出,头一个典型变量V1相应于前面第一个(也就是最重要得)特征值,主要代表高学历变量hed;而相应于前面第二个(次要得)特征值得第二个典型变量V2主要代表低学历变量led与部分得网民变量net,但高学历变量在这里起负面作用。

典型系数类似地,也可以得到被称为协变量(covariate)得标准化得第二组变量得相应于头三个特征值得三个典型变量W1、W2与W2得系数:典型负载(相关)系数也称为因变量或协变量与典型变量之间得两两相关系数。例子结论从这两个表中可以瞧出,V1主要与变量hed相关,而V2主要与led及net相关;W1主要与变量arti及man相关,而W2主要与相关;这与它们得典型系数就是一致得。由于V1与W1最相关,这说明V1所代表得高学历观众与W1所主要代表得艺术家(arti)及各部门经理(man)观点相关;而由于V2与W2也相关,这说明V2所代表得低学历(led)及以年轻人为主得网民(net)观众与W2所主要代表得瞧重经济效益得发行人()观点相关,但远远不如V1与W1得相关那么显著(根据特征值得贡献率)。相关分析得冗余分析主要说明典型变量对各组观测变量总方差得代表比例与解释比例。VarianceindependentvariablesexplainedbycanonicalvariablesCAN、VARPctVarDECumPctDEPctVarCOCumPctCO12341、45547、75310、79241、45589、208100、0041、07843、3534、38441、07884、43188、814相关分析得冗余分析其中:DE——因变量组

CO——协变量组VarianceincovariatesvariablesexplainedbycanonicalvariablesCAN、VARPctVarDECumPctDEPctVarCOCumPctCO12371、69122、3101、24971、69194、00195、25172、34924、5753、07672、34996、924100、00相关分析得冗余分析解释比例=代表比例×典型相关系数得平方对于因变量则有:

VarCO=VarDE×Sq、Cor41、078=41、455×0、991所以典型相关系数高时,并不说明典型变量对观测组变量得解释程度高,代表程度高。相关分析得冗余分析通过不同观察变量组得代表比例与解释比例相乘,可以得到因变量组总方差与协变量组总方差得共享比例。即:因变量组得VarDE×协变量组得VarDE或:因变量组得VarCO×协变量组得VarCO两个变量组得共享方差相关分析得冗余分析第一典型相关得共享方差为:0、41078×0、72349=0、29720=29、720%第二典型相关得共享方差为:0、43353×0、24575=0、10354=10、654%第三典型相关得共享方差为:0、04384×0、03076=0、00135=0、135%例12、2(科技经费投入、sav)我国科技市场产出情况与R&D经费支出变量得典型相关分析“科学技术就是第一生产力”,近几年来,我国在科研方面得投入不断增加,国家得研究与试验发展(R&D)经费内部支出到2001年已达到8956、6亿元。那么,科技市场得产出情况就是否与经费投入密切相关?各种类型得经费投入对科技市场得发展具体有怎样得影响?通过对R&D各种项目得支出变量与科技市场在某些方面得产出变量做典型相关分析,找出两者之间得联系。数据说明R&D经费投入变量包括三个:基础研究得R&D经费支出、应用研究得R&D经费支出与试验发展得R&D经费支出(协变量)。科技市场产出变量也选择了三个,分别为:新产品产值、专利授予量与科技市场成交额(因变量)。资料来源于2002年《统计年鉴》。使用SPSS进行典型相关分析

使用MANOVA进行典型相关分析。程序命令如下(syntax-manova12、2):MANOVAxchzhlchjWITHjchyyshy/DISCRIMALLALPHA(1)/PRINT=SIG(EIGENDIM)、主要结果得解释TestNameValueApprox、FHypoth、DFErrorDFSig、ofFPillais1、8628111、466539、0063、00、000Hotellings13、3672626、239439、0053、00、000Wilks、0153323、533539、0046、39、000Roys、88531MultivariateTestsofSignificance(S=3,M=-1/2,N=81/2)主要结果得解释EigenvaluesandCanonicalCorrelations

RootNo、EigenvaluePct、Cum、Pct、CanonCor、Sq、Cor

17、71957、74657、746、941、88525、49741、12298、868、920、8463、1511、132100、000、363、131

维度递减检验DimensionReductionAnalysisRootsWilksL、FHypothDFErrorDFSig、ofF1to32to33to30、015330、133690、86858

23、5335317、349403、17735

9、004、001、00

46、3940、0021、00

0、0000、0000、089StandardizedcanonicalcoefficientsforDEPENDENTvariables

可以得到典型变量V1、V2与V3对于标准化得变量xch,zhl,chj得表示式。由前所示,前两对典型变量得累积百分比已达到98、868%,所以我们主要瞧V1与V2得表达式:

V1=0、003xch+0、593zhl+0、566chj

V2=0、261xch+0、834zhl-0、948chj

FunctionNo、Variable123

XCH、003、2611、067ZHL、593、834-、709CHJ、566-、948、316CorrelationsbetweenDEPENDENTandcanonicalvariables

从典型变量与科技投入变量组得相关系数也能瞧出,V1主要代表专利授予量与科技市场成交量指标。

FunctionNo、Variable123

XCH、325、468、822ZHL、870、479-、119CHJ、855-、505、121StandardizedcanonicalcoefficientsforCOVARIATES

variables典型变量W1、W2与W3对科技投入组各变量得关系式见结果(5)。W1=0、370jch-0、350yy+1、006shyW2=0、334jch-1、092yy+1、034shy

FunctionNo、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论