生物数据统计分析方法第六章演示文稿_第1页
生物数据统计分析方法第六章演示文稿_第2页
生物数据统计分析方法第六章演示文稿_第3页
生物数据统计分析方法第六章演示文稿_第4页
生物数据统计分析方法第六章演示文稿_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物数据统计分析方法第六章演示文稿当前第1页\共有82页\编于星期四\19点(优选)生物数据统计分析方法第六章当前第2页\共有82页\编于星期四\19点

1.两个随机变量Y与X简单相关系数2.一个随机变量Y与一组随机变量X1,X2,…,Xp多重相关(复相关系数)3.一组随机变量Y1,Y2,…,Yq与另一组随机变量X1,X2,…,Xp典型(则)相关系数(一)何时采用典型相关分析典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关系数的特例。当前第3页\共有82页\编于星期四\19点

典型相关是研究两组变量之间相关性的一种统计分析方法。也是一种降维技术。由Hotelling(1935,1936)最早提出,CooleyandLohnes(1971)、Kshirsagar(1972)和Mardia,Kent,andBibby(1979)推动了它的应用。

当前第4页\共有82页\编于星期四\19点实例(X与Y地位相同)

X1,X2,…,XpY1,Y2,…,Yq1临床症状所患疾病2原材料质量相应产品质量3居民营养健康状况4生长发育(肺活量)身体素质(跳高)5人体形态人体功能当前第5页\共有82页\编于星期四\19点

1985年中国28省市城市男生(19~22岁)的调查数据。记形态指标身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽分别为X1,X2,…,X6;机能指标脉搏(次/分)、收缩压(mmHg)、舒张压(变音)、 舒张压(消音)、肺活量(ml)分别为Y1,Y2,…,Y5。现欲研究这两组变量之间的相关性。

当前第6页\共有82页\编于星期四\19点

当前第7页\共有82页\编于星期四\19点简单相关系数矩阵

当前第8页\共有82页\编于星期四\19点简单相关系数公式符号Corr(X)=R11Corr(Y)=R22Corr(Y,X)=R21Corr(X,Y)=R12当前第9页\共有82页\编于星期四\19点简单相关系数

描述两组变量的相关关系的缺点

只是孤立考虑单个X与单个Y间的相关,没有考虑X、Y变量组内部各变量间的相关。两组间有许多简单相关系数(实例为30个),使问题显得复杂,难以从整体描述。(复相关系数也如此)当前第10页\共有82页\编于星期四\19点(二)典型相关分析的思想采用主成分思想寻找第i对典型(相关)变量(Ui,Vi):典型相关系数典型变量系数或典型权重

当前第11页\共有82页\编于星期四\19点

X*1,X*2,…,X*p和Y*1,Y*2,…,Y*q分别为X1,X2,…,Xp和Y1,Y2,…,Yq的正态离差标准化值。记第一对典型相关变量间的典型相关系数为:CanR1=Corr(U1,V1)(使U1与V1间最大相关)

第二对典型相关变量间的典型相关系数为:CanR2=Corr(U2,V2)(与U1、V1无关;使U2与V2间最大相关)……第五对典型相关变量间的典型相关系数为:CanR5=Corr(U5,V5)(与U1、V1、…、U4、V4无关;U5与V5间最大相关)有:1≥CanR1≥CanR2≥……≥CanR5≥0当前第12页\共有82页\编于星期四\19点典型相关变量的性质当前第13页\共有82页\编于星期四\19点(三)典型相关分析示意图

X1Y1Y2Y3Y4Y5X2X3X4X5X6XYU1U2U3U4U5V1V2V3V4V5CanR1CanR2CanR3CanR4CanR5当前第14页\共有82页\编于星期四\19点二、典型相关系数及其检验

当前第15页\共有82页\编于星期四\19点(一)求解典型相关系数的步骤求X,Y变量组的相关阵R=求矩阵A、B

可以证明A、B有相同的非零特征根3.求A或B的λi(相关平方)与CanRi,i=1,…,m4.求A、B关于λi的特征根向量即变量系数当前第16页\共有82页\编于星期四\19点(二)典型相关系数计算实例求X,Y变量组的相关阵R=当前第17页\共有82页\编于星期四\19点Corr(X)=R11Corr(Y)=R22Corr(Y,X)=R21Corr(X,Y)=R12当前第18页\共有82页\编于星期四\19点2.求矩阵A、B当前第19页\共有82页\编于星期四\19点A矩阵(p×p)0.52980.45860.30530.3986-0.2919-0.1778-0.0912-0.0701-0.1669-0.1939-0.0007-0.01680.22740.27390.54890.08400.52380.44680.09660.03760.05100.3877-0.2523-0.1759-0.0915-0.0979-0.0669-0.03770.0061-0.08060.09490.14210.1757-0.02100.21710.3142当前第20页\共有82页\编于星期四\19点B矩阵(q×q)0.2611-0.0560-0.0337-0.0551-0.0312-0.00530.55720.10090.0034-0.0543-0.0632-0.08430.08590.00130.1743-0.1175-0.00070.11830.25500.1490-0.10520.13900.35310.29120.5573当前第21页\共有82页\编于星期四\19点3.求矩阵A、B的λ(相关系数的平方)A、B有相同的非零特征值当前第22页\共有82页\编于星期四\19点B矩阵求λ

(典型相关系数的平方)0.2611-

λ-0.0560-0.0337-0.0551-0.0312-0.00530.5572-λ

0.10090.0034-0.0543-0.0632-0.08430.0859-λ

0.00130.1743-0.1175-0.00070.11830.2550-λ

0.1490-0.10520.13900.35310.29120.5573-λ

当前第23页\共有82页\编于星期四\19点5个λ与典型相关系数λ1=0.7643λ2=0.5436λ3=0.2611λ4=0.1256λ5=0.0220

当前第24页\共有82页\编于星期四\19点4.求A、B关于λi的变量系数

(求解第1典型变量系数)

当前第25页\共有82页\编于星期四\19点求解第2典型变量系数

当前第26页\共有82页\编于星期四\19点…求解第5典型变量系数

当前第27页\共有82页\编于星期四\19点5组(标准化)典型变量系数(X)U1U2U3U4U5X10.5852-1.14430.78230.0352-0.8298X2-0.21750.01890.60320.12891.5590X30.52881.6213-0.7370-0.4066-1.1704X40.1890-0.9874-0.77530.12290.6988X5-0.1193-0.0626-0.2509-0.58601.0488X60.19480.81080.14670.9523-0.5140当前第28页\共有82页\编于星期四\19点5组(标准化)典型变量系数(X)当前第29页\共有82页\编于星期四\19点由标准化典型变量系数获得原变量X对应的粗典型变量系数粗典型变量系数可由标准典型变量系数与相应的标准差之比获得。当前第30页\共有82页\编于星期四\19点5组(标准化)典型变量系数(Y)V1V2V3V4V5Y1-0.0838-0.13251.08070.3750-0.0376Y2-0.08781.26880.07010.2476-0.3342Y30.2147-0.33010.2218-1.08631.4100Y40.2920-0.2392-0.57651.3368-0.2942Y50.7607-0.29950.6532-0.0017-0.6905当前第31页\共有82页\编于星期四\19点(三)典型相关系数的特点

两变量组的变量单位改变,典型相关系数不变,但典型变量系数改变。(无论原变量标准化否,获得的典型相关系数不变)第一对典则相关系数较两组变量间任一个简单相关系数或复相关系数之绝对值都大,即CanR1≥max(|Corr(Xi,Yj)|)或CanR1≥max(|Corr(X,Yj)|)≥max(|Corr(Xi,Y)|)当前第32页\共有82页\编于星期四\19点(四)校正典型相关系数

(AdjustedCanonicalCorrelation)

为了使结果更加明了,增加大值或小值,减少之间大小的值,将典型变量系数旋转,可得到校正的典型相关系数。缺点:1.可能影响max(U1,V1);2.影响(U1,V1)与其他典型变量间的独立性。当前第33页\共有82页\编于星期四\19点(五)典型相关系数的标准误

当前第34页\共有82页\编于星期四\19点(六)E-1H的特征值(见典型判别、MANOVA,E误差项,H组间变异)

EigenvaluesofInv(E)*H=CanRsq/(1-CanRsq)

EigenvalueDifferenceProportionCumulative

13.24222.05100.65460.654621.19120.83790.24050.895130.35330.20970.07130.966540.14360.12120.02900.995550.02250.00451.0000当前第35页\共有82页\编于星期四\19点(七)典型相关系数的假设检验

全部总体典型相关系数均为0部分总体典型相关系数为0当前第36页\共有82页\编于星期四\19点1.全部总体典型相关系数为0当前第37页\共有82页\编于星期四\19点F近似检验(SAS结果)

TestofH0:ThecanonicalcorrelationsinthecurrentrowandallthatfollowarezeroLikelihoodApproximateRatioFValueNumDFDenDFPr>F10.067984662.2430700.003020.288405091.382060.6490.168630.631953010.801250.5610.650440.855215980.546400.772950.978034790.242210.7920当前第38页\共有82页\编于星期四\19点F近似检验(计算公式)当前第39页\共有82页\编于星期四\19点多变量统计量与F近似检验

MultivariateStatisticsandFApproximationsStatisticValueFValueNumDFDenDFPr>FWilks'Lambda0.067982.2430700.0030Pillai'sTrace1.716511.83301050.0133Hotelling-LawleyTrace4.952772.623035.3960.0032Roy'sGreatestRoot3.2422111.35621<.0001NOTE:FStatisticforRoy'sGreatestRootisanupperboun.当前第40页\共有82页\编于星期四\19点多变量统计量的计算公式当前第41页\共有82页\编于星期四\19点2.部分总体典型相关系数为0

仅对较小的典型相关作检验当前第42页\共有82页\编于星期四\19点卡方近似检验当前第43页\共有82页\编于星期四\19点部分总体F近似检验(计算公式)当前第44页\共有82页\编于星期四\19点三、典型结构分析当前第45页\共有82页\编于星期四\19点与原变量间的相关程度和典型变量系数有关。典型变量与原变量的亲疏关系

原变量与自已的典则变量

原变量与对方的典则变量之间的相关系数。当前第46页\共有82页\编于星期四\19点原变量在典型变量上的负荷(即原变量与典型变量间的相关系数)U1U2U3U4U5V1V2V3V4V5身高X10.9050-0.08060.3777-0.14870.08870.7912-0.05940.1930-0.05270.0132坐高X20.86160.01120.4152-0.03600.24120.75320.00830.2121-0.01280.0357体重X30.93610.1655-0.0471-0.2933-0.02470.81840.1220-0.0240-0.1039-0.0037胸围X40.6958-0.3189-0.53820.31910.13540.6083-0.2351-0.27500.11310.0201肩宽X50.13560.5329-0.0321-0.23760.73890.11850.3929-0.0164-0.08420.1095骨盆宽X60.24330.4412-0.04050.74780.39080.21270.3253-0.02070.26500.0579脉搏Y1-0.3610-0.06250.37570.16050.0410-0.4130-0.08480.73530.45300.2764收缩压Y20.39630.62320.04950.05080.03320.45330.84520.09680.14330.2240舒张压(音变)Y30.58010.15680.03780.02870.10500.66360.21270.07400.08100.7087舒张压(消音)Y40.50030.0296-0.08370.23390.06770.57230.0401-0.16380.66000.4565肺活量Y50.79940.00940.0685-0.0743-0.04730.91440.01280.1341-0.2098-0.3190当前第47页\共有82页\编于星期四\19点负荷矩阵的表达左上角的矩阵

X1=0.9050U1-0.0806U2+0.3777U3-0.1487U4+0.0887U5

X2=0.8616U1+0.0112U2+0.4152U3-0.0360U4+0.2412U5……X6右下角的矩阵

Y1=-0.4130V1-0.0848V2+0.7353V3+0.4530V4+0.2764V5

Y2=0.4533V1+0.8452V2+0.0968V3+0.1433V4+0.2240V5…..Y5当前第48页\共有82页\编于星期四\19点各典型变量的意义解释UVCorr(U,V)1身高、坐高、体重、胸围舒张压、肺活量0.87422肩宽收缩压0.73733胸围(-)脉搏0.51054骨盆宽舒张压(消音)0.35425肩宽舒张压(音变)0.1510当前第49页\共有82页\编于星期四\19点

等于该变量与自己这方典则变量的相关系数与典则相关系数的乘积

原变量与对方典型变量的相关当前第50页\共有82页\编于星期四\19点原变量与对方典型变量的相关右上角和左下角反映了原变量和对方的典型变量间关系,为利用对方的典型变量来预测原变量(回归)提供依据当前第51页\共有82页\编于星期四\19点四、典型变量的冗余分析

(CanonicalRedundancyAnalysis)当前第52页\共有82页\编于星期四\19点

该方法由StewartandLove1968;CooleyandLohnes1971;vandenWollenberg1977)发展。以原变量与典型变量间相关为基础。通过计算X、Y变量组由自己的典型变量解释与由对方的典型变量解释的方差百分比与累计百分比,反映由典型变量预测原变量的程度。当前第53页\共有82页\编于星期四\19点典型变量编号X1,X2,X3,X4,X5,X6被U1,U2,…,U5解释典型相关系数的平方被V1,V2,…,V5解释百分比累计百分比百分比累计百分比10.49990.49990.76430.38210.382120.10240.60230.54360.05570.437730.10160.70390.26110.02650.464340.13780.84170.12560.01730.481650.13060.97240.02200.00290.4844X原变量的相关被典型变量解释的百分比当前第54页\共有82页\编于星期四\19点典型变量编号Y1,Y2,Y3,Y4,Y5被V1,V2,…,V5解释典型相关系数平方被U1,U2,…,U5解释百分比累计百分比百分比累计百分比10.39600.39600.76430.30270.302720.15370.54970.54360.08360.386230.12010.66980.26110.03130.417640.14240.81220.12560.01790.435550.18781.00000.02200.00410.4396Y原变量的相关被典型变量解释的百分比当前第55页\共有82页\编于星期四\19点U1,U2,…,U5并没有完全概括X变量的全部信息(97.24%),而V1,V2,…,V5却概括了Y变量的全部信息(100%);

V1,V2,…,V5中仅蕴含X变量信息的48.44%,而U1,U2,…,U5中仅蕴含Y变量信息的43.96%。实例冗余分析的解释当前第56页\共有82页\编于星期四\19点五、基于典型变量的回归

当前第57页\共有82页\编于星期四\19点SAS输出结果SquaredMultipleCorrelationsBetweentheVARVariablesandtheFirstMCanonicalVariablesoftheWITHVariables

M12345

X10.62600.62960.66680.66960.6697X20.56740.56740.61240.61260.6139X30.66970.68460.68520.69600.6960X40.37010.42530.50100.51380.5142X50.01410.16840.16870.17580.1878X60.04520.15110.15150.22170.2251SquaredMultipleCorrelationsBetweentheWITHVariablesandtheFirstMCanonicalVariablesoftheVARVariablesM12345Y10.13030.13420.27540.30120.3028Y20.15710.54540.54790.55050.5516Y30.33660.36120.36260.36340.3745Y40.25030.25120.25820.31290.3175Y50.63900.63910.64380.64930.6516当前第58页\共有82页\编于星期四\19点用对方典型变量V解释原X变量的

确定系数

V1

V1V2V1V2V3V1V2V3V4V1V2V3V4V5X10.62600.62960.66680.66960.6697X20.56740.56740.61240.61260.6139X30.66970.68460.68520.69600.6960X40.37010.42530.50100.51380.5142X50.01410.16840.16870.17580.1878X60.04520.15110.15150.22170.2251v20.00350.00010.01490.05530.15440.1058v30.03720.04500.00060.07560.00030.0004当前第59页\共有82页\编于星期四\19点用对方典型变量U解释原Y变量的

确定系数

U1

U1U2U1U2U3U1U2U3U4U1U2U3U4U5Y10.13030.13420.27540.30120.3028Y20.15710.54540.54790.55050.5516Y30.33660.36120.36260.36340.3745Y40.25030.25120.25820.31290.3175Y50.63900.63910.64380.64930.6516当前第60页\共有82页\编于星期四\19点七、典型判别的思想

当前第61页\共有82页\编于星期四\19点

设有分别来自q2个总体的q份样本,每份样本都有关于X1,X2,…,Xp的观察值,p>q,样本量为ni,i=1,2,…,q。现欲以此为训练样本,从中学习出判别规则。

当前第62页\共有82页\编于星期四\19点

定义q-1个类别变量Y1,Y2,…,Yq-1,它们取值0或1,而且规定q个类别与Y1,Y2,…,Yq-1的取值对应如下:类别Y1Y2…Yq-1110…0201…0……………q-100…1q00…0当前第63页\共有82页\编于星期四\19点第i对标准化典型变量与

典型判别函数

当前第64页\共有82页\编于星期四\19点典型判别的步骤当前第65页\共有82页\编于星期四\19点八、简单实例计算

当前第66页\共有82页\编于星期四\19点简单实例(P293页9.2题)计算

1.计算简单相关矩阵

x1x2y1y2x110.734560.719150.70398x20.7345610.690380.70855y10.719150.6903810.84307y20.703980.708550.843071当前第67页\共有82页\编于星期四\19点简单实例(P293页9.2题)计算

2.计算A、B矩阵当前第68页\共有82页\编于星期四\19点简单实例(P293页9.2题)计算

3.计算A、B矩阵的特征值λi

,即得典型相关系数的平方A、B有相同的非零特征值分别为:0.623096,0.006679当前第69页\共有82页\编于星期四\19点简单实例(P293页9.2题)计算

4.计算典型相关系数及其标准误典型相关系数的标准误分别为:0.076935,0.202761典型相关系数为:0.789364,0.081723当前第70页\共有82页\编于星期四\19点简单实例(P293页9.2题)计算

5.E-1H的特征值分别为:1.6532,0.0067当前第71页\共有82页\编于星期四\19点简单实例(P293页9.2题)计算

6.似然比统计量及其F检验(即典型相关系数的假设检验)

TestofH0:ThecanonicalcorrelationsinthecurrentrowandallEigenvaluesofInv(E)*Hthatfollowarezero=CanRsq/(1-CanRsq)LikelihoodApproximateEigenvalueDifferenceProportionCumulativeRatioFValueNumDFDenDFPr>F11.65321.64650.99590.99590.374386676.664420.000320.00670.00411.00000.993321390.151220.7042当前第72页\共有82页\编于星期四\19点简单实例(P293页9.2题)计算

7.典型相关系数的多变量统计量及其假设检验

MultivariateStatisticsandFApproximations

StatisticValueFValueNumDFDenDFPr>FWilks'Lambda0.374386676.664420.0003Pillai'sTrace0.629774755.064440.0019Hotelling-LawleyTrace1.659919988.60424.1980.0002Roy'sGreatestRoot1.6531964618.19222<.0001NOTE:FStatisticforRoy'sGreatestRootisanupperbound.NOTE:FStatisticforWilks'Lambdaisexact.当前第73页\共有82页\编于星期四\19点简单实例(P293页9.2题)计算

8.求A、B关于λi的特征向量,即典型变量系数

CanonicalCorrelationAnalysisStandardizedCanonicalCoefficientsfortheVARVariables

u1u2x10.5667

-1.3604x20.50691.3838StandardizedCanonicalCoefficientsfortheWITHVariablesv1v2y10.5184-1.7857y20.52331.7842当前第74页\共有82页\编于星期四\19点简单实例(P293页9.2题)计算

矩阵A的第1特征值为0.623096当前第75页\共有82页\编于星期四\19点简单实例(P293页9.2题)计算

典型变量的表达式当前第76页\共有82页\编于星期四\19点简单实例(P293页9.2题)计算

9.典型结构分析(可观察典型变量的意义)

u1u2x10.9390-0.3439x20.92310.3845v1v2y10.9596-0.2814y20.96040.2788v1v2x10.7412-0.0281x20.72870.0314u1u2y10.7575-0.0230y20.75810.0228当前第77页\共有82页\编于星期四\19点简单实例(P293页9.2题)计算

10.冗余分析(对方典型变量可解释的信息)

CanonicalRedundancyAnalysisStandardizedVarianceoftheVARVariablesExplainedbyTheirOwnTheOppositeCanonicalVariablesCanonica

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论