第十四章多变量数据的统计描述与推断(II)_第1页
第十四章多变量数据的统计描述与推断(II)_第2页
第十四章多变量数据的统计描述与推断(II)_第3页
第十四章多变量数据的统计描述与推断(II)_第4页
第十四章多变量数据的统计描述与推断(II)_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多变量数据的统计分析多变量数据的统计分析与统计推断(二)与统计推断(二)陈 炳 为单变量多变量统计描述均数均数向量方差协方差阵相关系数相关矩阵统计推断单变量t检验Hotelling T2检验单变量方差分析多变量方差分析单变量与多变量之间的比较单变量与多变量之间的比较 多变量数据的统计描述和统计推断在描述与多变量数据的统计描述和统计推断在描述与表达时采用了多变量的向量和矩阵的表示方法。表达时采用了多变量的向量和矩阵的表示方法。三 多组比较1 多变量方差分析 通过g个均数向量 推断 是否成立。 其备择假设H1:g个组中至少有两个均向量不相等。gXXX,21gH210: 方差分析 单变量分析 两两比

2、较:LSDSNK 描述 固定与随机效应 方差齐性检验 B-F检验检验 Welch检验检验95% Confidence Interval for Mean N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum 1 3 62.267 1.9732 1.1392 57.365 67.168 60.0 63.6 2 4 42.525 9.3511 4.6755 27.645 57.405 32.1 53.4 3 5 73.220 2.3221 1.0385 70.337 76.103 70.0 75.9 Tot

3、al 12 60.250 14.7762 4.2655 50.862 69.638 32.1 75.9 正态性、方差不齐时对应的统计分析方法 资料转换资料转换 秩和检验秩和检验 稳健估计稳健估计 Welch (F) Brown-Forsythe多变量方差分析的主要思想: 将实验结果的总离差平方和SSSS总分解为SSSS组间和SSSS组内两部分,其中SS总, SS组间和SS组内矩阵表示。求得 Wilks Lambda统计量 计算F值,作出统计推断。*例14-4 将患慢性胃炎的儿童随机分为3组,其中I组、II组为治疗组,另一组为对照组。试比较治疗药T细胞免疫功能(外周血T3,T4,T8细胞百分比)

4、的影响。表14-5是其中部分儿童的T细胞免疫功能的测量结果。试比较三组慢性胃炎儿童T细胞免疫功能是否存在差异?编号治疗I组编号治疗II组编号对照组T3T4T8T3T4T8T3T4T8163.6 30.2 31.2153.422.525.0172.4 42.5 29.9260.0 30.0 33.4246.520.014.6275.0 49.5 29.3363.2 35.3 27.9338.125.918.1375.9 30.0 40.0432.112.111.8470.0 32.0 36.4572.8 36.7 33.1表14-5 三组慢性胃炎儿童的T细胞免疫攻能(%)1 作出检验假设,确定检

5、验水准 ,即三组药物对T细胞免疫功能的影响是相等的。H1:三个均向量不都相等。gH210:05. 0表14-4 多变量方差分析表变异来源自由度离均差平和矩阵总变异H+E组 间g-1组 内11giin)(1XXXXnHigiiigngii1igiiSnE) 1(12 计算统计量*及FH -group SSCP EResidual (error) SSCP182. 6582. 7970.12,183.10433.10725.17,275. 3275. 1017. 2558.27558.30250.60740.33140.38220.73,375.17125.20525.42,833.30833.3

6、1267.625, 4, 3321321321XXXXXXXXXXnnn计算均数:042.638848.671693.1142848.671703.727108.1239693.1142108.1239008.2110182. 6582. 7970.12182. 6582. 7970.125183.10433.10725.17183.10433.10725.174275. 3275. 1017. 2275. 3275. 1017. 23H求得组间离均差平方和矩阵H:907.193639.81463.122639.81545.375857.103463.122857.103683.291) 1(

7、283.20387.33932. 0387.33523.63801. 3932. 0801. 3392. 5,483.22461.22267.42461.22469.34813.27267.42813.27443.87,663. 7737. 7033. 4737. 7023. 9607. 2033. 4607. 2893. 3321iiSnESSS949.831209.590156.1265209.590248.1103965.1342156.1265965.1342691.2401EH计算组内离均差平方和计算总离均差平方和矩阵变异来源自由度离均差平方和矩阵总变质11组 间2组 内9949.8

8、31209.590156.1265209.590248.1103965.1342156.1265965.1342691.2401EH907.193639.81463.122639.81545.375857.103463.122857.103683.291E042.638848.671693.1142848.671703.727108.1239693.1142108.1239008.2110H表14-6 多变量方差分析表0887. 0100702. 1104961. 9949.831209.590156.1265209.590248.1103965.1342156.1265965.1342691

9、.2401907.193639.81463.122639.81545.375857.103463.122857.103683.291|86*EHE计算统计量*表14-7 常见情况下 与F值的关系*11ggnFi*111ggnFi*111mmnFi*12mmnFignvgvi21, 1) 1(2),1(221gnvgvi1,21mnvmvi)2(2,221mnvmvi*反应变量数组数转换关系F分布自由度m=1g2M=2g2m1G=2m1G=314)23543(2, 6249. 5089. 0089. 01323121221*mmmnFi 由表14-7可知,两组均数向量作假设检验时,除Hotell

10、ing T2外,还可用多变量方差分析。 m=3,g=3, 代入表14-7的第四个公式得:01. 0,46. 4)14, 6(01. 0PF3 确定P值,作出结论 查F值表, 拒绝H0,接受H1.认为三个组慢性胃炎儿童T细胞免疫功能有差别。 从三组的均数向量可看出,两个治疗组的T细胞免疫功能均比对照组低。SPSS操作data ex14_5;if _n_4 then c=1; else if _n_ FWilks Lambda0.088735385.506140.0041Pillais Trace1.049164542.946160.0394Hotelling-Lawley Trace8.7154

11、04369.7767.78950.0028Roys Greatest Root8.5332872122.76380.0003四 多变量与单变量分析 多变量与对m个反应变量进行一次假设检验,对组间的差别作出推论。在大多数情况下,多变量假设检验结论与m次单变量假设检验的结论是一致的。即多变量假设检验拒绝H0,m次单变量假设检验至少有一次拒绝H0。 (1) 假定有k个样本均数向量,对每两个样本均数向量间的差别都作F检验,可作k!/2!(k-2)! 次比较,每个样本均数向量都重复比较了k-1次,如果仍以 为临界值,其型错误的概率会远远超过0.05。)1,(05. 021mnnmF理论上,单变量假设检验

12、不能代替多变量假设检验 若有3个样本均数向量的比较,共作3次F检验,若每次比较的检验水准=0.05,则每次不犯第一类错误的概率为(1-0.05) =0.95,则正确接受全部3次无效假设的概率为0.953=0.857,这时犯第一类错误的概率为 1-0.857=0.143。因此,两两比较时,不宜用前面所述的F检验。(2)单变量假设检验只能说明某一变量在数轴分布上的组间差别,不能反应多个变量在平面或空间上的差别,两者的意义不同。表14-8 两组新生儿出生时的体重与身长数据编号A组编号B组体重(Kg)身长(Cm)体重(Kg)身长(Cm)13.104614.106023.205023.504833.50

13、6233.355043.004643.354953.856753.204863.154863.555073.004673.506083.505583.6056均数3.2952.503.5252.63方差0.308.110.275.21P(t检验)1.62(0.13)0.04(0.97)Hotelling T2 T2=9.87, F=4.58, P=0.03706050404.24.03.83.63.43.23.02.8WEIGHT2HEIGHT2WEIGHTHEIGHT第三节 重复测量资料的多变量分析 Ch12介绍了重复测量资料的单变量ANOVA分析方法。 若数据服从“球对称”(spheric

14、al symmetrical problem)时,就是通常的随机区组ANOVA。 若不服从“球对称”时,须校正自由度。多变量分析的优点: 不须考虑数据的“球对称”,直接利用Hotelling T2检验。 编号服药前体重值服药前后四周体重值第1周第2周第3周第4周1131.5128.4127.4125.3124.92154.7152.9150.7148.2145.93146.7145.5143.6140.5139.84163.2161.6158.4154.2153.45128.6125.3124.1122.8120.96134.2132.6130.4129.4124.87126.8125.712

15、3.9123.5121.68119.5118.1115.6114.3112.19112.4108.6104.7102.6101.410121.3120.1118.5116.9114.2133.9131.9129.7127.8125.9S 16.2 16.6 16.6 15.9 16.1X表12-1 高血压患者治疗前后的舒张压(mmHg)1 建立检验假设 543210:H0:, 0:10CHCH000010001010010010100011:51413121543210CHC为初始时间为基线的重复测量对比矩阵(Repeated constrasts)2 计算Hotelling T2 与F统计量

16、)1814(1, 1,) 1)(1(1)1714()()()(21212mnvmvTmnmnFXCCCSXCnT本例中n=10, m=5。082.258999.253117.266281.265073.259999.253422.251762.262867.261272.255117.266762.262325.275793.274209.268281.265867.261793.274040.275561.268073.259272.255209.268561.268077.26390.12577.12773.12988.13189.133,SX,31.41868.247) 15() 110

17、(1510,868.2472FT3 确定P值,作出检验结论01. 015. 931.41PF15. 9,53. 46151014151)6, 4(01. 0)6, 4(05. 021FFmnvmv查表3.1得拒绝H0,接受H1,即认为服药后1-4周的体重比服药前有所降低。服药后时间(周)43210体重(KG)170160150140130120110100图14-2 10名肥胖患者服药前后体重的变化趋势分析服药后1-4周的体重降低的变化趋势Tests of Within-Subjects ContrastsMeasure: MEASURE_1403.6081403.608176.996.000

18、.1581.158.186.676.0531.053.090.771.0261.026.100.75920.52392.2807.6369.8485.3069.5902.3789.264FACTOR1LinearQuadraticCubicOrder 4LinearQuadraticCubicOrder 4SourceFACTOR1Error(FACTOR1)Type III Sumof SquaresdfMean SquareFSig. 将10名患者组内变异SS组内(v=4)分解为多项式的1次项、2次项、3次项、4次项,描述体重随时间变化的曲线趋势。SPSS操作结果Multivariate

19、Testsb.96541.308a4.0006.000.000.03541.308a4.0006.000.00027.53941.308a4.0006.000.00027.53941.308a4.0006.000.000Pillais TraceWilks LambdaHotellings TraceRoys Largest RootEffectTIMEValueFHypothesis dfError dfSig.Exact statistica. Design: Intercept Within Subjects Design: TIMEb. Mauchlys Test of Spheric

20、itybMeasure: MEASURE_1.13115.1039.095.540.716.250Within Subjects EffectTIMEMauchlys WApprox.Chi-SquaredfSig.Greenhouse-GeisserHuynh-FeldtLower-boundEpsilonaTests the null hypothesis that the error covariance matrix of the orthonormalized transformed dependent variables isproportional to an identity

21、matrix.May be used to adjust the degrees of freedom for the averaged tests of significance. Corrected tests are displayedin the Tests of Within-Subjects Effects table.a. Design: Intercept Within Subjects Design: TIMEb. 第四节 轮廓分析 轮廓(profile)分析是比较两组或多组多变量均数向量的轮廓是否相等。轮廓是指各组均数所连成的折线。 轮廓分析通常进行组间轮廓相似性或平行性(

22、parallel) 、组间平均水平差异显著性和组内条件(如时间或各反应变量间)变异显著性三个方面的假设检验。图14-3 不同麻醉诱导时相的平均收缩压麻醉诱导时间43210-1平均收缩压(mmHg)150140130120110C组B组A组分析思路: 如果组间轮廓相似轮廓相似, 可进一步分析其他的变异, 即了解组间轮廓是否完全一致(即重合) 以及各组的轮廓图是否与水平轴(表示组内因素水平间差异,如时间上的差别) 平行, 因此, 轮廓分析首先进行的是轮廓相似性检。例14-7 分别对50名硕士生和30名博士生进行健康状况抽样调查。调查问题设计如下7个问题: 对自已健康状况的满意程序 (X1) 是否需

23、要调养身体 (X2) 身体胡不适或不舒服的感觉 (X3) 有生病的感觉 (X4) 有紧张情绪和压力感 (X5) 晚间休息感到不能很快入睡 (X6) 吃饭有时觉得胃口不好 (X7)变量个数876543210平均得分3.02.01.0博士生硕士生图14-4 调查问卷7个问题的平均得分表 14-10 两组研究生健康问卷的平均得分问题1问题2问题3问题4问题5问题6问题7硕士生均数2.022.322.181.982.442.062.16n=50S0.430.710.480.510.840.840.84博士生均数2.032.302.271.902.271.902.13n=30S0.490.650.520

24、.550.910.760.86合计均数2.032.312.211.952.382.002.15n=80S0.450.690.500.530.860.810.841 平行检验轮廓对比矩阵(parallel contrasts) 226272526242523242223212216171516141513141213111210:CCH110000001100000011000000110000001100000011C211210:,:CCHCCH计算统计量Hotelling T2与F统计量9793. 2)()()(2112121212XXCCCSCXXnnnnTC46. 0) 1)(2(22121TmnnmnnF研究P值,作出统计推断不能认为两个总体的轮廓相互平行。737305061712121mnnvmv05. 083. 074. 246. 0)70, 3(05. 0PFF2 相合检验 (coincident )目的:检验两个总体的轮廓是否重合。 如果两个总体的轮廓相互平

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论