多变量数据统计描述和推断I_第1页
多变量数据统计描述和推断I_第2页
多变量数据统计描述和推断I_第3页
多变量数据统计描述和推断I_第4页
多变量数据统计描述和推断I_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多变量数据统计描述和推断I2022-3-6统计分析有哪些应用? 比较(Compare: mean, rate, distribution) (Relation: correlation, linear, nolinear,etc.) 预测(forecast: ARIMA, etc.) 分类(classify: Discrimant, cluster ) 评价(Evaluation: Synthetic)2022-3-6比较(Comparsion) 比较两组*指标的比较(univariate)比较不同地区儿童生长发育( Growth and development: height, weight

2、, bust,etc.)情况不同组别的IgG,IgM,IgA,IgE2022-3-6关系(Relation) 探索病因(relation) 高血压与年龄、体重、吸烟量、饮酒量、工龄、遗传等 校正混杂因素(confound) 探讨巯基丁氨酸(homocysteine)与血压(BP)、冠心病(CoronaryHeartDisease)的关系,需调整年龄、性别、种族等因素。2022-3-6预测(Forcasting) 门诊量(Outpatient)的预测 胎儿(Fetus)的体重2022-3-6分类(classification) 临床诊断(Clinical diagnosis) 病毒鉴别(Viru

3、s classification)胸痛患者如何快速诊断(是否急性心肌缺血?)根据医疗水平、设备、工作效率等对医院分级气相色谱法分析细菌全细胞脂肪的含量来研究细菌的分类或鉴定。2022-3-6评价(Evaluation) 综合评价(Synthetic evaluation)成本效益评价(Cost-effectiveness)卫生投入产出评价 健康状况评价假设检验方法小结如果P |r| under H0: Rho=0 x1x2x3x11.00000 0.455630.08790.284090.3048x20.455630.08791.00000 0.621060.0135x30.284090.30

4、480.621060.01351.00000 Covariance Matrix, DF = 14 x1x2x3x10.00575714290.01029285710.0093071429x20.01029285710.08864095240.0798395238x30.00930714290.07983952380多元正态分布(Multi normal dist.) 多变量统计描述和推断中,通常假定数据服从多元正态分布。设为m个反应变量的总体均数向量,jk为第j个反应变量与第k个反应变量的总体协方差, jk 构成了mm的总体协方差矩阵。则分布函数如下:X服从 的分布

5、。2022-3-6二元正态分布曲面 Surface(11=1,22=1,12=0) 2022-3-6二元正态分布曲面(11=2,22=4,12=0.75)2022-3-6二元正态分布曲面剖面 profile (11=1,22=1/2,12=0.75)2022-3-6m元正态分布(normal)的性质每一个变量均服从正态分布。变量的线性组合(Y=a1x1+a2x2+apXp)服从正态分布。m 元正态分布中的任意 k (0k= 3 samples 三组及以上第二节第二节 组间差别比较组间差别比较2022-3-61 单变量(univariate)资料统计分析(student t ) 检验某一样本是否

6、来自已知总体,其假设检验为: ,求其统计量: 2022-3-6利用逐一单变量方法的缺点: (1) 两组的各指标差别虽有统计学意义,但趋势不一。 (2) 两组间有些指标差别有统计学意义,有些指标差别无统计学意义。(3)没有全面利用多个反应变量的信息。2022-3-6Hotelling T22022-3-6例14-2 随机抽取某单位5名怀疑有冠心病的成年男性,测量其甘三油酯(mmol/L)、总胆固醇(mmol/L)和高密度脂白胆固醇(mmol/L)含量。根据例14-1已知,该单位正常成年男性的甘三油酯、总胆固醇和高密度脂白胆固醇均数分别为1.02、2.73、2.04 mmol/L。问该单位怀疑冠心

7、病成年男性的血脂与正常成年男性有无差别?观察对象序号甘油三酯 TC(X1-1.02)总胆固醇 CHOL(X1-2.73)高密度脂蛋白胆固醇HDL (X3-2.04)11.780.83-1.0120.670.96-0.8430.560.83-0.3940.661.12-1.0350.210.160.40表14-2 怀疑冠心病成年男性与正常成年男性的血脂差别(mmol/L)2022-3-61 建立检验假设 2022-3-62 计算统计量F2022-3-6利用公式(14-9)、(14-10)计算Hotelling T2统计量和F值2022-3-6查F界值表,F0.05(3,2)=19.16, F0.

8、01(3,2)=99.17 0.01P FWilks Lambda0.0133447549.29320.0200Pillais Trace0.9866552549.29320.0200Hotelling-Lawley Trace73.935837249.29320.0200Roys Greatest Root73.935837249.29320.02002022-3-6二 两组比较 (Two sample) 检验两个样本是否来自同一总体。如果两组样本观察值分别来自正态总体N(1,2)及N(2,2)。两样本均数 和 分别服从 和 的正态分布。其检验假设为:2022-3-62022-3-6把单变量

9、的公式推广到多变量,其式子如下:把单变量的公式推广到多变量,其式子如下:2022-3-6210:H在假定在假定 成立的情况下,成立的情况下,当当n1,n2较大时,较大时,F值近似地服从自由度为值近似地服从自由度为m的卡方分的卡方分布。布。2022-3-6例 14-3 某妇幼保健院将孕妇随机分成两组,一组接受孕期保健教育,另一组作为对照。表14-3是同一日出生的13名顺产婴儿的体重和身长,问孕期保健教育对婴儿生长发育有无促进作用?婴儿编号保健教育组婴儿编号对照组体重(kg)身长(cm)体重(kg)身长(cm)13.055073.205024.105083.004633.505393.004543.6450103.354753.6052112.605064.0055123.5552133.3450表14-3 13名婴儿出生的生长以育状况2022-3-6P0.052022-3-61 作检验假设,确定检验水准 即两组婴儿的生长发育状况一致2 计算统计量计算统计量F值值2022-3-6用公式(用公式(14-14)、公式()、公式(14-15)可求得)可求得2022-3-63 确定P值,作出结论 查F值表, F=4.32, 0.01P6 then c=2;else c=1;input id weight high;cards;1 3.05 502 4.10 5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论