多变量数据统计描述与推断_第1页
多变量数据统计描述与推断_第2页
多变量数据统计描述与推断_第3页
多变量数据统计描述与推断_第4页
多变量数据统计描述与推断_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计分析有哪些应用?比较(Compare:mean,rate,distribution)关系(Relation:correlation,linear,nolinear,etc.)(forecast:

ARIMA,

etc.)分类(classify: Discrimant,

cluster

)评价(Evaluation:Synthetic)2020/11/132020/11/13比较(Comparsion)比较两组**指标的比较(univariate)比较不同地区儿童生长发育(

Growthand

development:height,weight,bust,etc.)情况不同组别的IgG,IgM,IgA,IgE关系(Relation)探索病因(relation)高血压与

、体重、吸烟量、饮酒量、工龄、遗传等校正混杂因素(confound)探讨巯基丁氨酸(homocysteine)与血压(BP)、冠心病(Coronary

Heart

Disease)的关系,需调整

、种族等因素。2020/11/13(Forcasting)门诊量(Outpatient)的(Fetus)的体重2020/11/13分类(classification)临床 (Clinical

diagnosis)鉴别(

classification)胸痛患者如何快速

(是否急性心肌缺血?)根据医疗水平、设备、工作效率等对医院分级气相色谱法分析细菌全细胞脂肪的含量来研究细菌的分类或鉴定。2020/11/132020/11/13评价(Evaluation)综合评价(Synthetic

evaluation)成本效益评价(Cost-effectiveness)卫生投入产出评价健康状况评价假设检验方法小结两组比较Two-sample正态分布多组比较NormalMulti-group方差齐:t检验Equal

Var: t

test方差不齐:t’or秩和检验Not

equal: t’

test方差齐:方差分析Equal

Var:

ANOVA方差不齐:秩和检验Not

equal

Var:

rank

sum数值变量资料配对比较:配对t检验QualitativePariedParied

t-test单样本One

samplet检验、u(Z)检验T

test Z

test两组比较Wilcoxon秩和检验偏态分布Two-sampleSkew多组比较Kruskal-Wallis(H)秩和检验Multi-group配对比较符号检验、符号秩和检验PariedSign

test,

Sign

rank

test单样本比较符号检验、符号秩和检验One

sampleSign

test,

Sign

rank

test如果P<0.05,需要多重比

较Multiplecomparsion假设检验方法小结样本较大:U检验或卡方检验两组比较无序unorderdTwo-sampleChi

test

or Z

test样本较小:校正卡方或确切概率法Adj.

chi

test

or

Fisher

exact.二项、POISSONBinom.

Poi.多组比较卡方检验Multi-groupchi

test定性资料Quantative配对比较配对卡方检验(或卡方检验)Paried两组比较Wilcoxon秩和检验有序资料Two-sampleOrdinal多组比较Kruskal-Wallis(H)秩和检验Multi-group配对比较符号检验、符号秩和检验PariedSign

test,

Sign

rank

test单样本比较符号检验、符号秩和检验One

sampleSign

test,

Sign

rank

test2020/11/13—多变量数据的定义多变量数据(multivariate

data)观察结果有多个反应变量(responsible

variable)的数据。如血压:收缩压、舒张压、脉压血脂:胆固醇脂、甘油三酯、磷酯等儿童生长发育:身高、体重、甲状腺功能:T3、T4、TSH雌激素:E2、FSH、LH另外,心功能、肺功能等指标多变量与多重变量之间的区别:多变量是指有多个反应变量。而多重变量指的是一个反应变量多个解释变量(如多元线性回归、多重线性回归)。多变量(Multi-var.)与多因素(multi

factors)的区别:多因素试验是指有多个干预因素(处理因素

treatments,分组因素groups)的试验。如,P194例11-1析因设计中,A因素为逢合方法,B因素为逢合时间。但其反应变量只有家兔逢合后的轴突通过率,因此仍是一个单变量分析。正交设计也属于单变量分析。矩阵(Matrix)的简单介绍1

定义:m×n个数排列成m行(横向)

n列(纵向)的矩形数表:1.01甘油三酯、总胆固醇、高密度脂蛋白胆固醇X1

1.06

X2

2.56

X3

1.930.982.421.800.852.351.680.962.551.340.982.652.550.992.602.332.351.931.022.891.801.022.541.681.102.641.341.063.052.420.993.212.551.052.852.421.203.022.551.033.252.32X=2常用特殊矩阵(Special

matrix):行矩阵(行向量Row

Vector):只有一行的矩阵;列矩阵(列向量Column

Vector):只有一列的矩阵,通常称为向量;零矩阵:所有元素都等于0的矩阵n阶方阵(square

matrix):当m=n时上(下)三角阵(

U.or

L.triangular

matrix)nn

A

a

a0

a

02n

22a1n

a11

a12

0对角阵(方阵)Diagonalmatrix单位阵(方阵)(Unit

matrix)对称矩阵(方阵)(Symmetric

matrix)nn

A

00

0

0

a

22a11

01

00

0

a

1

0

0

0

1

In

0

aij

a

jinn

aA

a

a

a

a

n1

n22n

2221a1n

a11

a12a3

矩阵的基本运算相等A=B,对所有的第i行第j列,有aij=bij加法

a

a

aam1

am2

amn

A

a21

a22

a2n

1n11

12B

b

bbm1

bm2

bnn

21b1n

2n

b11

b12b22mn mn

a

aA

B

b

a

b

a

b

b

a

b

a

b

m1

m1

m2

m22n

2n

22

2221

21a1n

b1n

a12

b12

a11

b11数乘矩阵转置(transponse)mn

k

a k

a

k

a

m2m12n

22

k

a1n

k

a

k

ak

a1221

k

a11k

ak.A

mn

aaA

AT

A

a

a

a

a

1n

2nm2

2212am1

a11

a212020/11/13矩阵乘法nA

(aij

)mn

,

B

(bij

)np.AB

C

(Cij

)mp

,Cij

aik

bkjk

1可逆矩阵(Inverse

matrix)设A为n阶方阵,若存在

n阶方阵B适合AB=BA=In。则称方阵A可逆,并称B是A的逆矩阵。记B=A-1矩阵的行列式(determinate)记为det(A)或|A|,行列式可以看做是有向面积或体积的概念在一般的

得空间中的推广。2020/11/13第一节描述统计量—均数向量与离差矩阵1均数向量(meanvector)设有n个观察对象,每个观察对象有m个反应变量,其数据格式如下,Xij代表的是第i个第j指标的测量值:i

1,2,,

nXi

2iX

X

im

Xi1

m个反应变量的样本均数构成均数向量(14

1)2

X

mX

X

X

1

i1ijnnX

j

1

X

,

j

1,2,,

m2离差矩阵 全称为:离均差平方和与离均差积和矩阵sum

of

squares

and

cross-products

matrix,

SSCPlmm

l

l

lm1

lm22m

22

L

21l1m

l11

l12lnnX

)nnjij

(

)2

i1

i1jj(2

ijjkn

nik

)(

XXij

)(

i1

i1

nnijikn

j

)(

XiklX)X

i1(i1ijjk2020/11/13l

jj

是第j个反应变量的离均差平方和(Sum

ofSquare,SS),l

jk

是第j个反应变量与第k个反应变量的离均差积和(sumofproducts

ofmeandevations

),并且有ljk

lkj

。2020/11/13二、方差--协方差阵(Variance-covariance

Matrix)简称为协方差阵(

covariancematrix

)。协方差是指在两个不同时点上测定值相互变异性的大小,协方差阵就是方差协方差构成的矩阵。am

2m1m

s2s22221s2

11

12

a1

a

22

s2s

s2

s2

s2

s2S

协方差(Covariance)的意义X

X(X,Y)IIIIIIVY

YXY(

X

,Y

)n

1I2020/11/1324n

1cov(

x,

y)

(

X

X

)(Y

Y

)

lxyn

12020/11/13jkl j,

k

1,2,

mjkS

1S

jj是第j个变量的样本方差,即

Sj

S

2jjS

jk

(j

k为)反应变量Xj与反应变量Xi的样本协方差。S是对称阵。离差阵(SSCPmatrix)L与协方差矩阵S(Variance

matrix)有如下关系:L=(n-1)×S3相关矩阵

(Correlation

Matrix)任意两个反应变量Xj与Xk样本相关系数rjk构成一个m×m样本相关矩阵,是一对称阵。mm

r

m1

r11

r12R

r21

r22r

r

m2r2m

r1m

j,

k

1,2,,

m2020/11/13S

Sl

ljj

kkS

jkjj

kkl

jkjkr

例14-1在一项健康15名正常成年中,随机抽取某单位测量血脂(Blood

lipids),记录甘三油酯(TG,

mmol/L)、总胆固醇(CHOL,

mmol/L)和高密度脂白胆固醇(HDL,mmol/L),结果见表14-1。试对这三个变量进行多变量描述。2020/11/13表14-1

15名正常成年男子的血脂含量(mmol/L)i序号甘油三酯(X1)总胆固醇(X2)高密度脂蛋白胆固醇(X3)11.062.561.9320.982.421.8030.852.351.6840.962.551.3450.982.652.5560.992.602.3371.012.351.9381.022.891.8091.022.541.68101.102.641.34111.063.052.42120.993.212.55131.052.852.42141.203.022.55151.033.252.321.0202.7292.043S

2

0.00580.08860.1870111S12

21S

S

2

0.00.0212233S31

S32

S33S

SS11

S12

S13S

S求均数向量(Mean

vactor三个指标的平均程序),X(

求协方差阵(Cov

三个指标的变异程序)2020/11/132020/11/13求相关矩阵(corr.三个指标的相关性)r23

r32

0.623r13

r31

0.284,r12

r21

0.456,0.2841

0.456

0.2841

0.6230.623

1R

0.456SPSS操作2020/11/132020/11/13SPSS结果1515X1X2X3Descriptive

StatisticsMean Std.

Deviation1.0200

.075882.7287

.297732.0427NCorrelations1..088.305.00615.01015.00915.456.0881..621*.013.1441.2411.118.01015.08915.08015.284.621*1.305.013..1301.1182.610.00915.08015.18615Pearson

CorrelationSig.

(2-tailed)Sum

of

Squares

andCross-productsCovarianceNPearson

CorrelationSig.

(2-tailed)Sum

of

Squares

andCross-productsCovarianceNPearson

CorrelationSig.

(2-tailed)Sum

of

Squares

andCross-productsCovarianceNX1X2X3X1X2.456X3.284*2020/11/13data

ex14_1;input

id

x1

x2

x3@@;cards;11.062.561.9320.982.421.80…151.033.252.32;proc

corr

cov

outp=A;var

x1-x3;run;Pearson

Correlation

Coefficients,

N

=

15Prob

>

|r|

under

H0:

Rho=0x1x2x3x11.000000.455630.284090.08790.3048x20.455631.000000.621060.08790.0135x30.284090.621061.000000.30480.0135Covariance

Matrix,

DF

=

14x1x2x3x10.00575714290.01029285710.0093071429x20.01029285710.08864095240.0798395238x30.00930714290.07983952380元正态分布(Multinormaldist.)2)p()()

|()2|f多变量统计描述和推断中,通常假定数据服从多元正态分布。设μ为m个反应变量的总体均数向量,σjk为第j个反应变量与第k个反应变量的总体协方差,σjk

构成了m×m的总体协方差矩阵Σ。则分布函数如下:X服从

N

(,

)的分布。二元正态分布曲面Surface(11=1,22=1,12=0)2020/11/13二元正态分布曲面(11=2,22=4,12=0.75)2020/11/13二元正态分布曲面剖面profile(11=1,22=1/2,12=-0.75)2020/11/132020/11/13m元正态分布(normal)的性质每一个变量均服从正态分布。变量的线性组合(Y=a1x1+a2x2+…apXp)服从正态分布。m

元正态分布中的任意

k

(0<k<m)个变量服从

k

元正态分布。m元正态分布的条件分布仍服从正态分布。协方差为0的变量间相互独立。第二节组间差别比较主要内容多元T检验Holing

T2one-sample单组资料(配对资料)two

samples两组比较多元方差分析

(MANOVA)3

samples

and

above三组及以上2020/11/131单变量(univariate)资料统计分析(student

t

)检验某一样本是否来自已知总体,其假设检验为:H0

:

0

,求其统计量:(14

7)(14

8)2020/11/13t

2

n(x

)S

2

(x

)0

0n

(x

0

)t

S2v

n

11F

t

2

,

v

12020/11/13利用逐一单变量方法的缺点:两组的各指标差别虽有统计学意义,但趋势不一。两组间有些指标差别有统计学意义,有些指标差别无统计学意义。(3)没有全面利用多个反应变量的信息。(14

9)T

2

n(

X

)S

1

(

X

)0

0(

101)v1

m,

v2

n

mn

1)m(n

m

T

2F

Ho ling

T2(14

8)t

2

n(x

)S

2

(x

)0

02020/11/13例14-2

随机抽取某单位5名怀疑有冠心病的成年

,测量其甘三油酯(mmol/L)、总胆固醇(mmol/L)和高密度脂白胆固醇(mmol/L)含量。根据例14-1已知,该单位正常成年 的甘三油酯、总胆固醇和高密度脂白胆固醇均数分别为1.02、2.73、2.04mmol/L。问该单位怀疑冠心病成年 的血脂与正常成年 有无差别?2020/11/13观察对

甘油三酯

TC总胆固醇CHOL高密度脂蛋白胆固醇象序号(X1-1.02)(X1-2.73)HDL

(X3-2.04)11.780.83-1.0120.670.96-0.8430.560.83-0.3940.661.12-1.030表14-2

怀疑冠心病成年与正常成年的血脂差别(mmol/L)2020/11/131建立检验假设

00

000H

:

0,iH

:

02计算统计量F

2020/11/13

0.574n

5,

m

3,

X

0.780

0.776

47.59426

38.30476

182.86152

134.31969134.31969

103.6037638.30476S

1

47.5942617.509840.36283

0.08295

0.236920.13435

0.20485

0.20485

0.23692S

0.08295

0.34993

295.74338

30476.

0.776

17

50984. 47

59426.T

2

n(

X

)S

1

(

X

)0

0

38

30476. 134

31969. 103

60376.

0.574

(507.76,0.780

0.5,

74)

47

59426. 182

86152. 134

31969.

0.780

49.7249311()53

35

295.n

1)m(21v

v

2n

m

T

2

F

ling

T2统利用公式(14-9)、(14-10)计算Ho计量和F值2020/11/13查F界值表,F0.05(3,2)=19.16,F0.01(3,2)=99.170.01<P<0.05,H0,接受H1。可认为怀疑冠心病成年

的血脂与正常成年

有差别。2020/11/13SPSS操作2020/11/13SPSS结果Multivariate

TestsbEffectValueFHypothesis

dfError

dfSig.Intercept

Pillai's

Trace.98749.291a3.0002.000.020Wilks'

Lambda.01349.291a3.0002.000.020Ho

ling's

Trace73.93649.291a3.0002.000.020Roy's

Largest

Root73.93649.291a3.0002.000.020Exact

statisticDesign:

Intercept请问Holing

T2=?T

2

(n

1)m

F

(5

1)

3

49.291

295.743n

m

5

32020/11/132020/11/13data

ex14_2;input

id

x1-x3@@;c=1;cards;11.78

0.83

-1.0120.67

0.96

-0.8430.56

0.83

-0.3940.66

1.12

-1.0350.21

0.16

0.40;proc

glm;class

c;model

x1-x3=c/nouni;manova

H=intercept;lsmeans

c/stderr

pdiff;run;MANOVA

Test

Criteria

and

Exact

F

Statistics

for

the

Hypothesis

of

No

Overall

Intercept

EffectH

=

Type

III

SSCP

Matrix

for

InterceptE

=

Error

SSCP

MatrixS=1

M=0.5

N=0StatisticValueF

ValueNum

DFDen

DFPr>

FWilks'

Lambda0.0133447549.29320.0200Pillai's

Trace0.9866552549.29320.0200Ho

ling-Lawley

Trace73.935837249.29320.0200Roy's

Greatest

Root73.935837249.29320.02002020/11/13二两组比较

(Two

sample)检验两个样本是否来自同一总体。如果两组样本观察值分别来自正态总体N(μ1,σ2)及N(μ2,σ2)。两样本均数

和 分别服从和的正态分布。其检验假设为:21x1N

(

,

)x1x222020/11/132x2N

(

,

)H0

:

1

2(14

12)(x1

x2

)S

2

(x1

x2

)(14

11)n1

n2n1n2t

2

1

2x1

x2t

Sn

nn1

n22CC

1

1

2

2

n1

n2

22020/11/13(n

1)S

2

(n

1)S

2SC

(14

13)2020/11/13(

X

1

X

2

)S

1

(

X

1

X

2

)n1

n2n1n2T

2

C(14

14)n1

n2

2(n

1)S

2

(n

1)S

2SC

1

1

2

2

把单变量的公式推广到多变量,其式子如下:(1

15)1v1

m,,v2

n1

n2

m

n1

n2

2)(mF

(n1

n2

m

1)T

2H0

:

1

2在假定成立的情况下,度为m的当n1,n2较大时,F值近似地服从卡方分布。2020/11/13例14-3某妇幼一组接受孕期院将孕妇随机分成两组,教育,另一组作为对照。表14-3是同一日出生的13名顺产婴儿的体重和身长,问孕期

教育对婴儿生长发育有无促进作用?2020/11/13婴儿教育组

对照组儿体重(kg)身长(cm)编号体重(kg)身长(cm)13.055073.205024.105083.004633.505393.004543.6450103.354753.6052112.605064.0055123.5552133.3450表14-3

1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论