版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计分析有哪些应用?比较(Compare:mean,rate,distribution)关系(Relation:correlation,linear,nolinear,etc.)(forecast:
ARIMA,
etc.)分类(classify: Discrimant,
cluster
)评价(Evaluation:Synthetic)2020/11/132020/11/13比较(Comparsion)比较两组**指标的比较(univariate)比较不同地区儿童生长发育(
Growthand
development:height,weight,bust,etc.)情况不同组别的IgG,IgM,IgA,IgE关系(Relation)探索病因(relation)高血压与
、体重、吸烟量、饮酒量、工龄、遗传等校正混杂因素(confound)探讨巯基丁氨酸(homocysteine)与血压(BP)、冠心病(Coronary
Heart
Disease)的关系,需调整
、
、种族等因素。2020/11/13(Forcasting)门诊量(Outpatient)的(Fetus)的体重2020/11/13分类(classification)临床 (Clinical
diagnosis)鉴别(
classification)胸痛患者如何快速
(是否急性心肌缺血?)根据医疗水平、设备、工作效率等对医院分级气相色谱法分析细菌全细胞脂肪的含量来研究细菌的分类或鉴定。2020/11/132020/11/13评价(Evaluation)综合评价(Synthetic
evaluation)成本效益评价(Cost-effectiveness)卫生投入产出评价健康状况评价假设检验方法小结两组比较Two-sample正态分布多组比较NormalMulti-group方差齐:t检验Equal
Var: t
test方差不齐:t’or秩和检验Not
equal: t’
test方差齐:方差分析Equal
Var:
ANOVA方差不齐:秩和检验Not
equal
Var:
rank
sum数值变量资料配对比较:配对t检验QualitativePariedParied
t-test单样本One
samplet检验、u(Z)检验T
test Z
test两组比较Wilcoxon秩和检验偏态分布Two-sampleSkew多组比较Kruskal-Wallis(H)秩和检验Multi-group配对比较符号检验、符号秩和检验PariedSign
test,
Sign
rank
test单样本比较符号检验、符号秩和检验One
sampleSign
test,
Sign
rank
test如果P<0.05,需要多重比
较Multiplecomparsion假设检验方法小结样本较大:U检验或卡方检验两组比较无序unorderdTwo-sampleChi
test
or Z
test样本较小:校正卡方或确切概率法Adj.
chi
test
or
Fisher
exact.二项、POISSONBinom.
Poi.多组比较卡方检验Multi-groupchi
test定性资料Quantative配对比较配对卡方检验(或卡方检验)Paried两组比较Wilcoxon秩和检验有序资料Two-sampleOrdinal多组比较Kruskal-Wallis(H)秩和检验Multi-group配对比较符号检验、符号秩和检验PariedSign
test,
Sign
rank
test单样本比较符号检验、符号秩和检验One
sampleSign
test,
Sign
rank
test2020/11/13—多变量数据的定义多变量数据(multivariate
data)观察结果有多个反应变量(responsible
variable)的数据。如血压:收缩压、舒张压、脉压血脂:胆固醇脂、甘油三酯、磷酯等儿童生长发育:身高、体重、甲状腺功能:T3、T4、TSH雌激素:E2、FSH、LH另外,心功能、肺功能等指标多变量与多重变量之间的区别:多变量是指有多个反应变量。而多重变量指的是一个反应变量多个解释变量(如多元线性回归、多重线性回归)。多变量(Multi-var.)与多因素(multi
factors)的区别:多因素试验是指有多个干预因素(处理因素
treatments,分组因素groups)的试验。如,P194例11-1析因设计中,A因素为逢合方法,B因素为逢合时间。但其反应变量只有家兔逢合后的轴突通过率,因此仍是一个单变量分析。正交设计也属于单变量分析。矩阵(Matrix)的简单介绍1
定义:m×n个数排列成m行(横向)
n列(纵向)的矩形数表:1.01甘油三酯、总胆固醇、高密度脂蛋白胆固醇X1
1.06
X2
2.56
X3
1.930.982.421.800.852.351.680.962.551.340.982.652.550.992.602.332.351.931.022.891.801.022.541.681.102.641.341.063.052.420.993.212.551.052.852.421.203.022.551.033.252.32X=2常用特殊矩阵(Special
matrix):行矩阵(行向量Row
Vector):只有一行的矩阵;列矩阵(列向量Column
Vector):只有一列的矩阵,通常称为向量;零矩阵:所有元素都等于0的矩阵n阶方阵(square
matrix):当m=n时上(下)三角阵(
U.or
L.triangular
matrix)nn
A
a
a0
a
02n
22a1n
a11
a12
0对角阵(方阵)Diagonalmatrix单位阵(方阵)(Unit
matrix)对称矩阵(方阵)(Symmetric
matrix)nn
A
00
0
0
a
22a11
01
00
0
a
1
0
0
0
1
In
0
aij
a
jinn
aA
a
a
a
a
n1
n22n
2221a1n
a11
a12a3
矩阵的基本运算相等A=B,对所有的第i行第j列,有aij=bij加法
a
a
aam1
am2
amn
A
a21
a22
a2n
1n11
12B
b
bbm1
bm2
bnn
21b1n
2n
b11
b12b22mn mn
a
aA
B
b
a
b
a
b
b
a
b
a
b
m1
m1
m2
m22n
2n
22
2221
21a1n
b1n
a12
b12
a11
b11数乘矩阵转置(transponse)mn
k
a k
a
k
a
m2m12n
22
k
a1n
k
a
k
ak
a1221
k
a11k
ak.A
mn
aaA
AT
A
a
a
a
a
1n
2nm2
2212am1
a11
a212020/11/13矩阵乘法nA
(aij
)mn
,
B
(bij
)np.AB
C
(Cij
)mp
,Cij
aik
bkjk
1可逆矩阵(Inverse
matrix)设A为n阶方阵,若存在
n阶方阵B适合AB=BA=In。则称方阵A可逆,并称B是A的逆矩阵。记B=A-1矩阵的行列式(determinate)记为det(A)或|A|,行列式可以看做是有向面积或体积的概念在一般的
得空间中的推广。2020/11/13第一节描述统计量—均数向量与离差矩阵1均数向量(meanvector)设有n个观察对象,每个观察对象有m个反应变量,其数据格式如下,Xij代表的是第i个第j指标的测量值:i
1,2,,
nXi
2iX
X
im
Xi1
m个反应变量的样本均数构成均数向量(14
1)2
X
mX
X
X
1
i1ijnnX
j
1
X
,
j
1,2,,
m2离差矩阵 全称为:离均差平方和与离均差积和矩阵sum
of
squares
and
cross-products
matrix,
SSCPlmm
l
l
lm1
lm22m
22
L
21l1m
l11
l12lnnX
)nnjij
(
)2
i1
i1jj(2
ijjkn
nik
)(
XXij
)(
i1
i1
nnijikn
j
)(
XiklX)X
i1(i1ijjk2020/11/13l
jj
是第j个反应变量的离均差平方和(Sum
ofSquare,SS),l
jk
是第j个反应变量与第k个反应变量的离均差积和(sumofproducts
ofmeandevations
),并且有ljk
lkj
。2020/11/13二、方差--协方差阵(Variance-covariance
Matrix)简称为协方差阵(
covariancematrix
)。协方差是指在两个不同时点上测定值相互变异性的大小,协方差阵就是方差协方差构成的矩阵。am
2m1m
s2s22221s2
11
12
a1
a
22
s2s
s2
s2
s2
s2S
协方差(Covariance)的意义X
X(X,Y)IIIIIIVY
YXY(
X
,Y
)n
1I2020/11/1324n
1cov(
x,
y)
(
X
X
)(Y
Y
)
lxyn
12020/11/13jkl j,
k
1,2,
mjkS
1S
jj是第j个变量的样本方差,即
Sj
S
2jjS
jk
(j
k为)反应变量Xj与反应变量Xi的样本协方差。S是对称阵。离差阵(SSCPmatrix)L与协方差矩阵S(Variance
matrix)有如下关系:L=(n-1)×S3相关矩阵
(Correlation
Matrix)任意两个反应变量Xj与Xk样本相关系数rjk构成一个m×m样本相关矩阵,是一对称阵。mm
r
m1
r11
r12R
r21
r22r
r
m2r2m
r1m
j,
k
1,2,,
m2020/11/13S
Sl
ljj
kkS
jkjj
kkl
jkjkr
例14-1在一项健康15名正常成年中,随机抽取某单位测量血脂(Blood
lipids),记录甘三油酯(TG,
mmol/L)、总胆固醇(CHOL,
mmol/L)和高密度脂白胆固醇(HDL,mmol/L),结果见表14-1。试对这三个变量进行多变量描述。2020/11/13表14-1
15名正常成年男子的血脂含量(mmol/L)i序号甘油三酯(X1)总胆固醇(X2)高密度脂蛋白胆固醇(X3)11.062.561.9320.982.421.8030.852.351.6840.962.551.3450.982.652.5560.992.602.3371.012.351.9381.022.891.8091.022.541.68101.102.641.34111.063.052.42120.993.212.55131.052.852.42141.203.022.55151.033.252.321.0202.7292.043S
2
0.00580.08860.1870111S12
21S
S
2
0.00.0212233S31
S32
S33S
SS11
S12
S13S
S求均数向量(Mean
vactor三个指标的平均程序),X(
求协方差阵(Cov
三个指标的变异程序)2020/11/132020/11/13求相关矩阵(corr.三个指标的相关性)r23
r32
0.623r13
r31
0.284,r12
r21
0.456,0.2841
0.456
0.2841
0.6230.623
1R
0.456SPSS操作2020/11/132020/11/13SPSS结果1515X1X2X3Descriptive
StatisticsMean Std.
Deviation1.0200
.075882.7287
.297732.0427NCorrelations1..088.305.00615.01015.00915.456.0881..621*.013.1441.2411.118.01015.08915.08015.284.621*1.305.013..1301.1182.610.00915.08015.18615Pearson
CorrelationSig.
(2-tailed)Sum
of
Squares
andCross-productsCovarianceNPearson
CorrelationSig.
(2-tailed)Sum
of
Squares
andCross-productsCovarianceNPearson
CorrelationSig.
(2-tailed)Sum
of
Squares
andCross-productsCovarianceNX1X2X3X1X2.456X3.284*2020/11/13data
ex14_1;input
id
x1
x2
x3@@;cards;11.062.561.9320.982.421.80…151.033.252.32;proc
corr
cov
outp=A;var
x1-x3;run;Pearson
Correlation
Coefficients,
N
=
15Prob
>
|r|
under
H0:
Rho=0x1x2x3x11.000000.455630.284090.08790.3048x20.455631.000000.621060.08790.0135x30.284090.621061.000000.30480.0135Covariance
Matrix,
DF
=
14x1x2x3x10.00575714290.01029285710.0093071429x20.01029285710.08864095240.0798395238x30.00930714290.07983952380元正态分布(Multinormaldist.)2)p()()
|()2|f多变量统计描述和推断中,通常假定数据服从多元正态分布。设μ为m个反应变量的总体均数向量,σjk为第j个反应变量与第k个反应变量的总体协方差,σjk
构成了m×m的总体协方差矩阵Σ。则分布函数如下:X服从
N
(,
)的分布。二元正态分布曲面Surface(11=1,22=1,12=0)2020/11/13二元正态分布曲面(11=2,22=4,12=0.75)2020/11/13二元正态分布曲面剖面profile(11=1,22=1/2,12=-0.75)2020/11/132020/11/13m元正态分布(normal)的性质每一个变量均服从正态分布。变量的线性组合(Y=a1x1+a2x2+…apXp)服从正态分布。m
元正态分布中的任意
k
(0<k<m)个变量服从
k
元正态分布。m元正态分布的条件分布仍服从正态分布。协方差为0的变量间相互独立。第二节组间差别比较主要内容多元T检验Holing
T2one-sample单组资料(配对资料)two
samples两组比较多元方差分析
(MANOVA)3
samples
and
above三组及以上2020/11/131单变量(univariate)资料统计分析(student
t
)检验某一样本是否来自已知总体,其假设检验为:H0
:
0
,求其统计量:(14
7)(14
8)2020/11/13t
2
n(x
)S
2
(x
)0
0n
(x
0
)t
S2v
n
11F
t
2
,
v
12020/11/13利用逐一单变量方法的缺点:两组的各指标差别虽有统计学意义,但趋势不一。两组间有些指标差别有统计学意义,有些指标差别无统计学意义。(3)没有全面利用多个反应变量的信息。(14
9)T
2
n(
X
)S
1
(
X
)0
0(
101)v1
m,
v2
n
mn
1)m(n
m
T
2F
Ho ling
T2(14
8)t
2
n(x
)S
2
(x
)0
02020/11/13例14-2
随机抽取某单位5名怀疑有冠心病的成年
,测量其甘三油酯(mmol/L)、总胆固醇(mmol/L)和高密度脂白胆固醇(mmol/L)含量。根据例14-1已知,该单位正常成年 的甘三油酯、总胆固醇和高密度脂白胆固醇均数分别为1.02、2.73、2.04mmol/L。问该单位怀疑冠心病成年 的血脂与正常成年 有无差别?2020/11/13观察对
甘油三酯
TC总胆固醇CHOL高密度脂蛋白胆固醇象序号(X1-1.02)(X1-2.73)HDL
(X3-2.04)11.780.83-1.0120.670.96-0.8430.560.83-0.3940.661.12-1.030表14-2
怀疑冠心病成年与正常成年的血脂差别(mmol/L)2020/11/131建立检验假设
00
000H
:
0,iH
:
02计算统计量F
2020/11/13
0.574n
5,
m
3,
X
0.780
0.776
47.59426
38.30476
182.86152
134.31969134.31969
103.6037638.30476S
1
47.5942617.509840.36283
0.08295
0.236920.13435
0.20485
0.20485
0.23692S
0.08295
0.34993
295.74338
30476.
0.776
17
50984. 47
59426.T
2
n(
X
)S
1
(
X
)0
0
38
30476. 134
31969. 103
60376.
0.574
(507.76,0.780
0.5,
74)
47
59426. 182
86152. 134
31969.
0.780
49.7249311()53
35
295.n
1)m(21v
v
2n
m
T
2
F
ling
T2统利用公式(14-9)、(14-10)计算Ho计量和F值2020/11/13查F界值表,F0.05(3,2)=19.16,F0.01(3,2)=99.170.01<P<0.05,H0,接受H1。可认为怀疑冠心病成年
的血脂与正常成年
有差别。2020/11/13SPSS操作2020/11/13SPSS结果Multivariate
TestsbEffectValueFHypothesis
dfError
dfSig.Intercept
Pillai's
Trace.98749.291a3.0002.000.020Wilks'
Lambda.01349.291a3.0002.000.020Ho
ling's
Trace73.93649.291a3.0002.000.020Roy's
Largest
Root73.93649.291a3.0002.000.020Exact
statisticDesign:
Intercept请问Holing
T2=?T
2
(n
1)m
F
(5
1)
3
49.291
295.743n
m
5
32020/11/132020/11/13data
ex14_2;input
id
x1-x3@@;c=1;cards;11.78
0.83
-1.0120.67
0.96
-0.8430.56
0.83
-0.3940.66
1.12
-1.0350.21
0.16
0.40;proc
glm;class
c;model
x1-x3=c/nouni;manova
H=intercept;lsmeans
c/stderr
pdiff;run;MANOVA
Test
Criteria
and
Exact
F
Statistics
for
the
Hypothesis
of
No
Overall
Intercept
EffectH
=
Type
III
SSCP
Matrix
for
InterceptE
=
Error
SSCP
MatrixS=1
M=0.5
N=0StatisticValueF
ValueNum
DFDen
DFPr>
FWilks'
Lambda0.0133447549.29320.0200Pillai's
Trace0.9866552549.29320.0200Ho
ling-Lawley
Trace73.935837249.29320.0200Roy's
Greatest
Root73.935837249.29320.02002020/11/13二两组比较
(Two
sample)检验两个样本是否来自同一总体。如果两组样本观察值分别来自正态总体N(μ1,σ2)及N(μ2,σ2)。两样本均数
和 分别服从和的正态分布。其检验假设为:21x1N
(
,
)x1x222020/11/132x2N
(
,
)H0
:
1
2(14
12)(x1
x2
)S
2
(x1
x2
)(14
11)n1
n2n1n2t
2
1
2x1
x2t
Sn
nn1
n22CC
1
1
2
2
n1
n2
22020/11/13(n
1)S
2
(n
1)S
2SC
(14
13)2020/11/13(
X
1
X
2
)S
1
(
X
1
X
2
)n1
n2n1n2T
2
C(14
14)n1
n2
2(n
1)S
2
(n
1)S
2SC
1
1
2
2
把单变量的公式推广到多变量,其式子如下:(1
15)1v1
m,,v2
n1
n2
m
n1
n2
2)(mF
(n1
n2
m
1)T
2H0
:
1
2在假定成立的情况下,度为m的当n1,n2较大时,F值近似地服从卡方分布。2020/11/13例14-3某妇幼一组接受孕期院将孕妇随机分成两组,教育,另一组作为对照。表14-3是同一日出生的13名顺产婴儿的体重和身长,问孕期
教育对婴儿生长发育有无促进作用?2020/11/13婴儿教育组
婴
对照组儿体重(kg)身长(cm)编号体重(kg)身长(cm)13.055073.205024.105083.004633.505393.004543.6450103.354753.6052112.605064.0055123.5552133.3450表14-3
1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专属员工接送车租赁合同(2024年度)版B版
- 2025年度校园食堂租赁与营养膳食服务合同
- 2025年度绿化项目投资合作合同
- 二零二五年度商标专用权转让合同样本
- 2025年度绿色环保公益活动合同模板
- 二零二五年度健康产品销售渠道经销商返利及推广合同
- 2025年度环保技术改造贷款担保合同
- 二零二五年度个人与企业私人借款租赁合同
- 二零二五年度智慧城市建设股权转让废除及数据共享合同
- 2025年度篮球馆租赁合同包含球员培训课程
- 【传媒大学】2024年新营销
- 乳腺癌的综合治疗及进展
- 【大学课件】基于BGP协议的IP黑名单分发系统
- 2025届广东省佛山市高三上学期普通高中教学质量检测(一模)英语试卷(无答案)
- 自身免疫性脑炎课件
- 人力资源管理各岗位工作职责
- 信阳农林学院《新媒体传播学》2023-2024学年第一学期期末试卷
- 2024建筑公司年终工作总结(32篇)
- 信息安全意识培训课件
- 2024年项目投资计划书(三篇)
- 配电安规课件
评论
0/150
提交评论