中医统计学笔记_第1页
中医统计学笔记_第2页
中医统计学笔记_第3页
中医统计学笔记_第4页
中医统计学笔记_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

绪论

统计学家C.R.劳先生在《统计与真理一怎样运用偶然性》中指出:在终极的分析中,一切知识都是

历史;在抽象的意义下,一切科学都是数学:在理性的基础上,所有的判断都是统计学。

一、统计学的概念、发展简史及主要内容

1.统计学:是以概率论和数理统计为基础,对研究对象的数据进行搜集、整理和分析,揭示

事物总体特征和规律的方法论科学。

2.中医统计学:是以概率论和数理统计的原理和方法为基础,以中医理论与实践为主体,通

过对数据的搜集、整理和分析,达到探讨中医理论与方法内在规律的目的。

3.统计学的发展趋势:

①依赖数学。②与计算机技术结合。

③与实质性学科、统计软件、现代信息相结合,所发挥的功效日益增强。

④从描述事物现状、反映事物规律,向抽样推断、预测未来变化方向发展。

4.统计学的主要内容

⑴研究设计:专业设计、统计学设计⑵统计学的基本概念、原理和思维方法

⑶统计描述:统计指标、统计图表⑷统计推断:参数估计、假设检验

二、统计工作的基本步骤和特点

1.统计工作的基本步骤

(1)统计学设计

(2)搜集资料:①常规保存的记录;②现场调查记录;③实验/试验记录;④医学文献/网

络信息。

(3)整理资料-:5总鲁;②审核;③计算机检查;④分组。

(4)分析资料

2.统计学认识现象的特点

(1)数量性:(2)群体性:(3)具体性:(4)概率性:

三、统计学中常用的概念

1.总体(population):是根据研究目的确定的同质观察单位的集合。

例①河北省18岁男性的身高和体重分布②某性红地2005年健康成年男细胞数

③河北省18岁身高在170-175cm男性的体重分布

⑴有限总体:指总体限定于特定的空间、时间范围内有限个观察单位。

⑵无限总体:指没有空间和时间范围限制的总体。

2.样本(sample):从总体中随机抽取的有代表性的部分观察单位的集合。

样本的可靠性:指总体确定后,样本中的每一个观察单位确属预先规定的同质总体。

样本的代表性:即样本能够充分反映总体的真实情况。

3.随机(random):即在抽样、分组、安排试验顺序时,让总体中每个受试者或观察单位都

有同等的机会被抽中、被分配或被安排,而不受研究者的主观意愿驱使。

不能将随机理解为随便。

4.事件(event):指事物发生某种情况或在调查、观察和实验中获得的某种结果。

⑴确定性事件是可预言在一定条件下必然发生的事件,发生的概率为lo

⑵随机事件:指一定条件下可能发生也可能不发生的不确定性事件,发生的概率介于0〜1

之间。

⑶模糊事件:事物本身的含义不确定的现象。

5.频率(frequency):对于随机事件A,在相同的条件下进行了n次实验,事件A发生的次数为m,比

值m/n为频率,记为fn(A):

概率(probability):描述某随机事件A发生的可能性大小,统计符号为P,0WPW1,记为P(A)。

当n-8时,频率fn(A)-概率P(A)»

小概率事件:表示某事件发生的可能性很小,在医学研究中,习惯上把PW0.05或PW0.01

的事件称为小概率事件。

6.变异(variation):总体中各个体之间的差异性。

同质是相对的,研究对象只是在某一方面是性质相同的,同类的观察对象之间往往也存在着

变异。变异是绝对的、客观存在的。

7.误差(error):指测量值与真值之差。

⑴过失误差:也叫粗差。观测者粗心大意造成的误差。

⑵系统误差:由于仪器未校准、试剂未标定、观测标准未统•等固定原因造成的误差。

⑶测量误差:由事先难于预料的实验或观察条件的随机波动造成的误差。

⑷抽样误差:由抽样引起的样本指标(统计量)与总体指标(参数)的差别。

8.统计量(statistical):是反映样本特征的统计指标。

统计符号为小写的英文字母。如样本均数、排本标准差S、样本率P等。

9.参数(parameter):是描述总体特征的统W指标。

统计符号为小写的希腊字母。如总体均数口、总体标准差。、总体率n等。

10.统计资料的类型

根据研究目的,对研究对象的某些特征进行观测,将这些观测指标或项目称为变量。

变量的具体数值(变量值)构成了统计数据或统计资料。

统计资料分为两类:

⑴值变量(numericalvariable):亦称定量资料是指对每个观察单位用计量方法测得某项

数值大小所获得的资料。

特点为其变量值大多有度量衡里位,其具体取值通常是正实数(零、正整数和小数).

如身高1.75m、体重68kg、血压9.6kPa、血糖6.8mmol/L。

⑵分类变量(categoricalvariab⑹:又称定性资料。指对每个观察单位按某方面的特征、

性质或等级分组计数而得到的资料

特点是变量值表现为互不相容的属性或类别,无度量衡单位。

分类变量又可分为两类:

①序分类变量:又称为名义资料。具体取值通常是具有某种属性或特征的个数。

特点是可在非数字中取值,各类之间具有性质上的差异。

可分为二分变量和多分变量。

二分变量是按互不相容的属性分成两类的资料。

多分变量是按某种属性或特征分成两类以上的资料

②序分类变量:亦称等级资料或半定量资料具体取值也是具有某种属性或特征的个数,

但不同取值之间有半定量的关系。

特点是其各类别间有等级、程度或量的差异,即可按数量的相对大小或程度的高低排出顺序。

四、学习中医统计学的目的

1.顺应中医药学的发展趋势。2.强化中医科研的计划性和科学性。

3.拓宽研究思路。4.学会正确地运用统计方法和合理地解释统计结果。

五、学习中医统计学的注意事项

1.理解和领会基本概念和原理,切忌死记硬背。2.不追究公式的来源和推导,但要掌握其

应用条件。3.重视分析问题和解决问题能力的培养。4.学会使用统计软件。

数值变量资料的统计描述

统计描述——概念:即利用原始数据,选择适宜的统计指标及统计图表,简明准确地探察数

据的分布类型和数量特征的基本统计方法。

目的:是根据样本中所包含的信息,客观、正确地推论HI其总体规律。

第一节频数分布

频数:相同观察值或观察结果出现的次数。

分布:指随着随机变量取值的变化,其相应的概率变化的规律性。

频数分布:观察值(变量值)按大小分组,各个组段内观察值个数(频数)的分布,是了解数据

分布形态特征与规律的基础。

一、频数分布的特征

1.集中趋势:指一组变量值的集中倾向或中心位置。

2.离散趋势:即一组变量值的离散倾向。

二、频数分布的类型

1.对称分布:指集中位置居中、左右两侧的2.非对称分布:亦称偏态分布,是集中位置

频数分布基本对称的频数分布。偏倚、两侧频数的分布不对分为正态分布和非

正态分布两称的频数分布,可分为正

种类型。偏态和负偏态分布。

0Ai….…

三、频数分布表/图的作用

1.直观地揭示数据的分布类型和特征。

2.便于发现资料中某些远离群体的特大或特小的可疑值。

3.描述频数分布的集中趋势与离散趋势。

4.便于进一步计算统计指标。

四、频数表

概念:频数分布表的简称。指观察值或某些类别及其相应的频数按一定顺序排列的表格。

例题:随机抽取某地120例正常人,测得血清铜的含量(umol/L)如下表,试编制频数表。

13.8412.5313.7014.8917.5313.1918.82

14.7317.4413.9914.1012.2912.6114.78

14.5914.7118.6219.0410.9513.8110.53

13.5611.4813.0716.8817.0417.9812.67

11.039.2315.0414.0915.9011.4814.64

13.6414.3915.7413.9911.3117.6116.26

13.5311.6813.2511.8814.2115.2115.29

13.7014.4511.2319.8413.1115.1511.70

频数表的编制方法:

1.找极值:Xmax=19.84,Xmin=9.23

2.求至距:R=Xmax-Xmin,R=19.84—9.23=10.61

3•定组数:K=8~15°

4.求组距:i=R/(K-1)(i为组距,k为组段数,R为全距)i=10.61/(ll-l)=1.061«l

5.确定各组段的上下限:

6.归纳计数:

某地120名正常成年人血清铜含量频数表

组段频数f频率P(%)fCPC(%)

9.00〜32.532.5

10.00〜43375.8

11.00〜1210.01915.8

12.00〜1310.83226.6

13.00〜1714.24940.8

14.00〜221837159.1

15.00〜1815.08974.1

16.00〜1310.810284.9

17.00〜119.211394.1

18.00〜54.211898.3

19.00〜21.7120100.0

合计120100.0

五、频数图

概念:亦称直方图,是以直方的宽度代表组距,以直方的面积大小表示频数的多少、以直方

面积在总面积中的比例表示频率大小的图形。

等距分组——以横轴表示变量,以纵轴表示频数。

不等距分组——以横轴表示变量,但纵轴是频数除以组距。

第二节数值变量资料集中趋势的描述

集中趋势:是度量变量值集中位置和平均水平的数量指标,其代表值为平均数。

平均数:是描述•组观测值平均水平的指标,是对同质基础上的样本或总体•般特征的表达

指标。

算术平均数、几何平均数、中位数、众数

L施义:算术平均数简称均数。是一组观察值的和与观察值个数之商。是数量上的平均。用

于说明一组观测值的趋中位置或平均水平。X表示样本均数,表示总体均数。

2.适用条件:正态或近似正态分布的资料。如生理指标。

3.计算方法:⑴直接法:有n个观察值,分别为XI,X2,……Xn,

._-+工+…+x,,_Zx

____________«___________嗫式中S是求和的符号。

例题:10名12岁男孩身高(cm)分别为125.5,126.0,127.0,128.5,147.0,131.0,132.0,

求#均薮。

141.5,122.5,140.0o

—>工1255+126+…+12N5+140

~~n—-1O

⑵加权法:用于观察值中相同数据较多或频数表资料。

./i+./;+•••+./,“=1737.00/120=14.48(Mmol/L)

二、几何均数

覆义:n个数值连乘积的n次方根。是比例或倍数上的平均。统计符号G。

2.应用条件:等比数列资料。如抗体滴度。

3.计算方法:

0=…X-

例题:6份血清抗体滴度为1:2,1:4,1:8,1:8,1:16,1:32,求平均数。

G=02x4x8x8xl6x32=8平均滴度为1:8o

三、中位数

1.定义:将一组观察值按由小到大的顺序排列,位次居中的数值即中位数。是位次上的平均。

统计符号M。

2.应用条件:不拘分布、分布类型不明或一端无界的资料。如潜伏期、治愈时间和发病年龄。

3.计算方法:

M=X(n叫M=Xg+Xg、+2

n为奇数时।2)n为偶数时L目M」

式中(明、(1)及M均为下标,表示有序数列中观察值的位次。

例题:某医院用大黄粉治疗胃热血瘀型血证病人9例,其大便转阴天数分别为1、1、2、2、

3、4、5、7、10,求其中位数。

本例n=9,M=X5=3(天)。

如果本例n=10,第10个数值为16天,则M=(3+4)/2=3.5(天)。

⑵数表法

用于观察值例数较多或契数表资料。____________=

IV!=1_+—f--------]

fIN)L为M所在组段的下限;i为该组

段的组距;fm为该组段的f;n为总例数;工也为小于L的各组段的fC。

例题:905例男性银屑病病人的发病年龄

年龄频数f累计频数fC累计频率pC(%)

<1054545.97

10〜252306(SfL)33.81

20〜346(fM)65272.04

30〜12878086.19

40〜8486495.47

50〜2989398.67

60〜589899.23

2707905(n)100.00

M=20+(10/346)(905/2—306)=24.23(岁)

第三节数值变量资料的离散趋势描述

离散趋势:亦称变异性,是描述一组同质观察值的变异程度大小的指标。不但反映研究指标

数值的稳定性和均匀性,而且反映集中性指标的代表性。

极差、四分位数间距、方差、标准差、变异系数。

变异指标示意(两个学生五门成绩分布)

学生科目变异指标

12345^RS2SCV

A78798081828042.51.581.98

B60708090100804025015.8119.76

A、B两个学生五门课程成绩的均数都是80,但各科成绩分布情况却不相同。

A较集中,变异较小;B较分散,变异较大。

一、全距(R)

概念:亦称极差,是一组观察值中最小值与最大值之差,反映个体差异的范围。

R=xmax—xmin

优点:1.意义明确、计算简便。2.稳定性较差。3.受n大小的影响。4.可应用于任何分布。

二、百分位数和四分位间距

1.百分位数:是把•组观察值从小到大排列,分为100等份,与x%位次所对的数值即为第

百分之x位数。以Px表示。

一个Px将全部观察值分为两部分,理论上有x%的观察值比它小,有(100—x)%的观察值

比它大。是一种位置指标。M即P50。

F»x=1_-+--—(in-x<K>W

■X

2.四分位数间距:是上四分位数QU(P75)与下四分位数QL(P25)之差,符号为QR。

是中间50%观察值的极差。

QR=QU-QL=P75-P25

用途:⑴常用来描述偏态分布资料分布以及分布的一端或两端无确切数值资料的离散程度。

⑶表示参考值范围百分位数的另一个重要用途是表示偏态分布资料的参考值范围。

例题:905例男性银屑病病人的发病年龄(同前)

计算方法:P25=10+(10/252)X(905X0.25-54)=16.84(^)

P75=30+(10/128)X(905X0.75-652)=32.09()

QR=P75-P25=32.09-16.84=15.25(岁)

三、方差

概念:方差即离均差平方和的均值。总体方差的符号为。2,样本方差符号为s2。

优点:由于s2利用了每个观察值的信息,反映•批数据变异程度的稳定性和精确性好。

缺点:但在运算时需将各个离均差平方,使原度量单位变成平方单位,不便于进行比较。

2_):(X—M.)2^2(-k——)?

CT=-------------S2N---------------

Z—1

应用条件:要求资料服从正态或近似正态分布。

四、标准差

概念:方差的平方根。除了具有方差的优点外,还克服了度量单位被平方的不足,运用较方

便。总体标准差的符号为。,样本标准差的符号为s;英文缩写为SD»

例题:

A学生:n=5,2X=78+79+80+81+82=400;2X2=782+792+802+812+822=32010

B学生:n=5,》X==400;XX2==33000

/SO10—000尸/33OOO-<2«?^i

S〜=V-----------ST'——=158s.=V---------g-13-—13XI

用途:⑴表示正态或近似正态分布的离散程度。⑵描述数值变量的频数分布特征(X土S)。

⑶制定医学参考值范围。(4)与均数结合计算变异系数。(5)与样本含量结合计算标准误。

五、变异系数

概E:一4观察值的标准差与均数的百分比。是相对离散量,无单位。统计符号CV

用途:⑴比较度量单位不同或均数相差悬殊时几组样本资料的离散性。

⑵比较实验指标的稳定性及测定方法的精密度。

CV==-X10O%

例题:(1)某单位测得28例成年脾虚病人的红细胞数为3.10±0.86X1012/L;血红蛋白

值为87.2±33.3g/L,试比较该两项指标的变异程度。

CVRBC=(0.86/3.10)X100%=27.74%;CVHb=(33.3/87.2)X100%=38.19%

可认为Hb的变异程度比RBC大。

(2)某单位测得大鼠的血清谷丙转氨酶(AU)为29.4±1.4,家兔的ALT为52.8±1.5,

试比较两种实验动物ALT指标的实验稳定性。

CV大鼠=(1.4/29.4)X100%=4.76%;CV家兔=(1.5/52.8)X100%=2.84%

可认为家兔ALT的实验稳定性较好,应优先考虑以家兔为实验对象进行ALT的有关研究o

由该例可知,CV对于改进实验方法,选择最佳实验对象、指标等,都具有一定的实际意义。

变异指标:

1.极差较粗,适用于任何分布;

2.标准差与均数单位相同,最常用,适用于正态及近似正态分布的统计描述;

3.集中指标和离散指标分别反映资料的特征,常配套使用:

正态分布:算术平均数标准差偏态分布:中位数四分位数间距

等比资料:G

正态分布及其应用

第一节正态分布

某地120例正常人血清铜含量的直方图。设想观察人数逐渐增多组、距不断细分,作直

方图。将各直方顶端的中点连接,形成一条光滑的曲线,该曲线即频数曲线或频率曲线,近

似于数学上的正态分布曲线。

IS13-4频数分布逐渐接近正态分布示意

一、正态分布:又称Gauss分布或常态分布,是一种最重要的连续型分布。

正态分布曲线:是高峰位于中央,两侧逐渐下降,左右对称,永远不与横轴相交的曲线。

二、正态分布的密度函数

(-8<X<8)

f(x)为与X对应的正态曲线的纵坐标高度;U为总体

均数;。为总体标准差;n为圆周率,即3.14159;e为

自然对数的底,即2.71828。

三、正态分布的特征

1.在X轴匕方,均数所在处最高。

2.集中性、对称性和均匀变动性。

3.正态分布有两个参数U和。。

固定."变化示意m固定•。变化示意

图3-5正态分布两个参数示意

四、标准正态分布

由于不同的正态分布有不同的口和。,用公式计算的随机变量X落在某个区间内的概率显得

非常麻烦。为寻求•个通用的方法,进行标准正态变换(即U变换):U=(X3)/。。此

变换实质上是作了个坐标轴的平移和尺度变换,使原来的正态分布变换为U=0、。=1

的标准正态分布(亦称u分布),记为N(0,l)o

五、标准正态分布的密度函数

oOO=——"

72兀(—8<口<OO)

式中(u)为标准正态分布的密度函数,即纵坐标高度。

x,X,xZtQZ,Z

态分布(b)变换后的标准正态分布

六、正态曲线下面积分布的规律:

(1)正态分布区间(四,炉。)下的面积,即由范围的面积占总面积为68.27%3

C2)正态分布区同伍L96e,11+1.960),即吐1.96。范围的面积占总面积为95.弧雕m

(3)正态分布区闻仙之胸,财2.驰叨即曲5如瓶固的画程翔翔0®%*

七、正态分布的应用

1.统计分析方法的基础:很多抽样分布,姆卡方分布、t分布都是建立在正态分布的基础上。

2.质量控制:为了控制检测误差,常以矢±2s作为上下警戒线;£±3s作为上下控制。

3.估计医学参考值范围。4.进行参数估计和假设检验。

第二节正态分布的应用

一、可根据正态分布的规律估计观察值的频数分布范围。

例题已知某地120名正常人血浆铜含量(Umol/L)的均数=14.48、S=2.27,估计该地120

名正常人血浆铜含量在14.20〜15.60(umol/L)范围内的人数。

1.计算u值当u和。未知时,u=(x-%)/s。

xl=14.20,ul=(14.20-14.48)/2.27=-0.12

x2=15.60,u2=(15.60-14.48)/2.27=0.49

2.查表-0.12左侧的面积就是0.12右侧的面积。

当u=0.12时,在表的左侧找到0.1,在表的上方找到0.02,二者相交处为0.5478,

0(-0.12)=1-0.5478=0.4522,即标准正态变量u值小于-0.12的概率为0.4522;

当u=0.49时,①(0.49)=0.6879,即u值小于0.49的概率为0.6879,

3.确定概率

u值在-0.12〜0.49范围内的面积为:①(0.49)—①(-0.12)=0.6879-0.4522=0.2357,

即血浆铜含量在14.20〜15.60(口mol/L)范围内的概率为23.57%。

4.估计区间内人数

120名正常人血清铜含量在14.20-15.60(umol/L)范围的人数为120X23.57%=28人

二、制定医学参考值范围

1、医学参考值的意义

①医学参考值:是指包括绝大多数正常人的解剖、生理、生化、免疫、组织或排泄物中成分

的测量值。

②医学参考值范围虑到变异的影响,提高参考值作为判定正常或异常的可靠性所确定的绝大

多数正常人医学参考值的波动范围。

③使用“参考值范围”的目的:个体一临床上划分正常人与异常人的参考。人群一制订不同

性别、年龄儿童某项发育指标的等级标准,用来评价儿童的发育水平等。

2、制定参考值范围的步骤

①选定健康人作为调查对象。②控制测量误差。①确定样本含量.④根据实际意义分组。

©决定取单侧还是双侧界限。⑥选定适当的百分界限。常用95%、80%、90%、99%等。

⑦制定医学参考值范围.

3、制定参考值范围的常用方法

①正态分布法适用于正态或近似正态分布的资料。表达式为五土"",2$,a为正态曲线下

单侧或双侧尾部的面见U。为a相应的标准正态离差。

双侧95%的界限值为:下土

单侧95%的上限值为:元+1-石45"

单侧95%的下限值为:元一1“63岁

例题:某地调查正常成年男子144人的红细胞数,得均数5.38(1012/L),标准差0.44(1012/L),

试估计该地成年男子红细胞数的95%参考值范围。

因红细胞数过多或过少均为异常,用双侧界值。

下限:-1.965=5.38-1.96X0.44=4.52

上限:+1.96s=5.38+1.96X0.44=6.24

该地成年男子幻:细胞数的95%参考值范围(4.52—6.24)1012/L»

②百分位数法:是利用两个百分位数作为双侧参考值范围的上、下限,或者用一个百分位数

作为参考值的上限或下限。

适用于非正态分布或分布未知的资料。

1)双侧95%参考值范围:P2.5~P97.52)单侧95%参考值范围上限值:P95

3)单侧95%参考值范围下限值:P5

总体均数的估计

参数估计:是通过样本信息估计其总体相应指标的数值及数值范围的统计分析方法,即用统

计量估计总体参数的方法,是统计推断的一个重要方面。

第一节抽样分布与抽样误差

♦医学科研的常用方法是抽样研究。

♦由于个体差异的存在,测算的样本指标值很难恰好等于总体指标值。这种由个体差异和抽

样造成的样本与总体、样本与样本相应统计指标之间的差异即抽样误差。

一、样本均数的抽样分布与标准误

1.样本均数的抽样分布:指某种统计量的频数分布。用样本统计量作为该样本的代表值,这些

个样本代表值的大小就形成了一个抽样分布。

2.抽样分布的特点:(1)各统计量间存在差异,统计量不一定等于参数。

(2)统计量的变异范围比原变量的变异范围大大缩小。

(3)随着n增加,样本均数的变异程度减小。

(4)如果原始变量服从正态分布,则统计量也服从正态分布。

如果原始变量不服从正态分布,若n较大,则统计量服从正态分布;若n较小,则统计量为

非正态分布。

3.抽样误差:是因抽样产生曲猫本盲样本、样本与总体相应统计指标之间的差异。

♦由于存在个体差异,且样本又未包含总体的全部信息,因此抽样误差是无法避免的。

♦抽样误差的大小主要取决于样本含量的多少和研究指标的变异程度。

4.标准误:♦表示样本指标值在抽样分布中的变异情况。

♦SE越小,说明抽样误差越小,用统计量来估计参数时的可靠程度越大;反之,

SE越大,说明抽样误差越大,用统计量来估计参数忖越不可靠。

均数的标准误:♦样本均数的标准差也称均数的标准误。

♦反映样本均数间的离散程度,反映样本均数与相应总体均数间的差异,

说明均数抽样误差的大小。品

估计标准误:♦由于。往往未知,常以S替代,算得的标准误称估计标准误。其统计符号。

♦山于标准误与抽样误差成正比,与样本均数的代表性成反比,故在实际工

作中可将标准误作为描述统计指标可靠性的依据。

5.标准差与标准误的比较

标准差均属标准误

意义描述个体观察值之间的离散性(变异程描述同一总体中随机抽出样本含量相

度)同的多个样本均数间的离散性

公式

7%走XJc

与n的关系随着n的增大逐渐趋于稳定随着n的增大逐渐减小,与n的平方

根成反比。

用途表示观察值得变异大小;结合样本均数描述表示样本均数抽样误差的大小;描述样本均

正态分布的特征;在正态分布时做参考值范数的可靠性;结合样本均数估计总体均数的

围的估计;计算变异系数和均数的标准误CI:进行均数间差别的假设检验

例题:已知某样本资料的s=2.27(umol/L),n=120,求其标准误。

代入公式得.Sm——2-2*7/-\/12O——0.21jjmol/L

二、t分布及其应用

l.t分布:若对正态分布总体多次重复抽取若干样本含量相同的样本,样本均数围绕总体均

数口呈现正态分布。若将所有样本均数按公

式进行数学变换,可得u围绕。的标准正态二

分布「=@-〃)/仆//\

由于总体标准差未知,只能求出标准误的估计值,变/\

换公式求t值,可得到若干t值。一^/

将这些t值绘成直方图,若样本无限多,可绘成一条1..1

光滑的曲线t分布曲线,此时所得的t值

围绕o呈现的就是t分布。r=(元一〃)/万至

2.t分布的特征:(1)是一簇单峰分布曲线,以0为中心,左右对称。

(2)其形态变化与自由度V的大小有关——v越小,则t值越分散,t分

布曲线越低平,t分布的峰部越矮而尾部翘得越高;v越大,t分布

越逼近正态分布。

(3)t分布的单侧概率和双侧概率

在t界值表中,横标目为自由度v,纵标目为概率(P或a)。

一侧尾部面积称为单侧概率或单尾概率;

两侧尾部面积之和称为双侧概率或双尾概率。

表中数字表示当v和a确定时,对应的t的界值,其中与单尾概率相

对应的t界值用表示,与双尾概率相对应的t界值用J2,表

示。

查t界值表注意:由于t分布是以0为中心的对称分布,故附表2只列出正值,查表时,不

管t值正负,均可用其绝对值It|查表得概率P值。

①相同自由度时,It|值增大,概率P减小;

②在相同It|值时,双尾概率P是单尾概率P的两倍。

如双尾品’,呼入«»=单尾ra-O5.LO=1.812

3.t分布的用途:总体均数的区间估计;t检验。

第二节总体均数的估计

是根据样本分布的特点,由样本均数推测总体均数的大小及其范围。

总体均数估计的方法有点估计和区间估计两种。

一、总体均数的点估计

点估计概念:用样本确定的统计量的值来直接估计总体参数的数值.

方法:以样本统计量及其标准误作为被估计参数的点估计值,一般是以统计量加

减标准误的方式给出参数的点估计值。

优点:方法简单。缺点:未考虑抽样误差的影响。

二、区间估计——根据抽样分布原理,按预先给定的概率水准,给出被估计参数可能的数值

范围。统计学称这一范围为被估计参数的可信区间(CI)。称预先给定的概率水准为可信度或

可信系数,符号为1-a,常取95%或99%。称按95%或99%水准确定的CI为95%CI或

99%CI。

1.大样本资料均数的可信区间

样本例数n足够大(n2100)时,可按正态分布原理,用以下公式估计总体均数N的CI。

X

95%CI=±L96£M99%Q=X±2.58s黛

例题:测得某地296例成年男性发锌的均数为200Qppm,标准差为21.8ppm»试估计该地

成年男性发锌总体均数的95%CI。

本例n=296,%=200,s=21.8,抬=$/后=1.27。

95%CI=200.0±1.96X1.27=(197.51,202.49)

该地成年男性发锌总体均数的95%CI为197.51〜202.4ppm。

2.小样本资料均数的可信区间

当n较小(n<100)时,一般按t分布原理,用以工公式估计总体均数□的CL

95%(:1=*±»0'°"多「部、99%CI=*±*o.oi/2»Sw

式中to.os/2,V与to.oi/2,V为to.05与to.01的双侧界值。

例题:测得某地12例肾虚失钠型哮喘病人甲皱微循环管伴长度的均数为208.33um,标准

差为67.07Um。试估计该地肾虚失钠型哮喘病人甲皱微循环管神长度总体均数的95%

CL

本例n=12,%=208.33,s=67.07,

S*=19.36v=n-1=12-1=11。

查t界值表得《05/2,11=2.201,按公式求得:

95%CI=208.33±2.201X19.36=(165.72,250.94)

该地肾虚失钠型哮喘病人甲皱微循环管神长度总体均数的95%CI为165.72〜250.94um

3.可信区间的要素

(1)准确度:是CI包含总体参数的概率大小,用可信度的大小1-a表示。可信度越接近1,

可信程度越高,准确度越高。如可信度99%比95%可信程度高。

(2)精密度:是对总体参数的估计范围或长度的度量,反映在C1即长度愈小愈精密。

每一次估计间的差异越小,CI愈小,即CI的长度越小,其估计的精密度越高。

4.可信区间的特点

(1)当n确定后,CI范围的大小与可信度1-a的高低呈正比,与估计结果的精密度呈反比。

(2)当可信度1-a确定后,n的大小与CI范围的大小呈反比;与估计结果的精密度呈正比。

因为增加样本例数会减小标准误,使CI的范围缩小。CI的范围越小,真实值靠近点估

计值的可能性越大,靠近CI边缘的可能性越小,估计的精确度也随之提高,其统计效

力就越大。

5.可信区间与可信限的关系

CI为某一整体内的一个分段,是以上、下可信限为界的开区间(不包含界值在内)。CU

与CL是C的上下两个界值。如95%a为(165.6,251.0)um。165.6Um是Cl的下限(L),251.0

um为Cl的上限(U)。

6.CI与参考值范围的比较

(1)可信区间:是参数的估计范围,需用标准误(SE)计算,表示总体指标的可能范围。

(2)参考值范围:表示大多数正常人的解剖、生理、生化某项指标的波动范围,需用标准

差计算,用于判断观察对象的某项指标正常与否。

假设检验

一、假设检验的概念与分类

概念:亦称显著性检验,是利用样本信息,根据一定的概率水准,推断样本指标(统计

量)与总体指标(参数)、不同样本指标间的差别有无意义的统计分析方法。

(-)参数检验和非参数检验

1.参数检验概念:依赖总体分布的具体形式的统计方法,简称参数法。常用的参数法有X2检

验、t检验、F检验等。使用条件是抽样总体的分布已知。

优点:能充分利用样本信息;检验效率较高。缺点:应用条件限制较多。

2.非参数检验概念:一类不依赖总体分布的具体形式的统计方法。如Ridit分析、秩和检验、

符号检验、中位数检验、序贯试验、等级相关分析等。

优点:①对总体的分布形式不要求;②可用于不能精确测量的资料•;

③易于理解和掌握;④计算简便。

缺点:不能充分利用资料所提供的信息,使检验效率降低。

(-)单因素分析与多因素分析

1.单因素分析——亦称一元分析,是在主要的非处理因素相同的条件下,不管影响结果的处

理因素(如病人年龄、病情、辩证分型、病理类型、药物剂型、用药途径、

疗程等)有多少,每次仅分析一个处理因素与效应之间关系的统计方法。

2.多因素分析——亦称多变量分析或多元分析,是研究多因素和多指标之间的关系以及具有

这些因素的个体之间关系的•种统计分析方法。

二、假设检验的基本思想

先假设差别山抽样造成,即总体间本无差异,在此假设成立的前提下做抽样研究,如果该次

抽样属小概率事件,则样本信息不支持原假设的成立,拒绝它。

三、假设检验的基本步骤

例题:根据大量调查,已知健康成年男子的脉搏均数为72次/分。某医生在某医院随机调查

30名脾虚男子,求得脉搏均数为74.2次/分,标准差为7.5次/分。脾虚病人的脉搏

是正态分布,问脾虚男子的脉搏均数与•般成年男子的脉搏均数是否相等?

分析:

把一般成年男子的脉搏均数看作一个总体均数,脾虚男子的脉搏均数为样本均数。

口0=74n=30,X=74.2,s=7.5。

UoWX的原因:

①抽样误差所致。②脾虚致两个均数间有本质性差异。

1.建立假设、确定检验水准

⑴无效假设:记为H°,即样本均数所代表的总体均数u与已知的总体均数u0相等。样本

均数与口。的差异是由抽样误差引起,无统计学意义。

⑵备择假设:记为Hi,即样本均数所代表的总体均数口与口。不相等,样本均数与口。的差

异是本质性差异,有统计学意义。

假设检验有双侧检验和单侧检验

若目的是推断两总体均数是否不等,应选用双侧检验。Ho:U=U。,出:KWH。

若从专业知识已知不会出现N<U0(或U>口0)的情况,则选用单侧检验。

Ho:U=Ho,H1;口<口0(或U>口o)确定检验水准

检验水准亦称显著性水准,符号为a,是事先规定的对假设成立有否作出判断的根据。

a常取0.05或0.01。

2.选择检验方法、计算统计量

根据:①研究目的,②资料的类型和分布,③设计方案,④统计方法的应用条件,⑤样本含

量大小等;选择适宜的统计方法并计算出相应的统计量。

3.确定P值、做出推论

假设检验中的P值是指在由无效假设所规定的总体作随机抽样,获得等于及大于(和/或

等于及小于)现有统计量的概率。即各样本统计量的差异来自抽样误差的概率,它是判断H.

成立与否的依据。

确定P值的方法主要有两种

⑴查表法根据检验水准、样本自由度直接查相应的界值表求出P值。

⑵计算法用特定的公式直接求出P值。

推论:若P>a,就没有理由怀疑H。的真实性,则结论为不拒绝H。,做出不否定此样本是

来自于该总体的结论,也即差别无显著性意义:

若PWa,则拒绝H。,接受出,也就是说这些统计量来自不同的总体,其差别不能

由抽样误差来解释,下结论为差别有显著性意义。

t检验

以t分布为理论基础,对一个或两个样本的数值变量资料进行假设检验常用的方法,属

于参数检验。

第二节单样本t检验

概念:亦称样本均数与总体均数比较的t检验。用于从正态总体中获得含量为n的样本,算

得均数和标准差,判断其总体均数u是否与某个已知总体均数u。相同。

已知总体均数一般为标准值、理论值或经大量观察得到的较稳定的指标值。

一、适用条件:1.对正态分布的数值变量资料,需用t检验。

2.对于非正态分布的资料,若经过变量变换使成正态分布,可按t检验处理;

否则,用非参数检验的方法。

二、正态性检验的方法

检验假设H。为总体分布是正态分布,当P>a时,不拒绝H。,认为样本所来自的总体

服从正态分布;而PWa时,拒绝H。,认为样本所来自的总体不服从正态分布。

1.W检验Shapiro-Wilk检验是基于次序统计量对它们期望值的回归而构成的。所用检验统

计量为W,又称为W检验。在样本量3WnW50时使用。

2.D检验Kolmogorov-Smirnov检验的统计量为D,所以也称D检验,在样本量50WnW1000

时使用。

三、计算公式

式中暑为样本均数,U为总体均数,n为样本含量,s为样本标准差,v为自由度。

四、检验步骤

1.建立假设、确定检验水准HO:U=U0,Hl:uWuO,a=0.05

t=----------r.........1.607

2.选择检验方法、计算统计量7.6/、顾

3.确定P值、做出推论

v=30-1=29,查t值表,t0.05/2.29=2.045,

/V*t=1.60705/2-29TP>0.05o

按Q=0.05水准,不拒绝Ho,根据现有样本信息,不能认为脾虚男子脉搏数与健康人不同

第三节配对设计资料均数的t检验

配对设计——将观察单位按照某些特征(如性别、年龄、病情等可疑混杂因素)配成条件相同

或相似的对子,每对中的两个观察单位随机分配到两个组,给予不同的处理,

观察指标的变化。

①同一观察单位实验(或治疗)前后的比较;②同•样品用两种方法检验结果的比较:

③配对的两个观察单位分别接受两种处理后的数据比较。

配对t检验

配对t检验——又称成对t检验,是将对子差数d看做变量,先假设两种处理的效应相同,

口1一口2=0,无显著性,推断两种处理因素的效果有无差别或某处理因素有无

作用。由于此种设计使影响结果的非被试因素相似或相同,因而提高了研究效率。

一、适用条件:1.设计类型是配对设计。2.数值变量的对子差值是正态分布。

二、计算公式

*-y7”工闺"—WS——-Sd/-'s/w

V=n—1,式中d为各个对子数值的差数,d为差数的平均数,Sa为差数的标准差,后■

为差数的标准误,n为对子数。

三、检验步骤

例题:对10名患者分别用湿式热消化-双硫踪法和硝酸-高锦酸钾冷消化法测定尿铅,问两

法测得结果有无差别。

用两种方法测定尿铅结果(口mol/L)

患者号冷消化法热消化法差值dd2

12.412.80-0.390.1521

212.0711.240.830.6889

32.903.04-0.140.0196

41.641.83-0.190.0361

52.751.880.870.7569

61.061.45-0.390.1521

73.233.43-0.200.04

80.770.92-0.150.0225

93.673.81-0.140.0196

104.494.010.480.2304

合计0.582.118

1.建立假设、确定检验水准

a

Ho:口=口0,Hi:uW口o,—0.05

2.计算统计量t值

先计算差值d及d2(如表),得Ed=0.58,Ed2=2.1182

Jyyf_Jaya—(d®®尸一

-T----n-f0-T-------十A/。

S---0-^132t=—=-0Sa=0.361

计算差值的标准误%而3182=M52sa01522

3.确定P值、做出推论

v=n—1=10—1=9,查t界值表,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论