医学统计学基础_第1页
医学统计学基础_第2页
医学统计学基础_第3页
医学统计学基础_第4页
医学统计学基础_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学统计学基础第一页,共六十八页,编辑于2023年,星期二

60年代到80年代,国外医学杂志调查表明:20%~72%的论文有统计错误。

1984年对《中华医学杂志》、《中华内科杂志》、《中华外科杂志》、《中华妇产科杂志》、《中华儿科杂志》595篇论文的调查结果为:相对数误用占11.2%,抽样方法误用占15.9%,统计图表误用占11.7%1996年对4586篇论文统计(中华医学会系列杂志占6.9%),数据分析方法误用达55.7%。

2001年《中华预防医学杂志》:中华医学会系列杂志误用约54%(1995)。

1996年,有机构对申报科技成果的4586篇科研论文分析,统计方法使用率为76%。医学论文中统计运用错误,除了影响论文的科学性,还可能导致严重的伦理学问题。第二页,共六十八页,编辑于2023年,星期二医学统计学基本名词医学统计学(medicalstatistics)---是以医学理论为指导,运用数理统计学的原理和方法研究医学资料的搜集、整理与分析,从而掌握事物内在客观规律的一门学科。统计学方法的特点:用数量反映质量第三页,共六十八页,编辑于2023年,星期二医学统计学基本名词概率(probability):是描述随机事件发生可能性大小的量值。用英文大写字母P来表示。概率的取值范围在0~1之间。当P=0时,称为不可能事件;当P=1时,称为必然事件。小概率事件:统计学上一般把P≤0.05或P≤0.01的事件称为小概率事件。小概率原理:小概率事件在一次试验中几乎不可能发生。利用该原理可对科研资料进行假设检验。第四页,共六十八页,编辑于2023年,星期二医学统计学基本名词总体(population):是根据研究目的确定的同质研究单位的全体。更确切地说是同质研究单位某种变量值的集合。样本(sample):是从总体中随机抽取的有代表性的部分观察单位变量值的集合。样本的例数称为样本含量(samplesize)。注意:1。总体是相对的,总体的大小是根据研究目的而确定的。2。样本应有代表性,即应该随机抽样并有足够的样本含量。第五页,共六十八页,编辑于2023年,星期二图示:总体与样本populationsample2sample1sample3sample4sample5第六页,共六十八页,编辑于2023年,星期二医学统计学基本名词参数(parameter):由总体计算或得到的统计指标称为参数。总体参数具有很重要的参考价值。如总体均数μ,总体标准差σ等。统计量(statistic):由样本计算的指标称为统计量。如样本均数,样本标准差s等。抽样误差(sampleerror):由于随机抽样所引起的样本统计量与总体参数之间的差异以及样本统计量之间的差别称为抽样误差。第七页,共六十八页,编辑于2023年,星期二医学统计学基本名词计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurementdata)。其变量值是定量的,表现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等

计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(countdata)。其观察值是定性的,表现为互不相容的类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O四种血型的人数等。

第八页,共六十八页,编辑于2023年,星期二医学统计学基本名词等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinaldata)。如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。

等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。

第九页,共六十八页,编辑于2023年,星期二医学统计学基本名词正态分布:概率论中最重要的一种分布,也是自然界最常见的一种分布。该分布由两个参数——平均值和方差决定。概率密度函数曲线以均值为对称中线,方差越小,分布越集中在均值附近。第十页,共六十八页,编辑于2023年,星期二正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)。高峰在均数处;均数两侧完全对称。正态曲线下的面积分布有一定的规律。第十一页,共六十八页,编辑于2023年,星期二

——正态曲线下的面积分布规律

μ±1σ 占正态曲线下面积的68.27%μ±1.96σ 占正态曲线下面积的95.00%μ±2.58σ 占正态曲线下面积的99.00%

若n>100,则μ可用X代替,σ用s代替。

-

-2.58-1.96-1

+1+1.96+2.582.5%1.0%第十二页,共六十八页,编辑于2023年,星期二医学统计学基本名词直线相关:又称线性相关,是指两列变量中的一列变量在增加(或减少)时,而另一列变量随之而增加(或减少),或这一列变量在增加时,而另一列变量则相应地减少。它们之间存在一种直线关系。直线相关可用直线拟合。第十三页,共六十八页,编辑于2023年,星期二第十四页,共六十八页,编辑于2023年,星期二医学统计学基本方法多元线性回归:在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。1.应变量Y为正态分布数值变量

多重线性回归2.应变量Y为二分类(或多分类)定性变量或等级变量

logistic回归3.应变量Y为二分类结局变量和生存时间

Cox回归第十五页,共六十八页,编辑于2023年,星期二

案例[抛硬币]:连续抛一枚硬币次,记录出现正面的次数.下表列出了历史上一些科学家试验的结果:

实验者投掷次数发生正面向上的次数频率道蒙津

2046

10610.5186蒲丰

4040

20480.5069K.皮尔逊12000

60190.5016K.皮尔逊24000120120.5005证实:当试验次数逐渐增大时,频率值越来越稳定地接近于某一固定值。第十六页,共六十八页,编辑于2023年,星期二医学统计学基本方法定量资料的描述集中趋势:算术均数几何均数中位数百分位数离散趋势:

极差四分位数间距标准差、方差变异系数第十七页,共六十八页,编辑于2023年,星期二某地140名成年男子红细胞数(×1012/L)的频数分布表

红细胞数组中值(X)频数(f)fX3.80~ 3.9027.84.00~4.10624.64.20~ 4.301147.34.40~ 4.5025112.54.60~ 4.7032150.44.80~ 4.9027132.35.00~ 5.101786.75.20~ 5.301368.95.40~ 5.50422.05.60~ 5.70211.45.80~6.005.9015.9

合计 —140(∑f)669.8(∑fx)X=∑fx∑f=669.8140=

4.78(×1012/L)第十八页,共六十八页,编辑于2023年,星期二滴度例数(f)滴度倒数(x)lgxflgx1:403401.6024.811:8022801.90341.871:160171602.20437.471:32093202.50522.551:64006402.8060.001:1280112803.1073.11

合计∑52——109.79麻疹患者恢复期血清麻疹病毒特异性荧光抗体滴度=129.21:129Lg–1=∑flgx∑f〔〕=Lg–1

109.7952〔〕G=第十九页,共六十八页,编辑于2023年,星期二医学统计学基本方法百分位数描述观察序列在百分位置的水平,是分布的百分界值,可用于确定医学参考值范围,适用于任何分布。①描述一组资料在某百分位置上的水平;②用于确定正常值范围;③计算四分位数间距。第二十页,共六十八页,编辑于2023年,星期二∑X2-(∑X)2/nn-1√S=5人收缩血压测定结果(mmHg):162145178142186∑X=813∑X2=133317√

=133317–(813)2/55–1

=19.49mmHg第二十一页,共六十八页,编辑于2023年,星期二某地140名成年男子红细胞数(×1012/L)的频数分布表

红细胞数组中值(X)频数(f)fXfX23.80~ 3.9027.830.424.00~4.10624.6100.864.20~ 4.301147.3203.394.40~ 4.5025112.5506.254.60~ 4.7032150.4706.884.80~ 4.9027132.3648.275.00~ 5.101786.7442.175.20~ 5.301368.9365.175.40~ 5.50422.0121.005.60~ 5.70211.464.985.80~6.005.9015.95.90

合计(∑) —140669.8

3224.20∑fX2-(∑fX)2/nn-1√

S=√

=3224.20–(669.8)2/n140-1=0.38第二十二页,共六十八页,编辑于2023年,星期二标准差用途:

1.表示同质变量值的离散程度,用于两组变量值比较时,要求其性质相同,均数相差不大.2.与均数结合,表示均数的代表性

(x±s),同时描述正态分布特征

3.与均数结合,计算变异系数

4.与样本含量(n)结合,计算标准误第二十三页,共六十八页,编辑于2023年,星期二例1:比较7岁男孩身高与体重的变异程度身高:X1=123.10cmS1=4.71cm

体重:X2=22.29kgS2=2.26kg

CV(%)=×100%SXCV1=4.71/123.10×100%=3.83%CV2=2.26/22.29×100%=10.14%■第二十四页,共六十八页,编辑于2023年,星期二用频数表法计算L

中位数所在组组段的下限iM中位数所在组组段的组距fM中位数所在组的频数fL中位数所在组前一组的累计频数M=L

+(-fL)iMfMn2第二十五页,共六十八页,编辑于2023年,星期二某地630名正常女性血清甘油三酯(㎎/dl)含量甘油三酯频数累积频数累计频率(%)10~27274.340~16919631.170~16736357.6100~9445772.5130~8153885.4160~4258092.1190~2860896.5220~1462298.7250~462699.4280~362999.8310~1630100.0合计630——M=L

+(-fL)iMfMn2=70+30/167×(630/2-196)=91.4㎎/dl第二十六页,共六十八页,编辑于2023年,星期二

ix Px=L+ (n·x%-

fL) fx附:百分位数

Percentile,Px

描述变量值序列在某百分位位置的水平,多个百分位数结合可更全面地描述变量值的分布特征。L

Px所在组组段的下限ix

Px

所在组组段的组距fx

Px所在组的频数fLPx所在组前一组的累计频数第二十七页,共六十八页,编辑于2023年,星期二4.四分位数间距(Quartile,Q)

﹡四分位数间距为特定的百分位数,可看作为中间1/2变量值的全距

Q=Qu—QL,

Qu=P75

(上四分位数)

QL=P25(下四分位数)

﹡用途:用于表示偏态分布资料的变异程度,常与中位数配合使用

P25

P75ABM第二十八页,共六十八页,编辑于2023年,星期二常用平均数的对比

名称

意义

应用场合

均数平均数量水平应用甚广,适用于对称分布,尤其是正态分布几何均数平均增(减)倍数

等比资料;对数正态分布中位数位次居中的观察值水平偏态分布;分布不明;分布末端无确定值。第二十九页,共六十八页,编辑于2023年,星期二三、离散趋势(tendencyofdispersion)

描述变量值的离散趋势用变异指标

全距(极差)

四分位数间距常用变异指标方差

标准差

变异系数

百分位数法离均差法第三十页,共六十八页,编辑于2023年,星期二

——常用变异指标

2.方差(Variance)和 标准差(Standarddeviation)

﹡定义公式 ∑(X—μ)2 ∑(X—μ)2

σ2= σ= N N ∑(X—X)2 ∑(X—X)2S2= S= n—1n—1

为总体标准差s为样本标准差第三十一页,共六十八页,编辑于2023年,星期二

3.标准误的计算公式

σ

σχ=

σχ:总体标准误

√n

S

Sχ=

Sχ:样本标准误,

√n

为σχ的估计值

4.标准误的意义1)表示抽样误差的大小2)与均数结合表示样本均数对总体均数的代表性(x±Sx

)第三十二页,共六十八页,编辑于2023年,星期二标准差与标准误的区别比较内容标准差标准误意义表示个体观察值间的变异程度表示样本均数间的变异程度或样本率与总体率分散程度的指标计算方法计算应用①表示一组观察值之间的变异程度②计算均数的标准误③计算参考值范围①表示抽样误差的大小,说明样本均数的可靠程度②估计总体参数的可信区间③进行总体参数的假设检验第三十三页,共六十八页,编辑于2023年,星期二t检验的应用条件n较小时(如n>50),理论上要求样本取自正态总体两小样本均数比较时,要求两总体方差相等第三十四页,共六十八页,编辑于2023年,星期二表4.4新药组与安慰剂组血清总胆固醇含量(mmol/L)配对号新药组安慰剂组差值d14.46.2-1.825.05.2-0.235.85.5

0.344.65.0-0.454.94.4

0.564.85.4-0.676.05.01.085.96.4-0.594.35.8-1.5105.16.2-1.1第三十五页,共六十八页,编辑于2023年,星期二以|t|=|-1.542|=1.542,查附表2,t界值表的双尾概率0.10<P<0.20。按=0.05水准,不拒绝H0,无统计学意义。还不能认为该新药对女性血清胆固醇含量有影响。经配对t检验,t=1.542,0.10<P<0.20。还不能认为该新药对女性血清胆固醇含量有影响。第三十六页,共六十八页,编辑于2023年,星期二医学统计学基本方法两独立样本t检验完全随机设计:分别从两个研究总体中随机抽取样本,然后比较两组的平均效应;随机抽取实验对象,将其随机分成两组,分别接受两种不同处理,然后比较两组的平均效应。应用条件两小样本均数比较(n1,n2均小于50)时,理论上要求样本取自正态总体,两总体方差相等。第三十七页,共六十八页,编辑于2023年,星期二医学统计学基本方法第三十八页,共六十八页,编辑于2023年,星期二

2.选定检验方法,计算检验统计量联合方差联合标准误第三十九页,共六十八页,编辑于2023年,星期二医学统计学基本方法该检验也称为独立样本u检验(independentsampleu-test),适用于两样本含量较大(如n1>50且n2>50)时,u值可按下式计算:两样本均数比较的u检验第四十页,共六十八页,编辑于2023年,星期二医学统计学基本方法标准化率(standardizedrate)亦称调整率(adjustedrate)。常用的计算方法按已知条件有:直接法:间接法:不讲。反推法:不讲。2。选择标准人口的方法:1)选择两地数据之一的人口数或构成比;2)选择两地数据之和的人口数或构成比;3)选择当地或全国的人口数或构成比;4)国际间比较选用世界通用标准。第四十一页,共六十八页,编辑于2023年,星期二年龄组甲地乙地人口数死亡人数死亡率人口数死亡人数死亡率

0~9300532

57.2480034972.9

5~1220044

3.66600304.6

20~19000101

5.3353002547.2

40~760092

12.128003914.2

60~190076

40.05002346.0合计50000845

16.95000069513.90第四十二页,共六十八页,编辑于2023年,星期二年龄组标准人口数甲地乙地(岁)(Ni)原死亡率pi预期死亡数Npi原死亡率pi预期死亡数Npi(1)(2)(3)(4)=(2)(3)(5)(6)=(2)(5)0~1410057.2

80772.9

10285~188003.6

684.6

8620~543005.3

2887.2

39140~1040012.1

12614.2

14860~

240040.0

9646.0

110合计100000(N)16.191385(ΣNipi)13.901763(ΣNipi)第四十三页,共六十八页,编辑于2023年,星期二医学统计学基本方法检验目的:推断两个总体率或构成比之间有无差别多个总体率或构成比之间有无差别多个样本率的多重比较两个分类变量之间有无关联性频数分布拟合优度的检验。

检验统计量:应用:计数资料第四十四页,共六十八页,编辑于2023年,星期二甲乙两种疗法治疗肺癌生存率比较的四格表疗法生存死亡合计nC

生存率%

ATAT

甲22(25.21)24(20.79)4647.83

乙35(31.79)23(26.21)5860.34合计nR5747104n

54.81基本公式:

(A-T)2

2=—————T

nRnCTRC=

nA实际值

T理论值

=(行-1)(列-1)

=(R-1)(C-1)第四十五页,共六十八页,编辑于2023年,星期二

3.

2检验的种类

(1)四格表资料的

2检验

(

2testforfourfoldtable)

目的:用于两个样本率或构成比的比较,推断两个样本所代表的总体率(或总体构成比)是否相等。

专用公式:

(ad-bc)2n2=————————————(a+b)(c+d)(a+c)(b+d)基本公式:

(A-T)2

2=—————T

=1第四十六页,共六十八页,编辑于2023年,星期二甲乙两种疗法治疗肺癌生存率比较的四格表疗法生存死亡合计生存率%甲22244647.83

乙35235860.34合计574710454.81(a)(b)(c)(d)(a+b)(c+d)(a+c)(b+d)(n)

(ad-bc)2n2=————————————(a+b)(c+d)(a+c)(b+d)2=

(22×23-24×35)2×10446×58×57×47=1.62P>0.05第四十七页,共六十八页,编辑于2023年,星期二医学统计学基本方法T<1,或n<40时,需用确切概率法计算。确切概率计算法

(a+b)!(c+d)!(a+c)!(b+d)!P=————————————a!b!c!d!n!第四十八页,共六十八页,编辑于2023年,星期二(3)配对资料的四格表

2检验(

2testof

pairedcomparisionofenumerationdata)

用于配对设计的计数资料。

配对的方法:

1)同源配对:是通过两种不同的处理方法对同一样品进行处理,从而推断两种处理方法的结果有无差别。第四十九页,共六十八页,编辑于2023年,星期二2)异源配对:以一定的条件把观察对象配成对子,研究某种因素的作用或影响。肺癌的病例对照研究肺癌合计吸烟不吸烟吸烟aba+b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论