第十章 数值变量资料的统计分析课件_第1页
第十章 数值变量资料的统计分析课件_第2页
第十章 数值变量资料的统计分析课件_第3页
第十章 数值变量资料的统计分析课件_第4页
第十章 数值变量资料的统计分析课件_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章

数值变量资料的统计分析医学统计方法第十章数值变量资料的统计分析第一节数值变量资料的统计描述

第十章数值变量资料的统计分析一、频数表及频数分布例10-1

抽样调查某地120名18~35岁健康男性居民血清铁含量(

mol/L),如下表,试编制血清铁含量的频数表。(一)频数表的编制第十章数值变量资料的统计分析7.428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.52一、频数表与频数分布第十章数值变量资料的统计分析一、频数表与频数分布

频数表的编制方法:

1.求极差

2.确定组数和组距3.列表划记(一)频数表的编制第十章数值变量资料的统计分析一、频数表与频数分布1.极差(range):用R表示,是数据的最大值与最小值之差。

本例的最大值和最小值已用粗体字标出,即

R=29.64-7.42=22.22(一)频数表的编制第十章数值变量资料的统计分析一、频数表与频数分布(1)组数一般设8~15个组,最多的是10组,组距(classinterval)为每组的跨度,一般由极差与预计的组段数之商来确定。(2)设定组段数为10,本例22.22/10=2.22,组距取为2。(3)于是第一组下限为6,上限为8(但不包括8),记作“6~”;最后一组下限为28,上限为30,记作“28~30”。(一)频数表的编制2.确定组数和组距第十章数值变量资料的统计分析一、频数表与频数分布组段频数频率(%)18~2722.50(1)(2)(3)20~1815.006~10.8322~1210.008~32.5024~86.6710~65.0026~43.3312~86.6728~3010.8314~1210.00合计120100.0016~2016.67表10-1120名正常成年男子血清铁含量频数表(

mol/L)(一)频数表的编制第十章数值变量资料的统计分析图10-1120名正常成年男子血清铁含量的频数分布

一、频数表与频数分布(二)频数分布图由图10-1观察该120名成年男子血清铁含量的分布规律?第十章数值变量资料的统计分析一、频数表与频数分布1.观察有无可疑值2.便于进一步计算指标并进行统计分析3.揭示资料的分布类型4.描述分布的特征(三)频数表和频数分布图的应用第十章数值变量资料的统计分析二、描述集中趋势的指标

(一)算术均数

(二)几何均数

(三)中位数和百分位数第十章数值变量资料的统计分析二、描述集中趋势的指标

1.公式:

2.可以计算加权均数(weightedmean)。计算公式为:

wi为第i组的权重系数(weight),说明重要性的大小。wi

>0,Σwi

=1。

(一)算术均数第十章数值变量资料的统计分析二、描述集中趋势的指标

1.描述抗体的滴度、细菌计数等,一般用G表示,适用于对数正态分布资料。

2.变量值X1,X2,X3,…,Xn的几何均数为

也可用下式计算几何均数

(二)几何均数第十章数值变量资料的统计分析二、描述集中趋势的指标例10-25名慢性迁延性肝炎患者的HBsAg滴度资料为1:10,1:20,1:40,1:80,1:160,试求几何均数。(二)几何均数第十章数值变量资料的统计分析二、描述集中趋势的指标该资料的各观察值呈倍数增加,其几何均数为故5名慢性迁延性肝炎患者的HBsAg滴度的几何均数为1:40;注意:变量值中不能出现0,且不能同时包括正值和负值。(二)几何均数第十章数值变量资料的统计分析二、描述集中趋势的指标中位数(median)是将观察值按升序排列,位次居中的数,常用M表示。中位数既适用于偏态分布资料或分布类型不明资料的描述,也适用于开口资料的描述。

(三)中位数和百分位数第十章数值变量资料的统计分析二、描述集中趋势的指标例10-3某病7例患者的潜伏期(天)如下:2,6,3,3,4,5,30,试求其平均潜伏期。本例资料是偏态分布资料,适宜用中位数描述其集中趋势。

将观察值按升序排列,其中位数为4天。所以,该病7例患者的平均潜伏期为4天。(三)中位数和百分位数第十章数值变量资料的统计分析二、描述集中趋势的指标百分位数(percentile)是一种位置指标,以PX表示,一个百分位数PX将全部观察值分为两个部分。故百分位数是一个界值,也是分布数列的一百等份分割值。中位数(P50)是一特定的百分位数。(三)中位数和百分位数第十章数值变量资料的统计分析三、描述离散趋势的指标

例10-4

观察下面三组数据,试分析其集中趋势和离散程度甲组2629303134甲=30乙组2427303336乙=30丙组2628303234丙=30第十章数值变量资料的统计分析三、描述离散趋势的指标(一)极差(二)四分位数间距(三)方差和标准差(四)变异系数如何描述资料离散程度?第十章数值变量资料的统计分析三、描述离散趋势的指标极差(R),又称全距,指一组数据中最大值与最小值之差。极差大,说明资料的离散程度大。如例10-4中的甲组和乙组的极差分别为8和12,说明乙组的离散程度大于甲组。用极差反映离散程度的大小,简单明了。但缺点是不够灵敏和稳定。为什么?

(一)极差第十章数值变量资料的统计分析图10-2三组数据的离散程度三、描述离散趋势的指标(一)极差第十章数值变量资料的统计分析

三、描述离散趋势的指标四分位数间距(inter-quartilerange):上四分位数P75

(QU)与下四分位数P25(QL)之差,即:

Q=QU-QL

四分位数间距可看成中间一半观察值的极差。其意义与极差相似,数值大,说明变异度大;反之,说明变异度小。对偏态分布,记为:M(P25,P75)。(二)四分位数间距第十章数值变量资料的统计分析三、描述离散趋势的指标

方差:

将总体方差开平方,就是总体标准差,记为σ

(三)方差和标准差第十章数值变量资料的统计分析三、描述离散趋势的指标

例10-4中三组资料的样本标准差分别为:S甲=2.9155S乙=4.7434S丙=3.1623故S乙>S丙>S甲,即乙组的变异大于丙组,丙组的大于甲组。(三)方差和标准差第十章数值变量资料的统计分析三、描述离散趋势的指标变异系数,为标准差与均数之比,常用百分数表示。

适用条件:量纲不同的变量间或均数差别较大的变量间。(四)变异系数第十章数值变量资料的统计分析三、描述离散趋势的指标例10-5某地女童100人,其身高的均数为72.4cm,标准差为3.0cm;体重的均数为8.42kg,标准差为0.98kg。由于身高和体重的度量单位不同,不能直接比较标准差,可以比较其变异系数。(四)变异系数第十章数值变量资料的统计分析三、描述离散趋势的指标女童体重的变异>身高的变异(四)变异系数第十章数值变量资料的统计分析第二节正态分布和参考值范围第十章数值变量资料的统计分析一、正态分布的概念正态分布曲线图的方程为:

,–∞<X

<+∞将

作如下变换:

则正态分布→标准正态分布第十章数值变量资料的统计分析一、正态分布的概念

F(X)

f(X)(a)正态分布Φ(u)φ(u)0u

(b)标准正态分布第十章数值变量资料的统计分析二、正态分布的图形、特征正态分布是一单峰分布,高峰位置在均数X=

处。正态分布以均数为中心,左右完全对称。正态分布取决于两个参数,即均数

和标准差

为位置参数;

为形态参数。有些指标不服从正态分布,但通过适当的变换(transformation)后服从正态分布。正态分布曲线下的面积分布是有规律的,且曲线下面积为1。正态分布的特征:第十章数值变量资料的统计分析三、正态分布曲线下面积分布规律-2.582.58099%0.5%0.5%B标准正态分布

-1.96

95%

+1.96

2.5%2.5%A正态分布图10-3正态曲线下面积分布示意第十章数值变量资料的统计分析三、正态分布曲线下面积分布规律例10-6

在例10-1中已求得某市120名成年男子的血清铁含量的均数为18.57umol/L,标准差为4.37umol/L。

设该资料服从正态分布,试求该市成年男子血清铁含量在24

mol/L以下者占该市成年男性总数的比例,分别求

范围内成年男子占该市成年男子总数的实际百分数,并与理论百分数比较。第十章数值变量资料的统计分析三、正态分布曲线下面积分布规律按式求标准正态离差u=(24-18.57)/4.37=1.24查附表,在表的左侧找到-1.2,在表的上方找到0.04,二者交汇处为0.1075(10.75%),即该市成年男子血清铁含量在24umol/l以下者,估计约占89.25%。计算结果见表10-2,可见该资料的理论分布和实际分布是很接近的。第十章数值变量资料的统计分析表10-2120名成年男子血清铁含量的实际分布与理论分布的比较

血清铁含量(umol/l)人数百分数(%)理论分布(%)14.20~22.946767.0068.2710.00~27.149595.0095.007.30~29.84100100.0099.00三、正态分布曲线下面积分布规律第十章数值变量资料的统计分析

四、正态分布的应用

(一)估计频数分布(二)制定参考值范围(三)质量控制(四)统计分析方法的基础第十章数值变量资料的统计分析四、正态分布的应用例10-7出生体重低于2500克为低体重儿。若由某项研究得某地婴儿出生体重均数为3200克,标准差为350克,估计该地当年低体重儿所占的比例。先求标准离差:

再查表得:即标准正态曲线下从–∞到

范围内的面积为2.28%,故估计该地当年低体重儿所占的比例为2.28%。(一)估计频数分布第十章数值变量资料的统计分析

四、正态分布的应用

参考值范围:是指特定的“正常”人群的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的取值所在的范围。这里的“绝大多数”最常用的是95%。(二)制定参考值范围第十章数值变量资料的统计分析

四、正态分布的应用

百分比(%)正态分布法百分位数法双侧单侧双侧单侧只有下限只有上限只有下限只有上限909599如何制定参考值范围?(二)制定参考值范围第十章数值变量资料的统计分析

四、正态分布的应用

例10-8

某地调查正常成年女子120人的血红蛋白含量(近似正态分布),得均数=117.4g/L,标准差s=10.2g/L。试估计该地成年女子血红蛋白含量的95%参考值范围。

用正态分布法求95%参考值范围的下、上限如下:下限为:X-1.96s=117.4-1.96×10.2=97.41(g/L)上限为:X+1.96s=117.4+1.96×10.2=137.9(g/L)(二)制定参考值范围第十章数值变量资料的统计分析四、正态分布的应用

:上、下警戒值

:上、下控制值(三)质量控制第十章数值变量资料的统计分析四、正态分布的应用

t检验、方差分析、相关回归分析等多种统计方法均要求分析的指标服从正态分布。很多统计量的分布,在样本含量足够大的情况下,亦近似服从正态分布。(四)统计分析方法的基础第十章数值变量资料的统计分析

第三节均数的抽样误差和总体均数估计

第十章数值变量资料的统计分析一、均数的抽样误差与标准误(一)抽样误差由抽样引起的样本统计量与总体参数间的差异。(二)标准误样本均数的标准差,用来衡量抽样误差的大小。第十章数值变量资料的统计分析一、均数的抽样误差与标准误

f(t)

=∞(标准正态曲线)

=5

=10.10.2-4-3-2-1012340.3图10-4自由度分别为1、5、∞时的t分布t分布曲线第十章数值变量资料的统计分析一、均数的抽样误差与标准误t分布为一簇单峰分布曲线,以0为中心,左右对称;t分布与自由度

有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度趋向无穷大时,t分布趋近标准正态分布,故标准正态分布是t分布的特例。t分布的特征:第十章数值变量资料的统计分析二、参数估计(一)点估计:以样本统计量估计对应的总体参数。

(二)区间估计按一定的概率1-

确定的包含总体参数的一个范围,这个范围称作可信度为1-

的可信区间(confidenceinterval,CI),又称置信区间。这种估计方法称为区间估计。总体均数可信区间的计算方法:1.t分布法2.正态近似法第十章数值变量资料的统计分析二、参数估计(1)当

未知时,按t分布原理计算可信区间。总体均数的可信度为(1-

)的可信区间定义为:(2)当

已知或未知但样本含量较大时,例如n>100,按正态分布原理估计总体均数的可信区间。当

未知时,相应的总体均数1-

可信区间为:(–z

,+z

)1.t分布法第十章数值变量资料的统计分析二、参数估计例10-9

随机抽取某地25名正常成年男子,测得该样本的脉搏均数为73.6次/分,标准差为6.5次/分,求该地正常成年男子脉搏总体均数95%的可信区间。

本例自由度

=25-1=24,经查表得t0.05,24=2.064,则:1.t分布法第十章数值变量资料的统计分析二、参数估计可信区间的涵义:如果重复若干次样本含量相同的抽样,每个样本均按同一方法构建100(1-

)%可信区间,则在这些可信区间中,理论上有100(1-

)个包含了总体参数,还有100

个未估计到总体均数。第十章数值变量资料的统计分析第四节假设检验的基本思想与步骤第十章数值变量资料的统计分析

1.提出一个假设→推断是否拒绝这一假设

2.假设检验的基本原理包括小概率思想和反证法思想。第十章数值变量资料的统计分析例10-10大规模调查表明健康成年男子血红蛋白的均数为136g/L,今随机调查某单位食堂成年男性炊事员25名,测得血红蛋白均数为121g/L,标准差为48.8g/L,试问该单位食堂成年男性炊事员血红蛋白的均数与健康成年男子血红蛋白的均数有无差别?

本例中已知一个总体

0=136g/L,一个样本:n=25,=121g/L,s=48.8g/L。现有的样本均数和总体均数不同,什么是造成其差别的原因?

为识别原因,我们对其做假设检验。第十章数值变量资料的统计分析假设检验的基本步骤(一)建立假设(二)确定检验水准(三)计算检验统计量和P值(四)推断结论第十章数值变量资料的统计分析

(一)建立假设

一是检验假设(hypothesistobetested),亦称原假设或无效假设(nullhypothesis),记为H0

;二是与H0相对立的备择假设(alternativehypothesis),记为H1

两者是互斥的,非此即彼。H0:

=13.6g/dl,H1:

≠13.6g/dl。第十章数值变量资料的统计分析(二)确定检验水准确定检验水准(sizeoftest)实际上就是确定拒绝H0时的最大允许误差,常用

表示,最常用的检验水准为

=0.05。本例取

=0.05。第十章数值变量资料的统计分析(三)计算检验统计量和P值t=1.54,这个差别是大还是小?当前样本是否支持H0假设?P值的大小表示:在H0成立的前提下,获得现有这么大t离差及更大t离差即t≥1.54的可能性,即:

P=P(t≥1.54)由

=25-1=24查附表2的t界值表得,则t<t0.10,24,故P>0.10。第十章数值变量资料的统计分析(四)推断结论

结论:t=1.54,

=24,P>0.10,故按

=0.05水准,不拒绝H0,差别无统计学意义若P≤

,则拒绝H0,接受H1,差别有统计学意义。若P>

,则不拒绝H0,差别无统计学意义。第十章数值变量资料的统计分析第五节t检验和z检验第十章数值变量资料的统计分析一、样本均数与总体均数比较的t检验二、配对设计计量资料的t检验三、成组设计计量资料的t检验四、大样本资料的Z检验五、I型错误和Ⅱ型错误六、假设检验时应该注意的问题主要内容:第十章数值变量资料的统计分析一、样本均数与总体均数比较的t检验样本均数与已知总体均数比较的目的,是推断该样本是否来自某已知总体;具体方法步骤见例10-10。第十章数值变量资料的统计分析二、配对设计计量资料的t检验

例10-11

现用两种血压计对12名妇女测得收缩压(SBP)(mmHg),资料如表10-3,问两种方法的检测结果有无差别?第十章数值变量资料的统计分析H0:

d=0,两种血压计检验结果相同;

H1:

d

≠0,两种血压计检验结果不同。

=0.05。求得检验统计量:按

=n-1=11查t值表,得t0.02,11=2.718,t>t0.02,11,则P<0.02,差别有统计学意义,可以认为两种血压计检查的结果不同。二、配对设计计量资料的t检验第十章数值变量资料的统计分析三、成组设计计量资料的t检验t检验的公式为:

=n1+n2-2第十章数值变量资料的统计分析例10-12

为研究某种蛋白与系统性红斑狼疮的关系,测试了某医院中15名狼疮患者和12名正常人血清中该蛋白的含量(

g/dl),结果见下表。问患者和正常人的蛋白含量是否有差异?分组n

S正常组12271.89±10.38狼疮组15235.21±14.39三、成组设计计量资料的t检验第十章数值变量资料的统计分析

三、成组设计计量资料的t检验

H0

1=

2,正常人与狼疮患者的转铁蛋白含量相等;H1

1≠

2,正常人与狼疮患者的转铁蛋白含量不等;双侧

=0.05。

检验统计量t=7.402,查表得P<0.001,按

=0.05水准拒绝H0,接受H1,差别有统计学意义,可以认为狼疮患者的该蛋白含量较低。第十章数值变量资料的统计分析四、大样本资料的z检验1.单样本资料的z检验单样本检验的公式可简化如下:

2.两独立样本资料的Z检验在两个样本均数比较时,若两组样本含量都很大(如n均大于50),可用z检验,其计算公式为:第十章数值变量资料的统计分析

五、I型错误和Ⅱ型错误

拒绝H0,有差异不拒绝H0,无差异H0真实I型错误(

)正确推断(1-

)H0不真实正确推断(1-

)II型错误(

)实际情况与H0一致:I型错误(typeIerror)实际情况与H0不一致:Ⅱ型错误(typeⅡerror)第十章数值变量资料的统计分析

五、I型错误和Ⅱ型错误

0H0:

=

0

1u

(界值)H1:

=

1>

0α第十章数值变量资料的统计分析

六、假设检验时应该注意的问题

(一)要有严密的研究设计(二)选用检验方法必须符合使用条件(三)正确理解

水准和P值的意义(四)单侧检验和双侧检验(五)结论不能绝对化第十章数值变量资料的统计分析

六、假设检验时应该注意的问题

应用t检验的前提条件:①独立性(independence)②正态性(normality)③方差齐性(homogeneity)思考:如何判断方差齐性?第十章数值变量资料的统计分析第六节方差分析

第十章数值变量资料的统计分析一、完全随机化设计资料的方差分析例10-13

某妇幼保健院用甲、乙和丙三种方案治疗血红蛋白含量不满10g的婴幼儿贫血患者,甲方案为每公斤体重每天口服2.1%硫酸亚铁1ml,乙方案为每公斤体重每天口服2.5%硫酸亚铁0.6ml,丙方案为每公斤体重每天口服2g鸡肝粉,治疗一月后,记录下每名受试者血红蛋白的上升克数,资料见表10-4,问三种治疗方案对婴幼儿贫血的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论