医学统计学课件_第1页
医学统计学课件_第2页
医学统计学课件_第3页
医学统计学课件_第4页
医学统计学课件_第5页
已阅读5页,还剩794页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

绪论

Introduction

讲授内容:一、医学统计学的意义二、统计学中的几个基本概念三、统计资料的类型四、医学统计工作的基本步骤五、学习医学统计学应注意的问题一、医学统计学的意义

1.统计学(statistics):应用数学的原理与方法,研究数据的搜集、整理与分析的科学,对不确定性数据作出科学的推断。2.医学统计学(statisticsofmedicine):统计学的原理与方法应用于医学科研与实践。一、医学统计学的意义

3.统计学方法的特点:(1)用数量反映质量1)体格检查(量血压、脉搏…)→个体健康质量2)考试分数→个体学习质量

3)期望寿命——反映人群健康状况的指标4)婴儿死亡率——反映卫生服务质量的指标………….一、医学统计学的意义

(2)用群体归纳个体请同学们回答:2002年长沙市7岁男孩有多高?1)7岁男孩身高有高有矮2)n=100,平均身高=119.5cm95%的长沙市7岁男孩的身高在110.20cm~129.20cm之间二、统计学中的几个基本概念1、研究单位(观察单位、unit)和变量(variable)、变量值(valueofvariable)

(1)、研究单位(unit):研究中的个体(individual),是根据研究目的确定的。

二、统计学中的几个基本概念例如:研究7岁男孩身高的正常值范围一个人研究大学生视力一只眼睛研究水污染情况一毫升水研究细胞变性一个细胞研究肝癌的地区分布一个地区二、统计学中的几个基本概念(2)变量(variable):研究单位的研究特征。例如:研究7岁男孩身高的正常值范围变量:身高(3)变量值(valueofvariable)二、统计学中的几个基本概念变量值(valueofvariable):变量的观察结果。例如:研究7岁男孩身高变量值:测得的身高值(120.2cm,118.6cm,121.8cm,…)研究某人群性别构成变量值:男、女。二、统计学中的几个基本概念2、同质(homogeneity)和变异(variation)(1)、同质(homogeneity):根据研究目的给研究单位确定的相同性质。研究长沙市2004年7岁男孩身高的正常值范围?同质:同长沙市、同7岁、同男孩、同无影响身高的疾病。二、统计学中的几个基本概念(2)、变异(variation)变异(variation):同质研究单位中变量值间的差异。例如:1)长沙市2004年7岁男孩身高有高有矮2)相同的药方治疗相同的疾病的病人,疗效有好有坏二、统计学中的几个基本概念3、总体(population)和样本(sample)(1)、总体(population):是根据研究目的确定的同质研究单位的全体。更确切地说是同质研究单位某种变量值的集合。例如:调查某地2002年正常成年男子的红细胞数的正常值范围二、统计学中的几个基本概念研究单位:一个人变量:红细胞数同质:同某地、同2002年、同成年男子、同正常。总体:1)某地所有的正常成年男子2)某地所有的正常成年男子的红细胞数二、统计学中的几个基本概念1)有限总体(finitepopulation):研究单位数是有限的例如:调查某地2002年正常成年男子的红细胞数的正常值范围2)无限总体(infinitepopulation):研究单位数是无限的例如:高血压患者←无时间、空间限制。二、统计学中的几个基本概念(2)样本(sample):是总体中抽取的有代表性的一部分。注意:随机抽样(无主观性)样本含量(sample

size):样本中包含的研究单位数。例如:某药治疗高血压患者30名样本含量(n)为30二、统计学中的几个基本概念4、参数(parameter)和统计量(statistic)(1)参数(parameter):根据总体个体值统计计算出来的描述总体的特征量。一般用希腊字母表示(2)、统计量(statistic):根据样本个体值统计计算出来的描述样本的特征量。一般用拉丁字母表示二、统计学中的几个基本概念总体参数一般是不知道的统计学抽样研究的目的就是:样本统计量→总体参数二、统计学中的几个基本概念5、系统误差(systematicerror)、非系统误差(nonsystematicerror)、抽样误差(samplingerror)误差(error)是指实际观察值与观察真值之差、样本指标与总体指标之差。二、统计学中的几个基本概念(1)、系统误差(systematicerror):由于仪器未校正、测量者感官的某种障碍、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值两侧,而是有方向性、系统性或周期性地偏离真值。例如:测量血糖,有斑氏法和葡萄糖氧化法,斑氏法的测量结果偏高←易受体内还原性物质的影响。二、统计学中的几个基本概念这类误差可以通过实验设计和技术措施来消除或使之减少。

观察性研究由于组间不可比性产生的系统误差称为偏倚(bias),如吸烟组的平均年龄大于吸烟组,两组死亡率的差异包含年龄偏倚。二、统计学中的几个基本概念(2)、非系统误差(nonsystematicerror)由于研究者偶然失误而造成的误差。例如:仪器失灵、抄错数据、点错小数点、写错单位等,亦称过失误差(grosserror)这类误差应当通过认真检查核对予以清除,否则将会影响研究结果的准确性。二、统计学中的几个基本概念(3)、抽样误差(samplingerror):由于抽样所造成的样本统计量与总体参数的差别。例如:=120.0cmn=100N=5万→=118.6cm特点:1)不可避免性2)有统计规律性二、统计学中的几个基本概念产生原因:个体差异(生物变异)二、统计学中的几个基本概念6、频率(relativefrequency)、概率(probability)、小概率事件.(1)、频率(relativefreguency):

一次随机试验有几种可能结果,在重复进行试验时,个别结果看来是偶然发生的,但当重复试验次数相当多时,将显现某种规律性。例如,投掷一枚硬币,结果不外乎出现“正面”与“反面”两种,现在,我们看一掷币模拟试验:二、统计学中的几个基本概念实验者投掷次数出现“正面”次数频率HuPingcheng111.0000HuPingcheng200.0000HuPingcheng320.6667HuPingcheng430.7500HuPingcheng530.6000HuPingcheng620.4000HuPingcheng740.5714Buffon404020480.5069K.Pearson1200060190.5016K.Pearson24000120120.5005二、统计学中的几个基本概念可见,在相同条件下重复试验,试验结果为“正面”或“反面”虽不能事先断定,但我们知道试验的所有可能结果只有两种。

在重复多次后,出现“正面”或“反面”这个结果的比例称之为频率。二、统计学中的几个基本概念.(2)、概率(probability)概率是度量随机事件发生可能性大小的一个数值。

设在相同条件下,独立地重复n次试验,随机事件A出现

次,则称为随机事件A出现的频率。当n逐渐增大时,频率

趋向于一个常数,则称该常数为随机事件A的概率,可记为P(A),简记为。0≤P(A)≤1二、统计学中的几个基本概念0<P(A)<1随机事件

P(A)=1必然事件

P(A)=0不可能事件。二、统计学中的几个基本概念频率是就样本而言的,而概率从总体的意义上说的,m/n是概率p(A)的估计值。试验次数越多,估计越可靠。二、统计学中的几个基本概念(3)小概率事件:统计分析中的很多结论都基于一定置信程度下的概率推断,习惯上将称为小概率事件,我们认为小概率事件在一次试验中不可能发生。二、统计学中的几个基本概念湖南风采:中奖概率大约为:1/671万交通事故:发生概率为:1/20万三、统计资料的类型变量与统计资料的分类方法1.概述2.数值变量(numericalvariable)和计量资料(measurementdata)3.无序分类变量(unorderedcategoriesvariable)和计数资料(enumerationdata)4.有序分类变量(ordinalcategoriesvariable)和等级资料(rankeddata)三、统计资料的类型1.概述

数值变量………………..构成计量资料分类变量无序分类变量……………...构成计数资料

有序分类变量……………...构成等级资料三、统计资料的类型2.数值变量与计量资料1).数值变量(numericalvariable):变量值是定量的,表现为数值大小,一般有度量衡单位。如:身高(cm)、体重(kg)、血压(pa)、

坐高/身高。2).计量资料(measurementdata):由一群个体的数值变量值构成的资料,即一群变量值。如:长沙市99年7岁男孩身高值(120.2cm,118.6cm,121.8cm…)三、统计资料的类型3.无序分类变量与计数资料1).无序分类变量(unorderedcategoriesvariable):变量值是定性的,有类别。特点:类别是客观存在的,各类无秩序,可任意排列;类与类之间界限清楚,(理论上)不会错判。如:性别:男、女。血型:O、A、B、AB。2).计数资料(enumerationdata):一群个体按无序分类变量的类别清点每类有多少个个体,即分类个体数。如:卫生统计学教研室教师性别构成:男:6,女:7。某人群血型构成:O:20A:35B:30AB:10三、统计资料的类型4.有序分类变量与等级资料1).有序分类变量(ordinalcategoriesvariable):变量值是定性的、分等级。特点:等级是主观划分的,各级没有大小但有秩序,必须从低到高或由高到低;级和级之间界限模糊,可能错判。如:疗效:无效、好转、显效、治愈。血清反应:–、+、+、++ 2).等级资料(rankeddata):一群个体按有序分类变量的级别清点每级有多少个个体,即分级个体数。如:某地某人群EB病毒抗体反应:–:65

+:2+:3++:1四、医学统计工作的基本步骤1、设计(design)专业设计

统计设计调查设计医学科研设计实验设计临床实验设计

医学科研设计的程序

科研选题:选题又叫立题,确定所要研究的问题。选题是科研的起点,也是关系到成败的关键。(1)题意产生:(综述)背景材料来源:个人经验的积累;向有关专家请教;

文献检索等.专业设计文献检索的要点

(1)有助于认识本课题的重要性(2)了解有关的既往研究工作情况(3)了解有关研究现状(4)寻找可借鉴的研究方法(5)注意有关的不同见解与争论。如:与****商榷类文章专业设计文献检索的几种查法(1)先查国内文献,再查国外文献(2)先查综述性文章,后原始文章。(3)先近期后远期(4)先核心期刊后一般期刊。专业设计

综述性文章:是收集大量文献资料经过分析综合,结合自己的工作和体会整理成的文章。它是对某一课题或新进展作出的总结,并指明发展方向,有较大的参考价值,是专题性文献资料最集中的表现形式。

专业设计科研选题的原则(1)创新性:包括探索和创新两个连续的过程,创新就是选择前人没有解决或没有完全解决的问题。是本学科的空白点,或者将会在理论上或应用上有新的发展和补充。(2)科学性:以科学理论为指导,符合客观规律。(3)先进性:先进性是相对的,有国际先进和国内先进。更重要的是结合实际条件选择适合的先进技术。(4)可行性:研究课题的主要技术指标实现的可能性。它包括人、财、物的支持和工作基础。专业设计选题方法(1)从招标范围中选题。(2)从碰到的问题中选题(3)从文献的空白点选题(4)从已有的课题延伸中选题(5)从改变研究内容组合中选题(6)从其他学科移植中选题。专业设计四、医学统计工作的基本步骤统计设计的内容要包括资料的收集、整理和分析全过和的设想和安排。例如:研究目的和假说?研究对象和研究单位?研究因素(变量)?收集哪些原始资料?用什么方式和方法取得这些原始资料?怎样整理汇总和计算统计指标?如何控制误差?预期会得到什么结果?需要多少经费?统统计设计四、医学统计工作的基本步骤在研究者对统计设计的构思过程中,有以下几个问题最为关键:

如何进行抽样?如何安排设计所规定的干预措施或称处理(treatment)。要达到研究目的应抽取多少个观察单位?如何在诸多的影响因素中,分离出研究同素对结果的效应?统计设计四、医学统计工作的基本步骤(1)、对照的原则

对照(control)原则,即在均衡条件下实现实验组与对照组间科学对比的原则,它回答如何从诸多影响因素中,分离出研究因素对实验结果的效应问题。所谓均衡性,即可比性,是指在对比组中,除研究因素不同外,或施加的处理不同外,其他影响实验结果的非研究因素,包括实验过程中的实验条件和辅助措施,都应相同。统计设计无对照的研究夸大了门腔分流手术的作用表1-2

关于门腔分流手术的51次研究结果对照方式 门腔分流手术的价值小计

非常支持 支持 不支持

无对照 24 7 1 32非随机对照10 3 2 15

随机对照0 1 3 4

合计 34 11 6 51统计设计统计学家Student

1930年2月至6月主持的牛奶营养试验的现场观察研究:对照组(1万儿童)饮奶组(1万儿童)对照组饮奶组年龄(岁)体重(磅)结论:对照组体重>饮奶组统计设计四、医学统计工作的基本步骤(2)、重复(repetition)的原则

重复(repetition

)原则,即确定样本含量的原则,它回答至少应抽取多少个观察单位的问题。

统计设计四、医学统计工作的基本步骤(3)、随机化(randomization)的原则1)、

随机抽样(randomizedsampling):指总体中的每一个观察单位都有同等机会进入样本;2)、随机分配(randomizedallocation):指本次研究所选定的实验受试对象都有同等机会进入根据研究目的而设定的处理组和对照组。统计设计四、医学统计工作的基本步骤2、收集资料(collectionofdata)(1)资料来源第一手资料1)

经常性:统计报表(传染病报表、职业病报表、医院工作报表、死亡登记、疫情报告等),工作记录(卫生监督记录、健康检查记录、病历等);2)一时性:专题调查、实验或临床试验。第二手资料:已公布的资料,如数据银行、全国、全省卫生统计资料。

四、医学统计工作的基本步骤(2)、资料要求

1).完整:观察单位及观察项目完整。

2)准确:即真实、可靠。真实是统计学的灵魂。

3).及时:即时限性。如人口普查规定调查开始日期和截止日期。四、医学统计工作的基本步骤3、整理(sortingdata)资料

整理资料即原始数据的条理化、系统化的过程。DataCollectionDataAnalysisDataScreening

Timeconsuming,eventediousFundamentaltoanhonestanalysisofthedataTheissuesshouldbeconcernedindatascreeningTheaccuracyofthedataMissingdataOutliersThefitbetweenyourdataandtheassumptionsPerfectornear-perfectcorrelationsamongvariables四、医学统计工作的基本步骤4、分析(analysisofdata)资料任务:计算有关指标,反映数据的综合特征、阐明事物的内在联系和规律。工具:1)foxbase数据库2)spssforwindows11.03)SAS四、医学统计工作的基本步骤统计描述统计分析统计推断参数估计

假设检验五、学习医学统计学应注意的问题1、医学统计学研究的是群体的数量特征↑适当的统计指标2、学会统计学的思维方法抽样研究→抽样误差→结论具有概率性

↑医学专业知识解释

五、学习医学统计学应注意的问题3、正确选用统计学方法(1)资料类型不同→统计学方法不同(2)设计类型不同→统计学方法不同(3)研究目的不同→统计学方法不同………..ContentFrequencydistributionDescriptionofcentraltendencyMeasuresofdispersionNormaldistributionRangeofreferencevalue第一节频数分布

一、频数分布表(frequencytable):例2-1从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆固醇()的测量结果如下,试编制频数分布表。

编制步骤如下:1.求极差

:

极差(range)也称全距,即最大值和最小值之差,记作R。本例:。

2.确定组距(i):组段数通常取组

10-15组本例组距

3.写组段:组下限(L):每个组段的起点组上限(U):每个组段的终点

2.30~

2.60~

2.90~

3.20~

…5.60~5.902.30~2.60~

4.分组段划记并统计频数

2.30~2.60~

频数表:由各组段及其频数所构成的统计表。二、频数分布图三、频数表和频数分布图用途

1.描述频数分布的类型

(1)对称分布:若各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料是对称分布

(2)偏态分布:1)右偏态分布(skewedtotherightdistribution)也称正偏态分布(positiveskewnessdistribution):右侧的组段数多于左侧的组段数,频数向右侧拖尾

2)左偏态分布(skewedtotheleftdistribution)也称负偏态分布(negativeskewnessdistribution):左侧的组段数多于右侧的组段数,频数向左侧拖尾

2.描述频数分布的特征

①变异的范围在2.30~5.90②有明显的统计分布规律,数据主要集中在3.50~4.70之间,尤以组段的人数3.80~4.10最多,且上下组段数的频数分布基本对称。

3.便于发现一些特大或特小的可疑值

4.便于进一步做统计分析和处理第二节

集中趋势的描述

统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平。常用的平均数有:

算术均数几何均数中位数

一、算术均数算术均数:简称均数(mean)

可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。1、计算方法(1)直接计算法

公式:例2-2用直接法计算例2-1某单位101名正常成年女子的血清总胆固醇的均数。

(2)加权法:公式:计算4,4,4,6,6,8,8,8,10的均数?

例2-3利用表2-1计算101名正常成年女子的血总胆固醇的均数。

式中k表示频数表的组段数,及分别表示各组段的频数和组中值,如表2-1第1个组段的组中值为,余类推(见表2-1的第(3)栏)。在这里,频数起到了“权”(weight)的作用,即某个组段频数多,权数就大,其组中值对均数的影响也大;反之,影响则小

2、应用

适用于对称分布,特别是正态分布资料。二、

几何均数

几何均数(geometricmean):可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。1、计算方法(1)、直接计算法

公式:或例2-4某地5例微丝蚴血症患者治疗七年后用间接荧光抗体试验测得其抗体滴度倒数分别为,10,20,40,40,160,求几何均数。(2)加权法公式:例2-569例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布见表2-4第(1)、(2)栏,求其平均抗体滴度。

故例类风湿关节炎患者血清EBV-VCA-lgG抗体的平均滴度为:1:150.6。

2、应用:

适用于成等比级数的资料,特别是对数正态分布资料。三、

中位数与百分位数(一)中位数中位数(median):是将变量值从小到大排列,位置居于中间的那个变量值。例:1,3,7,5,>100

中位数为多少?计算公式:n为奇数时

n为偶数时

例2-67名病人患某病的潜伏期分别为2,3,4,5,6,9,16天,求其中位数。本例n=7,为奇数

例2-78名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。本例n=8,为偶数

应用

适用于:1、各种分布类型的资料

2、特别是偏态分布资料和开囗资料(一端或两端无确切数值的资料)。

(二)百分位数

百分位数(percentile)是一种位置指标,用来表示。一个百分位数将全部变量值分为两部分,在不包含的全部变量值中有的变量值比它小,变量值比它大。

1.直接计算法

设有x个原始数据从小到大排列,第x百分位数的计算公式为:当为带有小数位时:

当为整数时:例2-9对某医院细菌性痢疾治愈者的住院天数统计,名患者的住院天数从小到大的排列如下,试求第5百分位数和第99百分位数。

者:

住院天数:

n=120,120X5%=6,为整数:

例2-9对某医院细菌性痢疾治愈者的住院天数统计,名患者的住院天数从小到大的排列如下,试求第5百分位数和第99百分位数。

者:住院天数:,带有小数,取整后trunc(118.8)=1182.频数表法

公式:式中XL、Xi和Xf分别为第X百分位数所在组段的下限、组距和频数,LfS为小于XL各组段的累计频数,n

为总例数。

例2-10某地118名链球菌咽喉炎患者的潜伏期频数表见表2-5第(1)、(2)栏,试分别求中位数及第25、第75百分位数。

第三节

离散趋势的描述

例2-11三组同龄男孩的身高值(cm)

常用统计指标:

极差、四分位数间距、方差、标准差和变异系数。

一、

极差极差,用R表示:即一组变量值最大值与最小值之差。

二、四分位数间距

四分位数间距,用QR表示:QR=下四分位数:上四分位数:

例2-12续例2-10。已知P25=39.2,P75=67.7,计算118名链球菌咽喉炎患者潜伏期的四分位数间距。

(天)请回答:四分位数间距可以看成大小在中间的一半变量值的全距(R)。

四分位数间距可以看成一半变量值的极差。三、方差与标准差

1、方差(variance)也称均方差(meansquaredeviation),反映一组数据的平均离散水平。

样本方差用表示

2、公式:样本标准差用表示公式:

标准差的公式还可以写成:利用频数表计算标准差的公式为例2-12续例2-10,计算三组资料的标准差。

甲组:

四、

变异系数

变异系数(coefficientofvariation)记为CV,多用于观察指标单位不同时,如身高与体重的变异程度的比较;或均数相差较大时,如儿童身高与成人身高变异程度的比较。

某地7岁男孩身高的均数为123.10cm,标准差为4.71;体重均数为22.59kg,标准差为2.26kg,

比较其变异度?

(观察指标单位不同)均数相差较大时:第四节

正态分布

正态分布:又称为Gauss分布(Gaussiandistribution)。

设想当原始数据的频数分布图的观察人数逐渐增加且组段不断分细时,图2-4中的直条就不断变窄,其顶端则逐渐接近于一条光滑的曲线。这条曲线形态呈钟形,两头低、中间高,左右对称,近似于数学上的正态分布。在处理资料时,我们就把它看成是正态分布。一、正态分布的概念和特征

1.正态分布曲线的数学函数表达式

如果随机变量的分布服从概率密度函数2.正态分布的特征

(4)正态曲线下的面积分布有一定的规律。对公式(2-17)积分

:正态分布是一个分布族,对应于不同的参数m和s会产生不同位置、不同形状的正态分布。

正态分布除了可估计频数分布外,还是许多统计方法的基础,并可应用于质量控制及制定医学参考值范围。第五节

医学参考值范围的制定

一、基本概念

医学参考值(referencevalue)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(medicalreferencerange)作为判定正常和异常的参考标准。

医学参考值范围涉及到采用单侧界值还是双侧界值的问题,这通常依据医学专业知识而定。

双侧

:血清总胆固醇无论过低或过高均属异常白细胞数无论过低或过高均属异常单侧:1、血清转氨酶仅过高异常2、肺活量仅过低异常

医学参考值范围有、、等,最常用的为。计算医学参考值范围的常用方法:1、正态分布法

2、百分位数法二、方法1、正态分布法:许多生物医学数据服从或近似服从正态分布,如同年龄同性别儿童的身高值、体重值,同性别健康成人的红细胞数等;有些医学资料虽然呈偏态分布,但若能通过适当的变量变换转换为正态分布,也可采用正态分布法制定参考值范围。

适用:正态分布资料

公式:2、百分位数法适用:各种分布资料特别是偏态分布资料

公式:

例2-17测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的参考值范围。

142Content1.Samplingerrorandstandarderrorofmean2.t-distribution3.EstimationofPopulationMean4.t-test5.Noticeofhypothesistest

6.Normalitytestandhomogeneityofvariancetest143第一节均数的抽样误差与标准误144统计推断:由样本信息推断总体特征。样本统计指标(统计量)总体统计指标(参数)正态(分布)总体:推断!说明!为说明抽样误差规律,先用一个实例,后引出理论。145图3-11999年某市18岁男生身高N(167.7,5.32)的抽样示意图

146见P34~36表3-1147

将此100个样本均数看成新变量值,则这100个样本均数构成一新分布,绘制直方图。图3-2从正态分布总体N(167.7,5.32)随机抽样所得样本均数分布148①

,各样本均数未必等于总体均数;②各样本均数间存在差异;③样本均数的分布为中间多,两边少,左右基本对称。

④样本均数的变异范围较之原变量的变异范围大大缩小。可算得这100个样本均数的均数为167.69cm、标准差为1.69cm。

样本均数的抽样分布具有如下特点:1491、抽样误差:

由个体变异产生的、抽样造成的样本统计量与总体参数的差别

均数的抽样误差:由于抽样造成的样本均数与总体均数的差别原因:1)抽样

2)个体差异150本书以n=60为界限151表示样本统计量抽样误差大小的统计指标。均数标准误:说明均数抽样误差的大小,总体计算公式(3-1)2、标准误(standarderror,SE)实质:样本均数的标准差152数理统计证明:

153若用样本标准差S来估计,

(3-2)降低抽样误差的途径有:①通过增加样本含量n;②通过设计减少S。154第二节t分布(t-distribution)155t分布概述

抽样误差的分布规律

↓样本→总体

t分布理论

↑手段(桥梁)目的156

一、t分布的概念

157158

式中为自由度(degreeoffreedom,df)

3.实际工作中,由于未知,用代替,则不再服从标准正态分布,而服从t分布。

159二、t分布的图形与特征

分布只有一个参数,即自由度160

图3-3不同自由度下的t分布图1611.特征:

1622t界值表:详见附表2,可反映t分布曲线下的面积。单侧概率或单尾概率:用表示;双侧概率或双尾概率:用表示。

163-tt0164举例:

165第三节总体均数的估计166一、参数估计用样本统计量推断总体参数。总体均数估计:用样本均数(和标准差)推断总体均数。167168

按预先给定的概率(1

)所确定的包含未知总体参数的一个范围。总体均数的区间估计:按预先给定的概率(1

)所确定的包含未知总体均数的一个范围。

如给定

=0.05,该范围称为参数的95%可信区间或置信区间;如给定

=0.01,该范围称为参数的99%可信区间或置信区间。2.区间估计(intervalestimation):169二、总体均数可信区间的计算170

总体均数可信区间的计算需考虑:(1)总体标准差

是否已知,(2)样本含量n的大小通常有两类方法:(1)t分布法

(2)u分布法171

1.单一总体均数的可信区间

172173P25,15号样本174175176

例3-3某地抽取正常成年人200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,估计该地正常成年人血清胆固醇均数的95%可信区间。

177

故该地正常成年人血清胆固醇均数的双侧95%可信区间为(3.47,3.81)mmol

L。178

179180181

例3-4为了解氨甲喋呤(MTX)对外周血IL-2水平的影响,某医生将61名哮喘患者随机分为两组。其中对照组29例(),采用安慰剂;实验组32例(),采用小剂量氨甲喋呤(MTX)进行治疗。测得对照组治疗前IL-2的均数为20.10IU/ml(),标准差为7.02IU/ml();试验组治疗前IL-2的均数为16.89IU/ml(),标准差为8.46IU/ml()。问两组治疗前基线的IL-2总体均数相差有多大?

182第一步:

183能否下:两组IL-2的总体均数“不同”或“有差别”的结论?184三、可信区间的确切涵义185

1.95%的可信区间的理解:(1)所要估计的总体参数有95%的可能在我们所估计的可信区间内。(2)从正态总体中随机抽取100个样本,可算得100个样本均数和标准差,也可算得100个均数的可信区间,平均约有95个可信区间包含了总体均数。(3)但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数

。186

2.可信区间的两个要素(1)准确度:用可信度(1

)表示:即区间包含总体均数

的理论概率大小。当然它愈接近1愈好,如99%的可信区间比95%的可信区间要好。(2)精确度:即区间的宽度区间愈窄愈好,如95%的可信区间比99%的可信区间要好。187

当n确定时,上述两者互相矛盾。提高准确度(可信度),则精确度降低(可信区间会变宽),势必降低可信区间的实际应用价值,故不能笼统认为99%可信区间比95%可信区间要好。相反,在实际应用中,95%可信区间更为常用。188

在可信度确定的情况下,增加样本含量可减小区间宽度,提高精确度。189四、总体均数可信区间与参考值范围的区别190*也可用对应于双尾概率时),**也可用对应于双尾概率时)表3-2总体均数的可信区间与参考值范围的区别191第四节

t检验1921、样本均数与已知某总体均数比较的t检验

目的:推断一个未知总体均数与已知总体均数是否有差别,用单样本设计。2、两个样本均数与比较的t检验

目的:推断两个未知总体均数与是否有差别,用成组设计。3、配对设计资料均数比较的t检验

目的:推断两个未知总体均数与是否有差别用配对设计。t检验,亦称studentt检验,有下述情况:193对于大样本,也可以近似用u检验。194t检验和u检验的应用条件:1.t检验应用条件:样本含量n较小时(如n<60)(1)正态分布(2)方差齐性(homogeneityofvariance)2.u

检验应用条件:样本含量n较大,或n虽小但总体标准差已知

(1)正态分布

(2)方差齐性(homogeneityofvariance)195

假设检验过去称显著性检验。它是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得P值来判断。

假设检验基本思想及步骤196例3-5某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L?130.83g/L≠140g/L原因:1.可能是总体均数不同

2.是抽样造成的197198③

H1的内容直接反映了检验单双侧。若H1中只是

0或

<

0,则此检验为单侧检验。它不仅考虑有无差异,而且还考虑差异的方向。④

单双侧检验的确定,首先根据专业知识,其次根据所要解决的问题来确定。若从专业上看一种方法结果不可能低于或高于另一种方法结果,此时应该用单侧检验。一般认为双侧检验较保守和稳妥。199

(3)检验水准

,过去称显著性水准,是预先规定的概率值,它确定了小概率事件的标准。在实际工作中常取

=0.05。可根据不同研究目的给予不同设置。200

根据变量和资料类型、设计方案、统计推断的目的、是否满足特定条件等(如数据的分布类型)选择相应的检验统计量。

2.计算检验统计量201

P的含义是指从H0规定的总体随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u等)值的概率。例3-5的P值可用图3-5说明,P为在

=

0=140g/L的前提条件下随机抽样,其t小于及等于-2.138和大于及等于2.138的概率。

3.确定P值202图3-5例3-5中P值示意图203204

若,是否也能下“无差别”或“相等”的结论?

205一、单样本t

检验

(onesample/groupt-test)

即样本均数(代表未知总体均数

)与已知总体均数

0(一般为理论值、标准值或经过大量观察所得稳定值等)的比较。其检验统计量按下式计算206

例3-5某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L?

(1)建立检验假设,确定检验水准H0:

=

0=140g/L,即铅作业男性工人平均血红蛋白含量与正常成年男性平均值相等H1:

0=140g/L,即铅作业男性工人平均血红蛋白含量与正常成年男性平均值不等

=0.05207(2)计算检验统计量

208(3)确定P值,作出推断结论

209配对t检验适用于配对设计的计量资料。配对设计类型:①两同质受试对象分别接受两种不同的处理;②同一受试对象分别接受两种不同处理;③同一受试对象(一种)处理前后。

二、配对t检验(paired/matchedt-test)210

例3-6为比较两种方法对乳酸饮料中脂肪含量测定结果是否不同,某人随机抽取了10份乳酸饮料制品,分别用脂肪酸水解法和哥特里-罗紫法测定其结果如表3-3第(1)~(3)栏。问两法测定结果是否不同?211表3-3两种方法对乳酸饮料中脂肪含量的测定结果(%)

212

(1)建立检验假设,确定检验水准H0:

d=0,即两种方法的测定结果相同H1:

d≠0,即两种方法的测定结果不同

=0.05

(2)计算检验统计量本例n=10,d=2.724,d2=0.8483,

213按公式(3-16)

(3)确定P值,作出推断结论查附表2的t界值表得P<0.001。按

=0.05水准,拒绝H0,接受H1,有统计学意义。可认为两种方法对脂肪含量的测定结果不同,哥特里-罗紫法测定结果较高。214

三、两样本t检验

(two-sample/groupt-test)

又称成组t检验,适用于完全随机设计两样本均数的比较,此时人们关心的是两样本均数所代表的两总体均数是否不等。两组完全随机设计是将受试对象完全随机分配到两个不同处理组。215

适用范围:完全随机设计两样本均数的比较检验方法:依两总体方差是否齐性而定。216217

例3-7

为研究国产四类新药阿卡波糖胶囊的降血糖效果,某医院用40名II型糖尿病病人进行同期随机对照试验。试验者将这些病人随机等分到试验组(用阿卡波糖胶囊)和对照组(用拜唐苹胶囊),分别测得试验开始前和8周后的空腹血糖,算得空腹血糖下降值见表3-4,能否认为该国产四类新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果不同?218219

(2)计算检验统计量

220(3)确定P值,作出推断结论

221

若变量变换后总体方差齐性

可采用t检验(如两样本几何均数的t检验,就是将原始数据取对数后进行t检验);

若变量变换后总体方差仍然不齐

可采用t

检验或Wilcoxon秩和检验。若两总体方差不等(),?222

2.Cochran&Cox近似t检验(t‘

检验)

——调整t界值223224

例3-8

在上述例3-7国产四类新药阿卡波糖胶囊的降血糖效果研究中,测得用拜唐苹胶囊的对照组20例病人和用阿卡波糖胶囊的试验组20例病人,其8周时糖化血红蛋白HbA1c(%)下降值如表3-5。问用两种不同药物的病人其HbA1c下降值是否不同?225表3-5对照组和试验组HbA1c下降值(%)

对照组方差是试验组方差的3.77倍,经方差齐性检验,认为两组的总体方差不等,故采用近似t检验。226

(1)建立检验假设,确定检验水准(略)(2)计算检验统计量

227(3)确定P值,作出推断结论。查t界值表t0.05/2,19=2.093。

由t

=0.965<t

0.05/2=2.093得P>0.05。按

=0.05水准,不拒绝H0,无统计学意义。还不能认为用两种不同药物的病人其HbA1c下降值不同。228

3.Satterthwaite近似t检验

:

Cochran&Cox法是对临界值校正而Satterthwaite法则是对自由度校正。

229

=28.4

28、t=0.965查附表2的t界值表得0.20<P<0.40。结论同前。按Satterthwaite法对例3-8做检验,得230

3.Welch法近似t检验Welch法也是对自由度进行校正。校正公式为231对例3-8,如按Welch法,则

=29.4

29、t=0.965查附表2的t界值表得0.20<P<0.40。结论同前。232

第五节假设检验注意事项233一、I型错误和II型错误

假设检验是利用小概率反证法思想,根据P值判断结果,此推断结论具有概率性,因而无论拒绝还是不拒绝H0,都可能犯错误。见表3-8。234表3-8可能发生的两类错误235

I型错误:“实际无差别,但下了有差别的结论”,假阳性错误。犯这种错误的概率是

(其值等于检验水准)

II型错误:“实际有差别,但下了不拒绝H0的结论”,假阴性错误。犯这种错误的概率是

(其值未知)

但n

一定时,

增大,

则减少。1-

:检验效能(power):当两总体确有差别,按检验水准

所能发现这种差别的能力。236图3-6I型错误与II型错误示意图(以单侧u检验为例)

237减少I型错误的主要方法:假设检验时设定

值。减少II型错误的主要方法:提高检验效能。提高检验效能的最有效方法:增加样本量。如何选择合适的样本量:实验设计。238二、假设检验应注意的问题1.要有严密的研究设计这是假设检验的前提。组间应均衡,具有可比性,也就是除对比的主要因素(如临床试验用新药和对照药)外,其它可能影响结果的因素(如年龄、性别、病程、病情轻重等)在对比组间应相同或相近。保证均衡性的方法主要是从同质总体中随机抽取样本,或随机分配样本。2392.不同的资料应选用不同检验方法

应根据分析目的、资料类型以及分布、设计方案的种类、样本含量大小等选用适当的检验方法。如:配对设计的计量资料采用配对t检验。而完全随机设计的两样本计量资料,若为小样本(即任一ni60)且方差齐,则选用两样本t检验;若方差不齐,则选用近似t

检验(Cochran&Cox法或Satterthwaite法)。若为大样本(所有ni>60),则可选用大样本u检验。2403.正确理解“显著性”一词的含义

差别有或无统计学意义,过去称差别有或无“显著性”,是对样本统计量与总体参数或样本统计量之间的比较而言,相应推断为:可以认为或还不能认为两个或多个总体参数有差别。2414.结论不能绝对化因统计结论具有概率性质,故“肯定”、“一定”、“必定”等词不要使用。在报告结论时,最好列出检验统计量的值,尽量写出具体的P值或P值的确切范围,如写成P=0.040或0.02<P<0.05,而不简单写成P<0.05,以便读者与同类研究进行比较或进行循证医学时采用Meta分析。2425.假设检验是为专业服务的,统计结论必须和专业结论有机地相结合,才能得出恰如其分、符合客观实际的最终结论。若统计结论和专业结论一致,则最终结论就和这两者均一致(即均有或均无意义);若统计结论和专业结论不一致,则最终结论需根据实际情况加以考虑。若统计结论有意义,而专业结论无意义,则可能由于样本含量过大或设计存在问题,那么最终结论就没有意义。243

6.可信区间与假设检验各自不同的作用,要结合使用。

一方面,可信区间亦可回答假设检验的问题,算得的可信区间若包含了H0,则按

水准,不拒绝H0;若不包含H0,则按

水准,拒绝H0,接受H1。

244

另一方面,可信区间不但能回答差别有无统计学意义,而且还能比假设检验提供更多的信息,即提示差别有无实际的专业意义。

245图3-7可信区间在统计推断上提供的信息

246

虽然可信区间亦可回答假设检验的问题,并能提供更多的信息,但并不意味着可信区间能够完全代替假设检验。可信区间只能在预先规定的概率

检验水准

的前提下进行计算,而假设检验能够获得一较为确切的概率P值。

247第六节正态性检验和两样本方差比较的F检验248

t检验的应用条件是正态总体且方差齐性;配对t检验则要求每对数据差值的总体为正态总体。进行两小样本t检验时,一般应对资料进行方差齐性检验,尤其两样本方差悬殊时。若方差齐,采用一般的t检验;若方差不齐,则采用t’检验。249一、正态性检验(normalitytest)

1.图示法:P-Pplot,Q-Qplot2.矩法偏度系数(skewness),峰度系数(kurtosis)。

3.

W检验法

4.

D检验法250图3-8例3-1中100个样本均数的P-P图251图3-9例3-1中100个样本均数的Q-Q图252253254

例3-9试用矩法对表3-1中计算机模拟抽样所得100个样本均数进行正态性检验。255(2)计算检验统计量256二、两样本方差比较的F检验

两小样本t

检验时,检查两样本方差代表的总体方差是否相等(决定t检验的方法)。

1.Levene检验

2.F检验257258259

图3-10不同自由度时F分布的图形260

(2)计算检验统计量

例3-10对例3-7,用F检验判断两总体空腹血糖下降值的方差是否不等。

(1)建立检验假设,确定检验水准261

(3)确定P值,作出推断结论

262三、变量变换

常用的变量变换有对数变换、平方根变换、倒数变换、平方根反正弦变换等,应根据资料性质选择适当的变量变换方法。263264265266小结

1.均数的标准误与标准差的区别2.两均数差别检验的比较:大样本也可近似用u检验

Content1.Basalidealandapplicationconditions2.ANOVAofcompletelyrandomdesigneddata

3.ANOVAofrandomizedblockdesigneddata4.ANOVAoflatinsquaredesigneddata

5.ANOVAofcross-overdesigneddata

6.Multiplecomparisonofsamplemeans7.BartletttestandLevenetest第一节方差分析的基本思想及其应用条件目的:推断多个总体均数是否有差别。

也可用于两个

方法:方差分析,即多个样本均数比较的F检验。基本思想:根据资料设计的类型及研究目的,可将总变异分解为两个或多个部分,每个部分的变异可由某因素的作用来解释。通过比较可能由某因素所至的变异与随机误差,即可了解该因素对测定结果有无影响。应用条件:总体——正态且方差相等

样本——独立、随机设计类型:完全随机设计资料的方差分析随机区组设计资料的方差分析拉丁方设计资料的方差分析两阶段交叉设计资料的方差分析完全随机设计资料的方差分析的基本思想

合计

NS:第i个处理组第j个观察结果记总均数为,各处理组均数为,总例数为N=nl+n2+…+ng,g为处理组数。

1.总变异:全部测量值大小不同,这种变异称为总变异。总变异的大小可以用离均差平方和(sumofsquaresofdeviationsfrommean,SS)表示,即各测量值Xij与总均数差值的平方和,记为SS总。总变异SS总反映了所有测量值之间总的变异程度。计算公式为其中:2.组间变异:各处理组由于接受处理的水平不同,各组的样本均数

(i=1,2,…,g)也大小不等,这种变异称为组间变异。其大小可用各组均数与总均数的离均差平方和表示,记为SS组间。计算公式为3.组内变异:在同一处理组中,虽然每个受试对象接受的处理相同,但测量值仍各不相同,这种变异称为组内变异(误差)。组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论