医学统计学知识点概括_第1页
医学统计学知识点概括_第2页
医学统计学知识点概括_第3页
医学统计学知识点概括_第4页
医学统计学知识点概括_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学统计学(5+3一体化)出版课时一绪论第一节、医学统计学的地位和作用医学统计学的概念:运用统计学的基本原理与方法研究医学领域(临床和基础医学领域)中数据的收集、整理、分析和推断的一门科学第二节、医学统计学基本内容和统计工作基本步骤统计工作的步骤:(一)设计根据研究目的,对某项医学研究工作的全过程(资料收集、整理和分析)所作的总的设想和安排;是统计工作的第一步和最关键的一步。(二)收集资料任务:遵循统计学原理,按照设计要求,采取必要措施得到准确可靠的原始资料。原则:及时、准确、完整。(三)整理资料编码,将数据输入计算机纠错改错、补漏等根据研究目的将原始数据进行归纳、分组或计算(四)分析资料统计描述统计分析参数估计统计推断假设检验第三节、统计学的若干基本概念(一)总体与样本1.总体:是根据研究目的所确定的同质观察对象的全体,或者说所有同质的某指标实测值的集合。2.样本:根据随机化的原则从总体中抽取有代表性的部分观察单位,其变量实测值构成样本。3.参数和统计量*①总体参数——总体、唯一性、稳定性、未知(不可知)②统计量——样本、不唯一、可变性、可知·统计学通常用统计量估计参数(参数估计)4.同质与变异

①同质:一个总体中有许多个体,他们之所以汇集起来共同成为人们研究的对象,必定存在共性,具有同质性。即具有相同的背景、条件、属性等。②变异:然而,同一总体内的各观察单位间存在差异又是绝对的,这种现象称为变异。(二)变量与资料·变量:观测单位的某种特征或属性·观察单位:亦称个体(人、动物、家庭、地区、样品、采样点……)·变量值(资料):变量的观察结果,可以是定量的,也可以是定性的。例:三岁儿童身高、性别·根据变量值的获取方法把变量进行分类:定量变量和定性变量。1.定量变量:数值变量或计量数据。①定义:通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。②特点:有度量衡单位。③举例:调查某地某年七岁女童的身体发育状况。每个人的身高(cm)、体重(kg)、脉搏(次/分)、血压(kPa)、坐高指数(%,坐高/身高)等均属定量变量。④类型:·离散型变量:变量取值可以一一列举的资料。例:家庭人口数,脉搏数·连续型变量:变量取值不能一一列举的资料(变量取值为一定范围内的任意值)。例:人体的身高、体重、总胆固醇2.定性变量(分类资料)①定义:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。②特点:没有度量衡单位,多为间断性变量(通过枚举或记数得来)③类型:二分类变量:阴性和阳性/男和女·无序分类变量:类与类之间无程度大小的差别多分类变量:血型:A、B、O、AB职业:教师、医生、工人·有序分类变量(等级变量):类与类之间有程度大小的差别疗效:治愈、好转、无效;尿蛋白:(-、±、+、++)文化程度:小学及以下、中学、大专、本科及以上(三)误差1.误差:实际观察值与真实值之差2.误差分类:(四)频率和概率1.频率:称f为事件A在这n次试验中出现的频率2.概率:当观察次数n越来越大,频率f的波动幅度越来越小,并最终趋向于一个常数p——随机事件A发生的概率。·概率描述了随机事件发生的可能性的大小,是一种参数;频率作为概率的估计值,是统计量3.小概率事件:概率小于等于0.05的事件(医学)·原理:在某一次试验中,由于其发生的可能性十分小,近似认为是不会发生的课时二定量资料的统计描述第一节、频数分布表和频数分布图1、离散型定量变量的频数表;2、连续型定量变量的频数表:要特别注意:分组除了最后一段外均为左闭右开区间,最后一个分组一定要有上限;3、频数分布图4、频数分布表和频数分布图的作用⑴揭示频数分布的特征:集中趋势、离散趋势(当集中趋势与离散趋势结合起来时能全面反映频数的分布。)⑵揭示频数分布的类型:对称型、不对称型(分为正偏态和负偏态)第二节、集中位置的描述1.算数均数的相关知识⑴计算方法:直接法:加权法:⑵均数的特性:各观察值与均数之差(离均差)的总和等于零; 各观察值的离均差平方和最小。⑶均数的应用:它是集中趋势的最常用指标;易受极端值的影响;用于定量数据,不能用于分类数据和等级数据;适用于服从对称分布定量资料(正态或近似正态)的集中趋势描述。2.几何均数的相关知识⑴计算方法:直接法、加权法(对比算数均数,在其基础上加上对数)⑵几何均数的应用:观察值间呈倍数或近似倍数关系的数据;正偏态分布资料(对数正态分布或近似对数正态分布)中位数的相关知识⑴计算方法:直接法:频数表法:⑵中位数的应用:中位数主要应用于不对称分布型的资料,两端无确切值或分布不明确的资料。第三节、离散程度的描述1.极差的相关知识极差一般用于单峰对称分布小样本资料或者初步了解资料的变异程度;一般极差越大,则数据的变异性越大;但是它没有考虑除极值外其他数据的变异情况;而且样本的极差通常过小地估计了总体的极差;2.四分位数间距的相关知识⑴计算方法:直接法频数表法(常用):Px=Lx+i/fx(n·x%—ΣfL)⑵四分位数间距的应用:四分位数间距常用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。3.方差与标准差(总体的方差与标准差公式见课本P55)⑴计算方法:样本的方差:样本的标准差:4.变异系数的相关知识⑴计算方法:CV=S/X*100%⑵变异系数的应用:消除了数据水平高低和计量单位的影响,用于不同性质数据或均数相差较大时,离散程度的比较;5.各种指标之间的使用方法:课时三正态分布及其应用第一节、正态分布的概念和特征1.概念:在医学卫生领域中,许多变量的频数分布是中间(靠近均数处)频数多,两边频数少,且左右对称,两侧逐渐低下,两端在无穷远处与横轴无限接近。如人体的许多生理、生化指标等。这种变量的频数分布规律可用概率论中的一种重要的随机变量分布—正态分布(Normaldistribution)加以描述。若变量x的频率曲线对应于数学上的正态分布曲线,则称该变量服从正态分布。2.特征①密度函数:②特征:中间(靠近均数处)频数多,两边频数少;且左右对称;二个参数(μ、σ),固定σ,改变μ,曲线左右移动,形态不变,固定μ,σ越小曲线越陡峭,但中心位置不变。3.正态密度函数曲线下的面积规律①正态密度函数曲线与横轴间的面积恒等于1或100%;②正态分布是一种对称分布,其对称轴为直线X=μ,X>μ与X<μ范围内曲线下的面积相等,各占50%;③曲线下在区间(μ-σ,μ+σ)的面积为68.27%,曲线下在区间(μ-1.64σ,μ+1.64σ)的面积为90%,曲线下在区间(μ-1.96σ,μ+1.96σ)的面积为95%,曲线下在区间(μ-2.58σ,μ+2.58σ)的面积为99%。第二节、标准正态分布为了计算方便,对于正态或近似正态分布的资料,只要得出均数和标准差,可通过标准转化,转化成求标准正态曲线下横轴自-∞到z的面积。标准化变化:若x服从正态分布N(μ,σ²),则z就服从均数为0、标准差为1的正态分布,这种正态分布称为标准正态分布或z分布,记为N(0,1²),这一变换也称为标准化变换。

例题1.已知z1=-1.20,z2=1.60,欲求标准正态下(-1.20,1.60)范围的面积。解:查表φ(-1.20)=0.1151;φ(1.60)=1-0.0548=0.9452则D=φ(1.60)-φ(-1.20)=0.8301第三节、正态分布的应用①估计频数分布例题;某项目研究婴儿的出生体重服从正态分布,其均数为3150g,标准差为350g。若以2500g作为低体重儿,试估计低体重儿的比例。解:首先计算标准正态离差z:查标准正态分布表:φ(-1.86)=0.0314结果:估计低体重儿所占比例为96.86%②制定医学参考值范围(又称正常值范围),作为判断正常与异常的参考标准确定参考值范围的注意事项:单、双侧问题:单侧下限:肺活量,IQ,单侧上限:转氨酶,尿铅,双侧:红细胞计数、血清总胆固醇…选择百分界值(90%,95%)根据资料特点,选用恰当计算方法计算医学参考值范围常用的方法:1.正态分布法:适用于正态或近似正态分布资料。双侧界值:单侧上界:;单侧下界:2.对数正态分布法:适用于对数正态分布资料双侧界值:3.百分位数法:常用于偏态分布资料双侧界值:P2.5和P97.5;单侧上界:P95;或单侧下界:P5例4.24某地调查正常成年男子200人的红细胞数,得均数=55.26×1012/L,标准差S=0.38×1012/L,试估计该地正常成年男子红细胞数的95%参考值范围。解:该地正常成年男子红细胞数的95%参考值范围为下限:-1.96S=55.26-1.96×0.38=54.52(×1012/L)上限:+1.96S=55.26+1.96×0.38=56.00(×1012/L)例4.252005年某市进行的小学生体质评价研究中,测定了120名9岁男孩的肺活量,均数=1.672L,S=0.298L,试估计9岁男孩的肺活量的95%参考值范围。解:因肺活量仅过低属异常,故取单侧下限。肺活量的95%参考值范围为:下限:即该地估计该地小学生中9岁男孩的肺活量的95%参考值范围为不低于1.183L。例.测得某年某地282名正常人的尿汞值如下表所示,试制定正常人尿汞的95%参考值范围。解:正常人的尿汞值为偏态分布,且过高为异常,故用百分位数法计算,且取单侧上限。其95%参考值范围为:上限:即该地正常人尿汞的95%参考值范围为不高于43.6μg/L。③质量控制④正态分布是许多统计方法的理论基础课时四总体均数的估计第一节、均数的抽样误差与标准误样本均数的特点·各个样本均数之间都不相同——抽样误差表现形式之一·各个样本均数都不等于总体均数,有的比总体均数大,有的比它小——抽样误差表现形式之二·相对于各样本的个体值,样本均数间的变异程度较小样本均数的分布规律·大多数的样本均数相互之间存在差异,绝大多数的样本均数不等于x的总体均数·样本均数的集中趋势位置与个体资料x的集中趋势位置较为接近,样本均数的频数图均呈现出中间多、两边少且基本对称的正态分布特征。·样本均数的分布范围较个体值小;随着样本含量的增大,样本均数的频数分布范围越来越窄·样本均数的标准差都非常接近(ơ为个体资料x的总体标准差,n为个体数)中心极限定理1.从正态分布N(u,ơ^2)中,以固定n抽取样本,样本均数的分布仍服从正态分布,样本均数的总体均数仍为u,样本均数的标准差为2.即使是从偏态分布总体抽样,只要n足够大,样本均数的分布也近似正态分布;3.随着样本量的增大,样本均数的变异范围也逐渐变窄。样本均数的标准误·为了与个体的标准差相互区别,样本均数的标准差又称为样本均数的标准误(SE),或理论标准误·反映了样本均数间的离散程度,如果SE很大则不同的样本均数间参差不齐,同时样本均数的分布范围较大,也反映了样本均数与总体均数间的差异可能较大,因而标准误反映均数·抽样误差的大小;它与总体标准差成正比,与总体中的个体数的平方根成反比代表样本均数的标准误,其表达式为均数的标准误的影响因素·从标准误的计算公式中看出它与原先个体观察值的总体标准差s有关,同时也和样本含量n有关·在固定样本含量的情况下,总体标准差越大,则样本均数间越参差不齐,抽样误差越大;但是总体标准差是参数,在抽样之前就已经存在,无法改变它的大小·故可行的方法是通过扩大样本含量减少标准误;从而减少抽样误差样本均数标准误的估计值。抽样误差越小,表示样本均数与总体均数越接近,用样本均数估计总体均数的可靠性越高;反之则越低标准误与标准差的区别:(1)概念不同标准差是描述样本个体值间的变异,标准差小,说明变量值围绕均数的波动小,均数的代表性好。标准误是描述样本均数的抽样误差,标准误越小,表示样本均数围绕总体均数的波动越小。用途不同标准差表示变量值对均数的波动大小,当资料呈正态分布时,与均数结合估计正常值范围、计算变异系数、标准误等。标准误表示样本统计量对总体参数的波动情况,用于估计参数的置信区间、进行假设检验。(3)联系1)两者均为变异指标;2)样本含量不变时,均数的标准误与标准差成正比;3)两者均可与均数结合使用(但描述的内容各不相同)。在应用过程中要注意标准差和标准误的区别:第二节、t分布·t分布的由来.t分布曲线的特点①单峰分布,曲线在t=0处最高,并以t=0为中心左右对称②与标准正态分布相比,曲线最高处较矮,两尾部翘得高③其形态变化与自由度的大小有关。自由度越小,则t值越分散,曲线越低平;随自由度增大,曲线逐渐接近正态分布。它与样本例数n或自由度ν有关,某个自由度对应于一条t分布曲线。当n或ν不同时,曲线形状不同。当v→无穷大时,t分布趋近于标准正态分布。自由度:ν=n-1(随机变量能够自由取值的个数)t分布曲线下面积规律t分布曲线下总面积仍为1或100%由于t分布是一簇曲线,故t分布曲线下面积固定面积(如95%或99%)的界值不是一个常量,而是随自由度的大小而变化,如附表3。第三节、总体均数的估计参数的估计点估计:由样本统计量直接估计总体参数(缺点:没有考虑抽样误差。)区间估计:在一定可信度下,同时考虑抽样误差。在点估计的基础上,结合抽样误差的大小,给出总体参数估计的一个区间范围(由上、下限构成的置信区间)该区间按照一定的概率可能性,包含所推断的总体参数置信区间:假设已知的样本均数是从较小的m总体中抽取的,它成立的统计条件是从该总体中抽取一个样本,其均数为当前均数以及更大的可能性并非小概率事件置信区间与置信度:按预先给定的概率(1-a)确定的包含未知总体参数的可能范围,该范围通常称为参数的信区间或可信区间.预先给定的概率(1-a)称为可信度或置信度,常取95%或99%置信区间的确切含义95%置信区间:从总体中作随机抽样,作100次抽样,每个样本可算得一个置信区间,得100个置信区间,平均有95个置信区间包括μ(估计正确),只有5个置信区间不包括μ(估计错误)。总体均数的置信区间估计方法资料不同,总体均数的估计方法也不同,根据资料的条件,计算方法有三种:未知,且n小:按t分布原理计算置信区间。未知,但n足够大时(n>100),t分布逼近z分布。按z分布原理计算置信区间。σ已知,故可按正态分布原理估计总体均数的置信区间,计算公式为:置信区间的注意问题1.置信区间的涵义意思是从总体中作随机抽样,每个样本可以算得一个置信区间。如95%置信区间意味着做100次抽样,算得100个置信区间,平均有95个估计正确,估计错误的只有5次。5%是小概率事件,实际发生的可能性很小,当然这种估计方法会有5%犯错误的风险。2.置信区间的两个要素:一是准确度:反映在可信度的大小,即区间包含总体均数的概率的大小,愈接近1愈好。二是精密度:反映在区间的长度,长度愈小愈好。在样本含量确定的情况下,二者是矛盾的,若只管提高可信度,会把区间变得很长,故不宜认为99%置信区间比95%置信区间好,一般来说95%置信区间更为常用。3.均数置信区间与参考值范围的区别95%的置信区间中的95%是置信度,即所求置信区间包含总体参数的可信程度为95%;95%的参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。课时五假设检验第一节、基本思想反证法+小概率事件原理目前已知这两组样本的数据不相等,新疗法为4min,常规疗法3min,那么造成这两者之间的差异的原因可能有以下两种:1.抽样误差,即假设两者之间的治疗效果是没有差别的,两个样本平均数之间差别产生的原因单纯是因为抽样误差所导致的。2.这两组治疗效果的确有区别。于是我们经过分析得到了以上两个假设,假设1即认为两组样本来自同一个大的总体(两者之间的治疗效果没有差别),差异是由抽样误差导致的,该假设否认了两组之间的差异,记为H0(零假设);假设2认为两个样本来自不同的总体,即两者之间的确存在差异,记为H1(备择假设)。我们这里之所以将抽样误差的情况设为零假设是因为抽样误差出现的可能性(P)是可以通过计算得到的,若P小于等于5%(即小概率事件),我们认为在一次的抽样中是不会得到小概率事件的,于是我们就可以否认造成差异的原因是抽样误差而是两组数据来自不同的总体。如果反过来,我们是无法直接证明这两组数据是不同的,所以在这里一定要用反证法来证明两者之间得而差别,这就是假设检验的原理。当两组数据本来就十分接近时,P值便容易得到大于5%的情况,此时便不能否认抽样误差的可能性,便不能证明两组数据有差异。第二节、基本步骤1.建立假设检验,确定检验水准H0:差异抽样误差H1:两组数据的确存在差异A=0.052.计算检验统计量3.查表,得到P值4.下结论当P≤a(一般为0.05)时,(根据小概率原理,一次抽样中不可能出现小概率事件,于是否认抽样误差存在的可能性)拒绝H0,接受H1,有统计学意义。当P≥a(一般为0.05)时,(由于此时的差异有可能是抽样误差造成的,不能否认抽样误差的可能性)尚不能拒绝H0,(不能得出两组数据确实存在差异的结论)结果没有统计学意义。第三节、Ⅰ型错误与Ⅱ型错误Ⅰ型错误:很不幸,你的一次抽样就抽到了小概率事件a(一般为0.05),于是把原本只是单纯的抽样误差造成的差异,判断为了两组样本所在的总体是不同的,于是对不起,你就犯了Ⅰ型错误——这两组数据其实没有不同。你烦这种错误的可能性与你脸黑在一次抽样中抽到小概率事件的判断标准(a)是一样的。Ⅱ型错误:很遗憾,当P≥a(一般为0.05)时,你判断认为在这种情况下,这两组数据的差异有可能来自抽样误差,于是你就拒绝了H1(两组数据确实存在差异)的情况,然而事实上,两组数据所来自的总体确实存在差异,只是差异很小,被你误认为是由于抽样误差造成的,那么很抱歉,你犯了Ⅱ型错误,你犯这种错误的概率取决于P大于等于a(一般为0.05)的部分与H1成立相交的面积β(未知)相等。检验效能:你不犯Ⅱ型错误的可能性1-β。注:Ⅰ型错误与Ⅱ型错误只能尽量减小却不能完全避免。第四节、单侧检验与双侧检验一般用双侧,因为你一般无法知道差异是会变大还是变小,只有在有专业知识的情况下才考虑用单侧检验。因为单侧检验更容易拒绝H0,故应用双侧检验时用单侧检验会使犯Ⅰ型错误的可能性加大。第五节、需要注意的问题自己看吧第六节、假设检验与区间估计的联系假设检验的结果和区间估计的方法不能但所得出的结论是相同。课时六t检验根据问题,需要进行假设检验的时候,如果:1)资料是定量资料,且要求正态总体或近似正态总体,就选用t检验;2)如果是定性资料,就用卡方检验。当选择用t检验,t检验有三种:单样本t检验、成组t检验、配对t检验。t检验的使用条件:1)单样本t检验:总体标准差未知且样本含量较小。用于样本均数与总体均数的比较。2)配对t检验:是单样本t检验的特殊情况,主要有三种类型:(1)配对的对象接受不同的处理。(2)同一样品用两种不同的方法或仪器检测。(3)同一对象处理前后的对比。配对t检验用来推断两种处理方法结果有无差别。3)成组t检验:两小样本均数比较时,且总体方差相等时。备注:对于两大样本(均数均大于50)的均数比较时,可用Z检验。第一节、单样本t检验(例8.1)解:第二节、配对t检验重要的是使用条件:(1)配对的对象接受不同的处理。(2)同一样品用两种不同的方法或仪器检测。(3)同一对象处理前后的对比。配对t检验用来推断两种处理方法结果有无差别。(例8.2)第三节、成组t检验1)什么是成组资料设计?为了研究两种处理效果的差别,将所收集的研究对象随机分配到两种不同的处理组中,事先没有作任何匹配2)常见的成组设计情况有:没有交代使用匹配方案,均按照成组资料设计处理;相当于将两个样本视为来自两个不同的总体,比较两个未知的总体参数是否相同。3)假定两样本分别服从正态分布,且两样本的总体方差相等,可估计出两样本的的合并方差,其计算式为:(例8.3)如果两个总体的方差不同,那么可以使用近似t检验(或也称为校正t检验或t’检验)(这个不要求掌握)补充:如何判断两样本所来源的总体方差是否相等?第四节、F检验(常用的方差齐性检验的一种)1)用来判断两样本所来源的总体方差是否相等。2)两组样本方差不同,那么S1≠S2究竟是由于两个样本的总体方差不同还是仅仅由于抽样误差导致3)现假设样本标准差间的差别仅仅由于抽样误差所导致,那么两个样本方差间的差别应该不会很大,换句话说两者的比值应该在1附近,如果距离1很远,例如比1大很多或小很多,那么两样本所来源的总体方差就可能不同4)统计学家发现方差比值(样本含量分别为n1与n2)满足自由度为v1=n1-1与v2=n2-1的F分布,其中v1与v2分别称为分子自由度与分母自由度。(例8.3)两组对象(n1=n2=12)的标准差分别为s1=27.7,s2=19.5,请问两组患者的总体方差是否相同?课时七定性资料的统计描述定性变量的取值为某种属性,例如:血型(A、B、O、AB)人群中某病发生与否(发生、不发生)性别(男性、女性)视力等级(差、中、好)第一节、常用相对数及其应用相对数是分类资料的描述性统计指标,是两个有联系指标之比。常用相对数有率、构成比、相对比。1、率率(rate)包括频率和速率*频率有如下指标

*速率如下2、构成比(即说明事物内部各组成部分所占比例)如下表:某精神病医院2010与2012年精神病的住院情况比较疾病2010年2012年病人数构成比(%)病人数构成比(%)抑郁2010.0208.0精神分裂14070.019076.0神经质2010.0208.0其他2010.0208.0合计200100.0250100.0特点:事物内部各构成比的总和必定等于100%;某一部分构成比的改变将影响其他构成比的变化,这一部分构成比增加,其他构成比将减少;反之亦然。3、相对比相对比(relativeratio)

是表示两个事物指标之比,常以百分数或倍数表示,用以说明一个指标是另一个指标的几倍或百分之几。相对比=(甲指标/乙指标)×100%特点:甲乙两个指标的性质可以相同或不同;甲乙两个指标可以是绝对数、相对数、平均数。

吸烟情况就诊人数随访人数就诊率(%)吸烟5050010.0未吸烟4010004.0合计9015006.01500非成年人首次吸烟情况与因气管炎症就诊的情况表所以RR=(50÷500/40÷1000)×100%=2.5吸烟者发生气管炎的风险是未吸烟者的2.5倍,提示吸烟可能是气管炎的危险因素。

1500非成年人首次吸烟情况与因气管炎症就诊的情况表吸烟情况就诊人数随访人数就诊率(%)吸烟5050010.0未吸烟4010004.0合计9015006.0

第二节、应用相对数的注意事项1、计算相对数分母不宜过小,要有足够的观察单位数;2、分析时不能以构成比代替率3、正确计算合计率。4、注意资料的可比性。5、样本率(或构成比)的也存在抽样误差。6、有些场合最好使用绝对数第三节、动态数列及其应用(不要求)第四节、率的标准化法1、标准化法的基本思想是:采用某影响因素的统一标准构成以消除构成不同对合计率的影响,使通过标准化后的合计率具有可比性。2、标准化率的计算(常用的标准化方法有直接法和间接法,二者的使用条件不同)主要要求直接法计算标准化率:(需已知内部各组成的率)(1)选择年龄别人口数作标准时:(2)选择年龄别人口构成作标准时:使用人口数为标准直接法计算标准化治愈率(%)病型标准治疗人数A疗法B疗法原治愈率预期治愈数原治愈率预期治愈数轻型18085.015385.0153重型18065.011765.0117合计360-270-270甲疗法标准化治愈率=270/360=75.0%乙疗法标准化治愈率=270/360=75.0%使用人口构成为标准直接法计算标准化治愈率(%)(如表中)病型标准人口构成A疗法B疗法原治愈率分配治愈率原治愈率分配治愈率轻型0.585.042.585.042.5重型0.565.032.565.032.5合计1.0—75.0—75.03、应用标准化法的注意事项(1)标准化法只适用于内部构成不同影响到总率(合计率)且各组分的率“平行”变化,如果内部各组分的率存在“交叉”,慎用标准化法。(2)由于选择的标准不同,算出的标准化率也不同,但比较的结论趋势一致。(3)标准化后的标准化率,已经不再反映当时当地的实际水平,它只表示两组相互比较的资料间的相对水平。(4)样本标准化率也存在抽样误差,也需要进行假设检验。课时八、九卡方检验第一节、卡方检验的基本思想检验是在分布的基础上,利用样本信息考察样本频数分布与假设成立条件下理论频数分布之间差异的假设检验方法。基本步骤:对总体建立假设做出无效假设H0,检验水准α计算理论频数度量实际频数与理论频数之间的差距确定是否发生小概率事件,做出统计推断如果假设成立,实际数与理论数的差距应该较小,按照上式计算的卡方值因该接近0,如果卡方值远离0则应该拒绝原假设,然而卡方值大小还受到格子数的影响,因此需要考虑自由度。当ν确定后,卡方分布曲线下右侧尾部的面积为α时,横轴上相应的卡方值,记为χ2α,ν,如下图;实际应用时,可根据ν,查表得如果χ2>χ2α,ν,曲线下(尾部)面积P小于α;则认为发生了H0成立条件下的小概率事件,继而做出拒绝H0、接受H1的统计推断;反之当P大于α,此时不拒绝H0.完整步骤如下例:例11.1某研究者欲比较血塞通注射液和银杏达莫注射液治疗急性脑梗死的效果,将240例急性脑梗死患者随机分为两组,一组给予血塞通注射液治疗,另一组给予银杏达莫注射液治疗,一个疗程后观察结果,见表11.1。问两种针剂治疗急性脑梗死的有效率是否有差别?第二节、独立样本率或构成比较χ2检验独立样本率或构成比较χ2检验可用于推断两个或两个以上总体率(或构成比)之间有无差别。独立的含义是指样本的个体测量值之间相互独立,不存在明显的关联。常用的有四格表(2×2)与R×C列联表卡方检验。1.四格表(2×2)的χ2检验对于任何两独立样本率的资料,均可表示为四格表形式,其分析目的在于利用样本信息完成两样本总体率的比较。在分析独立样本四格表资料的时候,需根据具体情况作不同处理:当理论频数T有T≥5,而且n≥40时,卡方公式不需要校正,直接使用。当理论频数T有1≤T<5,而且n≥40时,需要校正,或者用精确概率法计算概率值。当理论频数T有T<1,或者n<40时,只可用精确概率法计算概率值。2.R×C列联表χ2检验检验过程与两样本率比较的χ2检验类似详细过程见下例:某研究者欲比较A、B、C三种方案治疗轻、中度高血压的疗效,将年龄在50~70岁的240例轻、中度高血压患者随机等分为3组,分别采用三种方案治疗。一个疗程后观察疗效。问三种方案治疗轻、中度高血压的有效率有无差别?R×C列联表χ2检验注意事项:1.计算卡方值时,必须用绝对数,而不能用相对数。2.卡方检验要求理论频数不宜太小,一般认为表中不宜有1/5以上格子的理论频数小于5,或有一个理论频数小于1。如果出现上述情况,以下方案供参考:1).增加样本例数以增大理论频数;2).删去理论频数太小的行或列;3).将太小理论频数所在行或列与性质相近的邻行邻列中的实际频数合并,使重新计算的理论频数增大。(专业角度判断如何合并)4).用确切概率法。3.卡方检验只说明各处理组效应的构成比有无差异;如果要比较各处理组的效应等级优劣,宜用秩和检验。第三节、配对2×2列联表资料的χ2检验由于研究对象先按某种方式配成对,再按甲乙两种属性统计,所得结果不是互相独立的,因此不能直接采用前述的独立样本四格表资料的χ2检验详见下例:某研究者欲比较心电图和生化测定诊断低钾血症的价值,分别采用两种方法对79名临床确诊的低钾血症患者进行检查,结果见表11.9。问两种方法的检测结果是否不同?在配对设计的四格表中,如果要了解不同的处理方案的结局是否有别(例如两种检测方法的阳性率是否有别)并不需要用到所有四格中的数据。仅需要确认25与4之差是否可归结于抽样误差。配对2×2列联表资料的χ2检验的注意事项:1.比较两种诊断试验法诊断效能有无差异时,要求所投入试验的检品是用标准法检出的阳性检品。2.注意如果不一致的例数在总例数中所占比例过小,还需要结合两样本率差异的大小做出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论