第二十二章统计方法选择与结果解释_第1页
第二十二章统计方法选择与结果解释_第2页
第二十二章统计方法选择与结果解释_第3页
第二十二章统计方法选择与结果解释_第4页
第二十二章统计方法选择与结果解释_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计方法选择与结果解释四川大学华西公共卫生学院卫生统计学第一节

统计方法的正确选择

在实际应用中,如何选择恰当的统计方法分析资料,常常是最为重要也是最为棘手的问题,尤其是组间比较的假设检验问题。一、统计方法选择的基本思路

正确选择统计方法的基本思路和原则就是根据:数据特征样本含量研究目的对比组数设计类型资料类型

综合判断1.研究目的研究目的不明确,所做的分析很可能是错误的或没有意义的。

例如,一个四格表资料可以进行的统计分析或计算的统计量至少有差别性检验和独立性检验、列联系数、kappa系数、OR值、RR值、灵敏度、特异度等。组别有效无效合计甲药271845乙药40545合计672390甲、乙两药治疗小儿上消化道出血的效果一般而言,统计分析通常回答两个方面的问题:一是通过比较回答观测指标的差别是否归因于处理因素或分组因素,在本教材范围内所涉及的主要是单变量问题。二是分析变量之间是否存在某种联系,这主要涉及相关分析和回归分析,在本教材范围内所涉及的主要是双变量及多变量问题。

2.设计类型

从实验研究设计来看,常见的设计类型为完全随机设计(成组设计)配对或配伍设计(随机区组设计)从观察研究设计来看,在统计方法的选择上,通常将其等同于完全随机设计的数据因此,完全随机设计的数据分析时,应选择相应的:两样本(成组)t检验单因素(完全随机设计)方差分析检验(独立样本)两样本Wilcoxon秩和检验或多样本Kruskal-Wallis秩和检验对于配对或配伍设计的数据,则应选择相应的配对t检验配伍组(随机区组)设计方差分析配对检验配对(Wilcoxon单样本秩和检验)或配伍设计的秩和检验(Friedman秩和检验)等。3.资料类型对于定量变量,选择它所对应的那些统计方法

如t检验、方差分析或秩和检验等对于定性变量,则选择它所对应的统计方法

如二项分布或Poisson分布的Z检验、检验等其中等级资料一般采用秩和检验进行分析4.数据特征对于同一设计类型和同一资料类型,仍然有许多方法可以选择。3.资料类型对于定量变量,选择它所对应的那些统计方法

如:t检验、方差分析或秩和检验等。对于定性变量,则选择它所对应的统计方法

如:二项分布或Poisson分布的Z检验、检验等。其中等级资料一般采用秩和检验进行分析4.数据特征什么时候用t检验或方差分析?什么时候用秩和检验?

t检验和方差分析属参数检验方法,对数据要求较高,通常要求数据服从正态分布和方差齐性。如果服从该条件或经变量变换后服从条件,则采用参数检验方法,否则采用秩和检验这类非参数检验方法。能否不考虑分布和方差齐性问题,直接采用非参数检验?5.对比组数对于单组问题(样本与总体比较),即一个样本均数或率与总体均数或率的比较,可分别采用:样本与总体均数比较的t检验二项分布和正态分布原理进行分析多组均数的比较、多组等级资料的比较,可分别采用:方差分析Kruskal-Wallis秩和检验Friedman秩和检验多组率或构成比的比较,可采用表检验。注意:多组比较在差别有统计学意义的情况下需再进行两两比较。6.样本含量在样本较小时:如果是一个样本率与总体率的比较,可采用直接计算概率的方法如基于二项分布的确切概率法。如果是四格表资料则采用Fisher确切概率法或校正检验。对于均数比较问题,一般情况下采用t检验。在大样本时可考虑Z检验作近似。6.样本含量在样本较小时:如果是一个样本率与总体率的比较,可采用直接计算概率的方法如基于二项分布的确切概率法。如果是四格表资料则采用Fisher确切概率法或校正检验。对于两样本均数比较问题,一般情况下采用t检验。在大样本时?循着上述基本思路进行综合判断,对于一个特定的资料,选择一个恰当的统计方法并非一件十分困难的事情。在实际工作中,遇到的实际问题可能并非如此简单,须结合专业问题和所要分析的具体内容加以综合考虑和仔细判断,有时需对各种统计方法加以综合运用。在方法选择时,还有一些问题需加以说明:当分析目的是分析变量之间是否存在某种联系时,这就涉及到双变量的分析方法,即相关关系或回归关系的分析。需注意相关分析和回归分析的区别与联系:前者是分析两变量的关联性;后者是分析两变量的数量依存关系。关联性分析对于定量变量,需根据两个变量是否满足双变量正态分布,相应地采用Pearson积矩相关分析或Spearman秩相关分析。对于等级变量则直接采用Spearman秩相关分析。对于分类变量常计算列联系数进行分析对于一个二分类变量和一个等级变量之间的线性关联通常采用线性趋势检验。对于表资料,需注意区分是单向有序或者是双向有序。对于前者,检验和秩和检验说明的问题不同;对于后者,检验和列联系数分析的是两个分类变量的关联性。两有序分类变量的关联性分析宜采用Goodman-KruskalGamma方法表**某地20岁以上成年人眼睛晶状体混浊程度

年龄(岁)晶状体混浊程度合计++++++20~205664431530~140986029840~160125132417合计5052892361030对于同一批研究对象两次定性观察结果的一致性情况Kappa指数表11-19两次定性观察结果的汇总

第二次观察结果第一次观察结果行合计12…m12………m列合计…多变量的数据分析:多重线性回归是对反应变量为定量变量进行的多变量分析logistic回归是对反应变量为分类变量所进行的多变量分析Cox比例风险回归是对反应变量为含有截尾数据的生存时间所进行的分析Log-rank检验的滥用生存分析是一类较为特殊的针对具有截尾数据的生存时间数据所进行的分析。它也包括统计描述和统计推断两个部分的内容,针对分组和未分组资料,方法又有所不同。二、统计分析需注意的若干问题1.数据分析通常的步骤:

数据探测统计描述统计推断数据探测数据探测常常是进行统计描述和统计推断的基础。如数据分布特征的考察、方差齐性的判断、散点图的绘制、离群值的发现,以及了解数据是否符合特定统计方法的应用条件等,必要时可进行变量变换或转换以满足分析的需要。数据探测将增加对数据的基本了解,为进一步的分析奠定基础。统计描述统计描述:计算各种统计指标和运用各种统计图表描述和概括数据的数量特征及分布规律。首先需要区分变量类型,定量变量和定性变量的统计描述指标是不同的。对于定量变量,根据数据分布特征的不同,可分别采用正态分布和百分位数方法对数据进行描述以及确定观察值分布范围等。对于定性资料,根据分析目的,可计算率、构成比或相对比等指标。

统计推断

在数据探测和统计描述的基础上选择恰当的统计推断方法分析资料。区间估计:总体均数的区间估计,根据已有条件的不同如样本大小的不同,可采用t分布或正态分布原理进行估计。总体率的区间估计,一般也是根据样本大小的不同以及样本率的大小,采用二项分布、Poisson分布或正态分布原理进行估计。2.混杂因素的控制学习统计学必须学会在研究设计和数据分析时控制混杂因素的方法,使得比较的各组除了研究因素之外,其它因素尽可能地相同或相似。这样,各组观测指标之间的差异只能归因于研究因素而不是其它原因。如果各组在研究因素之外的某种或某些因素有所不同,那么这个或这些其它因素的效应就可能同研究因素的效应混淆在一起。在这种情况下,通常的统计分析结论在进行因果推断时常常是不可靠的。“可比性”问题是在数据分析和结果解释时必须加以考虑的一个十分重要的问题。对于不具可比性的资料,基本的统计调整技术就是采用分层分析或标准化方法消除其它非研究因素的影响,对于具有多个变量的复杂情况,则需采用多变量分析技术加以调整。我们需要考虑:有哪些因素与研究的因素混杂在一起?怎样调整这些混杂因素?分层分析Example:研究吸烟与健康的关系吸烟与非吸烟者死亡率的比较吸烟者与不吸烟者死亡率的直接比较可能存在问题。因为:吸烟者多为男性,而男性比女性更易患心脏病而发生死亡,吸烟者与未吸烟者之间死亡率的差异也许是因为性别的差异。

为了排除这种可能性,可:吸烟男性与不吸烟男性进行比较吸烟女性与不吸烟女性进行比较。即以性别因素分层,再比较吸烟与非吸烟者的死亡率。此即分层分析(分层因素:性别)年龄可能又是另外一个混杂因素,这就需要对年龄进行分层分析。这就是通常的分层分析思路,但这并不能保证这样分析的结论一定是正确的。吸烟与肺癌关系的一项横断面研究收集资料:每个人年龄、性别、是否吸烟、是否患肺癌。分析1:若仅考察吸烟与不吸烟者肺癌患病率

吸烟者:P1=80/200=40.0%

不吸烟者:P2=100/200=50.0%

P1

小于P2,吸烟者似乎更不易于患肺癌(吸烟是肺癌的保护因素)。

有没有其它可能影响到肺癌患病率的混杂因素?若有,则两人群肺癌患病率的差别并不一定是由于吸烟因素引起的。比如性别,男、女的肺癌患病率本就存在差别。若性别在吸烟组和不吸烟组的构成不同,此时吸烟组和不吸烟组受到来自性别的影响相差悬殊,则两组肺癌的患病率的差别不能单纯由吸烟与不吸烟来解释了。年龄因素亦同。因此,分析1得出的结论是不可信的。分析2(分层分析,分层因素为性别):

男性:吸烟组:P1=35/50=70%不吸烟组:P2=90/150=60%女性吸烟组:P1=45/150=30%不吸烟组:P2=10/50=20%两组的P1皆大于P2,吸烟者似乎更易于患肺癌(吸烟是肺癌的危险因素)。分析2同时考察了“吸烟与否”和“性别”两个影响因素对是否患肺癌的影响。若“年龄构成”在吸烟组和不吸烟组之间是不同的,则得出的结论很可能是不真实的。因此,据此得出的结论也是不可信的。分析3:若将调查资料按受试者的年龄分为“≤40岁组”和“>40岁组”,再在每个年龄组内,采用前述第(2)种分析的方法进行计算,得到四个2×2列联表资料分别为:A类(≤40岁、男性):P1=50%(=5/10)与P2=52%(=60/115)B类(≤40岁、女性):P1=44.4%(=40/90)与P2=50.0%(=5/10)C类(>40岁、男性):P1=75.0%(=30/40)与P2=85.7%(=30/35)D类(>40岁、女性):P1=8.3%(=5/60)与P2=12.5%(=5/40)

比较各组P1与P2的数值大小时,不难发现:P1皆小于P2,结论为吸烟者似乎更不易于患肺癌(吸烟是肺癌的保护因素)。问题所在:

由表1可见,有两组数据是有问题的,即“≤40岁的男性吸烟者仅调查了10人,其中有5人患了肺癌”和“≤40岁的女性不吸烟者仅调查了10人,其中也有5人患了肺癌”。在如此小的样本中,竟有如此高的肺癌患病率。这说明这份调查研究资料存在严重的抽样设计问题,即样本的代表性极差,某些层中样本量过小。若此调查资料是真实调查的结果,则属于错误的调查设计的产物,未能反映被调查总体的真实情况,因而该资料是不值得进行统计分析的。在分析3中,同时考察了“吸烟与否”、“年龄”和“性别”三个影响因素对是否患肺癌的影响,但各层中样本含量很小(事实上,有些组中样本量仅为10),样本的代表性值得怀疑,则得出的结论很可能是不可靠的。因此,据此得出的结论也是不可信的。分析1结果发现,吸烟组肺癌患病率低于不吸烟组,表明吸烟是肺癌的保护因素分析2考虑到肺癌与性别有关,采用性别进行分层,结果在男性和女性中,吸烟组肺癌患病率均高于不吸烟组,表明吸烟是肺癌的危险因素分析3进一步考虑到肺癌与年龄有关,于是在性别分层基础上,再用年龄进行分层分析,结果在不同年龄层的男性和女性中,吸烟组的肺癌患病率均低于不吸烟组,表明吸烟是肺癌的保护因素

原因:这是由于调查设计存在严重问题,样本对总体代表性很差,未能反映被调查总体的真实情况,基于这样的数据所做的统计分析以及结论是自相矛盾的,有时甚至与医学专业结论相悖。从这个例子可以发现:除了研究设计的极端重要性外,还提示我们,当一个事件的影响因素较多时,由于不断分层的结果致使某些层中样本含量太少;采用这种简单的分层分析可能割裂多个因素之间的内在联系,难以真实揭示多个因素对观测结果的影响,从而导致错误的结论。(2)标准化法

例如:比较两种疗法治疗某病的病死率

Table**两种疗法治疗某病的病死率病型新疗法一般疗法治疗人数死亡人数病死率(%)治疗人数死亡人数病死率(%)普通型75

1520.025520.0重型合计35

1440.0652640.0110

2926.4903134.4原因在于:两种疗法治疗对象的病型构成不同,新疗法组普通型病例多而重型病例少,一般疗法组却是普通型病例少而重型病例多。因此要正确比较两种疗法的病死率,可按病情轻重分层分析,或通过计算标准化病死率进行比较。新疗法组的标准化病死率:一般疗法组的标准化病死率:经标准化后,新疗法和一般疗法两组的病死率是相同的,与分病型比较的结果一致。标准化法解决了由于患者病型构成不同而导致的合计病死率与分病型比较相矛盾的问题。3.正确理解可比性问题应该怎样正确理解“可比性”问题?比较A、B两地区肺癌死亡率的高低,总的肺癌死亡率A地区高于B地区,但B地区各年龄组肺癌死亡率却均高于A地区。Why?原因:由于肺癌死亡率与年龄有关,通常随年龄增高而增高;A、B两地区各年龄组人口构成不同,A地区高年龄组人口构成大于B地区,这就造成了A地区总的肺癌死亡率高于B地区;上述矛盾是因为两地人口年龄构成不同造成的。A、B两地区肺癌死亡率到底谁高谁低?直接比较肺癌死亡率:A地>B地比较标准化肺癌死亡率:B地>A地消除年龄的影响后Question:无疑,A地区肺癌死亡率高于B地区因此,所谓可比性问题其实与研究目的有关。如肺癌一例,假定已知年龄是肺癌死亡率的影响因素,如果想探索除了年龄之外还有没有其它因素影响肺癌死亡率,那么就应该对年龄进行标准化(如果标化后A、B两地肺癌死亡率相同,则说明年龄是影响肺癌死亡率的唯一因素)。但如果研究目的并非探讨分组因素对研究指标的影响或作用,谈论可比性就没有意义,也没有必要去调整其它混杂因素的影响。因为A地区肺癌死亡率高于B地区是一个不争的事实。换言之,单纯描述谁高谁低无需进行调整,只是在进一步探究导致高低不同的归因(所谓因素分析)时才对混杂因素进行控制或调整。4.数据的分组问题另一个在数据分析时特别值得注意的问题就是分组或分类问题它既是数据整理的主要内容,也是数据分析的基础。分组:就是将专业上认为性质相同的个体归在一起,将性质不同的个体区别开来,即试图在专业上反映出组内的同一性和组间的差异性。在此基础上进行的数据分析才有可能揭示出事物的本质和规律。美国儿科杂志曾报道了医生间关于口服氨苄青霉素副作用研究的一场有趣的争论。剂量(mg/kg天)无腹泻例数有腹泻例数合计例数

507921100100703010015061391002006832100表1口服氨苄青霉素的副作用A医生认为:“腹泻副作用不论剂量大小均常发生,虽随剂量增加而增加,但无统计学意义(Pearson检验P>0.05)”。见表1。

B医生认为,在缺乏未服氨苄青霉素对照组时,只好以50mg组与较大剂量组比较。若腹泻与剂量无关,则两组腹泻发生率差异应无统计学意义。因此,将较大剂量各组合并(见表2)。表2表1合并后的结果剂量(mg/kg/天)无腹泻例数有腹泻例数

50

79

21>50199101结果:较大剂量组的腹泻发生率(约30%)高于50mg组(21%),检验P<0.05。因此,认为腹泻与药物剂量有关。

C医生认为,假如上述合并后面三组再比较的方法妥当的话,则反过来并组也应一样,即<200mg组的腹泻发生率应低于200mg组。结果:

两组腹泻发生率分别为30%和32%,检验P>0.5。因此,不能同意腹泻发生率与口服氨苄青霉素剂量有关。表3按另一种分组合并的结果剂量(mg/kg/天)无腹泻例数有腹泻例数

200

6832<20021090启示:除了定量变量定性化所造成的信息损失外,正确的分组或归类在数据分析中是非常重要的。这在单变量分组比较时是如此,在多变量分析时亦如此。第二节结果的正确解释在医学科研中,人们作假设检验最关心的问题就是“差别有统计学意义”(过去叫“有显著性差异”)吗?即P值是否小于或等于0.05。P值的意义到底是什么?

一、假设检验结果的正确理解什么是P值?P值是指在H0所规定的总体中随机抽样,获得等于及大于(或等于及小于)现有样本统计量的概率。结论若P≤,表示在H0成立的条件下,出现等于及大于(或等于及小于)现有统计量的概率是小概率,按小概率事件原理现有样本信息不支持H0,因而拒绝H0。因此,当P≤时,按所取检验水准,拒绝H0,接受H1。若P>时,表示在H0成立的条件下,出现等于及大于(或等于及小于)现有统计量的概率不是小概率,现有样本信息还不足以拒绝H0。显然,差别是否有统计学意义与检验水准直接有关。这里大家需注意,0.05这一检验水准只是医学和其它科研中大家约定俗成的习惯上的水准,其实0.04或0.06亦并非不是小概率事件。此外,无论作出差别是否有统计学意义的结论,我们都面临着犯错误的风险。因为假设检验的目的是帮助区分实际存在的差异与机会造成的差异;但它的结论具有概率性,因此称一个“有统计学意义的差别”不可能是机会造成的差异,是错误的;因为尽管是一个小概率事件,但仍可能发生。进一步,即使“差别有统计学意义”,但这个有统计学意义的差别并不意味着在医学专业上就是“重要”的。例如两组疗效差别甚小,对于大样本,小的差别也可能在统计学上是有意义的,因为这很难用机会来解释,但我们并没有理由认为它在医学专业上也是重要的。相反,如果样本太小,一个医学专业上重要的差别如两组疗效相差甚大,可能也是没有统计学意义的。同理,相关系数的假设检验,也只能说明相关关系是否有统计学意义,它既不说明相关关系是否密切,也不说明相关关系是否具有专业上的意义。最后值得指出的是:如果研究的是总体,假设检验在理论上是不适用的如果研究的是样本,但它是非概率抽样获得的,假设检验在理论上同样是不适用的,因为此时难以理解和解释“差别归因于机会”的含义,P值可能没有任何意义。除了正确理解P值的含义外,结果的解释还与研究设计类型有关。研究设计不仅是正确运用统计方法的前提,同时也是正确进行结果解释的前提。不同的研究设计类型要求的统计方法不同,结果解释也存在一定差异。二、不同研究类型数据分析结果的正确解释

1.观察性研究共同特点:对处于自然状态下的事物或现象进行观察,研究者不作任何干预不能采用随机化分配的办法平衡或控制各种可能的混杂因素对研究结果的影响只能在分析阶段采用各种统计方法加以控制或调整其中:横断面调查:是了解某一时间断面上特定人群中疾病或卫生事件的现状及其与之相联系的各种因素。特点:是反映某个时间断面上的情况,通常是在研究的初始阶段进行,为进一步研究提供线索,下结论时须十分慎重。观察性研究通常只建立起某种关联性如某一事物或现象与另一事物或现象相关联,但这种关联性不一定是因果联系。在医学和公共卫生领域,观察性研究占到了相当大的比例研究者采用越来越复杂的统计方法对数据进行分析,但无论采用多么高深和复杂的统计技术或先进的统计软件,都不能改变的一个基本事实就是,观察性研究这种研究类型本身已经决定了研究结论的局限性。

2.实验性研究实验性研究通常是在观察性研究的基础上,在人为控制实验条件下对研究对象施加一定干预措施,从而对观察性研究所得结论加以验证的进一步研究。一般而言,实验性研究能够较好地控制各种混杂因素对于严谨设计的实验性研究,结论通常较为可靠。但需注意临床试验对象是人,存在诸多心理(如霍桑效应和安慰剂效应等)以及伦理问题的局限。因此,下结论也需谨慎。对于社区干预试验,通常都不能进行个体随机化分配,故也称为准试验或类试验(quasi-experiment)常存在诸多混杂因素的干扰,需要在分析阶段采用统计方法加以控制或调整,如果在分析阶段不能有效消除其混杂效应,结论也有待进一步验证。在结果解释时,分析的基本单位也是一个十分重要的问题。对于集合数据如基于学校、单位或地区等水平的汇总数据所进行的分析,这时分析的基本单位是学校、单位或地区等如果在个人水平上下结论,就需特别小心。三、不同分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论