统计设计的原则和方法_第1页
统计设计的原则和方法_第2页
统计设计的原则和方法_第3页
统计设计的原则和方法_第4页
统计设计的原则和方法_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计设计的原则和方法中国医学科学院北京协和医学院 韩少梅 这节课我们讲一下统计设计、原则和方法。 现代医学科研中的信息大多数都是以数据的形式加以体现,探索医学数据变化的特有规律,对数据进行整理和分析,得出研究结论是医学统计学的首要任务。医学科研数据的统计分析涉及到了医学专业的知识、统计专业的知识、数据分析的经验和技巧等多个方面,既有分析的严谨和科学,又有选择的多样和艺术。 本次讲座主要的内容讲以下五个方面:1.课题或者试验的统计设计。2.统计方法选择的思路。3.实际应用中对常用的统计方法。4研究中样本含量的估计计算。实验设计中常见的错误。 大家知道,任何一项医学研究,包括临床、基础、

2、护理、预防等,在确定研究目的之后,首要的问题就是考虑怎样安排试验或者说需要一份良好的研究计划,我们把这个研究计划又称为了研究设计,它是使研究结果满足科学性的一个重要的保证。先有了一个实验的设计,才可能进行数据采集、数据的分析,以至最终出现我们写出研究报告这样一些基本的素材。 课题或者试验的统计设计分为两大类:一类我们叫做实验研究设计,一类叫做是观察性研究设计。 所谓的实验研究设计,它的研究目的是在我们研究过程当中,控制和降低系统误差对实验结果的影响,缩小实验随机误差以利于进行统计推断,更确切地回答研究者事先提出的假设。这是我们实验研究设计的目的。 那么在这个目的的情况下,我们为了保证这个目的的

3、实现,我们需要做这样三个方面,一个就是我们在研究过程当中,研究者根据研究目的要施加或者要观察的能够作用于受试对象,并引起直接或间接效应的因素。我们把它叫做是处理因素。那么这个处理因素在实验当中经常遇到的,比如说培养基的放置时间、放置的位置。临床药物研究当中病人的病情、病程等都称为“非处理因素”,这些评价处理因素作用的时候,在这个评价处理因素作用的时候,是有一定干扰的。但研究者并不想通过实验考察这些个作用的大小,我们把这个称为“混杂因素。那么这个混杂因素在研究过程当中对实验的结果会有一些影响。 第二个要关心的问题,就是我们的实验对象。实验中接受处理并作为实验观察的人、动物或其它实验材料,实际上就

4、是我们说在处理因素作用的客体,那我们把它统称为叫实验对象。对入选的实验对象统计学上有很重要的一个要求,也就是说对这些实验对象,我们要做到入选的时候条件是一致的,以保证这个研究整个过程它的实验结果能够突显出来。那么首先它要保证同质性,也就是统计学上的我们通常叫做可比性、均衡性。只有实验对象在入选的时候做到条件一致,那么在研究过程当中,在最终观察实验效应的时候,它的结果才具有可比性。 第三个要素就是说在实验作用于受试对象的这个客观反应和反应的结果,那么我们把说处理过程,这个处理因素作用在了受试对象上,那么所得到的客观反应统称为叫实验效应。这个实验效应的结果反应是通过某些客观的观察指标,定量或者定性

5、的反应出来,那么我们通常在实验当中知道,有一些定量的指标,比如我们说人体的这个生理的常数,比如身高、体重这些都是定量的,定性的指标一般是有属性的,我们把这些统称为叫实验效应。 那么实验设计的这个任务是什么呢?就是在我们研究设计过程当中要正确的选择我们所要处理的这个因素。那么第二个,就是我们要合理安排我们的实验对象。第三,是我们说要准确解释实验效应。那么说实验设计的三要素,要做到正确选择、合理安排、准确解释,这是我们实验设计的最根本的任务。 在研究科研设计这个方案的时候,也就是说我们在做任何的一个项目首先要掌握,就是我要保证我们的研究是可比的,研究效果是能够达到的,那要掌握设计的最基本的原则。科

6、研研究当中设计的最基本原则,一个是对照的原则,一个是随机化的原则,一个是重复的原则,那么在现在的新药临床实验当中我们又增加了一个盲法原则。这是我们说实验研究设计的这种一个基本的概括。 第二个是我们通常讲观察性研究设计,在有目的地观察和测量自然接触不同因素人群结果事件发生情况的这样一个过程,通过对比分析发现事件的分布特点与差异,从而获得有关因果假设的这种研究,我们把它叫做观察性研究设计。那么这个时候的研究对象及其相关特征,它是客观存在的,没有人为的施加干预措施,而是客地观察记录某些现象的现状及其相关特征。那么这样的研究过程当中不能采取随机分配原则,也就是说不能用随机分配的方法来平衡或者消除非研究

7、因素对研究结果的影响,这也就是我们通常说观察性研究,也就是调查研究区别于实验研究的一个非常重要的特征。 我要讲的第二个内容,就是统计方法选择的基本思路。统计方法的正确选择极为重要,它是保证正确可靠统计结论的一个基本保证。那么在统计上,我们把所有在研究过程当中,无论是实验研究设计、设计的这种方案,实施以后得到的这样数据,还是我们在群体当中做的观察性研究调查得到的数据,那么这些我们都称为变量。这个变量我们分为单变量、双变量。数据的类型我们把它分为了计量资料、计数资料、等级资料,三大类型。 在研究过程根据我们所得到的这些数据来进行一些个统计的分析和处理,根据我们观察到的样本的数据、样本的特征,来研究

8、和得到一些个结论,这就是我们在说统计当中的资料的一个特征。那么我们回过头来去想一下,在我们学过的统计学当中最基本的概念是什么,我们才能够把设计做得完美,才能够把我们的数据、统计和分析的准确。那我们回顾几个基本的概念,第一我们说是总体,什么叫总体呢?根据研究目的所确定的性质相同的所有个体的某种变量值的集合,我们把它称为是总体。那么举一个例子,比如说:调查某地1999年正常成年男子的红细胞数,那么调查这个红细胞数它的观察对象,是这个地区1999年正常成年男子。观察的单位,也就是我们统计研究当中最基本单位,我们把它叫做观察单位,那么这个观察单位可以是一个人、一个家庭、一个地区。那么观察值我们又在统计

9、上又把它称为叫变量值,从数据这个角度我们把它叫做变量值,那么每一个人测得的红细胞数就是一个变量值。假如说我们研究的是某地这些个调查的人群是正常成年男子的红细胞数,这个红细胞数构成了一个总体。那么我们所要做研究的时候,应该说它有一个同质基础,那么首先是同一地区、同一年份、同为正常成人、同为男性,这是我们所要描述样本代表总体时候的这个总体是什么呢?红细胞数构成的一个总体。 那我不可能把这个地区的正常成年男子红细胞数全部抽到,那么我们要用统计学当中的抽样。抽样的目的是说我没有那么大的财力、物力和时间全部调查观察个体,那么我从整体当中随机抽取了部分观察单位的实测值所组成的集合我们把它叫做是样本。那么这

10、个样本的得来我们要有一个很重要的原则,就是随机化的原则。那么所谓的随机化就是说总体当中每一个观察单位均有相同的机会被抽取。那我们就从中抽取了,按照随机化的原则得到了部分观察单位的实测值,那么组成了新的一个集合,这个集合我们叫做是样本。它应该对总体有非常好的代表性。他们对于每一个人的观察值,我们称为是一个个体。 在这个抽样过程当中既然我们说了,你是做的样本抽样,通过抽样得到了一个样本,用样本的指标去反应总体,那么它必然是由于总体当中个体间往往是存在了变异,随机抽样抽取到的样本所得到的指标,也就是说我们代表的这个统计量与那总体的参数可以存在的一些差异。这个差异我们把它叫随机误差。那么随机测量这个误

11、差它是在这个抽样过程当中必然要产生的。 第二个,我们通常讲叫非随机误差。非随机误差是叫系统误差或过失误差。那么非随机误差是由于设计的不严谨,我们测量仪器的不准确,测量者的水平的偏差而造成的,那么叫系统的。很典型的就是说,比如我们去测量正常人的体重、身高,那这个测量仪器反复测量以后,它的弹簧、它的仪器就有磨损,造成了它的这个偏差,要么都偏高、要么都偏低,就叫系统误差。那么还有一些是过失误差,过失误差我们说是人为造成的检查过程当中记录的误差、观察的误差、录入数据的过程当中的录入错误等等,那么这个叫做过失。无论是系统误差,还是过失误差,那么它都是外源性的误差,是可以控制的误差,所以我们通常说非随机误

12、差是可以控制的,而随机误差是个体必然存在的。要想减少随机误差,那么只能扩大样本量。 第四个重要的这个概念就叫参数和统计量,这在学统计和我们在做科研当中一定要清楚的,那么我们通常说反映总体特征的指标,我们称为是参数,叫做总体参数。反映样本特征的指标,我们称为叫统计量,或者叫参数估计值。那么我们所有的统计都是用什么,样本的统计量去估计总体参数。 我们在研究过程当中有了一个完美的设计,有了一个很好的实施现场,有了一个很好的过程去收集资料。这时候我们就在采集,按照我们实验设计的要求去采集、整理和分析我们的资料了。数据的收集和录入是我们在研究当中很重要的一部分,数据的收集有几种格式,我们通常说在临床上或

13、者我们在这个研究当中随时的实验记录,临床的病例,还有我们在医院管理部门的年报、月报等等,这都是我们收集资料的过程。那么数据它的录入现在也是比较现代了,那么现代数据录入的格式也是最常用的,大家习惯用的Excel的录入,还有FoxPro的录入,还有EpiData的录入,那么这些都可以把数据录入到数据库当中,我们要建立一个很好的数据格式。数据录入以后,我们要对数据进行核查,也就是数据的质量到底如何,我们要进行数据的两遍录入或者人工核查,还要做一些逻辑的检查。那么当你数据核查完整以后,我们才可能进行统计分析,去选择正确的统计方法,然后进行统计分析。 那么统计学它最基本的特点是说,由于有很多很多基本的构

14、成元素,那我们把它称为是随机变量。那么你想一下,在个体和个体内会有一些,个体间还有一些这个随机变量。 那么由于我们是用这个样本推断总体,肯定会产生一些抽样的误差,那么无论是我们所得到的这个变量值是连续的,还是定性的,我们都可以来反应统计的样本的特征和样本的描述。那么在有了样本特征之后,我们可以用统计的描述方法,统计的推断方法,对这个样本所代表的总体进行估计。 这是我们通常说在统计当中我们把所有的医学信息归类为我们随机变量,那么这个随机变量分为了三大类。我们又把这个随机变量的资料叫做是统计资料。那么统计资料分成三种类型,一种类型我们把它叫计量资料,一种类型叫计数资料,一定类型叫等级资料。只有把统

15、计资料的类型先弄清楚,你才可能很好的应用统计方法对你的数据进行分析。那么我们在进行分析之前,首先知道我的资料属于哪一个类型。 那么我们说了这个资料的类型分为计量资料,我们有些书上也把它定义为叫定量资料。那么什么叫定量资料呢?用专业仪器测量具有计量单位的测量数据。那么它的表现为数值的大小,这一类资料我们把它叫做是计量资料。那么这里有一个“量”字。比如说身高以cm单位,体重以kg为单位,血压以mmHg或kPa为单位,那么这些都属于是计量资料。它的特点是什么呢?是每个观察单位的观察值之间有量的区别,比如说身高 165cm 到 166cm , 165cm 到的 166cm 这是一个量的区别,但是 16

16、5cm 到 166cm 之间,如果我们测量的精确一点,那我可以测出 165.1cm , 165.2cm , 165.15cm 等等。但是在实际应用当中,我们说身高体重可能都不需要小数点后边两位数,只需要一位就已经够精确了。因为在我们测量的这种度量单位上不需要弄得太精确,它本身是变化的。那么这类资料我们把它叫做计量资料。 另外一类资料,我们称为计数资料,也叫定性资料。那么它的观察值是定性的。表现为互不相容的类别或者属性。那么也就是将观察单位按某种属性或类别进行分组,然后清点各组的观察单位数,那么这种类型的资料在临床上也是非常多的,在我们实验过程当中也是非常多的。那么简单来说,我们人群当中的性别,

17、男性和女性,我们所谓的这个血型等等,这类指标呢我们都叫做是定性资料。那么这类资料它的特点是什么呢?每个观察单位的观察值之间有质的区别,它是没有一个连续性的,我们又把它称作离散资料。 第三类资料,我们通常也叫做计数资料,但是它属于计数资料当中的一个无序分类资料。那么我们把它分成两大块:一类我们叫二项分类,一类叫多项分类。二项分类当中我们检验结果可以是阳性或者阴性,治疗结果可以是治愈或未愈,那么等等,这是相互对立的这样一个属性。多项分类的时候我们通常说血型、职业等等,那么它这些观察结果为互不相容的多个类别,那么表现为两类间或者多类间互相独立的,这类我们叫做是无序分类,啊,无序分类。 有序分类在统计

18、学上又把它称为叫等级资料。它介于定量和定性观察之间的半定量观察结果。它的观察是以某种药物治疗某种疾病的治疗结果,以每个患者为观察单位的话,那么它的观察结果可分为治愈、显效、好转、无效等等。如果以这样四个级别分类的话,那么他们之间是有程度的差别,它是由弱到强或者由强到弱,那么这类资料我们称为叫等级资料,它是有序分类的。 那么在统计上把这类资料都理清楚了,我们才可能应用的方法应用正确了。 在统计学当中,我们通常说资料当中既然分了计量、计数、等级,那么我们去做分析的时候,我们要做什么样的比较呢?对于计量资料来讲,那么它如果是单变量,也就是考察一个变量,那么如果我们做的是样本与总体的比较,我们要看这份

19、资料是不是正态,那么对于它进行正态性的这个检测。如果这个资料是正态的,或者经过转换是正态的,那么这个单样本的U检验,单样本的T检验就是这样一份资料的检验的一个方法。如果经过这个转换,它也不是正态的,那么我们就要选择单样本的U检验或者非参数检验当中的Wilcoxon的符号检验。这是我们说在检验方法上我们要注意的。 那么如果我们要做的这个实验研究过程当中我们要做这个两组的比较。在设计上我们可以设计成配对的设计和非配对设计。我们把配对设计和非配对设计分成两类,所谓的配对设计是在实验前就根据它们有一些属性和非影响因素是相同,然后给予两种处理,我们叫配对实验设计。配对实验设计我们来看的是差值是否是正态的

20、,或者这个差值不正态,经过转换以后是正态的,我们可以选择配对T检验,或者随机区组的这种检验方法。如果这个差值是非正态的,比如说我们在得到了两组这个数据之后,差值非正态,那这个时候我们选择的是配对T检验里边的大样本的方法,那么在STSS和SARS软件当中它都属于非参数检验当中的方法了。如果两个样本比较当中我们没有配对就是说我们随机的在总体当中抽取到了两个样本,那么这两个样本假如它们的正态,变量是正态的,而且方差是齐性的,那我们就可以选择我们通常讲的两样本的t检验、u检验、单因素方差分析。如果我们所得到的这个数据方差是不齐的,而且这个变量本身是非正态的,那这时候我们选择的方法,在统计学上我们把它叫

21、做是选择t'检验,就是近似的T检验。还有做大样本的时候做U检验,那么如果非正态小样本,我们可以用Wilcoxon这种秩和检验。如果我们所得到的这个随机样本反映量为生存时间,或者而且可以经过变量变换的这样资料,那么我们可以选择Log-rank的生存分析。这是从统计学方法上来讲,计量资料两样本的比较,只有两种类型,一个是我实验设计的时候做成了配对实验设计,一个是我的随机设计,我们叫非配对设计。那么它选择的方法略有不同。 在实验过程当中,我们在研究的时候我是多组的实验研究,那么这个时候我们所得到这个数据就是超过两组了,那么超过了两组的时候呢,我们把它叫做是多样本比较。因为你用样本均数去比较总

22、体参数的均数是否相同,所以我们这个时候叫做是多样本均数的比较。那么它的设计上有好多种模型,那最常用的模型第一个叫完全随机设计。那么这个时候我们要看,如果这个随机设计时候的变量是不是正态的,方差是不是齐性的,那么如果方差不齐或者非正态,我怎样去处理呢?那么当你正态、方差是齐性的时候,就要用完全随机设计的方差分析。如果方差不齐而且是非正态,这时候要用秩和检验。如果是正态方差是齐性,而且可以进行变量变换的时候那么可以用Log-rank的生存分析。那么第二个设计呢就是通常我们叫随机区组设计,那么区组设计的目的是什么呢?比如在临床上同样是一组人,入选的时候是糖尿病病人,那么住院的时候来检测他的血糖,在住

23、院观察过程当中每3天测量他一个血糖值,假如我观察了15天,那么每3天一个观察值,加上我们前边的这个入院的时候的血糖值,就有6个时间点。这6个时间点我们可能去观察他的血糖的改变,由于他是同一个人不同时间点上的分析,这一个人的基础数据的变化就不大了,这个时候我们可以选择叫做随机区组设计。那么随机区组设计的资料我们不需做方差齐性检验,因为它基本上都是样本齐性的,方差是齐性的,那么直接选择随机区组的方差分析就可以了。那么另外还有一组设计,我们叫做是重复测量的设计,那么通常这种设计是在研究过程当中比较的是两组区组设计的类型,那么我们用的叫成组测量的设计,那么它选择的方法我们叫做是单样本重复测量资料方差分

24、析,如果是成组的这样的资料我们就选择成组重复测量资料的方差分析,那么这个,在这个做方差分析之前要对他做一个求对称,方差齐性的检验。那么在做方差分析的前三个模型情况下,假如方差是有意义的,相当于各组之间是有差别的,那么这个时候我们要进行两两之间的比较。那么研究者他不仅仅要看:哦,各组之间有差别。就到此为止吗?那么要看两两之间是否有差别,那这个时候我们就要多重比较。在我们软件当中都有这样的设计,比如LSD最小差值法的比较,还有SNK我们叫Q检验,均数之间的检验。这是我们在研究过程当中知道的这样的计量资料的分析方法。 计数资料,就是我们通常说的按照属性,清点个数而得到的资料,那么这类资料它有什么特点

25、呢?同样是在一个总体当中我去进行随机抽样,表达实验效应是以属性分类的,那这类我们叫做是计数资料了。那这个时候我们可能要比较样本总体、样本和总体的率之间有没有差别呀,两个样本的率有没有差别呀,那么这时候我们分成的是样本与总体的率之间的比较,我们通常可以用u检验。可以用基于二项分布的确切的概率法的检验。那么如果是两样本的检验,我们又分成了配对和非配对。如果配对的这种检验我们把它叫做配对 2 检验,那什么叫配对呢?这个配对也是实验研究当中实验设计的时候先设计成是配对的,然后观察它实验结果,那么这个结果的分析叫做配对 2 检验。那么非配对就是我们的随机样本,这个随机样本可以是两个随机样本当中,那么它的

26、阳性是多少、阴性是多少,那么我来比较它们两个里边的阳性率之间有没有差别,这叫技术资料的两样本随机比较。 那么在我们做计数资料的时候,它的这个资料可能有好多种类型。如果我们的分类不是两分类,那么也就像我们前面给大家叙述的,这个计量资料它可以有双向无序,有单向有序,有双向有序等等。那么假如你的资料是一个多格表的,R*C表的。那么这个时候我们把它叫做是双向无序呢,看看我们的资料是双向无序呢,还是单向有序,还是双向有序。根据它的资料的不同类型我们是考虑做多个样本率的比较呢,如果做多个样本率的比较,那我们选择 2 检验,如果是做双向无序关联度的检验那我们做列联表的技术分析。假如这是单向有序,分组变量是有

27、序的,那这时我们用 2 检验。如果单向有序,反应变量是有序的,那我们用的是秩和检验。那么同样,如果是双向有序的这类资料我们大概用的是配对的资料用一种方法,非配对用一种方法,那么这是我们在这个R*C表的这种类型当中。那么由于设计的时候,做的如果是群体的这样分析,就有可能某一个指标不仅仅受到年龄的影响、性别的影响,那么我们要分层。假如我把这个资料进行分层的时候,我们可能做Mantel-Haenszel 2 检验。这是我们从计量和计数资料上来看。 那么假如我们得到的是一个等级资料。什么叫等级呢?我们在前面定义过了,那么也就是说,如果我给的是一个等级资料,是有序的排列,那么可能由弱到强,由强到弱,那么

28、这样的资料假如做两组之间的比较,我们都是用非参数检验的方法。如果多组的比较我们同样在非参数检验方法当中去选择秩和检验。这是我们通常说单变量等级资料。 如果是双变量我们说计量资料是双变量,那么这个时候我们去选择的方法大概是在研究过程当中有不同的研究目的,假如我的研究目的就是想看两个变量之间是否存在相关关系。那么我们看相关关系的时候,那么如果XY都是服从正态分布的,我们通常选择Pearson的直线相关分析。如果我们的这个XY变量不服从正态分布,二元的正态分布,那么我们通常选秩相关分析加spearman相关分析。如果我们研究的目的不是仅仅讨论这两个变量之间的关联程度,比如我们说血糖和胰岛素可能是有密

29、切关联的,那么只想关联程度我们选择叫相关分析。如果我们要看胰岛素是不是随着血糖的升高而在变化,那么它们之间有没有一种依存呢,它增高多少会对这个血糖的影响可以增加多少呢?那这个时候我们要讨论的叫回归关系。那么回归关系呢通常我们说Y必须是一个正态分布量,X可以是控制的变量,X也可以是正态分布量,如果XY都是正态分布量,我们通常在统计学上把它叫做2型回归分析。如果X为控制变量,Y为正态分布量,那么我们通常把它叫做1型回归分析。所以直线,就是线性这种关系当中,一个是相关,一个是回归。那么对于一份资料来讲,存在相关关系不一定存在回归关系,而存在回归关系的一定会有相关关系存在。这是我们通常说线性的模型,那

30、么还有一些这个医学上的数据,它不呈现出一种直线的这种线性关系,而是呈现出一种曲线的关系。那么这个曲线的模型有很多种,有指数曲线回归、幂曲线回归,对数曲线回归、Logistic回归曲线等。那么这些要视资料的不同类型去选择使用。 我们说了相关和回归的应用,研究在专业上有一定联系的两个定量变量之间呈直线关系的密切程度和方向的统计方法,我们称为它的相关分析。那么结合上面的图,我们知道了相关分析可以计算相关计数,可以对相关计数进行检验。那么同时结合专业知识来评价这个相关方法是否有临床实用价值,那么计数资料我们通常是用秩相关。 那么研究在专业上有一定联系的两个定量变量中一个变量随着另一个变量的依赖关系的统

31、计分析方法,我们把它叫做直线回归分析。我刚刚在介绍这个图的时候已经讲过了,那么根据这个变量的个数多少,我们在统计上定义为,如果仅有一个自变量我们叫一元回归分析,如果自变量有多个我们称为叫多元回归分析。如果自变量个数相同,但是同时考察有联系的多个应变量的时候我们称为叫多重回归分析,这是在统计学上它的这个方法学上的一些分类。 按照因变量的性质分类,我们可以分成连续性的变量,如果这个因变量为非时间的连续变量,比如说身高、体重、血压、胆固醇含量等等,那么这个时候我们可以用一元回归、多元回归,可以直线化的曲线回归分析等等。这时候是可以用这样的回归方法去做。但是如果这个因变量,虽然是连续变量是时间变量,比

32、如说患者治疗后的生存时间、复发时间等等,那么这个时候我们要运用的是生存分析当中的回归方法,比如COX半参数回归分析或者特定的参数回归模型进行分析。那么如果这个因变量是一个随着时间变化的连续随机变量,比如说某种流行学的这种发病率等等,那么这个时候我们通常要运用时间序列分析。 当因变量为离散性变量的时候,我们通常说这个Y变量是一个为二值变量,比如说患者经过治疗后在规定的一段时间内存活情况,常分为“生存”、还是“死亡”两种情况。那这个患者经过治疗后在规定的一段时间之内还有可能是复发,比如“复发”、“未复发”等等。那么这个时候呢我们把它叫做是,这些自变量可能是连续变形,那么Y变量呢可能是一个两分类的,

33、那这时候在统计学上可考虑选用多元逐步Logistic回归分析;如果自变量为为多个定性变量,那我们要选用的叫有序变量的多元逐步Logistic回归分析。那么假如说这个因变量为多值有序变量,比如说他这个患者经过治疗后的疗效,分为治愈、显效、好转、无效、死亡等等,还有糖尿病患者经过一段时间治疗后血糖的测定结果可以分为、,等等。那么这个时候我们在统计学上选用的方法叫做有序变量的多元逐步回归,多元逐步Logistic回归。 那么在目前的研究当中,多变量的logistic回归分析呢已成为现代流行病学危险因素研究的一个首选方法。所以在病因和发病因素的研究中,危险因素和疾病的关系是非常非常复杂的,那么各种危险

34、因素之间是可以相互影响的,那么它们对结果的影响大小也不同。 那么在logistic回归模型当中能在复杂的关系当中平衡各种或者多种的混杂因素的作用,进一步筛选出主要的危险因素,并且在决定病因和发病因素当中是有多大的比重,都可以在讨论当中可以讨论出来。 那么第四个问题就是讲在研究当中样本含量的估算问题。我们说了实验设计是非常重要的,实验设计当中一大部分内容是它的设计方法,同时涵盖了它的样本含量的估算,样本含量这个估计分反映科研设计当中“重复”的原则,因为过大过小都有些弊端。样本量过大导致了一些浪费,包括人力、物力、财力的浪费,引入更多的混杂因素,这个时候样本量过大可能混杂因素会增加,对研究结果造成

35、了不良的影响。那么这是大了不好。样本量过小的时候,可能会导致检验效能过低,出现了“假阴性”结果。那么样本含量在这个临床和实验研究、科学研究设计当中是非常非常重要的一个组成部分。 影响样本含量估计的因素有什么呢?我们看在统计学当中,把检验公式做了一个推导,我们在这个过程当中发现有这样四个很重要的要素要知道的。第一类错误的概率是多少?就是我们通常讲的检验水准,那么通常选择 为0.05。第二个就是它的检验效能,就是1- ,或者我们说第二类错误的概率叫 ,是来说明备择假设H1正确的能力, 一般我们把 取成0.1或者0.2,那么 越大,检验效能就越低,样本数量也越小。第三,就是说总体参数,总体参数间的这

36、个差值或者说它的误差,我们把它叫做 ,那么这个是可以通过预试验来估计的,或者根据需要与研究来由试验者规定。通过文献查阅我知道、我要研究的这个指标和以往的调查之间有多大的区别,那么这个时候我们可以进行一些估计。第四个是总体标准差,或者叫总体概率 ,一般是未知的,这个时候也要由预试验、或者查阅文献、估计获得,那么也可以作一个合理的这种假设。 在样本含量估计的过程当中,要注意的事项是:一个是多组设计时,一般要求各组间的样本含量要相等,那么只有在样本含量相等的情况下检验的误差是最小的。第二个,是由于估算样本含量是最少需要样本量,所以在受试者当中可能有不合作的、中途失访的、意外死亡的。那么在实验的过程当

37、中也可能实验的瓶、试皿等等会有丢失、失败的,那这个时候我们要尽量在检验过程当中达到我们最低样本量,那么通常要扩大的10%15%来做我们的这个样本总量,那么才能够保证我们最后需要的样本量。第三个是提高试验效果的一般方法,一般设计缩小总体范围,那么会减少个体变异。 那么我举两个例子。一个样本含量的计算,总体均数的估计。那么通常我们这个公式是大家书上都会有的,我举一个例子来说明它。 比如某医院拟用抽样调查评价本地区健康成人白细胞的数据,它的水平,那么要求误差不超过0.2×109/L。 据文献报道,健康成人白细胞数的标准差为1.5×109/L,问需要调查多少人? 那我们刚才知道,我

38、这个项目当中给出了,双侧u0.05的时候,是1.96,那么它的 是0.2,S是1.5。那么代入到这个公式以后我们计算出是216.1。那么也就是说你要做的是一个样本量的估计,我们要取整数,往上取一点。那么这次至少要调查217名健康成人的白细胞数,才能够得到这个地区的一个平均状态。这是我们举的一个例子。 另外一个例子,比如说已知血吸虫病人血红蛋白平均含量为 9g /100ml, 标准差为 2.5 g /100ml,那么现在研究了呋喃丙胺治疗后能使血红蛋白量增加,那么规定治疗前后血红蛋白量升高 2 g 以上者为有效,升高 1 g 以下为无效,那么求在 为0.05的水平,设计成功率为0.9的情况下,问应该治疗多少人才能够得到我们想要得到的这样一个结果? 那么根据这个例子我们可以把所有的已知条件列在这里,然后代到公式里,计算出来是53.5,那么就可以认为需要治疗54个人。也就是说,以54例进行研究,如果这个药确实有效则有90%的把握得出有差别的结论。这就是样本量估算的这样一个公式。 这是我们在研究当中经常说统计学上经常知道的一些个方法学。那在我们现在的实际工作当中大家知道,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论