临床试验中的统计学知识

上传人：活*** IP属地：宁夏上传时间：2021-11-28 格式：DOC 页数：18 大小：132.50KB 积分：11 举报 版权申诉

已阅读5页，还剩13页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、数据统计方法与临床试验方案5. 1. 1统计在新药临床试验中的重要作用医药产品的有效性和安全性最终应当由按照gcp原则实施的临床试验來确证。在临床试验的设计和分析中，统计学家起着必不可少的重要作用。gcp、gmp、glp、grp和gvp都与统计有关。统计学是一门处理来自群体或个体的大量资料的科学，也是处理资料中变异性的科学和艺术，其目的在于取得可靠的结果。例如，一个医生偶然发现一例患偏头痛病人在喝了橙汁以后感觉有所改善，但这并不是说从这单一个病例观察就可以认为橙汁是治疗偏头痛的有效方法。医生需要统计学资料证明，是否有一组病人在服橙汁后报告症状改善者比釆用其他治疗后更多。乂如一个每天吸

2、烟50支且嗜酒的人活了 95岁并健康良好，但人们不能相信他的习惯能导致健康和长寿。个体对疾病的敏感性变异很大。要研究这些问题，就应当研究不同生活习惯的人群组的发病率和死亡率；也就是说应当进行统计学研究。收集数据、并用统计图表或简单统计量来描述资料的特征称之为描述性统计。但统计学的任务远不止于此，统计学可以通过仔细制订试验计划來提高数据质量；统计推断方法则是从所研究问题的大量数据中得出结论的主要客观手段。应当明白，统计学是在收集、归类、分析和解释大量数据的过程中完成使命的。如果在试验设计阶段不考虑统计原则，所获结果的统计分析不管做的如何精巧都挽救不了一个设计糟糕的临床研究这是一个必须

3、执行的基本原则。表8可能导致临床试验失败的原因可以控制的因素较难控制的因素研究计划耍解决的问题目标目标人群研究的顺序性研究人员选择试验设计试验假设随机化盲法试验对象的入选/排除标准受试者基线值变异剂量选择终点指标测定样本大小数据分析方法结果的解释操作性变量入选速度缓慢中途退出受试者的依从性执行错误不严格遵循剂量方案入选了不合格受试者试验过程中合并用药测量的变异编码错误在新药研制过程中，按科学原则进行的临床试验是评价一种新治疗方法的有效性和安全性的惟一可靠的基础。一个临床试验，如果不能恰当地评价试验药物的安全性和/或效性，不能提供关于新药的最好使用方式的充分信息或者提供了误

4、导信息，因而不能对药物的研制、管理、上市和安全有效地使用做出有益贡献，那么这就是一个失败的临床试验。可能导致临床试验失败的原因很多，有些原因是可以控制的，有些则是较难控制的。其中试验设计对于临床试验的成功与否起着极其重要的作用。试验假设邙ii性对照）选择不当，随机化及盲法不规范，入选/排除标准过严或过宽，受试者基线值变异大，药物剂量选择不当，终点指标选择及测定吋i'可不妥, 样本数太小，数据分析方法不恰当都可能导致临床试验失败(表8)。gcp对生物统计学的要求包括四个方面：统计学设计，统计分析计划，临床和统计学报告，以及数据处理。与临床试验其他专业人员合作的临床试验统计人员的作用

5、和责任是确保在支持新药研制的临床试验中能恰当地应用统计原则。5. 1. 2统计学与试验设计临床试验按其日的大体可分为： ''验证性(confirmatory) 试验和''探索性ploratory) 试验，验证性试验是控制良好的试验，总是预先定义与试验目的直接有关的关键假设，并且在试验完成后对此进行检验。验证性试验必须提供疗效和安全性的可靠证据。新药临床试验中大部分是确认性试验。但一个临床试验常具有验证性和探索性两方面。对于每一个支持上市申请的临床试验，所有关于设计、实施和统计分析的要点应当于试验开始前在试验方案中写明。试验方案中的统计学设计包括：试验设

6、计，样本大小的确定和为避免偏差而采用的技术。5. 1. 2. 1 平行组设计(parallel design)验证性试验的最常见设计是平行组设计。受试者被随机分配到两个(或多个)组中的一个，每个组接受不同的治疗。治疗包括一个或几个剂量的研究产品，以及一个或多个对照(如安慰剂和/或阳性对照)。这种设计最有效，其假定比其他设计简单，有明确的有效性结果，完成研究时间较短。但是，这种设计需要较大的样本, 有较大的受试者变异，比较复杂。试验的某些特点会使结果的分析和解释复杂化，如协变量问题、在一段时间内的重复多次测定、设计因子之间的相互作用、违反设计等等。5. 1. 2. 2 交互设计 (cro

7、ssover design)在交叉设计屮，每例受试者被随机分配到两个或多个治疗序列屮的一个，其自身在治疗比较屮作为对照。这个简单设计的吸引力在于它减少了受试者例数。在最简单的2x交叉设计屮，受试者按随机顺序在两个连续的治疗周期(间隔一个洗脱期)中分别接受两种治疗。这种设计可以扩大到对象在n (>2)个周期接受n种不同治疗。交叉设计的优点是所需受试者数较小，消除了受试者间变异。但是，除了试验时间较长、序列效应和周期效应需作分析以外，交叉设计存在许多可能会使其结果无效的问题，主要是可能带入延期(carryover)效应。在2x2设计屮，由于缺少把握度(power),统计学上不能从治

8、x周期相互作用项来鉴别延期效应。使用交叉设计时很重要的是避免延期效应。要做到这一点，在设计时必须对疾病和新药有足够的认识。所研究的疾病应当是慢性病且病情稳定；药物的作用在治疗周期内应当充分展现。洗脱期要足够长，以使药物的作用完全消退。交叉设计要注意的其他问题还有受试者出组造成的分析和解释的复杂性；潜在的延期效应可导致对发生在后一治疗周期的不良事件认定的难度。通常2x2交叉设计用于证明同一药物两种制剂的生物等效性试验。在这一特例中，受试者是健康志愿者。只要洗脱期足够长，延期效应不可能发生。但是，在试验中仍要在每个治疗周期开始时进行测定，没有检测到药物即可确认没有延期效应。5. 1.

9、2. 3 析因设计(factorial design)析因设计通过不同的治疗组合对同时评价两个或多个治疗。最简单的例子是2x2析因设计，受试者被随机分配到两种治疗(a, b)的4种可能组合中的一个：a, b, ab,无a无b。这一设计在多数情况下系用于检查a与b的相互作用的特殊目的。如果根据主效应计算样本数，统计检验可能缺乏把握度检测相互作用。如果该设计用来检查a和b的联合作用，特别是一起使用两种治疗吋，要特别注意样本数的问题。析因设计的另一重要用途是确定同时使用治疗c和d的剂量反应特征。设c有m个剂量水平（通常包括零剂量、安慰剂），治疗d有n个剂量水平，那么完全析因设计包含了 mxn个

10、治疗组，每个接受不同剂量的c、d组合。反应面（response surface）的结果估算有助于鉴别合适的临床使用剂塑组合。5. 1. 2. 4多中心临床试验多屮心临床试验是一种实践上可被接受、且更加有效地评价新药的方法。它的优点是可以在合理的时间内招募足够多的受试者，而且多中心临床试验为其研究结论的普遍性提供了良好的基础。一个多中心临床试验要成功，必须采用同样的试验方案并严格按此实施临床试验，需要有尽可能完善的实施临床试验的标准化操作程序（sop）。样本大握度的计算通常是假定各中心所比较的治疗差异是同样数量的无偏差估计，多中心试验应当避免各中心招募的受试者人群特征变化过大以及样本量

11、过小的中心，以降低治疗效果的不同权重估算的差异。每个中心必须有一个主要研究人员负责本中心的研究工作符合设计要求，试验前集中对各中心人员进行必要的培训，实施试验过程中的质量控制。多中心研究中，研允人员可能从一个医院入选对象，也可能一个研究人员从几个协作医院入选受试者。因此，试验方案中应该对中心有明确的定义（如指研究人员、医院或地区），多数场合中心以研究人员来限定。如果每个中心有相当数量的受试者，在分析多中心研究的主要治疗效应时，要考虑中心间的均匀性。5. 1. 3临床试验中的有关考虑5. 1. 3. 1避免偏差的技术（1）育法采用盲法技术是为了防止由于对于治疗的了解而引起的有意识和无意

12、识的在实施和评价临床试验中的偏差。因此，盲法的基本目的是在发生偏差的机会过去z前防止识别接受的是何种治疗。%1 单盲试验受试者或研究人员/工作人员一方不知道所接受治疗。%1 双盲试验受试者和参加临床试验或临床评价的研究人员或屮办者方工作人员均不知道也不能识别对象接受了何种治疗的称为双盲试验。在试验实施过程中一直保持盲态。只有在试验结束、完成数据清理、数据已达到可以接受水平并且”锁定“后方可由指定人员揭盲。要达到理想的双盲会遇到一些问题：如完全不同的治疗（手术和药物）；两种药物剂型不同，而改变剂型如胶囊可能会引起药代动力学和/或药效动力学特征的改变，从而需要确定制剂的生物等效性；两种制剂

13、的给药方案可能不同，等等。在这种情况下，可采用”双模拟n （double-dummy）技术。即为每一种制剂，如a、b, 准备一个一模一样的安剂，受试者接受a （活性）+b （安慰剂）或a （安慰剂）+b （活性）。但是，由于明显的治疗效应，某些双盲临床试验仍会遇到问题。在这种情况下，对研究人员和有关人员加盲可改善盲法，即所谓三盲试验。（2）随机化随机化为在临床试验中受试者接受某种治疗引入了审慎的机遇成分。它为以后的数据分析提供了一个坚实的统计基础。随机化所产生的治疗组，基线中已知和未知预后因子（prognosticfactor）的分布相仿。随机化与盲法相结合，会大大有助于避免在指定治时

14、由于可预见性所引起的选择和分配受试者的可能偏差。与无限制的随机相比，区组随机有两个优点：有助于增加治疗组间的可比性（尤其是受试者特征随时间可能变化吋），和保证治疗组有几乎相同的受试者数。但要注意区组长度不宜过长也不宜过短，过长可能会产生不平衡，过短则会使区组末段的分配有可预见性。多中心试验的随机化程序应当以中心为单位。各个中心有各自的随机表，但应该是完整的区组。表9影响样本大小的因素因素对样本大小的彩响治疗组数目公式计算的是每个组所需耍的例数结果变量的测定连续变量或（转化为）两分变量预期受试者随访时间随访时间长则事件发生率高，对给定的a、b，所需例数较少备择假设双侧或单侧可检测到的治疗差异必

15、须符合实际。差异大则所需例数少所定的i类ii类错误通常取av|l适用于：对照治疗己经广泛应用fl安全有效；试验药物为新药。a与b越小，所需例数越多受试者分配比通常取各组例数相同。当有其他冃的时，或为了提高精确度（降低方差）时，取组间例数不等同。如个治疗组与一个对照组比较时，可取对照组例数为治疗组的（）1/2上标倍。预期的失访率样本数应根据失访率相应扩大预期的治疗不依从率药物暴露不足或过量；受试者/医生不遵循设计方案规定，例数应增加基线变量的分层程度分层后亚组的受试者数减少多重比较按多个治疗组比较多个终点有-个主要结果、多个次要结果。样本大小通常按主要变彊计算。有时对每个结果变虽计算所需样

16、本数，取最大样本数。5.1.3.2试验样木暈的确定临床试验应当有足够功效（把握度）检测不同治疗z间的差界。样本应当足够大才可以对所提出的问题做出可靠的回答。一个临床试验的样本大小是市研究目的、反映研究目的的研究假设和市此导岀的统计检验所确定的。样本量通常是根据试验的主要目的计算的。如杲样本大小根据其他变量，如安全性变量或次要目的计算, 应当在设计书中有清楚说明并给出理由。（1）影响样本大小的因素在计算所需样本量之前，下列各项应有明确的定义：主要变量；试验数据的统计检验；零假设和备择假设; i类和ii类错误；计量数据的差值、标准差和参考值；计数数据的率。下而介绍3种常用的计算临床试验样木大

17、小的方法。计算所得的是每组所需受试者例数。考虑到试验中受试者因不良事件退出的比例，实际筛选受试者数还需根据估算的比例增加。在计算临床试验样木大小时要考虑的因素和它们的影响简列于表9。（2）样本大小的计算%1 试验的结杲变暈为定性的两分（值）变量。式屮，pl:为对照标准治疗的成功率。p2：为试验治疗的成功率。a：为检测治疗差异的c2显著性检验水平，通常取0.05o1-（3：如果差异p2-p1存在，检测到这种差异的把握度或功效。a通常又称i类错误，即当实际上两种治疗同样有效时，检测到有显著差界的概率，相当于假阳性率。p 通常又称ii类错误，即当差异p2-p1确实存在时没有检测到这种差异的概率，相

18、当于假阴性率。f （a, 3）: a和b的函数。其常用值列于表10。表10用于计算所需受试者数公式中的f （a, p）值b（ ii类错误）0.050.10.20.50（ i类错误）0.110.88.66.22.70.0513.010.57.93.80.0215.813.010.05.40.0117.814.911.76.6例：观察（降血胆固醇药）预防胆固醇升高者的缺血性心脏病的随机临床试验，安慰剂对照。根据资料，对照组的缺血性心脏病的年发病率为1%。研究希望检测5年中用安妥明组的缺血性心脏病发生率比对照组降低1/3,设定i、ii类错误水平分别为a=0.01和b=0l，求所需受试者例数。例中

19、由于该研究没有可能重复，因此选定的显著性水平比较严格（pvo.ol）是必要的。对照组缺血性心脏病的年发生率1%,因此5年中为5%,即pl=5%； p2=3.3%o%1 试验的结果变量为定量（连续）变量。式中，pl：对照标准治疗的均值。|j2：另一治疗的期待均值。s：标准差。 f （a, p）为a和（3的函数。例：评价孕妇补充vitd防止婴儿低血钙的临床研究。从以前未用药妇女资料中可得血清钙均值为 9.0mg/100ml,标准差为1.8mg/100ml选择显著性水平a=0.05, l-p=0.95o考虑被vit d后孕妇血清钙水平提高到9.5mg/100ml,求所需受试者例数。注意，以上两个

20、临床试验目的都是希望确证一种治疗（试验组）明显好于另一种治疗（对照）。%1 生物等效性研究中交叉设讣的受试者例数讣算我国新药审批办法规是，四类新药需进行生物等效性研究。生物等效性研究的试验目的是比较一种产品的两种制剂（试验制剂和参考制剂）的生物利用度，并根据吸收速率和吸收程度判断其生物等效性。试验的主要假设是两种制剂的平均生物利用度的差异是否有一定把握落在参考制剂均值的±20%范围之内。为此目的，根据试验药物的性质，一般采用交叉设计，在某些情况下亦可以釆用平行设计，如当受试者间变异小于受试者内变异药物有潜在毒性和/或消除半衰期长，研究人群包括重病人，增加受试者例数的花费远低于

21、增加一个治疗周期的费用吋可考虑。下面介绍生物等效性研究中交叉设计的受试者例数计算，并且试验假设为ho：生物等效；ha：生物不等效。根据生物等效性的双向单侧统计检验程度，每个序列所需受试者数为：cv由先前的研究或参考资料获得。当a=0.05, 1-3=0.90根据上述公式计算的双单侧检验程度所需受试者例数列于表11。表口双单侧检验所需受试者例数(a=0.05, l-p=0.90)cv(%)0=(|jt-pr) /pr0%5%10%15%101010207012101428100141418361361616224617818202858224202432702762228408633424

22、344610039626405411846628446213654030527015661832588017870434669020079436721002248903880112250992409012427610985. 1. 3. 3统计学分析计划根据ich的要求，一个临床试验方案屮应该有专门的统计段落描述数据的主要统计分析方法。随后，统计分析计划可写成一个独立的文件。它是对试验方案中描述的分析原则的更加技术性和详细的说明，包括关于主要变量、次要变量和其他数据的详细的可执行的分析程序。临床试验结果应当依据方案中规定的分析计划进行分析；如果试验方案有所修改，应该在报告中说明。对于盲法

23、试验，在揭盲z后所作的任何变更都要在临床和统计报告中说明变更的理由。统计分析计划的内容应包括：分析研究的人群，疗效与安全性评价的主要变量、次要变量，统计学方法，缺失数据的处理，结果的表达，亚组分析(如果有)等。(1)分析研究人群所有进入随机化分组的受试者(intenttotreat)。接受试验药物治疗的所有随机化受试者。遵循研究设计方案的受试者(per-protocol)安全性/耐受性分析的受试者。(2) 要比较的治疗组(3) 主要变量和次要变量主要变量是；临床意义上最重要的变量，其与试验的主要目的直接相关。一般应该只有一个主要变量。如充血性心力衰竭治疗试验屮的死亡率；高血压治疗试验屮的

24、舒张压；避孕药临床试验中的妊娠率等。对于主要变量在试验设计中应作限定。在分析计划中要说明主要变量的测定方法、测定时间点、是否作数据转换等，以及测定程序的有效性。次要变量可以是有关主要目的的辅助测定，也可以是关于次要目的的测量。对次要变量的数目应当限制。(4) 统计学方法必须阐明统计显著性是采用单侧或是双侧检验，特别是采用单侧检验时应充分说明其理由。应当说明检验假设和为满足试验主要目的需要估算的治疗效应。描述要完成这些任务对于主要变量(也包括次要变量)所采用的统计方法。基本统计模式应有清楚说明。只要可能，估算治疗效应要以可信区间表示，计算可信区间的方法应予以说明。使用基线数据以改善精

25、确度或调节潜在的基线数据的差异，如采用协方差分析，对其目的应有说明。此外，应该说明主要和次要变量的辅助分析方法，以及其他数据的分析方法，如安全性数据。在统计分析计划中并应列出相应的分析程序。(5) 缺失数据在临床试验屮，各种类型的违反方案、屮途退出试验和数据缺失都可能影响完满的分析。在统计分析计划中应该写明发生这些问题时在数据分析中的处置办法。(6) 结果的表达可采用均数、标准差；最小值和最大值；累积百分率；各种图、表等。只要可能，估算治疗效应要以可信区间表示。(7) 亚组分析列出那些预期会对主要变量有重要影响的协变量和因子，考虑为改善精度在分析时如何计算，以及如何弥补治疗组z间的不

26、平衡。应当特别注意中心和主要变量的基线值的影响。在大多数情况下，对于亚组或相互作用的分析是探索性的，一般应当反映治疗效果总的一致性。(8) 统计分析计划的修改统计分析计划如有变更，应在报告中作出说明。包括修改的吋间和原因；修改的内容陈述；负责修改的人或组；可供分析数据的性质和内容。在盲法试验揭盲z后所作的变更，需要在临床和统计报告中描述并说明其合理性；对报告中将要讨论的结果的解释所产生的影响要给予说明。在揭盲之后就不能再接受下列变更：主要变量、从领先确定人群中剔除受试者和处理缺失数据的原则。临床试验数据分析要点5. 3. 1分析对象的数据集 5. 3. 1. 1 全样本分析(full

27、analysis set)计划治疗原则（intention-to-treat）是指主要分析应当包括所有进入随机化的遵循这一原则需要对所有随机受试者完成随访得到试验结果。由于各种理由，这在实际上是难以达到的，因此，全样木分析是尽可能接近于包括所有随机受试者，在分析中保留最初的随机化对于防止偏差和提供安全的统计检验基础很重要。在许多场合，它提供的对治疗效果的估算很可能反映了以后的实际观察结果。从分析屮剔除已随机受试者的情况不多：包括不符合重要入选标准，一次也没有用药，随机化后没有任何数据。从分析中剔除不符合入选条件受试者必须不致引起偏差：入选标准的测定是在随机化z后；违反合格标准的检测是

28、完全客观的；所有受试者都受到同样的合格性调查；各组实行同样的入选标准，凡违反者均被排除。5. 3. 1. 2遵循研究设计对象（per protocol set）nper protocol-对象组，有时称之为”有效病例“、”有效样本“或”可评价受试者样本；定义为全部分析样本屮较好遵循设计书的一个受试者亚组：完成预先说明的确定治疗方案暴露。得到主要变量的测定数据。没有违反包括入选标准在内的重要试验设计。从”有效受试者“组中剔除受试者的精确理由应当在揭盲前就充分限定并有文件记载。为得到“有效受试者”而排除对象的原因和其他一些违反研究设计的间题，包括对象分配错误、试验中使用了试验方案规定不能用的药

29、物、依从性差、出组和数据缺失等，应当在不同治疗组之间对其类型、发生频率和发生时间进行评价。5. 3. 1. 3不同的分析（受试者）组的作用在验证性试验中，通常进行全样本和”有效受试者“两种分析。这样可以对两者之间的任何差别进行明白的讨论和解释。有时候可能需要计划进一步探究结论对于选择分析受试者组的敏感程度。两种分析得到基本一致的结论吋，治疗结果的可信度增加。但是要记住，需要?quot;有效受试者“中排除相当数量受试者会对试验的总有效性留下疑点。在优越性（superiority trial,证明新药比标准对照药物优越）试验、等效性试验或不差于（noninferiority trial,确

30、证新产品与对照药物相当）试验屮，这两种分析有不同的作用。在优越性试验屮，全样木分析用于主要的分析可以避免”有效受试者“分析对疗效的过于乐观的估算；全样本分析所包括的不依从受试者一般会缩小所估算的治疗作用。但是，在等效性或不差于试验屮使用全样本分析通常是不谨慎的，对其意义应当非常仔细考虑。5. 3. 2缺失值和线外值（包括异常值）缺失值代表临床试验中一个潜在的偏差来源。因此，在实施临床试验时应当尽最大努力符合试验方案对于数据收集和数据管理的要求。对于缺失值并没有通用的处理办法，但只要处理方法合理，特别是如果处理缺失值方法在试验方案中预先写明，则不会彫响试验的有效性。当缺失值数目较大时，

31、要考虑分析结果对于处理缺失值方法的敏感程度。线外值（包括异常值）的统计学定义在某种程度上带有随意性。除了统计学判断之外加上医学判断以鉴别一个线外值（包括异常值）是最可信的方法。同样，处理线外值（包括异常值）的程序应当在方案中列出，且不可事先就有利于某一个治疗组。5. 3. 3数据的类型、显著性检验和可信限在临床试验中，对每个受试者可收集3种数据：所接受的治疗、对治疗的反应（response）和进入试验时影响预后因子的基线值。接受同样治疗的受试者构成统计分疗组。对治疗的反应基本上有3类。%1 定性反应。根据预定的评价标准将受试者分为若干类別，如高血压治疗的“有效”。”无效”；淋巴细胞瘤化

32、疗的”完全缓解“、”部分缓解“、”无变化”。%1 定量反应。当存在一种可靠测定方法时，受试者的治疗结果最好采用实际数值，如舒张压。但最好同时记录其基线值，以便评价治疗前后的变化量值。%1 到某事件发生的时间。如使用避孕药受试者从开始治疗到意外妊娠的吋间。5. 3. 3. 1数据的描述性统计在开始分析z前，有必要先看一下各组受试者的每个变量观察值的分布频度，以对变量有一个感性了解；从最大值和最小值也可以发现可能的错误和超范围的值；决定某些变量是否需要作某种转换；或按某种特定分布作统计分析。%1 定性数据需要记录各治疗组的受试者总数和在每个反应类别的受试者数，然后转化为比率或百分率或直方图

33、、圆图等表示。采用c2检验、fisher精确检验比较所观察到的组间率的差异的程度。%1 定量数据计算每个治疗组的平均反应（均数、儿何均数）和变化程度（标准差）。以均值、标准差、直方图、累积频数分布图表示。在受试者数较小吋，可以用图表显示每个受试者的确切反应。组间比较采用t检验、f检验等。当样本值频数图呈偏态分布吋，用均值描述定量反应不合适，可采用中位数、四分位数来描述数据的定量水平。组间比较可采用非参数方法。5.3. 3. 2显著性检验显著性检验的真正含义是应用概率理论计算如果两个治疗实际上同样有效时得到所观测到的治疗差异的概率。其目的是评价一个治疗真正优于另一个治疗的证据有多强。这种

34、证据的强度用概率，即p值来定量。因此 p值越小，治疗差异由于偶然发生的可能性越小。在实践中，人们常用p<0. 05. p<0. 01、p<0. 001表示显著性检验的结果，这些水平的选择是完全随意的，并没有数学或临床的理由。在解释显著性检验时要注意以下儿点：一个小的p值如p<0. 05并不是一种治疗优越的绝对证明，每 20个真正阴性试验会出现一个假阳性结果；p>0. 05也并不证明两治疗同样有效，差异可能实际上存在，只是现有数据不足以证明它存在。统计显著性并不等同于临床重要性，一个10万人的试验屮，1%的反应率差异在5%水平是显著的，但在一个20人的试验屮4

35、0%的差异在统计上也是不显著的。因此，临床的意义必须用差异的大小，即可信限来评价。双侧检验和单侧检验：假设治疗差异可以发生在任一方向时，为双侧检验。双侧检验的零假设为ma=pb；备择假设为palpb。如果在试验之前就确定治疗a不可能差于治疗b,为单侧检验。其零假设为|ja=|jb；备择假设为pa>mb.此时显著性检验评价a好于b或a相当于b的证据。若结果是a比b差，便归于机遇，因为 a不可能差于b。结果是单侧检验的p值为双侧检验的一半。也就是说，单侧检验比双侧检验容易拒绝零假设。采用单侧检验应该有足够的依据。如果试验设计中决定用单侧检验，在结果表示时要注意一般统计软件计算的都是双

36、侧检验的p值。5. 3. 3. 3可信限的估算显著性检验只告诉我们一个治疗比另一个好的证据的强度，并没有告诉我们好多少。因此，显著性检验并不是分析的终结，还应运用统计估算方法，如可信限估算治疗改善的量。计算可信限时，应注意被分析变量的统计分布；标准误和可信限的计算方法应该写明。记住必须提供治疗效应大小的统计估算、显著性水平和可信区间。100 (1-a) %可信区间，正态分布估算值可表示为估算值+na/2xse,估算值+ (nl-a/2xse) ；差值如呈 t 分布时,可表示为xl-x2- (tl-a/2xsediff) , xl-x2+ (tl-a/2xsediff) 等。5. 34对

37、象的基线水平的组间比较对治疗组的疗效评价只有当各组受试者的基线特征具有可比性时才是有效的。通常，随机化可以提供充分的可比性。但是，随机化并不能绝对保证可比性。有时候组间的基线水平可能会有差异。这种差异对治疗比较的影响应当采用其他程序消除。5. 3. 5调节显著性和可信限水平许多情况都可能产生多重性：例如多个终点/主要变量(如血压记录卧位或坐位的收缩压和舒张压；心肌梗死预防试验中的各种原因死亡率和心肌梗死发病率)，治疗的多重比较(几个治疗组间比较或试验药物的几个剂量组)，及不同时间点的多次测定和中期分析等。存在多重性时，检验主要假设的次数增加，产生i类错误的机会就会变大。分析数据时可能

38、有必要对五类错误进行控制和调节。首先，最好能避免或减少多重性的产生, 如从多个主要变量中鉴别出关键的主要变量(如血压记录取卧位舒张压为主要变量；心肌梗死预防试验取死亡率为主要变量):对反复测定则采用一个综合测量指标如”曲线下面积”。多重比较的常用统计方法有bonferroni 方法、holm法和hochberg方法。bonferroni方法是一个保守的方法，对于成对比较，它调节p值以控制总的 i类误差率。hochberg方法比另两种方法更有效，它只需控制最大的p值小于显著性水平。多个终点的a调节用 bonferroni 方法和 hochberg 方法。5. 3. 6亚组、相互作用和协变量除

39、了治疗以外，主要变量常与其他影响系统相关。主要变量可能与协变量如年龄和性别有关；或在受试者亚组之间可能存在差异，如多中心试验中在不同中心接受治疗。在某些情况下，调节协变量影响或亚组效应是所计划的分析的一个必要部分。耍特别注意中心的影响和主要变量的基线测量值的作用。不要在主分析中对随机化以后测定的协变量进行调节，因为这些测定可能受治疗的影响。此外，治疗效果本身也可能随亚组或协变量改变。疗效可能随年龄而下降，或在具有某一特殊预后因子的受试者中增大。这类相互作用在某些悄况下是可以预见的，或具有特殊的意义(如老年病学)，因此，一个亚组分析或包括相互作用项的统计模型是所计划的验证性分析的一个

40、部分。对于定量反应变量，多元冋归是最常用的统计调节方法，有时也称协方差分析。对于定性反应，可以应用多元lgistic模型。5. 3. 7评价安全性和耐受性5. 3. 7. 1评价范围一个药物的有用性总是在风险和效益之间的平衡。在所有临床试验中，安全性和耐受性评价是重要内容之一。在临床研究早期阶段，这类评价带有探索性，仅注意毒性的表达方式；在较后阶段，则是在大样本对象中更全面地确定药物的安全性和耐受性特征。后期的对照临床试验是以一种无偏倚方式揭示任何新的不良反应的重要手段，尽管此类试验的把握度有限。5. 3. 7. 2变量选择和数据收集在临床试验中，选择评价药物安全性和耐受性的方法和测定

41、取决于一系列因素：药物不良反应的知识，药物非临床研究和早期临床试验以及重要的药效学/药代动力学特征资料，给药方案，被研究对象和研究持续时间。安全性和耐受性的主要数据通常包扌舌临床化学和血液学的实验室测试(如wbc、sgpt),生命指征和体检(如血压、ecg)，临床不良事件(疾病、体征和综合症)。发生严重不良事件和因不良事件屮断治疗对于注册是特别重要的数据。临床试验中使用共同的不良事件编码词典特别重要。这种词典的结构提供了在3个不同的水平总结不良事件数据的可能性：系统器官分类，标准术语(preferred term)和包括术语(included term)。通常，不良事件按标准术语分

42、类总结，相同系统器官分类的标准术语在数据的描述性报告中可以放在一起。现在常用的有世界卫生组织的疾病和有关健康问题的国际统计分类icd-10,和美国的costart5. 3. 7. 3评价的受试者和数据报告安全性和耐受性评价中，所总结的受试者通常至少曾接受过一个剂量研究药物。要尽可能全面地从这些受试者中收集安全性和耐受性变量，包括不良事件的种类、严重程度、开始时间和持续时间，以及处理方法和结果。评价时要注意所有安全性和耐受性变量。所有不良事件，不管它们是否与治疗相关，都应当报告。实验室测定值的单位和正常范围应有明确定义。使用的毒性分级标度(toxicity grading scale)应

43、当预先说明。通常一个特定不良事件的发生率表示为经历该事件受试者数相对于处于危险的受试者数的率。但是，根据需要，被暴露的受试者数或暴露程度(用人年表示)可以作为分母。不管其目的是为了估算危险度还是在治疗组间进行比较，应该在方案屮明确定义，这在计划长期治疗并预期会有相当比例的治疗中止或死亡时特别重要。在这种情况下，应当考虑采用生存分析(survival analysis),计算不良事件累积率以避免低估危当存在明显的症状或综合征基线噪声时，估算不良事件危险度的一个办法是采用“治疗引发” (treatment emergent)概念，只记录与治疗前基线相比时原先没有的不良事件或症状变重的不良事件

44、。减少基线噪声的其他办法还有：不计轻度的不良事件，一个事件在重复随访中观察到才计算。不论采用何种方法，都须在方案中说明理由。5. 3. 7. 4安全性的统计评价在大多数临床试验中，安全性和耐受性结论的陈述多采用描述性统计方法，辅以有助于解释的可信区间计算。用图可表示治疗组内不良事件的类型。计算p值有时也是有用的：可以评价一个事件的差异，或是在大量安全性和耐受性变量中突出值得进一步注意的差别。计算p值对于总结实验室数据特别有用。实验室数据可进行两种分析：评价均值的定量分析和计算高于或低于某一个阈值的数目定性分析。数据录入及分析的质量控制临床试验中的质量保证(qualityassuranee)是指收集、处理和分析研究数据的方法和手段，目的在于维护和加强数据的可靠性和有效性。因此，数据管理应当有完善和有效的标准操作程序(sop),用于数据管理和统计的计算机软件应当可靠。质量保证系统的具体内容包括：编辑程序检查记录表格数据的准确性和完整性；重复实验室测定，检查其重视性(测定方法的有效性)；两次输人数据，检查发现数据录入过程中可能的错误；在多屮心试验屮对不同屮心

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

临床试验中的统计学知识

文档简介

温馨提示

最新文档

评论

临床试验中的统计学知识

文档简介

温馨提示

最新文档

评论

相关文档