版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、科研设计的统计学原则实验设计v实验(Experiment)指由研究者主动地决定给予部分实验对象某种处理,给予另一部分对象某种对照处理的研究设计形式,这种处理的分配常常是随机的。v实验设计(Experimental design)是通过对象的选择、处理因素的合理分配、结果指标的准确测量和恰当的资料分析来提高组与组间非处理因素的一致性,使实验结果有较好的可比性,并且较好地控制误差,用较小的样本获取可靠的结论。实验设计三要素v处理 对象 效应v v降压药 高血压病人 血压值处理v处理(treatment):研究者根据研究目的欲施加或欲观察的,能作用于受试对象并引起效应的因素。v非处理因素:相应的也能
2、使受试对象产生效应的因素,又称混杂因素(confounding factor)。v处理因素要标准化,处理水平始终一致。对象(subjects)v指根据研究目的确定的观察对象(动物或人体),必须具备同质性和代表性v1)动物的选择:种类、品系、年龄、性别、体重、营养v2)人的选择:诊断明确、依从性好,反映主观感觉效应(effect)是处理因素作用于受试对象的反应和结果,通过观察指标表达。指标要求:v1)客观性:主观指标和客观指标。v2)精确性:v 准确度(accuracy):观察值与真值的接近程度,受系统误差的影响。v 精密度(precision):重复观察时观察值与其均值的接近程度,受随机误差的
3、影响;v3)灵敏性(sensitivity):表示指标检出真阳性的能力,可减少假阴性率。v4)特异性(specificity):表示指标检出真阴性的能力,减少假阳性率。实验误差及其特点v在实验中,由于实验对象自身特点、实验条件的变化和实验结果测量的不确定性造成实验结果与真值的差别称实验误差(Experimental error)。根据统计分析上的处理不同,实验误差分成两类:v 随机误差(Random error)v非随机误差 随机误差(Random error)v 随机误差是由大量的、微小的、偶然因素引起的不易控制的误差。如在实验中,温度、湿度、风向、振动、试剂、仪器、操作员等都可能造成结果的
4、偏差。v随机变异是没有倾向性的,在大量观察条件下,随机误差的分布呈标准正态分布。随机误差的规律可以用统计方法分析。非随机误差v又称偏倚(bias)或系统误差(Systematic error)v由于在对象选择、处理因素分配的不随机、测量结果的不准确造成实验结果有倾向性地偏离称之。(无统计规律、可预防、务必控制)v(1)选择偏倚(Selection bias):指在选择研究对象和分组时的非随机化,造成结果的偏倚。如肝癌手术治疗与化疗的疗效比较中,由于手术对象的选择性造成有利于手术组的结果。v(2)信息偏倚(Information bias):指测量方面的误差,特别是主观因素造成的有倾向性的偏倚。
5、如在临床试验中,实验组是在医院测量,对照组是在家中测量。v(3)混杂偏倚(Confounding):指实验组与对照组在一些影响实验结果的非处理因素不均衡造成结果的偏倚。如病情轻重、并发症、辅助治疗和护理等因素不均衡。实验设计的原则 v对照(Control) v随机化(Randomization) v重复(Replication)v盲法(blind method) 对照(Control)指设立对照组以排除非处理因素而显示出处理的效应。v处理组 处理因素+非处理因素=处理和非处理的效应v对照组 非处理因素= 非处理因素的效应v对比 处理因素 =处理效应v对照组设置的三个条件:v对等:除处理因素外,
6、两组对等的非处理因素v同步:两组始终处于同一空间和同一时间v专设:对照组专门设立,一般不能以文献为对照(有时可与“常模”比较)随机化(Randomization)v 随机原则是指“机会均等”,最简单的方法是抽签v随机随便,任何随便都不是随机的v随机化类型v随机抽样:每个个体有同等的机会被抽中v分组随机:每个实验对象分配到不同处理组的机会相同v随机顺序:每个实验对象接受处理先后的机会相同重复(Replication)v重复是指在相同实验条件下进行多次研究或多次观察,以提高实验的可靠性与科学性。v广义地讲,重复包括:整个实验的重复、用多个实验单位进行重复、同一实验单位的重复观察。v决定重复性的关键
7、是样本含量,故常将重复性简化为“样本含量”盲法(blind method)v按实验方案规定,尽量不让参与临床实验的受试者、研究者、医务人员、监视员、数据管理和统计分析人员知道患者接受何种治疗。 v单盲法(single blind)指受试者不知道自己属于试验组还是对照组v 双盲法(double blind)指受试者和试验医务人员都不知道病人属于试验组还是对照组v非盲法(open label): 采用单盲或非盲法试验应在研究方案中申述理由。v盲法的原则应自始至终地贯彻于整个试验之中 针对研究类型选择适当的研究设计 类型目的首选的研究设计治疗研究检验各种干预措施如药物治疗、介入或外科手术的效果随机对
8、照临床试验诊断研究评估新的诊断方法的有效性和可行性横断面调查(须同时进行新方法和金标准方法检验)预后研究了解确诊病人以后可能发生的情况纵向队列研究因果关系研究评估有害因素与疾病发生是否有关队列研究或病例-对照研究,病例报告亦有用筛选研究评估适于大规模人群检验和在疾病呈现症状早期检出该病的各种检查方法横断面调查随机对照临床试验(RCT)n适用RCT解决的临床问题v对某一疾病,研究药物在效果上是否优于安慰剂或另一种药物(对照药)?v新的手术方法是否优于传统方法?v改变生活习惯是否会影响病人血压水平?RCT的优点n在选定的病人组群中,可严格评价单一变量的效果n前瞻性设计n应用假设推导进行推理n消除偏
9、倚:比较基线指标相同的两个组n可作荟萃分析和系统性评价 RCT被认为是临床科研的“金标准”RCT的缺点n耗费又耗时:无法完成、样本量不足、研究时间太短n多数由研究机构或药厂(公司)资助,难免不会影响公正n常使用“替代终点”n可出现“潜在的偏倚” 随机化不完善 未对所有合格病人进行随机化分配 未避免资料评价人员知道病人随机情况n其他 排除标准的偏倚 入选标准的偏倚 不适合进行RCT:n预后研究 适于纵向队列研究n筛查研究 适于横断面研究n“保健质量”研究:尚未确定“成功”标准,适于定性研究方法队列研究 选择2组,暴露于某种特定物质(药物、疫苗、环境致病物等)不同的人群,随访,观察每组发生特定疾病
10、结局或人数。 研究对象为可能发病或不发病者。 关注的是病因,而非疾病治疗适合采用队列研究的临床问题n吸烟导致肺癌吗?n高血压随着时间推移会变好吗?n避孕药导致“乳腺癌”吗?n早产儿在以后的生长发育和学习成绩上情况如何?病例-对照研究 确定有某种特定疾病的病人并与对照组进行匹配,收集其暴露于某种可疑致病因子的资料。 关注的是病因而非疾病治疗。 对于罕见病的研究可能是唯一选择。横断面调查 对某一研究对象中的代表性样本(或病人)进行访问、检查或研究以获得对某一特定临床问题的答案。 资料在单一时间点收集,但可回顾性追溯过去有关健康方面的经历。病例报告 以故事方式描述单一患者病史。可综合形成病例系列,以
11、描述一个以上患有某一特殊情况患者的病史,阐述此种情况的某个方面、治疗情况或对治疗之不良反应。病例报告之优点n可以传递大量在临床试验中或调查中可能丢失的信息n易被普通医师或大众理解n易于完成(数天内)统计工作的步骤v第一步设计(design):v第二步收集资料(collection of data):v第三步整理资料(sorting data):v第四步分析资料(analysis of data):设计(design)v首先明确研究目的, 根据研究目的,从统计角度对资料的搜集、整理和分析全过程提出全面具体的计划和要求,作为统计工作实施的依据,以便用尽可能少的人力、物力和时间获得准确可靠的结论。v
12、 1、明确对象v 2、明确取得原始资料的方法v 3、如何整理资料v 4、计算哪些指标v 5、用何种统计推断方法v 6、预测结果搜集资料v搜集及时、准确、完整地搜集原始资料是统计工作最重要的一步,它直接关系着统计结论的质量。 v统计资料的来源主要有:v1、报表资料。v2、医疗、预防机构的日常工作记录。v3、专题研究实验数据和现场调查资料。整理资料(sorting of data)v整理资料又称统计归纳:是把搜集到的资料进行适当的分组,把性质相同的资料归纳到一起,用表格或图形的方式展示出来,以反映研究对象的规律性。v 1、审核资料v 2、设计分组:质量分组和数量分组v 3、拟整理表v 4、归纳汇总
13、分析资料v分析资料资料的分析过程是通过计算有关的统计指标,对资料进行概括的、全面的描述,以及从样本信息推断总体特征,分析资料就是从获取的资料中抽取有关信息的过程。v 1、统计指标的计算v 2、统计图表的绘制v 3、估计总体参数v 4、进行假设检验v 5、回归与相关v 6、多元分析统计资料的类型统计资料的类型v 计量资料计量资料 v 计数资料计数资料v 等级资料等级资料 计量资料(计量资料(measurement data)measurement data) 通过对观察单位测量取得数值,其值一般有度量衡单位。 如身高、体重、血压、脉搏、白细胞空气中二氧化碳含量等。此类资料具有计量单位,各观察单位
14、常有量的差别。分析计量资料常用平均数、标准差、t检验、方差分析、相关与回归分析等。 计数资料计数资料(enumeration data)(enumeration data) 将观察单位按某种属性或类别分组,然后清点各组的观察单位数。 如性别、血型、民族、职称、某病的治愈和未愈数等。分属于各组的观察单位间有质的差别,不同质的观察单位不能归在同一组内。分析计数资料常用率、构成比、x2检验等。 将观察单位按某种属性的不同程度分组,然后清点各组的观察单位数。 如疗效可分为治愈、显效、好转、无效;尿蛋白化验结果分为-、 + 、+ 、+等。这类资料具有计数资料的性质,但所分各组又是按一定顺序如由轻到重、由
15、小到大排列的。分析等级资料常用率、构成比、秩和检验等。等级资料等级资料 (ranked data)ranked data)医学统计中的几个基本概念 数据与变量 总体和样本 随机化 统计量与参数 抽样误差 概率 变量(variable) 具有变异性的数据称为变量。 1数值变量(numerical variable) :为连续变量,如身高、体重、血压等。数值变量均可通过对观察单位测量取得数值,其值一般有度量衡单位。数值变量资料也称作计量资料。 2分类变量(categorical variable) :可能取值是离散的,表现为互不相容的类别。比如性别、血型、民族、职称等。分类变量资料又称为计数资料。
16、分类变量有两种:无序分类变量和有序分类变量 总体与样本总体与样本 总体(population):是根据研究目的确定的同质的观察单位的某个变量值的全体。分有限总体和无限总体 。 样本(sample):通常是从总体中随机抽取有代表性的一部分观察单位。注意其代表性 和可靠性。抽样误差抽样误差(sampling errorsampling error) 用于描述样本特征的指标称为统计量,而用于描述总体特征的指标称为参数。 我们把由随机抽样引起的样本指标与总体指标的差异称为抽样误差。 由于个体变异的普遍存在,抽样误差是不可避免的。只要遵循随机化的原则,抽样误差的大小就可以用统计方法进行估计。一般情况下样
17、本越大,抽样误差越小,反映事物客观规律的准确性越高,反之,样本越小,抽样误差越大。 概率(概率(probability) 描述随机事件发生的可能性大小的数值称概率。 随机事件的概率随机事件的概率P取值在取值在0 1之间,之间,P越接近越接近1,说明某事,说明某事件发生的可能性越大;件发生的可能性越大;P越接近越接近0,说明某事件发生的可能性,说明某事件发生的可能性越小。越小。 如果某事件的概率如果某事件的概率P=0,表示该事件不可能发生,称其为,表示该事件不可能发生,称其为不可能事件;如果不可能事件;如果P=1,表示该事件必然发生,称其为必然,表示该事件必然发生,称其为必然事件。事件。 随机事
18、件是可能发生也可能不发生的事件。如果某随机随机事件是可能发生也可能不发生的事件。如果某随机事件发生的概率事件发生的概率P0.05,或,或P0.01表示该事件发生的可能表示该事件发生的可能性很小,我们称其为小概率事件。其意义为在一次试验中不性很小,我们称其为小概率事件。其意义为在一次试验中不发生事件。发生事件。 数值变量资料的统计描述 统计图表 统计指标 平均数v 均数v 几何均数v 中位数和百分数均数(均数(meanmean) 均数是算术平均数均数是算术平均数 (arithmetic mean)(arithmetic mean)的简的简称。总体均数用希腊字母称。总体均数用希腊字母( )表示,样
19、本均数表示,样本均数用用( )表示。表示。 1 1、应用条件、应用条件:均数反映同质的一组观察:均数反映同质的一组观察值在数量上的平均水平,样本所代表总体为正值在数量上的平均水平,样本所代表总体为正态分布。态分布。 x2 2、计算方法:、计算方法: (1)直接法直接法 当样本中观察值个数不多时,通常可用直接法,公式当样本中观察值个数不多时,通常可用直接法,公式为:为:式中式中是希腊字母,读作是希腊字母,读作sigma ,为求和的符号。,为求和的符号。 nxx(2)加权法加权法当观察值个数较多时。通常可用加权法,公式为:当观察值个数较多时。通常可用加权法,公式为:式中式中X为各组的组中值,组中值
20、等于该组的上限加为各组的组中值,组中值等于该组的上限加下限之和除以下限之和除以2。 f为各组的频数,它相当于为各组的频数,它相当于权数权数权衡了各组中值由于频数不同对均数的影响,故权衡了各组中值由于频数不同对均数的影响,故本法也称为加权法。本法也称为加权法。nfxx几何均数(geometric mean) geometric mean) 1 1、应用条件、应用条件: 观察的数据是呈倍数关系的资料观察的数据是呈倍数关系的资料 ,采用几何均数,采用几何均数简记为(简记为( G)表示其平均水平。)表示其平均水平。 2 2、计算方法:、计算方法:如果观察的数据个数不多可以采用直接算法。如果观察的数据个
21、数不多可以采用直接算法。公式为:公式为: 如果样本量很大,或只掌握频数表资料可以按下式计算分组资料如果样本量很大,或只掌握频数表资料可以按下式计算分组资料的几何均数。公式为:的几何均数。公式为:)lg(lg1nxG)lg(lg1nxfG百分位数(percentile)(percentile) 百分位数是一种位置指标,用于描述一组观察百分位数是一种位置指标,用于描述一组观察值在某百分位置上的水平。第百分位数以值在某百分位置上的水平。第百分位数以 PX表示表示。 PX 是一个数,其意义是将某变量的观察值按从是一个数,其意义是将某变量的观察值按从小到大的顺序排列,比小到大的顺序排列,比PX 小的观察
22、值的个数占小的观察值的个数占x%,比,比 PX 大的观察值的个数占(大的观察值的个数占(100-x)%。 百分位数用于描述观察值序列在某百分位位置百分位数用于描述观察值序列在某百分位位置的水平,公式为:的水平,公式为: 中位数简记为中位数简记为M M,中位数是一个位置指标,用于中位数是一个位置指标,用于描述一组资料的平均水平,其含义是将一组观察值描述一组资料的平均水平,其含义是将一组观察值按从小到大的顺序排列,位置居中的数就是中位数按从小到大的顺序排列,位置居中的数就是中位数,中位数即第中位数即第50百分位数。公式为:百分位数。公式为: 应用条件为:应用条件为: 分布呈明显偏态;分布呈明显偏态
23、; 分布的一端或两端无确定数值;分布的一端或两端无确定数值; 分布不清等资料。分布不清等资料。中位数(medianmedian))2(50CnfiLpxu极差(R)u四分位间距(Q) u标准差(S)u变异系数(CV)u标准误(SE) 变异指标变异指标 v 极差简记为(R)又称全距。是一组观察值中最大值与最小值之差。 四分位数,简记为(Q)是特定的百分位数,是上四分位数与下四分位数之差。可以看成是全部观察值的位于中间的一半的极差。 Q=P75-P25极差(极差(rangerange)和四分位间距()和四分位间距(quartilequartile)标准差标准差(standard deviation
24、)(standard deviation) 标准差每个观察值到均数的平均距离,总体标准差用希腊字母( )表示,样本标准差用( )表示。1、应用条件:反映同质的一组观察值在数量 上的变异程度,样本所代表总体为正态分布。s2、计算方法:、计算方法:(1)直接法直接法 当样本中观察值个数不多时,通常可用直接法,公当样本中观察值个数不多时,通常可用直接法,公式为:式为:(2)加权法加权法当观察值个数较多时。通常可用加权法,公式为:当观察值个数较多时。通常可用加权法,公式为:1)(1)(222nnXXnXXs3 3、标准差应用、标准差应用v 标准差的大小反应变异程度的大小,标准 差大 ,表示变异程度大,
25、即观察值较分散,反之则表示变异程度小,较集中。v 结合均数确定医学参考值范围。v 结合均数计算变异系数。v 计算标准误。 当两组资料单位不同或均数相差较大时,变异大小不能当两组资料单位不同或均数相差较大时,变异大小不能直接用标准差进行比较,应计算标准差对均数的百分比,即直接用标准差进行比较,应计算标准差对均数的百分比,即变异系数变异系数(coefficient of variation, 简记为简记为CV)。公式为:公式为: 当观察值为统计量时,描述其变异程度的大小用标准误当观察值为统计量时,描述其变异程度的大小用标准误(standard error简记为简记为SE)。)。 公式为:公式为:
26、变异系数和标准误变异系数和标准误%100XSCVnSSxnppSp)1( 计量资料的统计推断计量资料的统计推断 ( (总体均数的估计与假设检验总体均数的估计与假设检验) )v均数的抽样误差与标准误均数的抽样误差与标准误v总体均数估计总体均数估计v假设检验假设检验v抽样研究:由样本推断总体的过程。v抽样误差:由抽样引起的样本指标与总体指标的差异称为抽样误差。抽样误差是不可避免的,但只要样本是随机抽取的,就可以用统计方法来估计它的大小。均数的抽样误差与标准误均数的抽样误差与标准误v均数标准误均数标准误:样本均数变异程度的大小,反映了均数的抽样误差的大小。我们以样本均数的标准差作为衡量均数抽样误差大
27、小的尺度,即均数的标准误。公式为:nSSxv均数标准误和标准差相同,都是说明变异程度大小的指标。不同的是标准差表示的是某变量个体观察值变异程度的大小,而标准误表示的是样本均数变异程度的大小。样本含量越小,抽样误差越大,即标准误越大;反之样本含量越大,抽样误差越小,即标准误越小。根据研究设计类型选择分析方法 成组比较的设计 在成组比较设计中,若是两组比较需要应用t检验或X2检验。多组比较需应用方差分析、行列表X2检验或分级的分析方法。配对设计v把除处理因素外,其他条件基本相似的受试对象配成对子,每对中的两个随机分配到两个处理组。v在同一受试对象上进行两种不同的处理。上述 两种情况其目的是推断两种
28、处理的效果有无差别。v在某项处理前后观察受试对象的某指标值,通过处理前后该指标值的差推断该处理是否有效。v这种类型的设计需要按照配比的t检验,X2检验及配对的病例对照研究方法进行数据分析。重复测量的设计 这类设计方法是在给定一个处理因素后在不同的时间重复测量某一效应变量的改变情况。如欲评价生物制品接种后的免疫学效果,在接种后的2周、4周、6周和8周测定抗体滴度,即为此类设计类型。对于这种设计类型的数据需应用重复测量的方差分析方法进行数据的分析。多因素设计 若在研究设计中有多个自变量,则可根据因变量的性质选择合适的多因素分析方法。如果自变量是数值变量,则可考虑应用多元回归分析方法、协方差分析方法
29、。如果是分类变量,则可选择logistic回归分析方法、判别分析方法及聚类分析方法等。 根据变量的类型选择分析方法v区别与明确研究的因变量和自变量具有重要的流行病学与生物统计学意义,首先它有助于选择拟研究的变量,对调查表的设计具有指导作用。v其次数据分析阶段可以指导数据分析方法的选择及模型的建立。若因变量是分类变量,则常考虑应用分类变量的分析方法,如卡方检验,logistic回归分析等。如果因变量是数值变量,则考虑应用数值变量的分析方法如t检验、方差分析,协方差分析、多元回归等。同时明确自变量与因变量可以建立正确的统计学分析模型。 v因变量应该放在模型的左侧,自变量则放在模型的右侧。v例如欲评
30、价不同治疗方法(口服药物、注射胰岛素及膳食控制)对糖尿病人的治疗效果(血糖水平),在分析时要求调整病人的性别、年龄和病程的影响。对本例的处理需要进行协方差分析,在应用SAS进行分析时,要将血糖水平(因变量)放在模型的左则,而治疗方法或其它协变量(covariate)即性别、年龄和病程放在模型的右侧。又如分析脂蛋白(a)与冠心病发生的关系,则冠心病是否发生为因变量,脂蛋白(a)则为自变量,不可颠倒这种关系。 不同变量类型的数据分析方法选择因变量自变量数值变量分类变量有序变量数值变量相关分析,多元回归分析t检验,方差分析,协方差分析,多元回归分析相关分析,多元回归分析分类变量t检验,方差分析,lo
31、gistic回归分析,判别分析,聚类分析c2检验,logistic回归分析c2检验有序变量方差分析,logistic回归分析,判别分析,聚类分析c2检验,logistic回归分析相关分析,c2检验生存时间生存分析不同研究设计和数据类型的数据分析方法选择 研究设计类型变量类型两组比较两组以上比较实验前后比较重复测量两变量间的联系重复测量的方 差 分析线性回归,Pearson相关系数 数值变量 t检验方差分析配对t检验 分类变量 c2检验c2检验配对c2检验列联表相关系数 有序变量Mann-Whitney秩 和 检验Kruskal-Wallis分析Wilcoxon符号秩和检验Spearman相关系
32、数 生存时间生存分析数据的分析程序 数据的转换1 )非正态数据的变量转换 多数的统计学分析方法是建立在数据正态分布的基础上的,若数据不符合正态分布,则不能够应用参数检验(parametric test)的方法,只能应用非参数检验(non-parametric test)的方法,而非参数的方法不是对原始数据的检验,如秩和检验就是非参数检验方法之一,它是对原始数据的秩次(rank)进行检验,这样可能损失数据信息,降低检验效率 v 在对数值变量进行分析时,需首先根据统计分析方法/统计分析公式的限制性使用条件对数据进行“条件”检验,如正态性检验和方差齐性检验等。很多统计学软件具有方便的正态性检验、方差
33、齐性检验功能如SAS软件等 .若经过检验数据不符合使用条件,就需要进行数据的变量变换,变换后符合条件就可以应用参数检验的方法,否则,只有应用非参数检验的方法。v数据变量转换的方法很多,可以根据数据的分布特征,选择合适的数据转换方法。常用的方法有对数变换,平方根变换或倒数变换等。 2) 分类变量转换成哑变量 若分类变量是二分类尺度及顺序尺度,则可直接应用其原有的数量化数值,但对于名义尺度因为各类别间没有顺序关系,在进行不同分析(包括多元分析、logistic回归、Cox回归等)时,不能使用原始的计算机录入数值,必经进行变量转换。即将该变量转换成(水平数-1)个哑变量,再将这些新转换的变量放入多因
34、素模型中。 t检验的应用条件v两组数据的比较v1样本量比较小(n50)v2样本来自正态总体v3两样本总体方差齐同v当两样本方差不齐时可以采用t检验,变量变换,或者秩和检验。方差分析的应用条件v两组以上数据的比较v1各样本是相互独立的随机样本;v2各样本要来自正态总体;v3要求各个样本的总体方差齐同。多个样本均数间的两两比较vNewmanKeuls检验,亦称StudentNewmanKeuls(SNK)检验,简称q检验。v最小显著性差距(LSD)t检验。协方差分析v定量分析中,进行两个样本或者多个样本的均数比较时,不仅需要使用假设检验判断其差异是否具有统计学差异,还应该考虑他们之间是否存在混杂因
35、素(协变量)的影响。若存在协变量,则应该通过协方差分析进行校正。协方差分析是定量变量分析中控制混杂因素的重要手段 影响观察指标的其他非研究性因素(混杂因素)在统计分析中又称之为协变量;考虑协变量影响的方差分析即为协方差分析。协方差分析是解决以上问题的分析方法,它将线性回归与方差分析结合起来,检验2个或者多个修正均数之间有无差别的假设检验方法。一般是先用直线回归的方法找出各组因变量与协变量之间的数量关系,求得修假定协变量相等时的修正系数,然后用方差分析比较修正均数间的差别。协方差分析的条件1各个样本来自方差齐同的正态总体2各组的总体直线回归系数相同,且都不为0。协方差分析的判别步骤:v1正态性和
36、方差齐性检验;v2判断协变量与因变量有无线性关系;v3判断各组回归直线是否平行。直线回归与相关的区别与联系区别区别直线相关直线相关直线回归直线回归变量地变量地位位变量变量 x 变量变量 y 处于处于平等的地位,彼此平等的地位,彼此相关关系相关关系变量变量 y 称为因变量,处称为因变量,处在被解释的地位,在被解释的地位,x 称称为自变量,用于预测因为自变量,用于预测因变量的变化变量的变化变量性变量性质质所涉及的变量所涉及的变量 x 和和 y 都是随机变量,都是随机变量,要求两个变量服从要求两个变量服从双变量正态分布双变量正态分布因变量因变量 y 是随机变量,是随机变量,自变量自变量 x 可以是随
37、机变可以是随机变量,也可以是非随机的量,也可以是非随机的确定变量确定变量实际作实际作用用主要是描述两个变主要是描述两个变量之间线性关系的量之间线性关系的密切程度密切程度(相关系数(相关系数无单位)无单位)揭示变量揭示变量 x 对变量对变量 y 的的影响大小影响大小(回归系数有单(回归系数有单位),位),还可以由回归方还可以由回归方程进行预测和控制程进行预测和控制 多元线性回归的基本概念mmi ix bx bx bx bb y 2 21 10 事物间的相互联系往往是多方面的,在很多情况下对应变量y 发生影响的自变量往往不止一个 。多元线性回归的目的就是用一个多元线性回归方程表示多个自变量和1个应
38、变量间的关系。标准偏回归系数表示其他自变量固定的情况下,xi改变一个单位,y平均改变bi个单位。多元线性回归的应用条件:23322110)lg(x bxbx bbyv1. 独立性:各观察对象间相互独立。v2. 线性:自变量与应变量间的关系为线性。v3. 正态性:自变量取不同值时,应变量的分布为正态。v4. 方差齐性:自变量取不同值时,应变量的总体方差相等。v5. 当不符合条件时,可对自变量进行变换。 如:v要比较各个自变量对于应变量的作用大小,不能用偏回归系数,因为各偏回归系数的单位不同。必须把偏回归系数标准化,化成没有单位的标准偏回归系数.v消除不同单位的影响后,标准偏回归系数的绝对值越大,
39、该自变量对于应变量的作用越大,但该差别是否有统计意义,也必须经过检验。(2) 对各偏回归系数的显著性检验: F检验与 t检验 1. 计算截距和各偏回归系数。2. 多元回归方程的显著性检验:(1)整个方程的显著性检验:用方差分析。逐步回归分析的基本概念v逐步回归分析的目的是建立“最优”回归方程。v“最优”回归方程是指包含所有对y有显著作用的自变量,而不包含对y作用不显著的自变量的方程。 逐步回归分析的计算方法v 在供选的自变量Xi中,按其对y的作用大小,由大到小地把自变量逐个引入方程, 每引入一个自变量就对它作显著性检验,显著时才引入,而当新的自变量进入方程后, 对方程中原有的自变量也要作检验,
40、并把作用最小且退化为不显著的自变量逐个剔出方程。因此,逐步回归的每一步(引入一个变量或剔除一个变量都称为一步)前后都要作显著性检验,以保证每次引入新变量前方程中只包含作用显著的自变量。这样一步步进行下去, 直至方程中所含自变量都显著而又没有新的作用显著的自变量可引入方程为止。 逐步回归分析在医学研究中的应用及需要注意的几个问题v1方程“最优”问题,实际是精选自变量以求得拟和效果最好的多元回归方程。最优子集回归是选择一种使回归方程拟和最好的自变量,而逐步回归则选择对因变量作用有意义的自变量。要根据研究目的选用适合方法。v2逐步回归主要在医学中用于病因探索,临床疗效分析及控制等。v3线性回归模型要
41、注意正态性,方差齐性和独立性,因变量必须是随机变量等。v4入选变量如果明显地与实际问题的专业理论不一致时,首先检查数据是否有异常点,自变量间有无共线性存在,数据输入是否有误等,要结合专业知识作出合理的解释。v5逐步回归在对大量因素进行分析时,可以先进行聚类分析,然后进行逐步回归。通常,观察单位取变量值的510倍为宜。Logistic回归分析的基本思想回忆: 线性回归分析对因变量的要求因变量因变量y 连续型连续型 服从正态分布服从正态分布胆固醇含量胆固醇含量自变量自变量x数值型数值型 与与Y呈线性关系呈线性关系年龄年龄舒张压舒张压医学研究中经常遇到分类型变量,例如:v二分类变量:生存与死亡有病与
42、无病有效与无效感染与未感染v多分类有序变量:疾病程度(轻度、中度、重度)治愈效果(治愈、显效、好转、无效)v多分类无序变量:手术方法(A、B、C)就诊医院(甲、乙、丙、丁)v这种回归分析问题不能借助于线性回归模型,因为因变量的假设条件遭到破坏。v能否找到一种其他形式的模型y=f(x)来描述分类变量y和x之间依存关系呢? 因为从数学角度看,使得因为从数学角度看,使得x取任意值而取任意值而y仅仅 取取1和和0两个值的的函数不存在。两个值的的函数不存在。v转换为分析y取某个值的概率变量p与x的关系不能直接分析不能直接分析变量变量y与与x的关系的关系Logistic回归模型回归模型Logistic回归分析的分类v按
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农药制造中的职业培训与技能提升考核试卷
- 时尚品牌的市场营销通路与推广考核试卷
- 医药制造业的物料供应链优化考核试卷
- 电气机械设备的智能维修与故障恢复考核试卷
- 《基于机器学习的用电异常分析模型的研究与应用》
- 2024年某矿山资产股权转让协议
- 《证券内幕交易主体制度研究》
- 《晚清异域游记传播研究》
- 城市轨道交通与城市钢铁材料业的整合考核试卷
- 《环状RNA对半滑舌鳎卵巢成熟调控机制的初步研究》
- JJG 270-2008血压计和血压表
- 中职数学《平面的基本性质》课件
- 尘肺病的知识讲座
- 《上海车展报告》课件
- 大学生生涯规划与职业发展智慧树知到期末考试答案2024年
- 消毒供应室护理查房
- 年产十二万吨天然橙汁食品工厂设计样本
- 消防安全与建筑设计的结合
- 短波治疗仪的
- 北师大版数学三年级上册全册分层作业设计含答案
- abs的造粒工艺要求
评论
0/150
提交评论