科研资料的分析思路(正式).doc_第1页
科研资料的分析思路(正式).doc_第2页
科研资料的分析思路(正式).doc_第3页
科研资料的分析思路(正式).doc_第4页
科研资料的分析思路(正式).doc_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

科研资料的分析思路 预备知识*同质(homogeneity)与变异(variation):严格地讲,同质是指被研究指标的影响因素完全相同。但在医学研究中,有些影响因素往往是难以控制的(如遗传、营养等),甚至是未知的。因此,在实际工作中只有相对的同质。在统计学中可以把同质理解为对研究指标影响较大的、可以控制的主要因素尽可能相同。例如研究儿童的身高时,要求影响身高的较大的、易控制的因素如性别、年龄、民族、地区要相同,而不易控制的遗传、营养以及未知的影响因素可以忽略。同质基础上的个体差异称为变异。如同性别、同年龄、同民族、同地区健康儿童的身高、体重不尽相同;相同病种、病程的病人,使用同一疗法,却未必有相同疗效。这些不同就是变异。变异是生物体的基本属性之一,也是统计研究的前提,若所研究的同质群体中各个观察单位都一样,没有差别,分析一个就够了,无须进行统计研究。* 变量 (variable) 在搜集资料时,首先要根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量。如“身高”、“体重”、“疗效”、“性别”、“职业”等都是变量。变量的观察结果或测量值称为变量值,变量按其值的性质可分为数值变量(numerical variable)和分类变量(categorical variable)。数值变量的变量值是定量的,表现为数值的大小,通常是使用仪器或某种尺度测定出来的,多有度量衡单位。如身高(cm)、体重(kg)、心律(次/分)、住院天数(日)、血压(mmHg)等。由数值变量的测量值组成的资料称为数值变量资料(计量资料或定量资料)。大多数的数值变量为连续型变量,如身高、体重、血压等;而有的数值变量的测定值只是正整数。如心率、白细胞计数等,在医学统计学中把它们也视为连续型变量。分类变量表现为互不相容的类别或属性,亦称定性变量。分类变量又可分为无序与有序两类。1、无序分类变量是所分类别或属性之间无程度和顺序上的差别。如性别(男、女);血型(O、A、B、AB)等。无序分类变量的分析应先按类别分组,然后清点各组的观察单位数,编制分类资料的频数表,所得资料为无序分类变量资料(计数资料或定性资料)。它又有二项分类资料和多项分类资料之分。1)二项分类资料:仅有两种类别或属性。如性别(男、女),化验结果(阴、阳性)等。2)多项分类资料:两种以上的类别或属性。如血型(O、A、B、AB),职业(工人、农民、商人、干部、军人、教师 )等。2、有序分类变量是各类别或属性之间有程度上的差别。如尿糖化验结果按 -、+、+、+分类;疗效按治愈、好转、无效、恶化分组。有序分类变量的分析应先按等级顺序分组,然后清点各组的观察单位数,编制各等级的频数表,所得资料为有序分类变量资料(等级资料)。除以上资料外,医学研究中还有角度(如脑电图)、季节月份、时间等周而复始的资料,在医学统计中称其为圆形分布资料。另外,变量类型不是一成不变的,可根据研究分析的需要进行转化。例如白细胞计数原属数值变量,若按正常、异常分组,则为无序分类变量;若按过低(10000)分组,则为有序分类变量。分类变量也可数量化,如将病人的恶心反应以0、1、2、3表示。在做统计分析时,无论是统计描述,还是统计推断,都要先考虑变量类型,变量类型不同统计方法也各异。* 总体(population)与样本(sample)总体是根据研究目的所确定的同质研究对象中所有观察单位的某变量值的集合。例如对2004年济南市7岁儿童的体重参考值进行研究,研究对象是该市7岁健康儿童,观察单位是每个7岁健康儿童,变量是体重,变量值是体重测量值,该市2004年全体7岁健康儿童的体重值构成一个总体。它的同质基础是同地区、同年龄、同性别、同为健康儿童;差异性则表现在这些儿童的体重值不相同。研究目的不同,其总体范围也不同。医学研究对象,可以是人、实验动物、微生物等;观察单位可以是一个地区、一个家庭、一个人、一只眼睛、一个细胞株、一个基因片段等。若在某特定的时间与空间范围之内,同质研究对象的所有观察单位的某变量值的个数为有限个,则这个总体称为有限总体。有时总体是假设的,没有时间和空间的限制,观察单位数是无限的,称为无限总体。在医学研究中,通常采用抽样研究的方法。样本是按随机化原则从同质总体中随机抽取的部分观察单位的变量值的集合。所谓随机化原则,通常是指总体中的每个个体都有同样的机会被抽到样本中;但不同的研究目的,所采用的抽样方法不同,如单纯随机抽样、系统随机抽样、整群抽样和分层抽样等。在统计学中,描述样本的变量值特征的指标称为统计量;描述总体变量值特征的指标称为参数。 科研资料的分析思路资料的分析必须包括两部分内容:一是统计描述,二是统计推断。分析资料时,无论何种研究目的,首先要对样本资料进行统计描述,然后根据研究目的进行统计推断。一、统计描述根据资料的变量类型及其分布特征选用恰当的描述性指标和统计图(表)来描述样本特征。* 常见的变量类型有:数值变量资料和分类变量资料。1、数值变量资料 根据变量值的频数分布,数值变量资料有正态分布、对数正态分布和偏态分布之分。数值变量资料的描述分布类型描述性指标正态分布 均数和标准差;(必要时,可用、和)对数正态分布几何均数和相应的标准差偏态分布中位数和四分位数间距正态分布含近似正态分布; 对数正态分布含倍数资料(以下同)表中相应的公式:、; 、; 、,其中2、分类变量资料 应用相对数来描述。常用的相对数有率、构成比和相对比,可根据不同的研究目的选用。率为频率指标,用于说明某现象发生的频率或强度。其公式为 ; 构成比为构成指标,用于说明某一事物内部各组成部分所占的比重或分布,常以百分数表示。其公式为:相对比是A、B两个有关指标之比,用于说明A为B的若干倍或百分之几。A、B两个指标可以是性质相同的,也可以是性质不同的;可以是绝对数,也可以是相对数或绝对数。其公式为: 二、统计推断 抽样研究的目的是用样本信息来推断总体特征,即统计推断。统计推断又包括总体参数估计和假设检验两部分内容。进行统计推断时,需根据研究目的、设计类型、资料类型及其分布特征,正确选用分析方法。* 常见的研究目的:估计总体参数、制定医学参考值范围、假设检验(样本与总体的比较、两样本的比较、多样本的比较)、多因素分析(含线性相关回归)等。* 常见的设计类型:完全随机设计、配对设计、随机区组设计(配伍组设计);其次,还有交叉设计、拉丁方设计、析因设计、正交设计等。* 常见的资料类型及其分布特征:数值变量资料(正态、对数正态、偏态分布)、分类变量资料(二项分布、Poisson分布)(一)估计总体参数:(均按完全随机抽样方法获得的样本) 数值变量资料数值变量资料的总体参数估计分布类型总体参数估计的估计方法正态分布*估计总体均数的95可信区间1、已知时,2、未知且n小时,()3、未知,但n足够大时,偏态分布估计总体中位数的95可信区间1、先求50的上、下限,2、再求出,* 对于对数正态分布资料,1、先将变量值取对数;2、应用估计总体均数的95可信区间的公式求出上、下限;3、对上、下限求反对数。 分类变量资料分类变量资料的总体参数估计类 型总体参数估计的估计方法二项分布估计总体率的95可信区间1、查表法:50,且p远离0.5时,根据和阳性数 查“百分率的可信区间”表;2、正态近似法:,且样本率或均不太小(一般规定与 均大于5)时,。Poisson分布估计总体平均数的95可信区间1、查表法:样本阳性数时,用X值查Poisson分布的可信区间;2、正态近似法:时,(,)。(二)制定医学参考值范围(用于数值变量资料)医学参考值范围的制定方法分布类型制定方法正态分布正态分布法:双侧界值:单侧上界: ,或单侧下界:对数正态分布对数正态分布法:双侧界值:;单侧上界:,或单侧下界:。偏态分布百分位数法:双侧界值:和;单侧上界:,或单侧下界:。(三)假设检验1、样本与总体的比较(均按完全随机抽样方法获得的样本) 数值变量资料的样本均数与总体均数的比较分布类型假设检验方法正态分布1、未知且样本含量较小时,用检验:,2、已知时,用检验:3、未知,但大时,偏态分布用样本中位数与总体中位数比较的符号秩和检验(方法同配对资料的符号秩和检验)。 分类变量资料的样本与总体的比较类型假设检验方法二项分布1、直接计算概率法:用于偏离0.5较远,且阳性数较小作单侧检验时。按二项分布概率公式直接求出累计概率,与所取检验水准比较,作出推断结论。,2、正态近似法:用于不太靠近0或1,且样本含量足够大;或且时,Poisson分布1、直接计算概率法:用于,且样本均数较小作单侧检验时。按Poisson分布概率公式直接求出累计概率,与所取检验水准比较,作出推断结论。,2、正态近似法:用于时,2、两样本的比较 数值变量资料的两样本均数的比较分布类型设计类型与假设检验方法正态分布完全随机设计(或成组设计)1、检验:用于两个小样本,2、检验:用于两个大样本, 配对设计(用于两个小样本)检验: , 对子数1偏态分布完全随机设计(或成组设计):1、Wilcoxon秩和检验;2、Mann-Whitney检验配对设计:配对设计的符号秩和检验 分类变量资料的两样本的比较类型假设检验方法二项分布1、检验:用于两个样本均满足正态近似条件且样本含量()较大时,可用检验,其公式为: 2、检验: 四格表专用公式:(且所有格子的 )四格表的校正公式:( 但有时)四格表资料的Fisher确切概率法:当,或时配对四格表资料的检验:, (用于时), (用于时)Poisson分布1、检验:两样本均数均大于20时。两样本观察单位相同时,两样本观察单位不同时,2、检验:同二项分布。 3、多个样本的比较 数值变量资料的多个样本均数的比较分布类型设计类型与假设检验方法正态分布完全随机设计(或成组设计):完全随机设计的方差分析:把总变异分解为组间变异和组内变异两部分随机区组设计(或配伍组设计):随机区组设计的方差分析:把总变异分解为处理间、区组间和误差三部分其它设计:如交叉设计、析因设计、拉丁方设计和正交设计等。均有相应的方差分析偏态分布完全随机设计(或成组设计):成组设计的多个样本比较的秩和检验(检验); 随机区组设计(或配伍组设计):随机区组设计的多个样本比较的秩和检验(检验)交叉设计:交叉设计的秩和检验 分类变量资料的多个样本的比较(均为完全随机设计)双向无序表资料:两个分类变量,即分组变量和指标变量均是无序的。其研究目的通常是多个样本率的比较、两个或多个构成比的比较可用行列表资料的检验:, (行数-1)(列数-1) 不同疗法治疗某病的有效率的比较疗 法有效无效合计甲乙丙合计 单向有序表资料:有两种形式。一种形式是表资料中的分组变量是有序的(如年龄),而指标变量是无序的(如传染病的类型)。其研究目的通常是分析不同年龄组各种传染病的构成情况,此种单向有序表资料可用行列表资料的检验进行分析。 年全国疾病监测系统甲乙丙传染病不同年龄组构成年龄组霍乱伤寒痢疾麻疹出血热钩体合计20406080合计另一种形式是表资料中的分组变量为无序的(如疗法),而指标变量是有序的(如疗效按等级分组)。其研究目的为比较不同疗法的疗效,此种单向有序表资料宜用秩和检验。不同疗法治疗某病的疗效比较疗 法痊愈显效有效无效合计甲 法乙 法丙 法合计双向有序属性相同的表资料:表资料中的两个分类变量皆为有序且属性相同。实际上是配对四格表资料的扩展,即水平数3的配伍资料,如用两种检测方法同时对同一批样品的测定结果。其研究目的通常是分析两种检测方法的一致性,此时宜用一致性检验或称Kappa检验;也可用特殊模型分析方法(可用SAS软件)。双向有序属性不同的表资料:表资料中两个分类变量皆为有序的,但属性不同。宜用秩和检验。(四)随访资料的生存分析: 生存分析多用于恶性肿瘤、白血病等严重疾病和慢性病的生存时间的研究。生存分析可分为非参数法、半参数法、参数法。 非参数法:一般用于单因素分析,常用的分析方法有Kaplan-Meier法(用于小样本的未分组资料)、寿命表法(用于大样本的分组资料)。 半参数法:如Cox比例风险回归模型 第个变量的相对危险度(风险比)为 Cox比例风险回归模型用于分析带有伴随变量的生存时间资料,其优点是适用条件宽和便于作多因素分析,是目前广泛用于的生存分析方法之一。主要用于肿瘤和其它慢性病的预后分析,也可用于一般的临床疗效评价和队列研究的病因探索。 参数法:如威布尔回归模型。半参数的Cox比例风险回归模型比非参数分析方法的统计效率高,且适用范围也很广,但它要求风险比不随时间变化;当随访时间很长时,有些因素(如年龄)的作用强度是有变化的,因而Cox比例风险回归模型的应用受到一定限制。威布尔回归模型基于威布尔分布,是允许风险随时间变化的多因素生存分析参数模型。与Cox比例风险回归相比,威布尔回归对生存过程的描述较精确,统计效能更高,是生存分析中的一个重要的参数回归模型。但它要求风险单调变化,使适用范围受到一定限制。(五)双变量的相关分析研究目的是分析两变量之间有无关系及其关系的密切程度。 数值变量资料:1、双变量正态分布资料:直线相关分析2、非双变量正态分布资料: Spearman等级相关分析: 分类变量资料: 1、 双向无序的表资料 如测得某地5801人的ABO血型和MN血型结果如表,问两种血型系统之间是否有关联?表 某地5801人的血型ABO血型MN血型合计MNMNO4314909021823A3884108001598B4955879502032A计1451166626845801可用行列表资料的检验以及Pearson列联系数进行分析:先用行列表资料的检验 ,(行数-1)(列数-1) 来推断两个分类变量之间有无关系(或关联);在有关系的前提下计算Pearson列联系数,进一步分析关系的密切程度, 。2、双向有序属性不同的表资料:用Spearman等级相关分析。不同期次矽肺患者肺门密度级别分布矽肺期次肺门密度级别合计合计 (六)双变量的回归分析研究目的是分析两变量之间的数量依存关系。 数值变量资料:1、当两变量为双变量正态分布资料且呈直线关系时,应用型直线回归分析: , ,2、当变量为给定值,变量为正态分布资料,且两变量呈直线关系时,应用型直线回归分析:公式同上。3、当两变量为等级资料但呈直线关系时,应用秩回归分析。 (七)多变量统计分析方法1 多元线性回归与相关分析:多元线性回归分析通常是研究一个因变量与多个自变量间的数量依存关系。, 要求因变量为连续型随机变量,且呈正态分布;各自变量为数值变量。在医学研究中常用于疾病的预报、控制及识别影响因素。例如,研究年龄、吸烟、饮酒与体重指数等因素对收缩压的影响。多元线性相关分析是研究多个自变量与一个因变量间的相关关系。要求因变量与自变量均为数值变量,且服从正态分布。在医学研究中应用较少。 2 logistic 回归分析:logistic 回归模型是一种概率模型,它是以疾病、死亡、治愈、暴露等结果发生的概率为因变量,影响疾病的发生和预后的因素为自变量建立回归模型。第个变量的比数比为:该模型适用于因变量为二项分类、多项分类的资料;对自变量的要求不如多元线性回归严格,可以是数值变量、有序分类变量和无序分类变量(但对无序分类变量需做合理地数量化)。在医学研究中, logistic 回归特别适用于流行病学研究,既可用于前瞻性研究,也可用于回顾性研究。常用于疾病的病因学分析、预后分析、还可用于鉴别诊断、评价治疗措施等研究。二分类资料的logistic 回归,根据设计的不同,可分为非条件logistic 回归和条件logistic 回归。非条件logistic 回归用于成组设计资料和队列研究资料,条件logistic 回归用于配对设计资料。多分类资料的logistic 回归可用多态logistic 回归模型进行分析。3 判别分析:判别分析是根据已掌握的一批分类明确的样品,按Bayes或Fisher准则拟合一个或多个判别函数(或判别指数表),用于判别新样品的类别,并使错判率最低。另外,判别分析也可分析各因素对判别的作用大小。在医学研究中,判别分析主要用于诊断和鉴别诊断;也可用于病因学研究以及疾病预后研究。 常用的判别分析方法有:Bayes判别、Fisher判别,可用于两类判别和多类判别。4 聚类分析:聚类分析是按照“物以类聚”的原则研究事物分类的一种多元分析方法。聚类分析的对象有2种:指标(变量)和样品(个体)。聚类分析也是研究对象(指标或样品)的分类,但和判别分析研究样品的分类不同。判别分析是根据已知类别的一批样品,按某种准则拟合判

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论