




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据分析的策略在研究设计思绪指导下进行医学科学研究,研究结果经常以数据形式呈现,这些数据提供了丰富的信息。然而,如何从大量的看似杂乱无章的数据中萃取和提炼有用的信息,以揭示其中隐含的内在规律,帮助研究者进行判断或推理,还需要对这些纷繁复杂的数据进行分析。数据分析是分析和解决变量间关系的理论与方法,所涉及变量常被分为解释变量和反映变量,解释变量又称分组变量、协变量等,反映变量是表达实验效应的变量或指标。变量的观测值构成数据或资料,常有计量资料、计数资料和等级资料之分。数据分析指的是对数据进行记录分析,就是根据抽样研究的方法,运用概率论与数理记录的原理,对样本信息进行分析和研究,从而对所研究的事物的记录规律性作出概率性的估计和推断。具体内容涉及数据的变量变换、记录量的选择策略、参数估计与假设检查方法应用策略。第一部分数据的变量变换策略许多记录分析方法对数据有一定规定,如检查、检查,规定样本独立地来自正态总体,方差齐同;又如直线回归分析规定自变量与应变量呈线性关系,每个相应的总体为正态分布,各个正态分布的总体方差相等,各次观测彼此独立。然而,仍有大量的医学资料往往不满足上述规定,在分析过程中对资料进行变量变换(transformationofvariable)是解决问题的途径之一。恰当的数据变换可以一定限度上使资料满足记录分析方法的规定,如使资料符合正态化、方差齐同化、曲线直线化等规定。常用的变量变换方法有对数变换(transformationoflogarithm)、平方根变换(transformationofsquareroot)、平方根反正弦变换(transformationofinversesine)、倒数变换(transformationofreciprocal)、概率单位变换(transformationofprobabilityunit)、logit变换(transformationoflogit)、反双曲正切变换(transformationofinversehyperbolictangent)、得分变换(transformationofscore)、box-cox变换(transformationofbox-cox)等。第二节记录量的选择策略一、概念记录量(statistic)是由样本观测值计算出来的,反映样本分布特性的指标。对反映变量特性的描述中,计量资料有集中趋势指标与离散限度指标,计数资料与等级资料有相对数指标;对于解释变量和反映变量间关系的描述,有互依关系指标、依存关系指标等。如何从众多记录量中选择适宜的记录量描述样本分布特性是至关重要的。二、选择记录量的策略数据分析涉及众多记录量,基于分析目的,通常依据资料类型、资料特性、解释变量和反映变量个数等来选择适宜的记录量。表9-1计量资料常用记录量的选择策略反映变量数资料特性不同分析目的下的常用记录量平均水平变异限度单个反映变量单峰对称分布,特别正态分布资料算术均数方差、标准差、变异系数*单个反映变量各种分布类型资料,但重要是偏态分布资料,分布一端或两端无确切数值的资料中位数四分位间距、全距单个反映变量等比级数资料,经对数变换呈对称分布资料,特别对数正态分布资料几何均数—多个反映变量多元正态分布均数向量协方差矩阵*重要用于度量衡单位不同或均数相差悬殊的多个变异限度的比较表9-2计数资料与等级资料常用记录量的选择策略资料特性重要分析目的常用记录量二分类计数资料某现象发生的频率或强度率二分类或多分类计数资料、等级资料某事物内部各组成部分所占比重构成比此外,相对比也是常用的派生记录量指标,是两个有关指标之比,旨在描述两个指标间比例关系。这两个有关的指标可以是基于计量资料、计数资料而计算出的记录量,也可以是某绝对数。表9-3解释变量与反映变量间关联性常用记录量的选择策略解释变量()个数反映变量()个数资料类型资料特性重要分析目的分析方法常用记录量11计量资料线性、独立、正态、等方差与的线性依存关系直线回归分析回归系数21计量资料线性、独立、正态、等方差、、…与的线性依存关系多元线性回归分析偏回归系数21为计数资料、等级资料非线性各因素危险度大小logistic回归分析回归系数优势比21截尾变量为计数资料;时间变量为计量资料非线性各因素危险度大小Cox回归分析回归系数风险比11计量资料线性、独立、二元正态、等方差相关的限度与方向直线相关分析Pearson相关系数11计量资料或等级资料不服从双变量正态分布、总体分布类型未知、有不拟定值、双向有序且、属性不同的列联表相关的限度与方向等级相关分析Spearman等级相关系数、Kendall等级相关系数11计数资料列联表关联限度关联性分析Pearson列联系数11二分类计数资料配对四格表关联限度关联性分析点相关系数11为计量资料,为二分类变量服从正态分布关联限度关联性分析点双序列相关系数21计量资料多元正态分布多个变量同时与某一变量相关的限度多元线性相关分析复相关系数21计量资料多元正态分布其他变量固定期,某两个变量间相关限度与方向多元线性相关分析偏相关系数22计量资料—两组变量之间的相关限度典型相关分析典型相关系数第三节参数估计方法应用策略一、概念描述某总体特性的指标称为参数(parameter),但在抽样研究中,参数往往是未知的,抽样研究的目的正是通过样本推断参数。参数估计(estimationofpopulationparameters)是记录推断重要内容之一,分为点估计(pointestimation)与区间估计(intervalestimation)两种形式。点估计就是用相应样本记录量直接作为其总体参数的估计值,区间估计是按预先给定的概率()所拟定的包含未知总体参数的一个范围。二、常用参数估计方法应用策略数据分析中常用记录量均是其总体参数的点估计量,如样本均数是总体均数的点估计量,样本率是总体率的点估计量。良好的参数点估计量必须满足:①无偏性:记录量的数学盼望等于被估计参数;②一致性:即当样本含量无穷大时,记录量等于参数;③有效性:方差最小估计量为有效的估计量。对于参数的区间估计,可综合考虑分析目的、准确度与精度、资料分布特性、样本含量及其他有关条件等来选择具体的估计方法。重要参数的区间估计方法(双侧)如下。(一)正态总体均数的可信区间1.总体标准差已知或样本含量足够大时,总体均数的可信区间为(9-13)或(9-14)其中,是标准正态分布水准双侧分位数。一般求其95%可信区间,=1.96.2.总体标准差未知时,总体均数的可信区间为(9-15)其中是自由度的分布水准双侧分位数。一般求其95%可信区间,查t界值表得。(二)总体几何均数的可信区间(9-18)其中,。(三)总体率的可信区间1.若较小(),采用查表法,获得的(95%或99%)可信区间;2.若充足大且,采用正态近似法获得的可信区间,的可信区间为(9-26)(四)Poisson分布资料总体均数的可信区间1.若样本计数,采用查表法,获得的(95%或99%)可信区间。2.若样本计数,采用正态近似法获得的可信区间,的可信区间为(9-29)(五)总体回归系数的1-可信区间(9-30)其中,为回归系数的标准误,(六)总体均数的可信区间运用直线回归方程,在处的总体均数的可信区间为(9-31)其中,为剩余标准差,。(七)总体相关系数的可信区间第一步,对样本相关系数作反双曲正切函数变换:(9-32)或(9-33)第二步,求的可信区间(,):(9-34)第三步,对(,)作反变换,求的可信区间:(9-35)第四节假设检查方法应用策略一、概念假设检查(hypothesistest)是对总体的参数或分布作出某种假设,然后采用适当的方法,根据样本提供的信息,根据小概率原理,推断此假设是否成立,而作出应当拒绝或不拒绝该假设的一种记录推断方法,分为参数法与非参数法两种,是数据分析的重要手段。根据分析目的,有对反映变量所服从的分布进行推断的假设检查;亦有对解释变量不同组别间某个(或多个)反映变量进行比较的假设检查,如对均数、方差或均数向量、率、构成比等的假设检查;尚有对解释变量与反映变量间关系进行推断的假设检查,如对回归模型、回归系数、相关系数的假设检查等。二、常用假设检查方法应用策略假设检查分为参数法与非参数法,在一般情况下,若资料满足参数法应用条件,一方面考虑参数法,不满足时才考虑非参数法。具体假设检查方法的拟定离不开对以下几个问题的思考。分析目的:明确假设检查的目的,是推断某样本来自何种分布?是对两组或多组反映变量进行比较?还是对解释变量与反映变量间关系作出推断?设计方案:辨析设计方案,把握众多设计方案的区别与联系。资料类型:判断资料类型,面对的资料是计量的,还是计数或是等级的。解释变量(分组变量)与反映变量的个数:确认解释变量(分组变量)与反映变量的个数,是单个解释变量对单个反映变量,还是“多”对“单”,“多”对“多”……。同时,须注意解释变量的水平数。样本含量:考虑样本含量的大小,是小样本还是大样本。应用条件:不能忽略具体的应用条件,根据应用条件,选择对的的假设检查方法是获得对的、可靠结论的基本保证。常用假设检查方法应用策略如下。(一)单个反映变量的完全随机设计研究1.计量资料(1)单样本分析目的:推断某个总体均数与已知总体均数(一般为标准值、理论值或通过大量观测所得稳定值等)是否不等。应用条件及方法选择:样本含量足够大()时,可采用单样本检查或单样本检查。样本含量不太大,资料满足正态性规定或通过数据变换满足规定期,可采用单样本检查;样本含量不太大且资料不满足正态性规定期,可采用非参数检查,如单样本wilcoxon符号秩检查,其目的是推断某个总体分布位置如中位数与已知总体分布位置是否不同。(2)两样本分析目的:推断两个总体均数是否不等。应用条件及方法选择:两组的样本含量均较大(和)时,可采用两大样本比较的检查或两样本检查;样本含量不太大,资料满足正态性与方差齐性规定或通过数据变换满足规定期,可采用两样本检查或完全随机设计资料的方差分析。样本含量不太大满足正态性不满足方差齐性,可采用近似(’)检查。若不满足正态性或/和方差齐性,采用非参数检查,如两样本wilcoxon秩和检查、Kruskal-Wallis秩和检查,其目的是推断两个总体分布位置是否不同。(3)多样本分析目的:推断多个总体均数是否不等。应用条件及方法选择:资料满足正态性与方差齐性规定或通过数据变换满足规定期,可采用完全随机设计资料的方差分析即检查。资料不满足正态性但不满足方差齐性,可采用近似(’)检查。若满足正态性或/和方差齐性,采用非参数检查,如Kruskal-Wallis秩和检查,其目的是推断多个总体分布位置是否不同。2.计数资料(1)单样本分析目的:推断某个总体率与已知总体率(一般为标准值、理论值或通过大量观测所得稳定值等)是否不等。应用条件及方法选择:样本含量较大且与均不太小,如且时,可采用单样本检查、单样本检查或二项分布直接计算概率法检查;样本含量较小时,可采用二项分布直接计算概率法检查;样本含量较大,如,或很小,如或时,可采用Poisson分布直接计算概率法检查。(2)两样本或多样本分析目的:推断两个或多个总体率(或构成比)是否不等。应用条件及方法选择:对于两样本率比较的四格表资料,样本总例数且时,可采用两样本率比较的检查、检查或Fisher确切概率检查;样本总例数且时,可采用两样本率比较的校正检查、校正检查或Fisher确切概率检查;样本总例数、或四格表其他假设检查方法所得概率十分接近检查水准时,可采用Fisher确切概率检查。对于多样本率或两组(或多组)样本构成比比较的表资料,的格子数不超过1/5时,可采用检查或Fisher确切概率检查;1/5以上格子的,或有一个格子的时,可采用Fisher确切概率检查。3.等级资料对于等级资料,重要采用秩转换的非参数检查。分析目的:推断两个(或多个)总体分布(或分布位置)是否不同。应用条件及方法选择:两样本比较时,可采用wilcoxon秩和检查或Kruskal-Wallis秩和检查;多样本比较时,可采用Kruskal-Wallis秩和检查。(二)单个反映变量的配对(配伍)设计研究1.计量资料(1)两样本(配对设计)分析目的:推断两个总体均数是否不等(或差值的总体均数与0是否不等)。应用条件及方法选择:对子数较大()时,可采用配对差值的单样本检查;配对差值满足正态性规定或通过数据变换满足规定期,可采用配对检查或配伍组设计(随机区组设计)资料的方差分析;对子数不太大且差值不满足正态性规定期,可采用非参数检查,如配对wilcoxon符号秩检查、配伍组设计(随机区组设计)资料的Friedman秩和检查,其目的是推断两个总体分布位置是否不同。(2)多样本(配伍组设计,随机区组设计)分析目的:推断多个总体均数是否不等。应用条件及方法选择:资料满足正态性与方差齐性规定或通过数据变换满足规定期,可采用配伍组设计(随机区组设计)资料的方差分析;资料不满足正态性与方差齐性规定期,可采用非参数检查,如Friedman秩和检查,其目的是推断多个总体分布位置是否不同。2.计数资料分析目的:推断两个总体率是否不等。应用条件及方法选择:配对四格表资料中,不相同结果频数为与,如,可采用配对四格表资料检查或Fisher确切概率检查;如,可采用校正的配对四格表资料检查或Fisher确切概率检查。3.等级资料对于等级资料,重要采用秩转换的非参数检查。分析目的:推断两个或多个总体分布位置是否不同。应用条件及方法选择:配对设计,两样本比较时,可采用wilcoxon符号秩和检查;配伍组设计(随机区组设计),多样本比较时,可采用Friedman秩和检查。(三)单个反映变量的其他设计研究其他常见设计方案有交叉设计、拉丁方设计、正交实验设计、嵌套设计、析因实验设计、反复测量设计等,若获取资料为计量资料,当满足相应条件时,可分别采用该设计方案相应的单变量方差分析。(四)双变量关联性对于具有一个解释变量,一个反映变量的双变量资料,可从相关与回归两方面进行分析,因此有相关系数的假设检查、整个回归模型的假设检查以及回归系数的假设检查。1.相关分析分析目的:推断两变量的线性相关关系是否存在(总体相关系数是否不为0)。应用条件及方法选择:双变量计量资料,满足线性、独立、二元正态与等方差条件时,对Pearson相关系数进行检查,可采用P
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度黑龙江省高校教师资格证之高等教育法规题库综合试卷A卷附答案
- 2024年大学语文文化自信与写作能力试题及答案
- 2024年图书管理员考试新鲜出炉试题及答案
- 媒体监测平台
- 湖南单招职业测试计算机题基础题
- (高清版)DB12∕T 497-2013 高压地下储气井定期检验与评定
- (高清版)DB12∕T 590-2015 在用汽车排气污染物限值及检测方法(遥测法)
- 危险品自查报告10篇
- 医院检验工作总结6
- 情侣协议(2025年版)-@-1
- 血液透析专科考试题+参考答案
- 2025年江苏苏州市(12345)便民服务中心招聘座席代表人员高频重点提升(共500题)附带答案详解
- Unit6Topic2SectionB公开课课件仁爱英语八年级下册
- 《记念刘和珍君》教学课件高中语文选择性必修中册
- 2023年新疆中考英语试题(含答案)
- 智联招聘国企行测
- 法人授权投标委托书
- 上海迪士尼乐园
- 显微根管治疗操作指南
- 咨询顾问费合同范例
- 重大火灾隐患判定方法知识培训
评论
0/150
提交评论