医学统计学_总结_重点_笔记_复习资料_第1页
医学统计学_总结_重点_笔记_复习资料_第2页
医学统计学_总结_重点_笔记_复习资料_第3页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章2选1总体: 总体( population )是根据研究目的确定的同质观察单位(研究对象)的全体,实际上是某一 变量值的集合。可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总 体。样本: 从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample )。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。3选1小概率事件: 我们把概率很接近于 0(即在大量重复试验中出现的频率非常低)的事件称为小概率事 件。P 值:P 值即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值反应结果真实程度,一般以 P 0.05

2、认为有统计学意义, P 0.01 认为有高度统计学意义,其含义是样本 间的差异由抽样误差所致的概率等于或小于 0.05 或 0.01 。P 值是:1)一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。2)拒绝原假设的最小显著性水平。3)观察到的 (实例的 ) 显著性水平。4)表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。小概率原理: 一个事件如果发生的概率很小的话,那么可认为它在一次实际实验中是不会发生的,数 学上称之小概率原理,也称为小概率的实际不可能性原理。统计学中,一般认为等于或小于 0.05 或 0.01 的概率为小概率。资料的类型( 3 选 1

3、)( 1) 计量资料: 对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料 ( measurement data )。计量资料亦称定量资料、测量资料。. 其变量值12是定量的,表现为数值大小,一般有度量衡单位。如某一患者的身高( cm)、体重 (kg) 、红细胞计数 (10 12/ L) 、脉搏(次 / 分)、血压( KPa) 等。(2)计数资料: 将观察单位按某种属性或类别分组, 所得的观察单位数称为计数资料( count data )。 计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。如调查某地某时 的男、女性人口数;治疗一批患者,其治疗效

4、果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。(3)等级资料: 将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等 级资料( ordinal data )。等级资料又称有序变量。如患者的治疗结果可分为治愈、好转、有效、无效或 死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白 含量的测定结果分为 + 、 +、 +等。等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。 等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。 两种误差( 2 选 1)抽样误差 ( samp

5、ling error )由于抽样而引起的总体指标 (参数)与样本指标 (统计数 ) 之间的差异。抽 样误差是由个体变异或其它随机因素造成的,是不可避免的, 但误差分布有规律可循, 可进行估计和分析。系统误差( systematic error ) :由于测量仪器结构本身的问题、刻度不准确或测量环境改变等原因,在多次测量时所产生的 ,总是偏大或总是偏小的误差 , 称为系统误差。它带有规律性 ,经过校正和处理 ,通常 可以减少或消除。统计的步骤(考填空题,四个空)统计工作的步骤 设计 :设计内容包括资料收集、整理和分析全过程总的设想和安排。设计是整个研究中最关键的 一环,是今后工作应遵循的依据。

6、收集资料 :应采取措施使能取得准确可靠的原始数据。 整理资料 :简化数据,使其系统化、条理化,便于进一步分析计算。 分析资料 :计算有关指标,反映事物的综合特征,阐明事物的内在联系和规律。分析资料包括统 计描述和统计推断。实验设计的基本原则 (考填空题,三个空) 随机化原则 、 对照的原则 、重复的原则 。2选1参数: 参数()是指总体的统计指标,如总体均数、总体率等。总体参数 是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样 本,用算得的样本统计量估计未知的总体参数。统计量 :统计量()是指样本的统计指标,如样本均数、样本率等。样本 统计量可用来估计总体参数。

7、总体参数是固定的常数,统计量是在总体参数附近波动的随机 变量。第二章 频数表的制作步骤以及频数分布表的用途(问答题) 频数分布表的编制步骤: 例:某市 1982年50名7岁男童的身高 (cm) 资料如下,试编制频数表。114.4117.2122.7124.0114.0110.8118.2116.7118.9118.1123.5118.3120.3116.2114.7119.7114.8119.6113.2120.0119.8116.8119.8122.5119.7120.7114.3122.0117.0122.5124.9120.8126.1126.6120.0124.6120.0121.51

8、21.5126.1117.7124.1largest value )、最小值( smallest value124.1121.8117.2118.7114.3128.3 ),求极差( range )。=128.3 ,最小值 =110.8 ,则极差 =128.3-110.8=17.5(cm ) )。119.7120.21、找出观察值中的最大值( 极差等于最大值减最小值。本例最大值2、确定分组数和组距 ( class interval 组数的多少是根据例数的多少来确定的,以能够反映出频数分布的特征为原则,一般分10 15组。组距为相邻两组的间隔,组距 =极差/ 组数。本例拟分 10组,则组距 =1

9、7.5/10=1.75 2,为划记方便,可取稍 大或稍小的数 ( 当然本例组距也可取 1.5) 。3、确定组段。 第一组段包括要最小值,取较最小值稍小且划分方便的数,本例取“ 写出其上限值。4、划记。将各观察值以划 “正”字的方法,一笔代表一例, 划在相应组段中。 例如第一个数 l14.4 应在组段“114” 处划,第二个数 117.2 应在“ 116”处划,以此类推。5、统计各组段的频数。 全部数据划记完后,清点各组段的人数。 根据编制出的频数表即可了解该数值变量资料的频数分布特征。频数分布表的用途 1、描述资料的分布特征和分布类型。 频数分布有两个重要特征:集中趋势和离散趋势。大部分观察值

10、向某一数值集中的趋势称为集中趋势,常 用平均数指标来表示,各观察值之间大小参差不齐。频数由中央位置向两侧逐渐减少,称离散趋势,是个 体差异所致,可用一系列的变异指标来反映。2、便于进一步计算有关指标或进行统计分析。 当数据较多且需手工计算时,常先编制频数表, 计算。3、发现特大、特小的可疑值。 如果频数表的一端或两端出现连续几个组段的频数为零后,又出现少数几个特大值或特小值,使人怀疑其 是否准确,需进一步检查和核对并做相应处理。4、据此绘制频数分布图。描述数据分布集中趋势的指标和描述数据分布离散程度的指标 描述数据分布集中趋势的指标 算术均数 、几何均数 、中位数 。 描述数据分布离散程度的指

11、标极差 、四分位数间距 、方差 、 标准差 、 变异系数 。 正态分布的特征(考选择题 、 对图形的影响)服从正态分布的变量的频数分布由 、 完全决定。(1) 是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以 称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于 。(2) 描述正态分布资料数据分布的离散程度, 越大,数据分布越分散, 据分布越集中。 也称为是正态分布的形状参数, 越大,曲线越扁平,反之, 线越瘦高。标准正态分布(填空) 1标准正态分布是一种特殊的正态分布,标准正态分布的 示服从标准正态分布的变量, 记为 N(0,12)。正态分布的应用(简答) 某些医学现象,

12、如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或 近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布, 可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。110”。最后组段包括最大值并考选择或者填空)x = 为对0,2再进行统计 越小,数越小,曲1 ,通常用 u(或 Z)表1. 估计频数分布 一个服从正态分布的变量只要知道其均数与标准差就可根据公式即可估计任意取值范围内频数比例。2. 制定参考值范围( 2 )百分位数法 常用于偏态分布的指标。表 3-1 中两种方法的单双侧界值都应熟练掌握。3.

13、质量控制 :为了控制实验中的测量(或实验)误差,常以 作为上、下警戒值,以 作为上、下控制 。布是许多统计方法的理论基础。 检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时计推断方法也是以正态分布为理论基础的。生理物质指标多为双侧、毒物指标则多为单侧。99%。法 适用于服从正态 (或近似正态)分布指标以及可以通过转换后服从正态分布的指标。值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布。4. 正态分布是许多统计方法的理论基础。近似正态分布,因而大样本时这些 医学参考值范围的制定(计算 确定

14、参考值范围的单双侧:一 确定百分位点:一般取 95%计推 题 般 或 99%。例题某市 20 岁男学生 160 人的脉搏数(次/ 分钟),经正态性检验服从正态分布。 求得 试估计脉搏数的 95%、 99%参考值范围。解:脉搏数的 95%正常值范围为: 脉搏数的 99%正常值范围为:作为上、= 76.10 ,S =9.32 。±1.96 S=76.10 ± 1.96 (9.32 ) =57.83 94.37±2.58 S =76.10 ± 2.58 (9.32 ) =52.05 100.37 第三章标准误的概念,计算公式。t 分布对应于每一个自由度 ,就有

15、一条 t 分布曲线,每条曲线都有其曲线下统计量 t 的分布规律,计算较 复杂。t 分布与正态分布比较的区别t 分布与标准正态分布相比有以下特点:都是单峰、对称分布; t 分布峰值较低,而尾部较高; 随自由度增大, t 分布趋近与标准正态分布;当 趋向, t 分布的极限分布是标准正态分布。置信区间和参数估计 (名解 2 选 1)置信区间 :在统计学中,一个概率样本的置信区间( Confidence interval )是对这个样本的某个总体 参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。给出的是 被测量参数的测量值的可信程度。1、对于具有特定的发生概率的随机

16、变量, 其特定的价值区间 一个确定的数值范围 (“一个区间” )。2、在一定置信水平时,以测量结果为中心,包括总体均值在内的可信范围。3、该区间包含了参数 真值的可信程度。4、参数的置信区间可以通过点估计量构造,也可以通过假设检验构造。 参数估计: 指用样本指标值(统计量)估计总体指标值(参数)。参数估计有两种方法:点估计和区 间估计。可信区间与参考值范围的不同点(简答) 应注意:可信区间与参考值范围的意义、计算公式和用途均不同。1. 从意义和用途来看95参考值范围是指同质总体内包括95个体值的估计范围,而总体均数95可信区间是指按 95可信度估计的总体均数的所在范围。 可信区间用于估计总体参

17、数, 总体参数只有一个 。参考值范围用于估计变 量值的分布范围,变量值可能很多甚至无限 。2. 从计算公式看 若指标服从正态分布, 95参考值范围的公式是:±1.96s 。总体均数 95可信区间的公式是:。前者用标准差,后者用标准误。前者用 1.96 ,后者用 为 0.05 ,自由度为 v 的 t 界值。t 检验的应用条件和类型(填空)t 检验的应用条件:要求各样本来自 相互独立 的正态总体 且 各总体方差齐 。t 检验的类型: 单样本 t 检验 , 独立 t 检验 ,配对 t 检验配对设计和完全随机设计(名解 2 选 1)完全随机设计 ( completely random des

18、ign ):完全随机设计仅涉及一个处理因素(但可为多水平),故 又称单因素( one-way )设计。它是将受试对象按随机化的方法分配到各个处理组中,观察实验效应,临床 试验中的随机对照试验也属于此类设计。配对设计 (paired design ):是将受试对象按一定条件匹配成对,再随机分配每对中的两个受试对象到不 同处理组。配对的因素是影响实验效应的主要非处理凶素。假设检验的基本求解步骤或者注意事项。(简答2 选 1)假设检验的基本步骤1. 建立假设,确定检验水准 假设有零假设( H0)和备择假设( H1)两个,零假设又叫作无效假设或检验假设。H0 和 H1 的关系是互相对立的,如果拒绝 H

19、0,就要接受 H1. 根据备择假设不同,假设检验有单、双侧检验两种。检验水准用 表示,通常取 0.05 或 0.10. 检验水准说明了该检验犯第一类错误的概率。2. 根据研究目的和设计类型选择适合的检验方法这里的检验方法,是指参数检验方法,有 u 检验、 t 检验和方差分析三种,对应于不同的检验公式。对双 样本资料,要注意区分成组设计和配对设计的资料类型。如果资料里有"配成对子 " 字样,或者是对同一对象用两种方法来处理,一般就可以判定是配对设计资料。3. 确定 P值并作出统计结论u 检验得到的是 u 统计量或称 u 值, t 检验得到的是 t 统计量或称 t 值。方差分析

20、得到的是 F 统计量或称 F 值。将求得的统计量绝对值与界值相比,可以确定P 值。当0.05 时,u值要和 u界值 1.96 相比较,确定 P值。如果 u< 1.96 ,则 P>0.05. 反之,如 u> 1.96 , 则 P< 0.05.t 值 要和某自由度的 t 界值相比较,确定 P值。如果 t 值<t 界值,故 P> 0.05. 反之,如 t > t 界值,则 P< 0.05. 相同自由度的情况下, 单侧检验的 t 界值 要小于双侧检验的 t 界值, 因此有可能出现 算得的 t 值大于单侧 t 界值,而小于双侧 t 界值的情况,即单侧检验显

21、著,双侧检验未必就显著,反之, 双侧检验显著, 单侧检验必然会显著。即单侧检验更容易出现阳性结论。当 P> 0.05 时,接受零假设,认为差异无统计学意义,或者说二者不存在质的区别。当P<0.05 时,拒绝可以理示更有把握认在质的区别。但即使检验结果是 差异。假设检验时应注意的事项要有严密的抽样研究设计;样本必须是从同质总体中随机抽取的;要保证组间的均衡性和资料的可根据现有的资料的性质、设计类型、样本含量大小 对差别有无统计学意义的判断不能绝对化,因检验 计学意义时,是指无效假设 h0 被接受的可能性只 能拒 h0,但尚不能排除有 5%或 1%出现的可能,所 第二类错误。(四) 统

22、计学上差别显著与否, 与实际意义是有区别的。 如应用某药治疗高血压, 平均降低舒张压 0.5kpa , 并得出差别有高度统计学意义的结论。从统计学角度,说明该药有降压作用,但实际上,降低 0.5kpa 是无 临床意义。因此要结合专业作出恰如其分的结论。(一) 比性。(二)(三)5%或不水准只是人为规定的界限,是相对的。差别有统到 5%,甚至不到 1%,根据小概率事件一次不可误;同样,若不拒绝 h0,可能产生可第一类错误与第二类错误(名解 型错误又称第一类错误( type 通常用 表示。 可取单尾也可取双尾, 假设检验 或 0.01 ,其意义为: 假设检验中如果拒绝 结论中,平均有 5次或 1次

23、是错误的。型错误又称第二类错误( type error ):不拒绝实际上不成立的 率通常用 表示。 只取单尾,假设检验时 的差值 (如 )、样本含量以下图说明两类错误:2 选 1)err实际上成立的需要确定,为“弃真”的错误,其概率 值大小,一般规定 0.05 5或 1,即100次拒绝的,为“存伪”的错误,其概 值一般不知道,在一定情况下可以测算出, 和检验水准 。如已知两总体零假设,接受备择假设,认为差异有统<0.01 甚至 P<0.001 ,都不说明差异相差很大,第四章为什么等级资料不可用方差分析?资料不相互独立方差分析的基本思想 应用条件(简答)方差分析( analysis

24、of variance, ANOVA) 的基本思想 就是根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和( sum of squares of deviations from mean, SS)和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加 以解释,如各组均数的变异 SS 组间可由处理因素的作用加以解释。 通过各变异来源的均方与误差均方比值 的大小,借助 F 分布作出统计推断,判断各因素对各组均数有无影响。方差分析的应用条件(1)各样本是相互独立的随机样本,且来自正态分布总体。( 2 ) 各样本的总体方差相等,即方差

25、齐性 (homoscedasticity) 。第五章 分类资料的统计描述(几个常用相对数指标 填空题) 率(强度相对数,频率相对数) 、构成比、相对比 应用相对数时应注意的问题(简答题 六条) 计算相对数的分母一般不宜过小。 分析时不能以构成比代替率。 不能用构成比的动态分析代替率的动态分析。 对观察单位数不等的几个率,不能直接相加求其总率。 在比较相对数时应注意可比性。要比较两个总率时,发现两组资料的内部构成(如年龄、性别构成等)存在明显不同,而且影响到了 的结果,这时就不宜接比较总率 对样本率(或构成比)的比较应随机抽样,并做假设检验。 率的标准化的基本思想,应注意的问题(分析题) 率的标

26、准化的基本思想 :影响后的标总率的 标准化法的基本思想,选用直接法计算标化率。准化率(调整率),然后再进行比较。 二、直接标准化法的计算方法 当已知所比较资料各组率 Pi ,可 三、间接标准化死亡比的计算方法 当所比较的资料已知各自某现象总发生数 r 及各分组观察单位数时,宜采用间接法计算标化率。二项分布, Piosson 分布 在什么条件下接近正态分布(选择或填空)配对与完全随机设计下的四格表的计算第七章(考计算题)列四格表公式选择给个例题曲张是否为研究静脉曲张是否与肥胖有关, 观察 122 对同胞兄弟,每对同胞兄弟中有一个属肥胖, 常体重,记录得静脉曲张发生情况见表 8-2 ,试分析之。另

27、一个属正 评析 这是一个配对设计的资料,因此用配对检验公式计算。第八章参数统计与非参数统计(名解 2 选1)1 参数统计 样本所来自的总体分布具有某个已知的函数形式,而其中有的参数是未知的,统计分析的目的就是对 这些未知的参数进行估计或检验。此类方法称为参数统计。2 非参数统计样本所来自的总体分布难以用某种函数式来表达, 还有一些资料的总体分布的函数式是未知的, 只知 道总体分布是连续型的或离散型的,解决这类问题的一种不依赖总体分布的具体形式的统计方法。由于这 类方法不受总体参数的限制,故称非参数统计法( non-parametric statistics ),或称为不拘分布 ( distri

28、bution-free statistics)的统计分析方法,又称为无分布型式假定( assumption freestatistics )的统计分析方法。它检验的是分布,而不是参数。非参数统计不需对总体分布( 总体参数 ) 作出特殊假设。非参数统计的特点和适用范围 (简答)1特点(1)样本所来自的总体的分布形式为任何形式,甚至是未知的,都能适用。(2)收集资料方便,可用“等级”或“符号”来评定观察结果。(3)多数非参数方法比较简便,易于理解和掌握。(4)缺点是损失信息量,适用于参数统计法的资料用非参数统计方法进行检验将降低检验效能。2适用范围(1)等级资料。( 2 )偏态分布资料。 当观察资

29、料呈偏态或极度偏态分布而又未作变量变换,或虽经变量变换仍未达到 正态或近似正态分布时,宜用非参数检验。(3)各组离散程度相差悬殊,即方差明显不齐,且不能变换达到齐性。(4)个别数据偏离过大,或资料为单侧或双侧没有上限或下限值。(5)分布类型不明。(6)初步分析。有些医学资料由于统计工作量大,可采用非参数统计方法进行初步分析,挑选其中有 意义者再进一步分析 ( 包括参数统计内容 ) 。(7)对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作出估计,在这种 情况下可用非参数统计方法。非参数检验的优缺点:(简答) 非参数统计与传统的参数统计相比,有以下优点:1、非参数统计方法要求

30、的假定条件比较少,因而它的适用范围比较广泛。2、多数非参数统计方法要求的运算比较简单,可以迅速完成计算取得结果,因而比较节约时间。3、大多数非参数统计方法在直观上比较容易理解,不需要太多的数学基础知识和统计学知识。4、大多数非参数统计方法可用来分析如象由等级构成的数据资料,而对计量水准较低的数据资料,参 数统计方法却不适用。5、当推论多达 3个以上时,非参数统计方法尤具优越性。 但非参数统计方法也有以下缺点:1、由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方 法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下 进

31、行检验时,非参数统计方法与参数统计方法相比,第类错误的概率 要大些。2、对于大样本,如不采用适当的近似,计算可能变得十分复杂。注 意 : 凡符合或经过变换后符合参数检验条件的资料,最好用参数检验。当资料不具备参数检验的条件时, 非参数检验是一种有效的分析方法。配对设计的符号秩和检验方法(简答)(1) 假设: H0:差值总体中位数 Md=0H1:Md0 =0.05(2)求差值(3)编秩次:依差值的绝对值从小到大编秩次。编秩次时遇差数等于 0 ,舍去不计,同时样本例数减 1; 遇绝对值相等差数,符号相同顺次编秩次,符号相反取平均秩次,且符号相反。(4)求秩和并确定检验统计量: 分别求出正负秩次之和

32、, 正秩和以 T+ 表示,负秩和的绝对值以 T- 表示。 T+及T-之和应等于 n(n+1)/2 ,任取T+(或 T-) 作检验统计量 T 。(5)确定 P 值和作出推断结论:当 n 50 时,查 T 界值表,得出 P 值。若检验统计量 T值在上、下界 值范围内,其 P值大于表上方相应概率水平;若 T 值在上、下界值上若范围外,其 P值小于表上方相应概 率水平。第九章线性相关系数(名解) 线性相关系数:表示两个变数线性相关方向及程度的统计数或参数。又叫直线相关系数, 简称相关系数。 ,|R| 的极值为 1,|R| 越大(接近1), 则直线关系越好。线性相关系数取值范围(填空)-1 r 1样本相关系数 r 的假设检验(填空题)(1)r 界值表法 ;( 2 ) t 检验法。线性相关或回归应用应注意的问题(简答)作回归分析和相关分析时要有实际意义,不能把毫无关联的两种现象作回归、相关分析,必须对两 种现象间的内在联系有所认识。在进行回归分析和相关分析之前,应绘制散点图。但观察点的分布有直线趋势时,才适宜作回归、 相关分析。如果散点图呈明显曲线趋势,应使之直线化再行分析。散点图还能提示资料有无可疑异常点。直线回归方程的应用范围一般以自变量的取值范围为限。若无充分理由证明超过自变量取

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论