


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、医学统计学总结一. 绪论1,医学统计学: 运用概率论和数理统计学的原理和方法, 研究医学领域中随机现象有关数据的搜集、 整理、 分析和推断,进而阐明其客观规律性的一门应用科学。2,医学统计学的主要内容:1) 统计研究设计 调查研究设计和实验研究设计2) 医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。A:资料的搜集与整理 B:常用统计描述, 集中趋势和离散趋势, 相对数,相关系数, 回归系数,统计表,统计图 C: 统计推断,如参数估计和假设检验。3 )医学多元统计方法 多元线性回归和逐步回归分析、 判别分析、 聚类分析、 主成分分析、 因子分析、 logistic 回归与
2、Cox 回归分析。3,统计工作步骤:1) 设计 明确研究目的和研究假说, 确定观察对象与观察单位, 样本含量和抽样方法, 拟定研究方案, 预期分析指标,误差控制措施,进度与费用。2) 搜集材料A, 搜集材料的原则 及时、准确、完整B, 统计资料的来源 医学领域的统计资料的来源主要有三个方面。 一是统计报表, 二是经常性工 作记录,三是专题调查或专题实验。C, 资料贮存3) 整理资料 a 检查核对 b设计分组 c 拟定整理表 d 归表4) 分析资料 统计分析包括统计描述和统计推断 4,同质( homogeneity ):指被研究指标的影响因素相同。变异 (variation) :同质基础上的各观
3、察单位间的差异。变量 (variable) :收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某 项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。变量类型变量值表现实例资料类型数值变量离散型定量测量值,有计量单位产前检查次数计量资料连续型身高分 类 变 量无序二分类对立的两类属性性别(男女)计数资料多分类不相容的多类属性血型( A,B,O,AB )有 序多分类类间有程度差异的属性受教育程度(小学,中 学,高中,大学 , )等级资料5,总体( population ) 根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总 体具有的基本特征是:同质
4、性样本( sample ) 从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有表性。代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。统计量( statistics )描述样本变量值特征的指标( 样本率, 样本均数, 样本标准差)参数( parameter )描述总体变量值特征的指标( 总体率, 标准差, 总体均数)。抽样误差( sampling error ):由于个体差异的存在,即使在同一整体中随机抽取若干样本,各样本的 统计量往往不等,统计量与参数也会有所不同。这种因抽样研究引起的差异称抽样误 差。随机事件( random event )对随机试验的各种可能结果
5、的集合。概率( probability ) 描述随机事件发生的可能性大些哦的一个度量。小概率事件 若随机事件 A 的概率 P(A) ,习惯上, =0.05 时,就称 A为小概率事件。其统计学 意义是小概率事件在一次随机试验中认为不会发生。抽样误差1,抽样误差( sampling error) 由抽样而造成的样本统计量与总体参数之间的差异或各样本统计量之间的 差异。在医学统计学中,常把由抽样造成的样本均数与总体均数间的差异称为均数的抽样误差;由抽样造 成的样本率与总体率之间的差异称为率的抽样误差。2,样本均数的标准差(简称标准误, standard error) 反映均数的抽样误差大小的指标。
6、大,抽样误差大;反之, 小,抽样误差小3.1)实际 工作中 往往未知的,可 用样本标准差 s 作 的估计值,计 算标准误的估 计值3,标准误的用途: a,衡量样本均数的可靠性; b,估计总体均数的置信区间; 3,用于均数的假设检验。 4,标准误的估计值的用途:a ,描述抽样误差的大小;b ,总体参数的估计;c ,用来进行假设检验。5,率的抽样误差:由抽样造成的样本率与总体率的差异称为率的抽样误差。衡量率的抽样误差大小的指标是率的标准误 。 越小,率的抽样误差越小; 越大,率的抽样误 差越大。3.3)其中 为总体率。 实际工作中, 由于 往往是未知的,可用样本率 p 作 的估计值,计算率的标准误
7、的估计值标准差( s)标准误计算公式 s=1)表示观察值的变异程度1)估计均数的抽样误差的大小2)估计总体均数的可信区间2)计算变异系数 CV= 100%,)3)进行假设检验3)确定医学参考值范围4)计算标准误简述标准差、标准误的区别与联系?区别:( 1)含义不同:标准差 S 表示观察值的变异程度,描述个体变量值(x)之间的变异度大小, S 越估计均数的抽样误差的大小,大,变量值( x)越分散;反之变量值越集中,均数的代表性越强。标准误是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之, 样本均数越接近总体均数,抽样误差越小。( 2)与 n的关系不同:
8、 n 增大时, S趋于 (恒定),标准误 减少并趋于 0(不存在抽样误差)。( 3)用途不同:标准差表示 x 的变异度大小、计算变异系数、确定医 学参考值范围、计算标准误等,标准误用于估计总体均数可信区间和假设检验。样本均数的标准差即为标准误,标准差与标准误成正比。联系:二者均为变异度指标,标准差:标准误:二. 分布正态分布1 ,正态分布的函数其中 为总体均数, 为总体标准差, 为圆周率, 为自然对数的底,且仅 为变量。以 为横轴,以 为纵轴,当均数和标准差已知时即可绘出正态分布曲线。为应用方便,将式中 进行变量变换,使原来的正态分布变为 的标准正态分布,亦 称 分布。 被称为标准正态变量或标
9、准正态离差,将 代入上述公式即得标准正态分布的密度函数2.17)2.18 )2 ,正态分布的特征1 )正态曲线( normal curve )在横轴上方均数处最高2)正态分布以均数为中心,左右对称3 )正态分布有 2 个参数( parameter ),即均数 (位置)和标准差 (形状)。当 固定不变时,越大,曲线沿横轴越向右移动;反之, 越小,则曲线沿横轴越向左移动。当 固定不变时, 越大,曲线越平阔;越小,曲线越尖峭。通常用N ( , )表示均数为 、方差为 的正态分布用( 0, 1)表示标准正态分布。( 4)正态分布在1 处各有一个拐点。( 5)正态曲线下面积的分布有一定规律。3,常用的两
10、个区间:1.96 及 2.58 的区间面积分别占总面积的 95%及 99%。4,正态分布的应用双侧界值:单侧上界 :1 ),制定医学参考值范围a, 正态分布法 适用于正态或近似正态分布的资料或单侧下界:b ,对数正态分布法 适用于对数正态分布资料双侧界值:,或单侧下界,或单侧下界:2 )正态分布是多种统计方法的理论基础如 t 分布, F 分布,分布都是在正态分布的基础上推导出c ,百分位数法 常用于偏态分布资料及资料中一端或两端无确切数值的资料。双侧界值:单侧上界:来的, 分布也是以正态分布为基础的。另外 t 分布,二项分布, poisson 分布的极限为正态分布,一定条 件下可按正态分布原理
11、处理。t 分布3.5)1,t 分布:t 分布的特征为:1 以 0 为中心,左右对称的单峰分布。2 t 分布曲线形态变化与自由度的大小有关。自由度越小,则 t 值越分散,曲线越低平;自由度 逐渐增大时,则 t 分布逐渐逼近正态分布(标准正态分布)。当 = 时, t 分布为 u 分布。 t 界值表附图中非阴影部分面积的概率为:2,总体均数的估计:用样本指标估计总体参数称为参数估计,是统计推断的一个重要方面。总体均数的估计有 2 种方法。一是直接用统计量估计总体参数 ,称为点值估计。由于抽样误差的存在,此法很难 估计准确。二是区间估计( interval estimation )法。区间估计是按一定
12、的概率 100(1- )% 估计总体均数 所在的范围,亦称可信区间( confidence interval ,CI )。常取的可信度为 95%和 99%,即 95%可信区间和 99%可信区间。计算方法有 3 种:(1)未知且 n 小 按 t 分布原理用式( 3.6)计算可信区间。则总体均数的100 ( 1- ) %可信区间的通式为:3.6)或写成2)。未知,但 n 足够大时( n>100) t 分布逼近u 分布,按正态分布原理,用式( 3.7)估计可信区间。(3) 已知 按正态分布原理,用式( 3.8)估计可信区间。( )( 3.8 )标准正态分布( u 分布)与 t 分布有何异同?答
13、:相同点: t 分布和标准正态分布( u分布)都是以 0为中心的正态分布。标准正态分布是 t 分布的特例 (自由度是无限大时)。不同点: t 分布为抽样分布, u 分布为理论分布; t 分布比标准正态分布的峰值低,且尾部翘得更高; t 分布受自由度大小的影响,随着自由度的增大,逐渐趋近于标准正态分布; t 分布有无数条曲线,而 u 分布 只有唯一一条曲线。二项分布1,二项分布( binomial distribution )是对只具有 2 种互斥结果的离散型随机事件的规律性进行描述的一种 概率分布。二项分布概率公式:(3.9)式中 n为独立的贝努力试验次数, 为成功的概率, (1- )为失败的
14、概率, X 为在 n 次贝努力试验中出现“成功”的次数,表示在 n 次试验中出现 X 的各种组合数, 在此称为二项系数 ( binomial coefficient )。2,二项分布的应用条件:(1)各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡。(2)已知发生某一结果(阳性)的概率为,其对立结果的概率为 1- ,实际工作中要求 是从大量观察中获得比较稳定的数值。(3)n 次试验在相同条件下进行,且各个观察单位的观察结果相互独立。 3,二项分布的性质:A,二项分布的均数和标准差 在二项分布的资料中,当 和 n 已知时,它的均数及其标准差 如下: =n3.11)(3.12)3.1
15、1)( 3.12)分别除以 n,得:若均数和标准差不用绝对数表示,而是用率表示时,即对式(3.13)(3.14)是 样本率的标准误的理论值,当 未知时, 常用样本 率 p 作为 的 估计值,则 :(3.15)B,二项分布的累计概率 二项分布的累计概率( cumulative probability )常用的有左侧累计和右侧累计 2 种 方法。从阳性率为 的总体中随机抽取 n 个个体,则(1)最多有 k 例阳性的概率(3.16)(2)最少有 k 例阳性的概率(3.17) D,二项分布的形状取决于和 n 的大小:(1)当 =0.5 时,分布对称; 当 <0.5 时,分布呈正偏态, 且固定 n
16、时, 越小,分布越偏; 当 >0.5 时,分布呈负偏态,且固定 n 时, 越大,分布越偏。(2)对固定的 ,分布随 n 的增大趋于对称。 4,总体率的估计总体率的估计也有点估计和区间估计, 点估计是简单地用样本率来估计总体率; 区间估计是求出总体率 的可能范围。样本率的理论分布和样本含量n、阳性率 p 的大小有关,所以需要根据 n 和 p 的大小不同,分别选用下列 2 种方法。(一)查表法 当样本含量 n较小,如 n50,特别是 p很接近于 0 或1 时,按二项分布的原理估计总体率 的可信区间。(二)正态近似法 当样本含量 n 足够大,且样本率 p 或 1-p 均不太小,如 np 与 n
17、(1-p )均大于 5 时,样 本率的 p 的抽样分布近似正态分布,总体率 的可信区间可按下列式( 3.17)进行估计。3.17)Poisson 分布1, Poisson分布 泊松分布是在 很小,样本含量 n 趋向于无穷大时,二项分布的极限形式。更多地用于 研究单位时间、单位人群、单位空间内,某罕见事件发生的次数的分布。式中 =n 为 Poisson 分布的总体均数, X 为单位时间或单位空间内某事件的发生数, e为自然对数的底,约等于 2.71828。在实际运算中, P(X )亦可按式( 3.20)作递推计算。(3.20)2, Poisson分布应用条件:A , 要求事件的发生是相互独立B,
18、 发生的概率相等C, 结果是二分类3, Poisson分布的性质:A , 该分布是一种单参数的离散型分布,其参数为,它表示单位时间或空间内某件事平均发生的次数,又称强度参数。B, Poisson 分布的方差和均数 相等,即 =C, Poisson 分布的累计概率(1)最多为 k 次的概率(2) 最少为 k 次的概率4, Poisson分布的图形已知 ,就可按公式计算得出 X=0,1,2, 时的 P(X)值,以 X 为横坐标,以 P(X) 为纵坐标作图, 即可会出 Poisson 分布的图形。值越小,分布越偏,随着 的增大,分布越趋于对称,当 =20 时,分布接近正态分布,当 =50 时, 可以
19、认为 Poisson 分布呈正态分布 N( , ) 按正态分布处理。5, Poisson分布具有可加性6,总体参数的估计由样本均数(样本计数) X 估计总体均数 也有点(值)估计和区间估计,区间估计的方法,需视样本 计数(样本均数) X 的大小而定, X 小时用查表法, X 大时用正态近似法。(一)查表法当样本计数 X 时,用 X 值查附表 poisson 分布 的可信区间,可得总体均数 的 95%或 99% 可信区间。(二)正态近似法当样本 计数 X>50 时,可用正态近似原理 下面公式求总体均数 的 95%或 99%可信区间正态分布、二项式和泊松分布的关系 :二项分布( binomi
20、al distribution ):对只具有两种互斥结果的离散型随机事件的规律性进行描述的一种 概率分布。 Poisson分布是在 很小,样本含量 n 趋于无穷大时,二项分布的极限形式。当 v=时, t 分布 即为 u 分布,趋向正态分布。可信区间与参考值范围的区别 :意义、计算公式和用途均不同。 (1)参考值范围是指同质总体内包括百分之几十个体值的估计范围。而可 信区间是指在百分之几十的可信度估计的总体参数的所在范围。( 2)同样的百分之几十,参考值范围是样本范围,可信区间是指可信度范围,二者有着本质的不同。( 3)从意义来看, 95参考值范围是指同质总体内包括 95个体值的估计范围,而总体
21、均数95可信区间是指按 95可信度估计的总体均数的所在范围。( 4)从计算公式看,若指标服从正态分布,95参考值范围的公式是:±1.96s。总体均数 95可信区间的公式是:前者用标准差,后者用标准误。前者用1.96,后者用 为 0.05,自由度为 v 的 t 界值。( 5)从用途上看,可信区间用来估计总体均数,参考值范围用来判断观察对象的某 项指标是否正常。简述检验假设与可信区间的联系与区别 。 答:(1)可信区间用于推断总体参数所在的范围,假设检验用于推断总体参数是否不同。前者估计总体参 数的大小,后者推断总体参数有无质的不同。(2)可信区间也可回答假设检验的问题。但可信区间不能提
22、供确切的 P 值范围,只能给出在 水准上有无统计意义。( 3)可信区间还可提示差别有无实际意义。统计图表1,绘制统计图的基本要求:A , 根据资料性质和分析目的据顶适当图形。B, 标题应说明资料的内容、时间和地点,一般位于图的下方。C, 图的纵、横轴应注明标目及对应单位,尺度应等距或具有规律性,一般自左而右、自下而上、由 小到大。D, 为使图形美观并便于比较,统计图的长宽比例一般为7:5,有时为了说明问题也可以变动。E, 比较、说明不同的事物时,可用不同颜色或线条表示,并常附图例说明,但不宜过多。 2,常用统计图的适用条件与绘制1 条图( bar graph) 用等宽长条的高度表示按性质分类资
23、料各类别的数值大小,用于表示它们之 间的对比关系。2 圆图( pie graph) 圆形图适用于百分构成比资料,表示事物各组成部分所占的比重或构成。3 百分条图( percent bar) 意义及适用资料同圆图,也称构成条图。4 线图( line graph) 线图适用于连续性资料,以不同的线段升降来表示资料的变化,并可表明一 事物随另一食物(时间)而变动的情况。5 直方图( histogram) 直方图用于表达连续性资料的频数分布。6 散点图( scatter diagram) 散点图以直角坐标系中各点的密集程度和趋势来表示两现象间的关系 常用在对资料进行相关分析之前适用。单变量资料一,数值
24、变量统计描述1,频数表的编制 求全距 定组段和组距 列频数表 画频数图2,频数分布的两个重要特征:集中趋势和离散趋势3,频数分布可以分为正态分布和偏态分布4,频数表的用途:揭示资料分布类型和分布特征,以便选取适当的统计方法;便于进一步计算指标和统计 处理;便于发现某些特大或者特小的可疑值。5,集中趋势的描述:均数 几何均数 中位数 百分位数6,均数 (mean):算术均数的简称。常用= = 表示。7,中位数 (median):一组由小到大按顺序排列的观察值中位次居中的数值,用M 表示。可用于描述任何分布,特别是偏态分布资料以及频数分布的一端或两端无确切数据资料的中心位置。8,百分位数 (per
25、centile)是一种位置指标,用表示。一个百分位数 P 将一组观察值分为两部分,理论上有 x%的观察值比它小,有( 100-x )%的观察值比它大。可用于确定非正态分布资料的医学参考值范围9,离散趋势的描述:10,全距( range) 计算简单,缺点是:全距( range) 四分位数间距( quartile ) 方差 标准差亦称极差,为一组同质观察值中最大值和最小值之差。反映个体差异的范围,优点是1)只考虑最大最小值之间的差异,不能反映组内其他观察值的变异度;2)样本含量相差悬殊时不宜用全距比较。11,四分位数间距( quartile ) 上四分位数与下四分位数之差。常用于描述偏态频数分布以
26、及分布的一端或 两端无确切数值资料的离散程度。12,方差( variance )离均差的平方和表示。b,计算变异系数 c,与均数结合,估13,标准差( standard variance)的作用: a,估计变量值的离散程度计变异值的频数分布范围 d,计算标准误样本)( 总体 ) s=14, 变异系数( coefficient of variation ) 常用于比较度量单位不同或均数相差悬殊的两组或多组资料的变异度。 CV= 100%假设检验1,假设检验( hypothesis test)亦称显著性检验( significance test),其基本思想是先对总体的参数或分布 做出某种假设,如
27、设总体均数(或率)为一定值;两总体均数(或率)相等;总体服从正态分布或两分布 相同等,然后根据样本信息选用适当的方法,推断此假设应当拒绝或不拒绝。2,假设检验的一般步骤:(1)建立假设和确定检验水准:根据实际情况确定单、双侧检验,建立假设,确定检验水准;(2)选定检验方法和计算统计量: 根据设计的类型及研究目的选择合适的检验方法并计算出对应的统计量;(3)确定 P 值并做出推断结论。若 tt,v,则 P ,按检验水准,拒绝 H0,接受 H1,尚可认为差异 显著有统计学意义;相反则差异不显著,无统计学意义3,假设检验时应注意的事项:(1)要有严密的抽样研究设计; 样本必须是从同质总体中随机抽取的
28、,要保证组间的均衡性和资料的可比 性,可能影响结果的非处理因素在对比组间应尽可能相同或相近;(2)正确选择检验方法;根据现有的资料类型、设计类型、分析目的、样本含量等因素选用适当的检验方 法,如不符合条件可做适当转换;(3)正确理解“差别无显著性”的含义,差别有统计学意义,不能理解为两者差差大,也不能理解为所分 析的指标在实际应用上就有“显著效果”。(4)检验假设的推断结论为概率结论,不能绝对化:检验水准人为规定,是相对的,报告结论时应列出检 验统计量和 P 值的确切范围。(5)注意是单侧检验还是双侧检验I 型错误和 II 型错误 :I 型错误( type I error )拒绝了实际上成立的
29、,即样本原本来自的总体,由于抽样的偶然性得到了较大的 t 值,所以拒绝了 ,接受了 ,这类弃真错误称为第一类错误, 犯第一类错误的概率 是。II 型错误( type II error )是不拒绝实际上不成立的即“存伪”即样本原本来自的总体,但是由于抽样的偶然性,得到了较小的t 值,得到了较大的P 值,没有拒绝这类存伪错误称为第二类错误,犯第二类错误的概率是 1-正态性检验 :用均数和标准差描述资料的分布特征,对例数 n 较小的样本进行 t 检验时,首先要求样本取 自正态分布的总体。两个方差的齐性检验 :两样本均数比较的 t 检验和多个样本均数比较的方差分析要求各样本所来自的总体 方差相等。两样
30、本方差的齐性检验:4.12)式中 为较大的样本方差, 为较小的样本方差, 为分子的自由度, 为分母的自由度,相应的样本例数分别为 和 。当两总体方差齐同时, F 值一般不会离 1 太远;若算得的 F 值较大,大于我们规 定的界值时,就认为两样本所在总体的方差不齐。t 检验t 检验: 常用于总体标准差未知且样本含量较小时样本均数与总体均数的比较, 成组设计的 两个小 样本的均数的比较及配对设计的两样本均数的比较。t 检验的应用条件: a,n 50 b,样本来自正态分布的总体 c ,两样本均数比较时要求两样本总体方差相等。1,单样本 t 检验( one sample t-test ): 样本均数与
31、已知总体均数比较,目的是推断样本所代表的未知 总体均数 与已知总体均数 有无差别。( ) ( 4.1 )式中 为样本均数, 为已知总体均数, s为样本标准差, n 为样本含量, 为自由度。步骤如下(可为 u 检验)1)建立假设,确定检验水准。H0 : = 0 H1 : 0 =0.052)计算统计量。已知, (总体均数 ) 0=, n= , =, s=3)确定 P 值,做出推断结论。按 v=n-1 ,查 t 界值表,得 P>0.05(或 P<0.05),按 检验水准,不拒绝 H0 (或拒绝 H0,接受 H1),即 根据本资料尚不能(可以)认为?与?有差异。2,配对设计资料的 t 检验
32、 分为 3 种情况:将受试对象按一定条件配成对子(同种属、同体重、同年龄、 同性别等) ,再随机分配每对中的 2 个受试对象到不同的处理组; 同一受试对象分别接受 2 种不同处理, 其目的是推断 2 种处理的效果有无差别;同一受试对象处理前后的比较,其目的是推断某种处理有无作 用。配对设计资料的 t 检验( paired t-test for dependent samples)的基本思路: 首先计算出各对差值 d 的均数当2 种处理结果无差别或某种处理不起作用时, 理论上差值的总体均数应该为 0,故可将配对设计资料的t 检验视为样本均数与总体均数 的比较。(4.2)式中 为样本中各对差值 d
33、的均数, 为样本差值的标准差, n 为对子数, 为自由度。先列表求差值 d 和1)建立假设,确定检验水准。H0 : d =0 H1 : d0 =0.052)计算统计量。已知, n=, d=, =3)确定 P 值,做出推断结论。H0 (或拒绝 H0,接受 H1),即按 v=n-1 ,查 t 界值表,得 P>0.05 (或 P<0.05),按 检验水准,不拒绝根据本资料尚不能(可以)认为?3,成组设计资料两样本均数比较的 t 检验 (two-sample t-test for independent samples ):在临床医学研究中, 进行配对设计比较困难,一般分别从 2 个总体中
34、随机抽样,进行成组设计两样本均数的比较,目的是推断 2 个总体均数是否相等。所比较的两个样本含量最好相等,此时抽样误差最小。(4.3)可为 t,u 检验1)建立假设,确定检验水准。 1= 2 1 2=0.052)计算统计量。已知,n1=, X1= ,n2=, X2= ,1= X1/n1= , 2= X2/n2=(已知, n1=, 1=, s1=, n2=, 2=,s2=3)确定 P 值,做出推断结论。按 v=n1+n2-2 ,查 t 界值表,得 P>0.05(或 P<0.05),按 检验水准,不拒绝 H0(或拒绝 H0,接受 H1), 可以认为?的差别无(或有)统计学意义。检验u
35、检验( u-test,或 Z-test ):用检验统计量 u 来命名的。用于样本含量 n 足够大( n>50 ),或 n 虽小但总体 标准差 已知时的样本均数与总体均数的比较、成组设计两样本均数的比较。1,单样本 u 检验( one sample u-test):式中 为样本均数, 为已知总体均数, s为样本标准差, n 为样本含量。2,成组设计的两样本均数比较的u 检验( two-sample u-test for independent samples)式中, 分别为两样本均数,为两样本均数差值的标准误,、 为分别为两样本的方差, 、 分别为两样本例数。标准正态分布( u 分布)与
36、t 分布有何异同?答:相同点: t 分布和标准正态分布( u分布)都是以 0为中心的正态分布。标准正态分布是 t 分布的特例 (自由度是无限大时)。不同点: t 分布为抽样分布, u 分布为理论分布; t 分布比标准正态分布的峰值低, 且尾部翘得更高; t 分布受自由度大小的影响,随着自由度的增大,逐渐趋近于标准正态分布; t 分布有无 数条曲线,而 u 分布只有唯一一条曲线。方差分析1,方差分析的基本思想:按研究目的和设计类型,将总变异中的离均差平方和SS 和自由度 分别分解成相应的若干部分,然后求得各相应部分的变异;由于其中的组内(或误差)变异主要反映个体差异或抽样 误差,其他各部分的变异
37、与之比较得出统计量 F 值,根据 F 值的大小确定 P值,并做出推断。 2,方差分析的优点:(1)不受比较组数的限制,可比较多组均数(2)可同时分析多个因素的作用(3)可分析同类间的交互作用 3,方差分析的应用范围:( 1 ) 2 个或多个样本均数间的比较(2)分析 2 个或多个因素间的交互作用(3)回归方程的线性假设检验(4)多元线性回归分析中偏回归系数的假设检验(5)两样本方差齐性检验完全随机设计的方差分析:是将总变异中的离均差平方和 SS 和自由度 分别分解成组间和组内两部分,SS / 和 SS/SS 分别为组间变异( MS )和组内变异( MS ),两者之比即为统计量 总离均差平方和及
38、自由度:F。1)SS5.2)5.3)2)组间离均差平方和、自由度和均方:SS =5.4)3)=(组数 -1 )MS =5.6)组内离均差平方和、自由度和均方:5.5)SS =SS -SS5.7)=N-k (样本量 - 组数)5.8)MS =5.9) 当方差分析的推断结果为拒绝H0 ,接受 H1,各总体均数不同或不全相同时,应对均数进一步两两比较,即多重比较 (multiple comparisons)。 可用 q 检验进行分析:( 5.14)式中 为方差分析的组内均方,若为两因素或两因素以上的方差分析,则为误差项均方;和 分别为两样本的样本含量。配伍组设计资料的方差分析 配伍组设计亦称随机区组
39、设计( randomized block design ),其多个样本均数比较可用无重复数据的两因素 方差分析( two-way ANOVA )。2 个因素是指主要的研究因素和配伍组因素。两因素的方差分析是把总变 异中的离均差平方和与自由度分别分解成处理组间、配伍组间和误差三部分。计算公式如下:变异来源离均差平方和自由度均方 MSF总-C处理组间k-1配伍组间b-1误差SS -SS -SS(k-1)( b-1), 为配伍组数二,分类变量统计描述 常用相对数,即率,构成比,和相对比对分类资料进行统计描述1, 率( rate):率又称频率指标,它说明某现象发生的频率或强度率=2,构成比( prop
40、ortion ):又称构成指标,它说明一事物内部各组成部分所占的比重或分布,常以百分数 表示构成比=3,相对比( relative ratio )亦称比,是 A,B 2 个有关指标之比,说明 A和 B 的若干倍或百分之几,是相对 数的最简单形式。 A, B 性质可相同可不同。相对比 =4 , 应用相对数时应注意的事项:(一)计算相对数的分母不宜过小。(二)分析时不能以构成比代替率。(三)对观察单位数不等的几个率,不能直接用相加求其平均率。(四)资料的对比应注意可比性。五) 对样本率(或构成比)的比较应遵循随机抽样,要做假设检验六) 区别清分子分母。5,率的 u 检验1),样本率与总体率比较:目
41、的是推断样本率所代表的总体率与某已知总体率 是否相等。根据资料,二项的不同情况,可以采用不同的假设检验方法:若 很小,可用 Poisson 分布原理做检验;若不太靠近 0 或 1 时,可用二项分布原理做检验;当样本含量n 足够大时,或 且 分布逼近正态分布,可用 u 检验计算其样本检验统计量。n 为样本含量。6.1)式中 p 为样本率,为已知总体率(常为理论值或标准值),2),两样本率比较:两个样本率作比较的目的是推断两个样本各自代表的两总体率是否相等,当两个样本满足正态近似条件且样本含量较大时,可用 u 检验,其公式:6.2)式中 、 分别为两个样本率, 、 分别为两样本含量,为两个样本率之
42、差的标准误, 为合并阳性率, ,、为两个样本阳性例数。四格表资料的 检验适用于分类变量资料中推断两个或多个总体率(或构成比)之间有无差别,两个分类指标之间有无相关关 系的检验以及检验频数分布的拟合优度。(6.3)式中 A 代表实际频数, T 代表理论频数。格子理论频数 可用同样方法求得,其计算公式为:6.4)6.5)四格表资料的专用公式:(6.6)式中 a、b、 c、d 分别为四格表的实际频数 =a+b+c+d。四格表的 值的校正。 当所有 T>5,n>40 时用上述公式; 当有 1<T<5 ,且 n>40 时,需进行连续性校正:6.7)(6.7) 或 n<
43、40 时,需用四格表资料的确切概率法。行×列表资料的 检验 。(6.9)式中 n 是总例数, A 是每个格子的实际频数, 分别为某格子对应的行合计和列合 行×列表 检验注意事项(1)X2 检验要求理论频数不宜太小,否则将导致偏性。一般认为行X 列表资料中不宜有 1/5 以上的格子理论数小于 5,或有一个格子理论数小于 1。处理方法:最好的方法是增加样本例数,以增大理论频数;且 精确概率法;进行合理的合并;删除理论频数太小的行和列,后两种方法将损失一定的信息并影响样本的 随机性。(2)单向有序列行 X 列表的统计处理:当效应按强弱分为若干个级别,试验结果整理为单向有序行列表,
44、 在比较各处理组的效应有无差别时,宜用秩和检验或 Ridit 分析。(3)当多个样本率比较的检验。结论为拒绝 H0 ,只能认为各总体率或总体构成比之间总的说来有差别,但不能说明它们彼此间都有差别,或某两者间有差别。若要进一步解决此问题,可用卡方分割法。 配对四格表资料的卡方检验 :(一)关联性分析:(1)建立假设检验,确定检验水准。H0:两种方法的检验结果无关系H1:两种方法的检验结果有关系 =0.05( 2 )计算统计量 X2 值。 n>=40,T>=5, n>=40,1<T<5, n<40 或 T<1, 四格表确切概率法。(3)确定 P 值,做出推
45、断结论。X2>3.84 ,P<0.05,按 =0.05检验水准,拒绝 H0,接受 H1,可以认为两种方法的检验结果有关系。 (二)差别性检验:(1)建立假设检验,确定检验水准。H0:两总体的 B=CH1:两总体的 B 不等于 C =0.05( 2 )计算统计量 X2 值。 b+c>40 时:b+c<40 时,(3)确定 P 值,做出推断结论。X2>3.84 , P<0.05,按 =0.05检验水准,拒绝 H0,接受 H1,可以认为两种方法的检验结果有差别。 ( X20.05(1)=3.84, X20.005(1)=7.88 )非参数检验参数检验和非参数检验的
46、优缺点:参数检验的优点是对资料的分析利用充分, 统计分析的效率高; 缺点是对资料的要求高, 适用范围有限。 非参数检验的优点:( 1)适用范围广,对变量的类型和分布无特殊要求,不受总体分布的限制;(2)对数据的要求不严,对某些指标不便准确测定的资料也可应用;(3)方法简便,易于理解和掌握。缺点是如果对符合参数检验的资料用了非参数检验,因不能充分利用资料提供的信息,会使检验效能低于非参数检 验;若要使检验效能相同,往往需要更大的样本含量。配对设计的符号秩和检验Wilcoxon 符号秩和检验( Wilcoxon signed rank test )是推断其差值是否来自中位数为零的总体的方法, 可用
47、于配对设计差值的比较和单一样本与总体中位数的比较。(一)基本思想 其假设 是差值的总体中位数等于 0,备择假设是差别的总体中位数不等于 0,如果差别太大,就拒绝 ;反之,不拒绝 。(二)方法步骤: 1,建立检验假设,确定检验水准; 2,计算检验统计量 T 值: a,求各对的差值; b, 编秩; c,求秩和,确定统计量 T;3,确定 P 值,做出推断结论。完全随机设计两样本比较的秩和检验 亦称两个样本比较的秩和检验,利用两样本观察值的秩和来推断样本分别代表的总体分布是否相同。成组设计多样本比较的秩和检验 , 利用多个样本的秩和来推断各样本分别代表的总体的分布有无差别。配伍组设计的秩和检验 M 检
48、验 秩和检验步骤:(1) 建立检验假设,确定检验水准。H0:?和?的?总体分布相同。 H1:?和?的?总体分布不同。(2)计算统计量 T 值。1)编秩 将 2 组数据由小到大统一编秩,相同数据取平均秩次。2)求秩和,确定统计量 T 2 组秩次分别相加,若两组例数相等,则任取一组的秩和为统计量;若两组例 数不等,则以样本例数较小者对应的秩和为统计量。3)确定 P 值,做出推断结论。查 T 界值表(成组设计用),若 T 值在界值范围内, P>0.05 ,按 =0.05检验水准,不拒绝 H0 ,可以认为 两者的总体分布相同;若 T 值<= 界值或在界值范围外, P<=0.05 ,按 =0.05检验水准,拒绝 H0,接受 H1,可以认为两的分布位置不同。如 n1 或 n2-n1 超出了成组设计 T 界值的范围,可用正态近似检验: 如相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 加层导致该房屋裂缝赔偿合同书(4篇)
- 公众公司监督管理制度
- 专科医生调考复习试题附答案
- 药理学复习测试题
- 2025股东借款合同范本(16篇)
- 嵌入式开发中的软件版本管理试题及答案
- 2024年中韩雇佣许可制情况统计分析报告
- 数字媒体设计创意与技能测试题库
- 现代农业产业链协同发展合同书
- 农业合作社种养殖项目合作合同
- 通向自由与智慧之路
- GB/T 18380.12-2008电缆和光缆在火焰条件下的燃烧试验第12部分:单根绝缘电线电缆火焰垂直蔓延试验1 kW预混合型火焰试验方法
- word基础入门公开课课件
- 综合、专科医院执业校验标准
- 学习罗阳青年队故事PPT在急难险重任务中携手拼搏奉献PPT课件(带内容)
- 稀土元素的分离方法-icaredbd课件
- 四年级下数学课件-火车过桥-通用版
- 版式设计课件3,网格系统全攻略
- 船舶防台风安全安全知识
- 国家开放大学《人文英语3》章节测试参考答案
- 用双棱镜干涉测光波(20149)
评论
0/150
提交评论