


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、卫生统计学知识概要统计工作基本步骤:统计设计(调查设计和实验设计) 、资料分析 收集资料、整理资料、分析 资料【统计描述和统计推断(参数估计和假设检验) 】。 统计推断: 是利用样本所提供的信息来推断总体特征,包括:参数估计和假设检验。 a 参 数估计是指利用样本信息来估计总体参数,主要有点估计(把样本统计量直接作为总体参数估计值)和区 间估计【按预先设定的可信度( 1-),来确定总体均数的所在范围】 。b 假设检验:是以小概 率反证法的逻辑推理来判断总体参数间是否有质的区别。变量资料可分为定性变量、定量变量。不同类型的变量可以进行转化,通常是由高级向低级 转化。资料按性质可分为计量资料、计数
2、资料和等级资料。定量资料的统计描述1 频率分布表和频率分布图是描述计量资料分布类型及分布特征的方法。 离散型 定量变量的频 率分布图可用 直条图 表达。2 频率分布表(图)的用途: 描述资料的分布类型; 描述分布的集中趋势和离散趋势; 便于发现一些特大和特小的可疑值; 便于进一步的统计分析和处理; 当样本含量足够大 时,以频率作为概率的估计值。3集中趋势和离散趋势是 定量资料 中总体分布的两个重要指标 ( 1)描述集中趋势的统计指标: 平均数(算术均数、几何均数和中位数) 、百分位数(是一 种位置参数,用于确定医学参考值范围, P50 就是中位数)、众数。算术均数:适用于对称分布 资料,特别是
3、正态分布资料或近似正态分布资料;几何均数:对数正态分布资料(频率图一 般呈正偏峰分布)、等比数列;中位数:适用于各种分布的资料,特别是偏峰分布资料,也可 用于分布末端无确定值得资料。( 2)描述离散趋势的指标: 极差、四分位数间距、方差、标准差和变异系数。四分位数间距: 适用于各种分布的资料,特别是偏峰分布资料,常把中位数和四分位数间距结合起来描述资 料的集中趋势和离散趋势。方差和标准差:都适用于对称分布资料,特别对正态分布资料或 近似正态分布资料,常把均数和标准差结合起来描述资料的集中趋势和离散趋势;变异系数: 主要用于量纲不同时,或均数相差较大时变量间变异程度的比较。标准差的应用: 表示变
4、量分布的离散程度; 结合均数计算变异系数、描述对称分布资料; 结合样本含量计算标准误。定性资料的统计描述1 定性资料的基础数据是绝对数。描述一组定性资料的数据特征,通常需要计算相对数。定性 变量可以通过频率分布表描述其分布特征。2 常用相对数类型:频率型、强度型和相对比型指标。指标频率型指标强度型指标相对比型指标概念近似反映某一时间出现概率单位时间内某现象的生频率两个有关联的指标 A 和 B 之比计算 公式A/B有无 量纲无有可有、可无取值 范围【0,1】可大于 1无限制本质大样本时作为概率近似值分子式分母的一部分频率强度,即概率强 的近似 值表示相对于 B 的一个单位, A 少个单位A和 B
5、可以是绝对数、相对数和 均数A 和 B 的量纲可相同也可不同A 和 B 互不包含有相对比: A 、B 两指标可以是绝对数、相对数或平均数。最常见的相对比是人口学中的男女性 别比,流行病学中的相对危险度 RR=P1/P0 也是相对比指标。3 应用相对数应该注意: 防止概念混淆, 避免以比代率的错误现象; 计算相对数时分母应 有足够数量 ,如果例数较少会使相对数波动较大,应该使用绝对数; 正确的计算频率(或 强度)指标的合计值。 当分组的资料需要合并起来估计频率(或强度)时,应将各组频率的 分子相加作为合并估计的分子,各组的分母相加作为合并估计的分母; 频率型指标的解释 要紧扣总体和属性; 相对数
6、间比较要具备可比性: 要注意观察对象是否同质、研究方法是 否相同、观察时间是否一致、观察对象内部结构是否一致、对比不同时期资料应注意客观条 件是否相同; 正确进行相对数的统计推断: 在随机抽样的情况下,从样本估计值推断总体 相对数应该考虑抽样误差,因此要进行参数估计和假设检验。4 医学人口统计资料主要来源为日常工作记录(报告单、卡、册) 、统计报表、人口调查(普 查和抽样调查)。5 描述人口学特征的常用指标一般有人口总数和反映人口学基本特征的某些指标。 人口学的基 本特征包括性别、年龄、文化、职业等,最常用来描述人口结构的是性别和年龄。人口学特 征指标:老年人口系数、少儿人口系数、负担系数、老
7、少比、性别比。6 有关生育的常用指标有出生率、生育率和人口再生产指标。测量生育水平的统计指标:粗出 生率、总生育率、年龄别生育率、总和生育率。测量人口再生育的统计指标:自然增长率、 粗再生率和净再生率。7 常用的死亡统计指标有:粗死亡率、年龄别死亡率、婴儿死亡率、新生儿死亡率、围生儿死 亡率、死因别死亡率、某病病死率和死因构成等。8 疾病统计资料主要来源于:疾病报告和报表材料、医疗卫生工作记录、疾病专题调查资料。 9标准化: 两个率或多个率之间进行比较时, 为消除内部构成不同的影响, 采用统一的标准, 对两组或多组资料进行校正(调整) ,计算得到标准化率后再做比较的方法,称为 。其目的 是统一
8、内部构成,消除混杂因素,是资料具有可比性。应用标准化法的注意事项: 标准化法的应用范围很广。当某个分类变量在两组中分布不同时,这两个分类变量就成为 两组频率比较的混杂因素, 标准化的目的是消除混杂因素 。 标准化后的标准化率,已经不再反映当时当地的实际水平,只表示相互比较的资料间的相 对水平。 标准化法实质是找一个标准, 使两组得意在一个共同的平台上进行比较。 选择不同的标准, 算出的标准化率也会不同,比较的结果也未必相同,因此报告比较结果时必须说明所选用的标准和理由 两样本标准化率是样本值,存在抽样误差。比较两样本标准化率,当样本含量较小时,还 应作假设检验。 10 常用的动态数列分析指标有
9、: 绝对增长量、发展速度与增长速度、平均发 展速度与平均增长速度。(1)绝对增长量:是说明事物在一定时期增长的绝对值,可分为:累计增长量(报告期指标 与基线期指标之差)和逐年增长量(报告期指标与前一期指标之差) 。(2)发展速度与增长速度:均为相对比,说明事物在一定时期的变化,可计算定基比(即报 告期指标与基线期指标的比: an/a0)和环比(报告期指标与其前一期指标之比: an/an-1)。增长 速度表示的是净增长速度,增长速度 =发展速度 -100。(3)平均发展速度与平均增长速度:用于概括某现象在一段时期中的平均变化。平均发展速n an度是发展速度的几何平均数,平均发展速度 = n ,平
10、均增长速度 =平均发展速度 -100。a0 11统计表和统计图是描述资料特征、呈现统计分析结果的重要工具。统计表结构标题、标目、 线条、数字和备注。12 常用统计图用途: 条图:适用于相互独立的资料(资料有明确分组、不连续) ;百分条 图、圆图适用于构成比资料; 线图适用于连续性资料,表达事物的动态变化(绝对差值) ; 半对数线图适用于连续性资料,表达事物的发展速度(相对比) ;直方图用于描述连续变量 的频数分布; 散点图适用于双变量资料,用点的排列趋势和密集度表示两变量的相关关系。 常用概率分布1 正态分布(连续型随机变量的概率分布)(1)正态概率密度曲线特点: 关于 x=对称; 在 x=处
11、取得该概率密度函数的最大值, 在 x=±处有拐点; 曲线下面积为 1;正态分布有两个参数:位置参数 (决定曲线在横 轴上的位置) 和变异参数 (决定曲线的形状);±1.64面积为 90,±1.96面积为 95, ± 2.58面积为 99。(2)Z变换与标准正态分布: 对于任意一个服从正态分布 N(,2)的随机变量,可作 Z 变: Z= x ,变换后的 z值仍然服从正态分布,且其总体均数为 0、总体标准差为 1,称此为 标 准正态分布 ,用 N(0,1)表示。 (z)为标准正态分布 Z 变量的累积面积, -Z的面积, 即 下侧累计面积 。(3)正态分布的应
12、用: 确定医学参考值范围:是指特定的 “正常 ”人群(排除了对所研究 的指标有影响的的疾病和有关因素的特定人群)的解剖、生理、生化指标及组织代谢产物含 量等数据中大多数个体的取值所在范围,习惯用该人群的95的个体某项医学指标的取值范围作为该指标的医学参考值范围。 方法:a百分位数法:适用于任何分布类型的资料; b 正态 分布法。 质量控制图:如果某一波动仅仅由个体差异或随机测量误差所致,那么观察结果 服从正态分布。控制图共有 7 条水平线,中心线位于总体均数 处,警戒限位于 ±2处,控 制限位于 ± 3处,此外还有两条位于 ±处。(4)确定医学参考值的步骤: 从“
13、正常人 ”总体中抽样,明确研究总体; 用统一和准确 的方法测定相应的指标; 根据不同的用途选定适当的百分界限,常用 95; 根据此指标 的实际意义,决定单侧范围还是双侧范围; 根据此指标的分布决定计算方法,常用的计算方法:正态分布法、百分位 数法。2 二项分布:(1)是一种 离散型随机变量 的分布类型。 如果每个观察对象阳性结果的发生概率为 ,阴性结果的发生概率为( 1-);而且每个观察对象的结果是相互对立的,那么,重复观察 n 个人,发生 阳性结果的人数 X 的概率分布为而二项分布,记作 B(n,)。二项分布的概率函数 P(X )=CnxXn!X!(n X)!适用条件: 每次实验只有两种 互
14、斥的结果; 各次实验互相 独立; 发生成功事件的 概 率恒定。分布特征:二项分布的特征由二项分布的参数 以及观察的次数 n 决定。 图形分布特征:二项分布图的高峰在 =n处或附近; =0.5时,图形对称; 0.时5 ,分布 不对称,且对同一 n,离 0.5 愈远,对称性愈差。对于同一 ,随着 n 的增大,分布趋于对 称。当 n时,只要 不太靠近 0 或 1(特别是当 n和 n(1-)均大于 5 时),二项分布趋 于对称。二项分布的均数和标准差:若 X 服从二项分布 B( n,),则 X 的总体均数为 =n,总体方差为 2=n( 1-),总体标准 差为 =n(1-);若将出现阳性结果的频率记为:
15、 P=X ,则样本率 P的总体均数为 P=, n总体方差为 2p =(1-),总体标准差为 p= (1 - ),p 是频率 P的标准差,又称频率 nn的标准误,反映阳性频率的抽样误差大小。 累 积 概 率 计 算 : 二 项 分 布 出 现 阳 性 的 次 数 至 多 为 k 次 的 概 率 为 : P ( Xk)k=X0n! X!(n X)!x (1 )nXn出现阳性的次数至少为 k 次的概率为: P(Xk)=n! x (1 )n XX k X!(n X)!3 Poisson分布:是一种 离散型随机变量 的分布类型,是二项分布的特例,用以描述单位时间、空间、面积 等的罕见事件发生次数的概率分
16、布。一般记作 P(), 是 Poisson分布的唯一参数 。 总体均 数为 =n。 前提条件:互斥、独立、恒定。X概率函数为: P(X)=e-X! ,X 为观察单位内稀有事件的发生次数, e=2.71828。分布特性: Poisson分布是非对称的,总体参数 值越小,分布越偏;随着 ,分布趋于 对称,当 2时0 , Poisson分布资料可按正态分布处理。 Poisson分布总体均数与总体方差 相等,均为 ;Poisson分布的观察结果可加性, 即对于服从 Poisson分布的 m 歌互相独立的 随机变量 X1、X2 Xm ,它们的和也服从 Poisson分布,其均数为这个 m 随机变量的均数
17、之 和。 概率计算: 如果稀有事件发生次数的总体均数为 ,有事件发生次数至多为 k 次的概率为:kXP(Xk)= X 0e X! ;生次数至少为 k次的概率: P(Xk)=1-P(Xk-1)4三种常用分布之间的关系: 二项分布与 Poisson分布的关系:当n很大,发生概率 (或 1-)很小,二项分布 B(n,) 近似于 Poisson分布 P(n); 二项分布与正态分布的关系:当 n较大, 不接近 0或1(特别是当 n和n(1-)均大于 5 时),二项分布 B(n,)近似于正态分布 N(n, n(1-); Poisson分布与正态分布的关系:当 2时0 , Poisson分布渐进正态分布 N
18、(,)。5 二项分布与 Poisson分布的区别:相同点:都是离散型随机变量的常见分布;区别: a取值不同。服从二项分布的随机变量有 n+1 个不同的取值; Poisson分布的随机变 量的可能去只有无限多个, 即非负整数 0,1,2 ;b随机变量的概率不同: 二项分布 P(X=k ) kn!= n! (k 1 - )n -k ,Poisson分布 P( X=k )=e- k! ;c 描述的随机变量不同。二项分布描述k! (n k)! k!的是一次试验只会出现两种对立的结果之一, n 次独立重复试验中某种结果出现次数的概率分 布。 Poisson分布描述的是在单位时间、面积、空间等范围中某种事
19、件发生数的概率分布。联系: B(n,) n很大,很小 Poisson分布。参数估计1 在服从正态分布的总体中进行随机抽样, 样本均数的抽样分布特点: 各样本均数未必等于 总体均数; 样本均数见存在差异; 样本均数围绕总体均数,中间多、两边少,左右基本 对称,呈近似正态分布; 样本均数间的变异明显小于原始变量间的变异。均数的标准误的理论值:X = ,总体标准差 通常未知,需用样本标准差 S 来估计,均 nS=sSX = n2 标准误:数标准误的估计值为:;频率的标准误:若随机变量 XB(n, ),则样本频率 P= X n的总体概率为 ,标准误是 p= (1n-),频率标准误的估计值: SP= p
20、(n1-1p)p(1n- p)( 增加样本含量可以减少样本误差) 。3 标准差与标准误的区别与联系:区别: 标准差 S():意义:描述个体观察值变异程度的大小。标准差小,均数对一组观 察值得代表性好; 应用:与 X结合,用以描述个体观察值的分布范围,常用于医学参考值范 围的估计; 与 n 的关系: n 越大, S 越趋于稳定; 标准误 S X (X ):意义:描述样本 均数变异程度及抽样误差的大小。标准误小,用样本均数推断总体均数的可靠性大; 应用 于X 结合,用以估计总体均数可能出现的范围以及对总体均数作假设检验;与n的关系:n越大, S X 越小。联系: 都是描述变异程度的指标; 由SX
21、= s 可知, SX与S成正比。 n一定时, s越大, X n XSX 越大。4 t 分布: 当 X 服从均数为 的正态分布时, 统计量 t X 服从自由度为 v=n-1 的 t 分布,是 sn小样本总体均数的区间估计及假设检验的理论基础。t 分布的图形特征: t 值得分布于自由度有关。 t 分布只有一个参数即 v。特征: 单峰分布, 以 0为中心,左右对称; v越小,t 值越分散,曲线的峰部越矮,尾部越高; 随着 v 逐渐 增大,t 分布逐渐接近标准正态分布;当 v 趋向时,t 分布趋近标准正态分布,故标准正态分 布是 t 分布的特例; t 分布是一簇曲线。t 界值表: 在自由度相同时, t
22、 值越大, t分布的尾部概率越小; 在t 临界值相同时,双 侧尾部面积概率为单侧尾部面积概率的两倍。5 参数估计: 包括点估计和区间估计。 置信区间的两个要素: 准确度:反映置信度 1-的大 小,及区间包括总体均数 的理论概率的大小,愈接近 1 越好; 精密度:即区间的宽度, 区间越窄越好,如样本含量不变,将置信度由 95提高到 99,则置信区间由窄变宽,估计 的精度下降。6 总体均数及总体概率的区间估计: 体均数的置信区间: t 分布法和正态近似法I.t 分布法:当 未知且 n 较小时,总体均数 的双侧( 1-)置信区间为 X ±t/2,vSX ;单侧( X -t,v S X ,)
23、或( -, X + t,vSX);II正态近似法: 当 已知时,总体均数 的双侧( 1-)置信区间为 X ±Z/2,vX ;单侧( X -Z,vX,)或(-, X + Z,v X );当 未知但 n足够大时( n>50),t分布近似服 从标准正态分布,总体均数 的双侧( 1-)置信区间为: X ±Z/2,vSX,单侧(X - Z,v SX,)或( -, X + Z,v SX) 总体概率的置信区间:对于二项分布的样本资料,可根据样本含量 n 和样本频率 p 的大小, 选用查表法( n50,特别是 p 很接近 0 或 100时)或正态近似法估计总体概率 的( 1-) 置信
24、区间。正态近似法:当 n 足够大,且 np 及 n(1-p)均大于 5 时,p 的抽样分布近似正态分布,总体概 率 的双侧( 1-)置信区间等于 P±Z/2 Sp7医学参考值范围与总体均数的置信区间的区别:参考值范围 意义:绝大多数人某项指标的数值范围;计算:正态分布双侧 X ±Z/ 2,v S;单侧( X - Z S,)或( -, X + ZS)偏峰分布双侧 PX P100-X ;单侧( PX,)或( -,P100-X)应用:判断某项指标正常与否 总体均数的置信区间: 意义:按一定的置信度估计总体均数所在范围;计算:正态分布未知:双侧 X ±t/2,vSX ,单
25、侧( X -t,vSX,)或(-,X + t,vSX);已知:双侧 X ±Z/2,vX ,单侧( X -Z,vX,)或(-,X + Z,v X );正态分布或偏峰分布: 未知但 n足够大:双侧 X ±Z/2,v S X ,单侧( X - Z,v SX, )或( -, X + Z,v SX)应用:估计总体均数所在范围。假设检验1 假设检验的过程:建立检验假设,确定检验水准计算统计量确定 P值并与给定的比较做出推断结论。2 假设检验的基本逻辑:在 H0成立的条件下(处理因素不起作用) ,计算统计量和 P值,把“不 太可能出现假阳性”当作“不可能出现假阳性”,从而拒绝 H0,接受
26、 H1(处理因素起作用) 。3 假设检验的两类错误: 型和型错误。(见名解) 实际情况 统计推断H0 成立,无差异H1 成立,有差异4t 检验:拒绝 H0,有差异 第类错误(假阳性),概率= 正确,该概率=1-不拒绝 H0 ,无差异 正确,概率 =1- 第类错误(假阴性),概率=应用条件: 随机样本: 来自正态分布总体; 均数比较时,要求两总体方差相等(方 差齐性)。单样本资料的 t 检验:实际上是推断该样本来自的总体均数 与已知的某一总体均数 0有 无差别。X检验假设: H0:=0,H1:0;前提条件:样本来自正态总体;计算公式: t X 0 ;自由 v=n-1配对设计资料的 t 检验:配对
27、资料的分析着眼与每一对中两个观察值之差, 这些差值构成一组 资料,用 t检验推断差值总体均数是否为 0。检验假设: H0 :d=0 ,H1:d0;前提条件:差值服从正态分布;计算公式d0sd / n sd / n自由度 v=n-1(n 是对子数)。 两独立样本资料的 t 检验:两样本均数的比较。检验假设: H0: 1= 2 ,H1: 1 2 ;前提条件:两样本服从正态分布,且具有方差齐性;计算公式:Sc2 为两样本t X1 X2 ,SX X 代表两样本均数之差的标准误, SX XSC2 1 1SX1 X 2X1 X21 2n1 n2联合估22计的方差, Sc2n11 S1n21 S2X1X1X
28、2X2;自由度n1n22。n1 n2 2n1 n2 25 t 检验: 前提条件:两小样本来自正态总体且方差不等。方差不齐,可采用的处理方式有: t 检验,基 于秩次的非参数检验和数据变换。非正态分布,方差不齐:基于秩次的非参数检验和数据变换。2S2X SX2 22 22 ;自由度S4X1 SXS12 S22 ;自由度SX41Sn1 n 2n1 1 n 2 16 两组独立样本资料的方差齐性检验: 两组正态分布随机样本判断其总体方差是否齐同:H 0 :1222H 1 :1222 ,当 H0 成立时,检验统计量 FS12 (较大), 1n11, 2n21 ,012112S(22 较小) 11 22X
29、X 检验假设: H0: 1= 2 ,H1: 1 2 ;计算公式: t X1 X124S4X1SX 2当 F>3 时,方差不齐。7 大样本资料的 Z 检验( u 检验):前提条件:样本足够大;两独立样本资料的 Z 检验:假定 从两个正态总体(或非正态)总体随机抽取含量为 n1 和 n2 的样本,总体均数和方差分别为 1, 12和 2 , 22当 n1 和n2 均较 大时 ,两样 本均 数 的和 与差 的 分布 也服 从 (或 近似 服 从) 正态 分布 ,21X1 X2 N 1 2 , 1 n1n2H0X1 X 222S12 S22当 H0 成立时,这个统计量服从标准正态分布n1n2t 检
30、验与 Z 检验的比较: 两样本均数比较的 t 检验适用条件为:样本含量小,两样本独立,来自正态总体,且两总体方差相等。 Z 检验是大样本情况下的 t 检验的近似,用于两总体方差已知,或总体方 差未知但样本含量较大( n1>60 且 n2>60)的两样本均数的比较。样本量较大时,两种检验方法都可用。 8 假设检验与区间估计的关系: 置信区间具有假设检验的主要功能:在 水准上可回答 差别有无统计学意义; 置信区间可提供假设检验没有提供的信息:根据置信区间上、下限的数值大小可 判断差别是否具有实际意义; 假设检验可提供确切的 P 值,置信区间只能在预先确定的置 信度 100(1-)水平上
31、进行推断,没有精确的概率值,且有可能增大 类错误; 置信区 间推断量的大小,即推断总体均数范围;假设检验推断质的大小即推断总体均数是否存在不 同。只有把置信区间和假设检验结合起来,互相补充才是对问题比较的完整分析。9 假设检验的注意事项: 根据研究目的、设计类型、变量类型及样本大小选择恰当的统计分析方法; 权衡两类错误的危害以确定 的大小; 正确理解 P值的意义: P值很小时“拒绝H0,接受 H1”, 不能把很小的 P 值误解为总体参数间差异很大。拒绝 H0只是说差异不为 0,P 值小只是说犯一类错误 的机会远小于。P与本质相同,都为概率, P是根据当前实验计算的概率, 是预先给定的概率,为检
32、验 水准,是定义了的小概率上限。实验设计1 根据研究者是否认为地设置处理因素, 即是否给予干预措施, 可将医学研究分为调查研究和 实验研究两类。 调查研究:又称观察性研究或非实验性研究,确切的说应是非随机化对比研究。它对研究 对象不施加任何干预措施, 是在完全 “自然状态 ”下对研究对象的特征进行观察、 记录, 并对观察结果进行描 述和对比研究。 实验研究:又称干预性研究,是对研究对象人为给予干预措施的研究。2 实验设计的基本要素:受试对象、处理因素、实验效应。 受试对象:是处理因素作用的客体,根据受试对象不同,实验可以分为三类:动物实验、 临床试验、现场试验。 处理因素:是研究者根据研究目的
33、而施加的特定的实验措施,又称为受试因素。 实验效应:是处理因素作用下,受试对象的反应或结局,它通过观察指标来体现。 选择观察指标时,应当注意: a客观性: 客观指标具有较好的真实性和可靠性; b精确性:包 括准确度和精密度两层含义。 准确度 指观察值与真值的接近程度,主要受系统误差的影响。 精密度 指相同条件下对同一对象的同一指标进行重复观察时,观察值与其均数的接近程度, 其差值受随机误差的影响。 c灵敏性和特异性: 指标的灵敏度反映其检出 真阳性的能力,灵敏 度高的指标能将处理因素的效应更好地显示出来;指标的 特异度 反映其鉴别 真阴性 的能力, 特异度高的指标不易受混杂因素的干扰。3 实验
34、设计的基本原则:对照、随机化和重复。 对照的形式: 安慰剂对照:目的:在于克服研究者、受试对象等由心理因素导致的偏倚。 空白对照:即对照组不接受任何处理,在动物实验和实验方法研究中最常见,常用于评价 测量方法的准确度,评价实验是否处于正常状态等。 实验对照; 标准对照:用现有标准 方法或常规方法作为对照; 自身对照:对照与实验在同一受试对象身上进行。 a随机化体现在三方面: 随机抽样: 总体中每一个体都有相同机会被抽到样本中来; 随 机分配: 每个受试对象被分配到各组的机会相等,保证大量难以控制的非处理因素在对比组 间尽可能均衡,以提高组间的可比性; 实验顺序随机: 每个受试对象先后接受处理的
35、机会 相等,它使实验顺序的影响也达到均衡。b 在实验设计中常通过随机数来实现随机化。 获得随机数的常用方法有: 随机数字表和计算机 的伪随机数发生器。随机数字表常用于抽样研究及随机分组。c 常用的两种随机化分组的方法:完全随机化和分层随机化(配对随机化和区组随机化可看成 是分层随机化的实际应用) 。 重复包括三种情形: 整个实验的重复; 用多个受试对象进行重复; 同一受试对象的 重复观察。重复的主要作用: 估计变异的大小; 降低变异大小。4 常用的实验设计方案: 完全随机设计 (completely randomized design):又称简单随机设计,是最为常见的一种考察 单因素两水平或多
36、水平效应的实验设计的方法,它是采用完全随机分组的方法将同质的受试 对象分配到各处理组,观察其实验效应。配对设计(paired design):是将受试对象按一定条件配成对子, 再将每对中的两个受试对象 随机分配到不同的处理组。据以配对的因素应为可能影响实验结果的主要混杂因素。配对设 计主要有以下情形: 将两个条件相同或相近的受试对象配成对子,通过随机化,使对子内 个体分别接受两种不同的处理; 同一受试对象的两个部分配成对子,分别速记地接受两种 不同的处理; 自身前后配对,即同一受试对象,接受某种处理之前和接受该处理后视为配 对。 交叉设计 (cross-over design):是一种特殊的自
37、身对照设计,它按事先设计好的实验次序, 在各个时期对受试对象先后实施各种处理,以比较处理组间的差异。 基本前提: 个处理方式 不能相互影响,即受试对象在接受第二种处理时,不能有前一种处理的剩余效应。优点: 节约样本含量;能够控制个体差异和时间对处理因素的影响,故效率较高;在临床试验中,每 个受试对象均接受了各种处理,均等的考虑了每个患者的利益。 进行交叉设计应注意: 尽可 能采用盲法,以提高受试对象的依从性,避免偏倚;不宜用于具有自愈倾向或病程较短的疾 病研究。在慢性病观察过程中,应尽量保持条件的可比性。 随机区组设计: 又称单位设计、配伍组设计,实际上是配对设计的扩展。通常是将受试对 象按性
38、质相同或相近分为 b个区组(或称单位组、配伍组) ,再将每个区组中的 k 个受试对象 随机分配到 k 个处理组。设计应遵循 “区组间差别越大越好,区组内差别越小越好 ”的原则。 析因设计( factorial design):a 是将两个或多个处理因素的个水平进行组合,对各种可能的 组合都进行实验,从而探讨个处理因素的主效应以及个处理因素间的交互效应,又称完全交 叉分组实验设计。所谓 交互作用 是指两个或多个处理因素间的效应互不独立,当某一因素取 不同水平时,另一个或多个因素的效应相应的发生变化。两因素间的交互作用为一阶交互作 用,三因素间交互作用为二阶交互作用。b 当观察 k 个处理因素,每
39、个因素均有 m 个水平时,共有 mk 种组合,简记为 mk 析因设计。 c 可获得三方面的信息:各因素不同水平的效应;各因素间的交互作用;通过比较寻求最佳组 合。5样本含量的估算: 确定样本含量的原则:在保证研究结论有一定可靠性的前提下,估算最少需要多少受试对 象。假设检验所需样本含量取决于四个要素: 第一类错误概率 的大小:越小,所需样本量越大; 第二类错误概率 或检验功效(1-) 的大小:第二类错误的概率越小,检验功效越大,所需样本含量越多; 容许误差 :即两总体参数的 的差值, 越大,所需样本含量越小; 总体标准差 和总体概率 : 越大,所需样本含量 越多;总体概率 越接近 50,变异性
40、越大,所需样本含量越多。方差分析1 基本思想: 把全部观察值间的变异按设计和需要分解成两个或多个组成部分, 然后将各部分 的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义。2 应用条件: 各样本是相互独立的随机样本; 各样本来自正态总体; 各处理组总体方差 相等,即方差齐性。3任何设计方案的 SS总和 v 总算法均相同,即在不考虑数据按任何方向分组的情况下,将所有 数据看成一个整体计算,即 SS总= X - X 2 =(N-1)S2,v总 =N-1。几种设计方案中 SS总和 v总 的分解:设计方案SS总的分解v总总完全随机设计SS总=SS组间+SS 组内v总=v 组间+v 组内随
41、机区组设计SS总=SS处理+SS 区组+SS误差总v总=v 处理+v 区组+v 误差 总析因设计SS总 = SS处理 + SS 误差v总=v处理+ v 误差=( SSA+SSB +SSAB )+SS 误差=(vA+vB+vAB)+ v 误差重复测量设计(两因素)SS总 =SS 受试对象间 +SS 受试对象内v 总 = v 受试对象间 +v 受试对 总象内+=( SS处理+SS 个体间误差 )+=(v 处理 +v 个体间误差 )(SS时间+SS 处理与时间交互 +SS个体内误差 )(v 时间 +v 处理与时间交互 +v个体内误差 )4 重复测量资料和随机区组设计资料的区别: 同一受试对象在不同时
42、间点的数据高度相关; 重复测量资料中的处理因素在受试对象(看成区组)间为随机分配,但受试对象(看成区 组)内的各时间点是固定的,不能随机分配。随机区组设计资料中每个区组内的受试对象彼 此独立,处理只在区组内随机分配,同一区组内的受试对象接受的处理各不相同。5 重复测量资料方差分析的前提条件: 各样本是相互独立的随机样本; 各样本来自正态总 体; 各处理组总体方差相等,即方差齐性; 需满足协方差阵的球形性或复合对称性。6 多各样本均数的两两比较方法: 未计划的每两个均数的事后比较,常用 SNK-q 检验; 计划好的某些均数间的两两比较,常用 Dunnett-t 检验; Bonferroni 法和
43、 sidak 法适用于所有 的两两比较。方差分析后不能作两两比较的 t 检验的原因:会增加犯一类错误的概率。如果比较次数为k,每次检验水准为 ,则犯一类错误的累积概率为 1-(1-)k ,高于原有的 。7 数据变换的目的: 使各组达到方差齐性; 使资料转换为正态分布,以满足方差分析和 t 检验的应用条件。通常情况下,一种适当的函数转换可使上述两个目的同时达到。 曲线直 线化。常用于曲线拟合。常用的数据变换有对数变换、平方根变换、平方根反正弦变换。8 方差分析中的 F 检验是单侧检验的原因: 方差分析中检验统计量 F 的计算通常是用某部分的 均方(如处理因素、交互效应等)除以误差的均方,其中分母
44、误差部分尽含随机因素作用, 分子某部分的均方含有相应处理因素或交互作用的效应,而且还含有随机因素的作用,因此 得 F 值从理论上应 1,不会小于 1 ,所以方差分析中 F 检验是单侧检验。2 检验1 2 检验用途: 常用于分类变量资料的统计推断, 主要用途包括: 单样本分布的拟合优度; 比较两个或多个独立样本频率分布; 比较配对设计两样本频率和两频率分布; 推断两 个变量或特征之间有无关联性。2 2 检验的理论基础是 X2 分布和拟合优度检验。 2分布是一种连续型2 随机变量的概率分布, 按分布的密度函数可给出自由度 =1,2,3, 的一簇分布曲线 。 2分布形状完全依赖于自2 由度 v 的大
45、小,当 v>1 时,随着 v 的增加, 曲线逐渐趋于对称;当自由度 v 趋于 时, 2 分布逼近正态分布。拟合优度检验是根据样本的频率分布检验其总体分布是否等于给定的理论分布。3 X2检验的基本思想是: 用统计量度量实际频数和理论频数之间的偏离程度, 永远是正值, 2检验统计量的基本公式是:22 k AiTi 2i1Ti,v=k-1-s,s 是用样本估计量代替总体参数的个数。若假设成立,则各格子的实际频数与理论频数相差不应该很大,因而算出的X2 值也不会 很大,即出现较大 2值的概率 P很小。若 P,则认为 A 与T 的差别已超出了抽样误差允许 的范围,拒绝 H0。若 P>,不拒绝
46、 H0。4 独立样本 2 ×2 列联表资料的 2 检验:H0:两总体率相等; H1:两总体率不等。 n40且 Tmin5, 2 =2A T 2 T,2ad bc 2 n n 40且 1T< 5,校正公式:2=A T 0.5 2T2ad bc n/2 n= a b c d a c b d , v=1= a b c d a c b d ,v=1 n<40 或 T<1,或 P时,Fisher 精确概率法。5 独立样本 R×C 列联表资料的 2 检验:(多个独立样本率、独立样本频率分布的比较)H0:多个总体率相等; H1:多个总体率不等。A22 =nARC 1 ,
47、v=(R-1)(C-1)nRmC要求:理论频数不宜太小,一般不宜有 1/5 以上的格子的理论频数小于 5,或不宜有一个理论 频数小于 1,否则可能会产生偏性。 如果不满足此要求, 处理方法有:增加样本含量 (首选); 结合专业知识考虑是否可以将该格所在行或列与别的行和列合并,要根据样本特性来确定, 但会损失信息; 改用 R×C 表 Fisher精确概率法,可以用计算机软件实现。R×C 列联表的分割:多个实验组间的两两比较:分析目的为 k 个实验组间,任两个率均进行比较时,须进行 k2 次独立的四格表 2检验,再加上总的行 ×列表资料的 2检验,共 k 1 次检验假
48、设。故检验21水准 '用下式估计: '= k , k2 = k! ,k 为样本率的个数。 实验组与同一个对照k2 1 2 2!(k 2)!组的比较:分析目的为各实验组与同一个对照组的比较,而各实验组间不须比较。其检验水 准 ' 用下式估计: ' = 。(2 k-1)6 配对设计资料的 X2 检验: 当 b+c 40时,2 =A T=T配对 2×2 列联表资料的 X 2检验(两种处理方法阳性率的比较) : H0:两总体阳性率相等; H1:两总体阳性率不等。b c ,v=1;当 b+c<40时,校正公式 bcv=1。配对 R×R列联表资料的
49、 2 检验:H0:两变量的概率分布相同; H1:两变量的概率分布不相同。T=k 1 kkk1i1k i 1ni mi 2nimi2Aii,v=k-1。基于秩次的非参数检验1 假设检验的方法有:参数检验和非参数检验。 参数检验:是以特定的总体分布为前提,对未知的总体参数做推断的假设检验方法统称为 ,如 t 检验和 方差分析。 非参数检验: 不以特定的总体分布为前提,也不针对决定总体分布的几个参数做推断,进 行的是分布之间的检验。一般不直接用样本观察值做分析,统计量的计算基于原数据在整个 样本中按大小所占位次。由于丢弃了观察值的具体数据,只保留了大小次序的信息,凡适合 参数检验的资料,应首选参数检
50、验。2 非参数检验适用于: 有序变量资料; 总体分布类型不明的资料; 分布不对称且无法转 化为正态分布资料; 对比组间方差不齐,有无适当变换方法达到方差齐性的资料; 一端或两端观察值不确切的资料; 等级资料。3wilcoxon符号秩(和)检验: 目的:可用于推断总体中位数是否等于某个指定值,还可以推断配对样本差值的总体中位 数是否为 0。单样本资料的符号秩检验 常用于不满足 t 检验条件的单样本定量变量资料的比 较。 配对设计资料的符号秩和检验 :由检验配对样本的差值是否来自中位数为 0 的总体, 来推断两个总体中位数是否相等,即两种处理效应是否相同。 wilcoxon 配对符号秩和检验基 本
51、思想: 在配对样本中,假定两种处理效果相同,则差值的总体分布为对称分布,并且差值 的总体中位数为 0。若假设成立,样本差值的正秩和与负秩和应相差不大,均接近n(n+1)/4;当正负秩和相差悬殊,超出抽样误差可解释的范围时,则有理由怀疑该假设,从而拒绝H0。 方法要点: 按差值绝对值从小到大编秩,差值为正的秩和以 T+表示,为负的秩和以 T-表 示,任取 T+(或 T-)作为检验统计量 T,查 T 界值表确定 P值; 正态近似法:随着 n 的增 大, T 分布逼近均数为 n(n+1)/4,方差为 n(n+1)(2n+1)/24 的正态分布。当 n>50,用 Z 检验。注意事项: 编秩时遇差
52、值为 0 舍去, n随之减小;遇有差值的绝对值相等,符号相同,仍 按顺序编秩;符号不同,取其平均秩次; T+T-=n(n+1)/24wilcoxon秩和检验: 目的是推断连续型变量资料或有序变量资料的两个独立样本代表的两个总体分布是否有差 别。 方法要点: 将两组数据由小到大同一编秩,以样本列数小者为 n1,其秩和为 T,查 T 界 值表确定 P值;正态近似法:当 n1>10或 n2- n1>10 时,T分布接近均数为 n1(N+1)/2,方 差为 n1 n2(N+1)/2的正态分布,可用 Z 检验。 注意事项: 编秩中若有相同的数据在同一组则依次编秩;若相同数值在不同组内,求平
53、均秩次; 当相持出现较多时(超过 25),需使用校正公式。基本思想:假设含量为 n1 与 n2 的两个样本(且 n1n2),来自同一总体或分布相同的两个总 体,则 n1样本的秩和 T1与其理论秩和 n1(N+1)/2相差不大,即 T- n1(N+1)/2仅为抽样误 差所致。当二者相差悬殊,超出抽样误差可解释的范围时,则有理由怀疑该假设,从而拒绝H0。5Kruskal-Wallis H 检验: 目的:用于推断定量变量或有序分类变量的多个总体分布有无差别。 方法要点: 先将 k 组数据由小到大同一编秩,求出各组秩和 Ri,计算检验统计量 H;当 组数 k=3,且各组例数 ni5时,查 H 界值表确
54、定 P 值;若 k3或最小样本例数大于 5,则 H 统计量近似服从 v=k-1 的 2 分布。 注意事项: 编秩中若有相同的数据在同一组则依次编秩;若相同数值在不同组内,求平 均秩次; 当相持出现较多时(超过 25),需使用校正公式; 当结论为拒绝 H0,认为多 组处理效应不全相同时,常需进一步作多个样本的两两比较的秩和检验。两变量关联性分析1 相关系数的意义及计算:相关系数 =X和Y的协方差。X的方差 Y的方差 总体相关系数 ,若 ,0称 X 和 Y 线性相关;若 =0,则简称 X 和 Y 不相关。样本协方 差是离均差乘积在样本中的平均,离均差在总体中的平均就是总体协方差。X X Y Y l
55、 样本相关系数 rX X Y Y lXY ,是两个随机变量之间线性相关强度和X X 2 Y Y 2l XXlYY方向的统计量,没有单位,取值范围为 -1<r<1。r 的正负值表示两变量间线性相关的方向, r>0为正相关,r<0 为负相关,r=0 为零相关。r 的绝对值大小表示两变量之间线性相关的密切程度,r 越接近于 1 ,密切程度越高,越接近于 0 ,密切程度越低2 相关系数的统计推断:建立建设: H0:=0;H1:,0并假定 X 和Y 服从二元正态分布 方法: 直接查相关系数临界值表,根据自由度 v=n-2,差临界值表,比较 r 与临界值,统计关系数 r 的标准误,H0成立时,量越大,概率 P越小;统计量越小,概率 P越大。 t检验:统计量为 tr =r 0 ,Sr为样本相 Srt r 服从自由度为 v=n-2 的 t 分布。以上两种方法的决策规则相同:若 P>0.05,不拒绝零假设,即认为两个变量间无相关性;若 P<0.05,拒绝 零假设,接受备择假设,即认为两变量间相关性有统计学意义。3 相关分析应注意的问题: 进行相关分析前,应先绘制散点图。只有散点有线性趋势时,才 能进行直线相关分析。 线性相关分析要求两个变量都是随机变量,而且仅适用于二元
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 粒子施工方案
- 氧气汽化器安装施工方案
- 株洲四号钢板桩施工方案
- 浙江财经大学《人体工程学》2023-2024学年第二学期期末试卷
- 吉林农业大学《绩效考核与薪酬管理》2023-2024学年第二学期期末试卷
- 营口职业技术学院《神经生物学》2023-2024学年第二学期期末试卷
- 连云港师范高等专科学校《新媒体艺术概论》2023-2024学年第二学期期末试卷
- 江西工程学院《中学蒙古语文课程与教学论》2023-2024学年第二学期期末试卷
- 商铺水泥板门头施工方案
- 广西安全工程职业技术学院《无线通信》2023-2024学年第二学期期末试卷
- 穴位贴敷的运用课件
- 中心静脉压与有创动脉血压监测护理
- 人教版道德与法治五年级下册全册课件(完整版)
- 京东集团员工手册
- 房屋租赁交接家私清单
- 教师教学常规培训讲座课件
- 小儿哮喘(支气管哮喘)中医诊疗方案
- 病毒性脑炎小儿患儿护理查房课件
- 高中综合素质心理健康自我评价
- 义务教育历史课程标准(2022年版)
- 精选湖北恩施州2023中考英语试题英语(解析版)
评论
0/150
提交评论