生物统计学基本概念及公式_第1页
生物统计学基本概念及公式_第2页
生物统计学基本概念及公式_第3页
生物统计学基本概念及公式_第4页
生物统计学基本概念及公式_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物统计学(Biostatistics) 是以概率理论为基础,研究生命科学中随机现象规律性的应用数学科学。涉及到医学科学研究的设计、资料搜集、归纳、分析与解释的一门应用性基础学科、二、科学研究的基本程序 1、提出一个欲待研究的问题:2、科学研究设计:专业设计、统计学设计:统计学设计(statistical design):是指用统计学原理对研究的全过程所作出的周密合理的统筹安排,如确定研究对象,拟定研究因素及其分配,如何执行随机、对照与重复的统计学原则,如何观察与度量效应,以及数据收集、整理与分析的方法,通过合理的、系统的安排,达到控制系统误差,以尽可能少的资源消耗(最小的人力、物力、财力和时

2、间)获取准确可靠的信息资料及可信的结论,使效益最大化。3、获取试验与观察的资料,又称为搜集资料4、数据审核与计算机录入5、分析资料 描述性统计(descriptive statistics)是指用统计指标、统计图、统计表等方法,对数据的特征及其分布规律进行检测与描述。 统计推断(inferential statistics)是通过随机样本信息推断总体特征的过程。统计推断又包括置信区间(confidence interval)估计与统计学假设检验(hypothesis test)。统计学分析过程按变量的多寡可分为单变量分析与多重变量分析。 6、分析结果的合理解释(Explication of r

3、esults): 研究中应注意的问题1、统计学结论的正确与否取决于统计学分析数据的真实性、准确性以及研究样本对研究总体的代表性。 2、尽可能地控制系统误差是统计分析数据真实性、准确性的保证。3、随机化抽样是确保样本数据对研究总体具有代表性的重要过程。变量variable:在总体中,个体的许多属性(如年龄、性别、血浆胆固醇等)存在变异性,统计学上将反映个体属性变异性特征的指标称为随机变量(Random variable),简称变量; 针对不同类型的属性,需采用不同类型的变量,因而产生不同类型的资料。总体(Population)与样本(Sample):根据研究目的所确定的具有相同性质的观察单位的集

4、合成为总体(母体)。从同一总体中通过随机化过程抽取的部分观察单位称为样本(子样)。抽样(Sampling)从研究总体中通过一定原则获取样本的过程样本含量(Sample size).样本中所包含的基本研究单位数量同质(Homogeneity):同一总体中的每一个体都具有相同性质类别的特征。变异(Variation):同一总体中的各个体间的差异性。随机化(randomization ):能使总体中每一观察单位均能以同等机会(概率)进入样本,或分配到实验组与对照组的过程。抽样误差(Sampling Error):由于总体中各个体间存在变异性,因抽样过程的随机性所至样本的统计量与总体的参数不等,或多个

5、样本的统计量存在差异性称为抽样误差。概率(Probability):描述随机事件发生的可能性的度量。随机事件A的发生概率记为 P(A)。概率的取值在0 到 1之间,若P=1或P=0的事件称为必然事件,若0<P<1 的事件为随机事件。概率接近于0(如P<0.05)的事件称为小概率事件。1 / 26分布(distribution):一个随机试验的所有结局事件与对应的概率的排列称为分布 。对应于样本数量值分布称其为频率分布(Frequency Distribution);对应总体数量值的分布则称其为概率分布(Probability Distribution) 。参数(Paramet

6、er):描述总体特征的数量称为参数;常用希腊字符表示,如表示总体均数,表示总体标准差,表示总体率。统计量(Statistic):描述样本特征的数量称为统计量;常用英语字母表示,如表示样本均数,s表示样本标准差,p表示样本率。生物医学数据的组织与表达变量的类型:按变量测量的精确程度由低到高,将数据分类为:名义变量(如性别、婚姻状况)、有序变量(如疗效,类别间差别大小难以度量)、区间变量(如摄氏体温,类别间差别有实际意义)、比变量(如身高,除具有区间变量的特征外,还具有真实意义的零点。摄氏温度的零点为水结冰时温度,并非绝对意义的零点,所以它不属于比变量)1、定性变量(Qualitative Var

7、iable)(1)名义变量(Nominal variable)二项分类:性别分类,如男性为1,女性为0。多项无序分类:血型的A、B、AB、O型多项无序分类(2)有序(等级)变量(Ordinal or ranking variable)多项有序分类:疗效观测分为显效、有效、好转及无效4个类别。2、定量变量(Quantitative Variable)(1)区间变量(interval variable ):或数值变量(numerical variable )如:身高,血压,血清胆固醇浓度,体温,脉搏计数、红细胞计数、玫瑰花环计数、住院天数等。(一般有度量衡单位,类别间的差别大小有实际意义)(2)比

8、变量(ratio variable):以上例子中除体温外(具有真实意义的零点)连续型变量(Continuous variable)与离散型变量(Discrete variables)根据观察数据之间有无缝隙(gap),常将数据分类为离散型变量(有缝隙)与连续型变量(无缝隙)两大类,名义变量一定是离散型变量;连续型变量只能是比、区间和有序变量,但比、区间和有序变量也可以是离散型变量频数分布表:*定量数据的频数分布;*(非配对设计)定性数据的频数分布*配对设计定性数据的频数分布频数(frequency):将定量数据分类成若干个组段,或将定性数据分类成若干个类别,所清点得到的每一组段或类别的数据出现

9、个数。 频数表的编制步骤(1)求极差(range):即最大值与最小值之差,又称为全距。R=6.29-2.72=3.57 mmol/L(2) 决定分组组数、组距:组距=极差/组数。 (3) 列出组段:(4) 划记计数。 (非配对设计)定性数据的频数分布:*一维频数表*二维频数表*高维频数表统计图形表达:*直方图(Histogram):用于描述定量变量的数据分布特征。*概率-概率散点图(p-p plot)又称为p-p图或百分点图,横轴为观察累积概率,纵轴为理论(如正态)累积概率,确定样本数据对于理论分布的一致性;*分位数-分位数散点图(q-q plot)又称为q-q图,横轴为观察值,纵轴为理论(如

10、正态)分位数,确定样本数据对于理论分布的一致性绘PP或QQ图的数据 *茎叶(Stem-Leaf )图 *盒式图(Box plot) 直条图(Bar chart):用直条反映定性变量不同类别下的某指标大小。饼图(pie Chart):反映定性变量各个分类的构成情况。 *散点图 * 线图 *统计地图(statistical map)SAS会话窗口界面:三个基本窗口 *Editor 编辑窗:在此编写SAS程序 *Log 记录窗:记录程序运行过程中所做的内容,如所运行的数据情况、所调用的过程步、程序运行时间等(红色-错误 绿色- 警告 兰色-正常 ) *Output结果输出窗:统计分析的结果。 *Re

11、sult窗口 *Explorer窗口单变量综合性描述统计量常用的中心趋势指标:算术均数、几何均数、中位数、众数,统称为平均数(average)算术平均数The Arithmetic mean:简称均数(Mean)或均值,定义为所有测量值之和除以变量值个数(即,样本含量Sample Size)。反映一组呈对称分布的变量值在数量上的平均水平。(1)直接计算法 :公式 :(2)加权法:组中值(下限值上限值)/2均数的特征:*最常用,特别是正态分布资料;*对极值非常敏感,最大值和最小值常将其拉向自己;*离均差的和为0中位数(median):是将每个变量值从小到大排列,位置居于中间的那个变量值。 公式:

12、 n为奇数时 n为偶数时 频数表资料的中位数中位数的特征:计算时只利用了位置居中的测量值,优点:对极值不敏感,缺点:并非考虑到每个观测值;适用于各种分布类型的资料,特别适合于:大样本偏态分布资料或者一端或两端无确切数值的资料百分位数(percentile): 直接计算设有n个原始数据从小到大排列,第X百分位数的计算公式为:当nX%为带有小数位时: 当 nX%为 整数时:频数表法:计算方法大致同中位数几何均数(geometric mean):可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。公式:(2)加权法:几何均数的特征1、几何均数适用于对数正态分布,如药物的效价、抗

13、体的滴度、传染性疾病的潜伏期等资料。2、变量x服从对数正态分布,即表示变量lg(xi)服从正态分布。对于lg(xi),具有正态分布的所有特性。众数(Mode):是一群数据中出现次数(频数)最多的值。适用于大样本;较粗糙。众数的特征:1、对于某些数据而言,例如均匀分布,并不存在众数;2、对于某些数据存在两个或多于两个的众数;3、定性数据可以存在众数;4.众数对于进一步的统计学计算与分析不具备应用价值。离散与变异性指标:全距;方差;标准差;变异系数;四分位间距;多样性指数全距range:为最大值与最小值之差,也叫极差,即 R=Max(x) Min(x).方差:(Variance)也称均方差(mea

14、n square deviation),反映一组数据的平均离散水平。样本方差为各变量值到样本均数距离的平方和除以自由度的商值,即 总体方差:标准差:样本标准差为样本方差的平方根;总体标准差为总体方差的平方根。样本标准差实用公式样本标准差的加权公式随机变量xi的标准化: 如果随机变量xi服从正态分布,均数和标准差分别为和s,则随机变量xi的标准化正态离差值(Standard normal deviation)又称为标准化得分值(Standard Scores )为:变异系数(coefficient of variation,CV): 常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异

15、程度。四分位数间距(inter-quartile range):用IQR表示: IQR=P75P25Q3Q4多样性指数( Indices of Diversity):描述无序分类变量在各各义类别间频数的离散度。用熵与最大熵之比表达离散度 率、比的均数与方差 率(rate): 在特定条件下,可能发生某现象的总例数中,实际发生某现象的强度或频率。比(ratio):构成比(Proportion,constituent ratio):构成比指标用以表示事物内部某一构成成分在全部构成中所占的比例或比重。相对比(relative ratio)是由两个有关联的指标之比。应用率比指标时的注意事项1、保证有足够

16、样本含量;2、不要将率和比指标混淆;3、注意平均率的计算;4、率和比指标比较时,要有可比性(不可比时可采用率标准化);5、不要简单由样本率的差异做出结论。率比和均数一样都有抽样误差,需采用假设检验下结论。随机变量、概率和概率分布频率frequency:样本的实际发生率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f/n。概率probability:随机事件发生的可能性大小,用大写的P 表示;取值0,1。 样本空间(sampling space):随机试验的所有可能的结果称为样本空间。频率与概率间的关系:1. 样本频率总是围绕概率上下波动;2. 样本含量n越大,波

17、动幅度越小,频率越接近概率。事件间的关系:(1)和事件(Union of two events):事件A或者事件B发生(A或B)或(AB)(2)积事件(Intersection of two events):事件A与事件B同时发生(A与B)或(AB)(3)互斥事件:事件A、事件B不可能同时发生(也可都不发生),则事件A与事件B互斥(4)对立事件:事件A、事件B不可能同时发生,并且事件A与事件B必有一个发生。条件概率(condition probability)若关心的事件为B,以事件A为条件, 则在A的条件下,事件B发生的概率为P(B|A)事件的独立性:若事件的发生不影响事件的发生,即事件A与

18、事件B相互独立,则有P(|) P()概率分布(probability distribution):描述随机变量值xi及这些值对应概率P(X=xi)的表格、公式或图形。概率密度函数(probability density function):如果样本量很大,组段很多,矩形顶端组成的阶梯型曲线可变成光滑的分布曲线。 大多数情况下,可采用一个函数拟合这一光滑曲线。这种函数称为常用的概率分布:离散型随机变量分布一、二项分布二、泊松分布当二项分布中n很大,很小时,二项分布就变成为Poisson分布,所以Poisson分布实际上是二项分布的极限分布。由二项分布的概率函数可得到泊松分布的概率函数为:Pois

19、son分布主要用于描述在单位时间(空间)中稀有事件的发生数Poisson分布概率的计算Poisson分布的性质1.Poisson分布的均数与方差相等 即2=m 2.Poisson分布的可加性3.Poisson分布的正态近似 :m相当大(20)时,近似服从正态分布:N(m, m ) 4.二项分布的Poisson分布近似连续型随机变量分布:变量的取值充满整个数值区间,无法一一列出其每一个可能值。一般将连续型随机变量整理成频数表,对频数作直方图,直方图的每个矩形顶端连接的阶梯形曲线来描述连续型变量的频数分布。 如果样本量很大,组段很多,矩形顶端组成的阶梯型曲线可变成光滑的分布曲线。 大多数情况下,可

20、采用一个函数拟合这一光滑曲线。这种函数称为概率密度函数(probability density function)成功次数的概率分布二项分布:二项分布的应用1. 二项分布的均数与方差 XB(n,) X的均数X的方差:X的标准差:出现阳性次数至多为k的概率:出现阳性次数至少为k的概率:正态分布(Normal Distribution)1. 概率密度函数2. 概率分布函数正态分布特征 (1)正态分布在横轴上方均数处最高。(2) 正态分布以均数为中心,左右对称。(3)正态分布由参数和确定。(总体均数) 是位置参数,当(总体标准差)不变时,越大,则曲线沿横轴越向右移动;反之,越小,曲线沿横轴

21、越向左移动。是变异度参数,当不变时,越大,表示数据越分散,曲线越平坦;越小,表示数据越集中,曲线越陡峭。(4)正态分布曲线与X轴所围成的面积为1。(5)在±的区间内占总面积的68.27%,在±1.96的区间内占总面积的95%;在±2.58的区间内占总面积的99%。标准正态分布: 标准正态离差:此概率密度函数实质上就是正态分布的概率密度函数中=0,=1的情形。从几何意义上说,此变换实质上是作了一个坐标轴的平移和尺度变换,使正态分布具有平均数为=0,标准差=1。这种变换称为标准化正态变换。因此将这种具有平均数为=0,标准差=1的正态分布称为标准正态分布,记为N(0,1

22、)正态分布概率密度曲线在-1+1的区间内占总面积的68.27%,在-1.96+1.96的区间内占总面积的95%;在-2.58 +2.58的区间内占总面积的99%。标准正态分布正态分布面积或概率-11±68.27%-1.961.96±1.9695%-2.582.58±2.5899%描述正态分布特征的两个参数:偏度系数coefficient of skewness:度量随机变量对称性的参数r10为对称,r10为正偏态,反之为负偏态。峰度系数coefficient of kurtosis:描述随机变量陡峭度的参数,r20为正态峰,r20分布较正态分布陡峭,r20时分布较

23、正态分布平阔。正态分布的特征,归纳起来有两点: 一是对称性(symmetry):若分布不对称就是偏态,长尾拖向右侧(变量值较大的一侧)叫做正偏态,或右偏态;长尾拖向左侧(变量值较小的一侧)叫做负偏态,或左偏态。 二是正态峰(mesokurtosis) :峰态系数是描述随机变量陡峭度的参数,分为:正态峰、平阔峰、尖峭峰 。正态分布在医学中的应用1. 大多数生理生化指标服从正态分布2. 估计医学参考值范围 3. 质量控制 4. 二项分布,poisson分布的极限均为正态分布 ;5. 卡方、t与F分布都与正态分布有关。如果总体服从正态分布N(m,s2),则从该正态总体中抽取样本,得到的样本均数也服从

24、正态分布,但该分布为N(m,s2/n ),此时的方差是总体的1/n倍,即有 不论总体的分布形式如何,只要样本含量n足够大时,样本均数的分布就近似正态分布 ,此称为中心极限定理central limit theorem。常用的三种抽样分布一、 分布 (1) 自由度为1的分布 若ZN(0,1) 则Z2的分布称为自由度为1的 分布(chi-square distribution),记为二、t分布:自由度1t分布的特征以0为中心,左右对称的单峰分布;t分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分布逐渐逼近Z分布(标准正态分布);当趋于时

25、,t分布即为Z分布。三、F 分布令 和 分别为服从自由度为 和 的独立变量的卡方分布,则称 服从分子自由度为 和分母自由度为 的F分布,记为F。对于样本方差 和 ,自由度分别为 和 的正态总体,所以有F =统计推断统计推断(Statistical inference)是采用样本统计量 对相应总体参数所做的非确定性的推估。包括:1. 点估计point estimation ; 2. 区间估计interval estimation ; 3. 假设检验hypothesis testing (or significance testing) ; 4. 预测(prediction)抽样误差 (sampl

26、ing error) :由于个体差异导致的样本统计量与总体参数间的差别。标准误(standard error, SE):即样本均数的标准差,可用于衡量抽样误差的大小。样本总体标准差已知时, 样本总体标准差未知时,总体均数的点估计(point estimation)与区间估计(interval estimation)参数的估计: 点估计:由样本统计量直接估计总体参数区间估计:获得一个置信区间(confidence interval,CI)由样本数据估计得到的、100(1)可能包含未知总体参数的一个范围值。一、 置信区间的有关概念:(1)或100 (1) 称为置信度(confidence leve

27、l),常取95(90、99)。已知 或s未知但n足够大,按Z分布;s未知,按t分布已知,总体均数双侧100 (1) 置信区间为:已知,总体均数单侧100 (1) 置信区间为:或Z0.05/2=1.96双侧Z0.05=1.645单侧置信区间通常两个数值即两个置信限(confidence limit,CL):较小的称为置信下限(lower limit,L),较大的称为置信上限(upper limit,U),置信区间的涵义从同一总体中重复抽取若干个相互独立的样本,将具有100(1-a)%的置信度,所计算的置信区间包括总体均数。如95%的置信区间表示:如果从同一总体中重复抽取100个独立样本,那么将可

28、能有95个置信区间包括总体均数。(总体均数会落在这样的区间说法欠妥)对于一次估计的置信区间,可能有95%的正确率包括总体均数,但仍有5%的置信区间估计错误。5%是小概率事件,统计学认为在一次的估计中不发生。置信区间估计的优劣:置信度大好,还是小好?1. 置信度1(准确度,accuracy),愈接近1愈好,如99%的置信度比95%的置信度要好;2. 区间的宽度(精密度, precision ),区间愈窄愈好。当样本含量为定值时,上述两者互相矛盾。在置信度确定的情况下,增加样本含量可减小区间宽度。总体均数置信区间与参考值范围的区别 区别点总体均数可信区间参考值范围含义从同一总体中重复抽取若干个相互

29、独立的样本,将具有100(1-)%的置信度,所计算的置信区间包括总体均数。“正常人”的解剖,生理,生化某项指标的波动范围。总体均数的波动范围个体值的波动范围计算公式s未知n较小: 正态分布:s已知,或s未知但n较大:偏态分布:PXP100-X用途总体均数的区间估计绝大多数(如95%)观察对象某项指标的分布范围方差的抽样分布特征1.样本方差的分布是正偏态分布,样本含量较小时更是如此。2.随着样本含量的逐渐增大,对称性逐渐改善。3.理论上可以证明:若随机变量x服从正态分布,则其相应的样本方差S2的分布服从自由度为n-1的卡方分布。4.标准差的标准误 总体方差s2的100(1-a)%置信区间:(,)

30、由抽样引起的样本率(p)和总体率()的差异称为率的抽样误差(sampling error of rate) ,用率的标准误(standard error of rate)度量。如果总体率未知,用样本率p估计I型错误(弃真) :拒绝实际正确的H0, I型错误的概率记为。(1a)即置信度:重复抽样时,样本区间包含总体参数(m)的百分数。II型错误(纳伪) : 不拒绝实际不正确的H0, II型错误的概率记为。(1)即把握度(或检验效能):两总体确有差别,被检出有差别的能力单个总体均数的假设检验1. 总体方差已知,采用Z 检验 2. 总体方差未知,采用t 检验:自由度n1第七节 总体率的假设检验例数较

31、少时,采用二项分布的概率公式计算当n5,且n(1-)5(n大,不接近0,1)时近似正态分布,可计算Z统计量0为已知总体均数检验方法的选择:假设检验的基本步骤一建立检验假设,确定检验水准二选择检验方法和计算统计量三确定概率P值和作出统计推断: P值是在H0成立前提下,比样本统计量(Z、t、F值等)更极端的概率。四、根据统计推断结果,结合相应的专业知识,给出一个专业的结论。两总体均数差异性检验大样本(两组例数均>50例):z近似,t更精确配对设计资料均数的比较1.异源配对:将受试对象按某些混杂因素(如性别、年龄、窝别等)配成对子,然后将每对中的两个个体随机分配给两种处理(如处理组与对照组),

32、对子成对出现,仅对对子中的两个体进行随机。2. 同源配对(或自身配对):同一受试对象作两次不同的处理(如甲法、乙法),或一种处理的前后比较。优点:配对设计减少了比较对子间的个体差异。 特点:资料成对(对子编号),利用每对数据间的差值(d)作比较 , n=n-1完全随机设计两总体均数的比较实验设计:用完全随机设计(completely random design) 方法,把受试对象随机分为两组,分别给予不同处理,然后比较独立的两组样本均数。各组对象数不必严格相同。但两组例数相等,可提高检验效能。两总体均数的Z 检验当总体方差已知时,应使用Z检验大样本(如两组例数均>50例)情况下,尽管总体

33、方差未知,也可用样本方差取代总体方差,用Z检验作近似计算两总体方差间的差异性检验自由度n1-1,n2-1使用双侧的原因:计算F值时,较大方差S12可以作为分子,也可作为分母。注意:一般的方差分析,只采用单侧检验对出现方差不齐情况时统计学应对策略1.采用不以来总体分布的非参数检验2.对原变量合适数学变换,使方差变为齐性方差3.当各组方差相差悬殊时课采用Welch加权方差分析总体方差齐同情况下的t检验:自由度n1+n2-2均数的标准误:方差不齐时t检验卡方检验Chi-square Test卡方检验是对分类资料进行统计推断分析的一种方法。它可以用来比较两个或多个率的差异(同质性检验)或检验两个指标是

34、否关联(关联性检验)或判断列联表的边际分布是否一致(一致性检验)等。理论频数:卡方检验的分类A) 2×2 四格表:(1)同质性检验-比较两个率;(2)关联性检验B)2×k 列联表:(1)同质性检验-比较 k 个率;(2)关联性检验;(3)趋势分析C)R×C 列联表 :关联性检验:双向无序,单向有序,双向有序D) k×k 配对分类数据的卡方检验:1) 一致性检验(reliability);2) 对称性检验(symmetry)卡方界值X2(0.05,1)3.841自由度df=(行数-1)(列数-1)=1四格表专用公式(Pearson公式)连续性校正公式Yat

35、es:当样本含量40,如有一个格子理论频数小于5时使用四格表的精确概率Fisher exact若有理论频数小于1或n40时,尤其时用其它方法计算概率接近检验水平时使用四格表卡方检验方法的选择原则对于成组分类数据的 2×2 表: a) n 40,且所有E 5 - Pearson (一般公式) b) n 40,但有 1E<5 -Yates(校正公式) c) n <40 或有E<1或 p- Fishers exact(精确算法)1) 左单侧检验: H0: 1 =2 vs H1: 1 < 22) 右单侧检验: H0: 1 =2 vs H1: 1 > 23) 双侧

36、检验 : H0: 1 = 2 vs H1: 1 2左侧概率+右侧概率原表格概率=1行×列表卡方检验:R×C表有序分类型数据的卡方检验The Chi-square test for ordinal categorical data1) 有序分类变量的量化方法(1)等距离法(2)非等距离法(3)秩得分法(rank scores):第i行秩得分:第j行秩得分:(4)Ridit 得分法(ridit scores):在秩得分的基础上进行:r2i=r1i/n;c2i=c1i/n(5)调整Ridit 得分法(modridit scores):在秩得分的基础上进行:r3i=r1i/(n1)

37、;c3i=c1i/(n1)2) 标准化得分(样本得分n个样本得分均值)/得分标准差配比方表同质与对称性检验k×k 配对分类数据的卡方检验1) 一致性检验(reliability)一致性检验方法-kappa 检验2)对称性检验(symmetry)(a) McNemar 检验-2 ×2 表配对四格表公式: b+c40时使用 b+c<40时使用校正(b)Bowker 检验 -k ×k 表非参数检验(nonparametric test)参数检验parametric test (1)总体分布类型已知,如率服从二项分布、样本均数服从正态分布;(2)由样本参数推断未知总

38、体参数。这时,对总体参数m、p的假设检验称为参数检验。如 t 检验,F 检验。非参数检验(nonparametric test):对数据的总体分布类型不作严格假定,又称任意分布检验(distribution-free test),它直接对总体分布的位置作假设检验。参数检验(parametric test):已知总体分布类型,对未知参数进行统计推断依赖于特定分布类型,比较的是参数非参数检验(nonparametric test):对总体的分布类型不作严格要求,不受分布类型的影响,比较的是总体分布位置优点:方法简便、易学易用,易于推广使用、应用范围广;可用于参数检验难以处理的资料(如等级资料,或含

39、数值“>50mg”等 )缺点:方法比较粗糙,对于符合参数检验条件者,采用非参数检验会损失部分信息,其检验效能较低;样本含量较大时,两者结论常相同应用非参数检验的情况:1.不满足正态和方差齐性条件的小样本资料;2.总体分布类型不明的小样本资料;3.一端或二端是不确定数值(如0.002、65等)的资料(必选);4.单向有序列联表资料;5. 各种资料的初步分析。秩次(tie)将数值变量值从小到大,或等级变量值从弱到强所排列的序号。两个独立样本检验Wilcoxon秩和检验Wilcoxon rank sum test1区间(计量)数据的两样本比较:符合参数条件时,采用两样本均数的t检验2有序(等级

40、)数据的两样本比较常错误采用 卡方检验名义数据的两样本比较,采用率或构成比的卡方 检验K个独立样本检验完全随机设计多个样本比较的Kruskal-Wallis H检验1.区间(计量)数据的多个样本比较 Kruskal-Wallis H检验;如果满足参数条件,这类资料一般作完全随机设计ANOVAK个相关样本检验:随机区组设计多个样本比较的Friedman M检验等级相关:应用:两个样本的相关分析,当两个变量不服从正态分布时,可以采用等级相关分析。医学研究的统计学设计研究设计的基本类型1. 实验(Experiment)研究 (干预) 受试对象:人临床试验(clinical trial) 动物动物实验

41、( animal experiment )临床试验:治疗临床疗效实验 预防社区干预实验(community intervention trial) 2. 调查(Survey)研究 (无干预) 被动地观察、如实记录研究设计的重要性设计好: (1)既省又可靠;(2)可估计和控制误差;(3)获取多方面知识设计不好:(1)杂乱无章、虽多犹无;(2)只能罗列现象、无规律可言两种研究类型的区别与联系实验研究调查研究干预因素施加不施加研究类型推断性描述性研究范围较小大研究地点实验室或现场现场控制误差较好较差相互关系对调查加以验证为实验提供线索研究设计的基本要素(一)处理因素( treatment facto

42、r )(二)受试对象( subject )(三)实验效应( experimental effect )1. 客观性:主观指标和客观指标。2. 精确性: 准确度(accuracy)或真实性(validity)观察值与真实值的接近程度,受系统误差的影响。常用指标:灵敏度、特异度 精密度(precision)或可靠性(reliabiliy)或重复性(repeatability)重复观察时观察值与其均值的接近程度,受随机误差的影响。常用指标:Kappa值、一致百分率实验设计的基本原则1.随机化原则(randomization);2.对照原则 (control);3.重复原则 (replication)

43、:重复(replication)是指各处理组与对照组要有一定样本含量(sample sizes)。几种不同设计类型的随机化分组:(1)完全随机实验设计:将观察单位完全随机地分配到实验组与对照组或几个对比组中去。(2)配对实验设计paired experiment design: 1.同源配对:同一受试对象用两种不同的实验方法;受试对象自身实验前后的对比 。2.非同源配对:将具有相同条件的实验对象配成对子。(3)随机区组实验设计 (randomized block experiment design) (1)将多方面条件相近的受试对象配成一组,称作一个区组(block)。 (2)每个区组的受试对

44、象个数 取决于 对比组组数。 (3) 每个区组的受试对象被随机地分配到各对比组中。 配对设计的扩展,故又称配伍组设计(4)交叉设计:(cross-over experiment design)每个受试者随机地在两个或多个不同试验阶段分别接受指定的处理(试验药或对照药)。 同源配对设计的扩展 优点:(1)控制个体间的差异,(2)减少受试者人数。对照的形式:包括:空白对照、实验对照、标准对照、自身对照、相互对照 、历史对照设立对照应注意的事项(1)均衡:对照组与实验组 除研究因素外,其他因素应尽可能相同(2)同步:对照组与实验组 应处于同一空间和同一时间常用的抽样方法 1.单纯随机抽样simple

45、 random sampling:先将总体的全部观察对象编号,再利用抽签或随机数字表的方法随机抽取观察对象组成样本。最基本的抽样方法2. 系统抽样systematic sampling:按照一定的顺序,机械地每隔若干个单位抽取一个单位的方法。又称间隔抽样,机械抽样3.分层抽样stratified sampling:先按某种特征将总体分为若干组别、类型或区域等(统称为“层”),再用随机抽样的方法从每个子总体中抽取样本。要求“层内齐同,层间不同”。4. 整群抽样cluster sampling:按群体而不是按个体抽取观察单位的抽样方法。各种抽样方法的抽样误差顺序:分层系统单纯整群误差( error

46、 ):实测值与真值之差。系统误差(systematic error):在一定实验条件下,由某种未发现或未确定的因素所引起观测值具有方向性和系统性的误差,又称偏倚(bias)。(三)系统误差类型及其控制 类 型 发生阶段 控 制 选择偏倚 设 计 随机化 测量偏倚 实 施 盲 法 混杂偏倚 分 析 配对、分层 样本含量的估计与检验效能样本含量(sample size):为了保证研究结论的可靠性,确定的实验研究或调查研究所需要的最低观察对象的数量。检验效能(power):也叫把握度,即1-(第二类错误的概率)。如果两总体参数实际有差异(H1成立),按a水准,假设检验能发现这种差异的能力(真阳性)。

47、通常要求达到80%或90%(即=0.2 或=0.1 ),不得低于75%。样本含量的影响因素1. 检验水准:低,则n 高­ 2. 检验效能1-:(1-)高,则n 高,(1-)> 0.75,通常取0.8或0.9。3. 客观差异 (delta),即比较总体参数间的差值(如m1-m2, p1-p2)。 低,则n 高 4.总体标准差、总体平均数(或总体率),这里主要指离散程度指标。 高,则n 高个体间标准差越小或样本含量越大,检验效能越大; s小或n大 均数对应的概率密度曲线(m,s 2/n)瘦高 检验效能大第一类错误的概率越大,检验效能越大客观差异越大,检验效能越大样本含量的估计1.均

48、数抽样2.率的抽样3. 样本均数与总体均数比较 4. 两样本均数比较5. 配对计量资料比较d:每对观察对象差值的标准差6. 两样本率比较1和2:分别表示两组的总体率c :两组的合并率7. 配对计数资料比较:+-=b/(a+b), -+=c/(a+c),c=(+-+-+) /2检验效能及其计算出现“阴性”结果有两种可能:(1)(1-)较大,被比较的指标间很可能无差别。(2)(1-)较小,所比较的指标间很可能差别有显著性,但由于样本含量不足而未能发现。Z查z值表(1-)Z的计算 1.两样本均数比较:(未知时)2.配对计量资料比较N为对子数,为差值均数,Sd为差值标准差。多元线性回归分析分析多个变量

49、之间的相互关联和相互依存的关系多元线性回归模型的矩阵形式: y=x+ ey 是因变量观察值构成的向量, x 是自变量观察值和常数项构成的矩阵,是未知参数构成的向量(待估计的偏回归系数向量),e 是因变量的残差构成的向量。多元线性回归分析:研究一个因变量与一组自变量的依存关系,即,研究一组自变量是如何直接影响一个因变量的。多元线性回归分析的基本原理:利用观察或收集到的因变量和自变量的一组数据建立一个因变量关于自变量的线性函数模型,并且,这个模型最好地拟和了观察数据。多元线性回归分析的方法步骤一、估计参数;二、检验参数;三、检验模型;四、模型诊断;五、解释模型参数的实际意义。估计参数(估计偏回归系

50、数j)方法 -最小二乘法标准偏回归系数的估计同一模型中对参数的标准估计值进行大小比较,绝对值大的b' j 对应的自变量 x j 对因变量 y 的影响大,或者说,与因变量 y 的关联性强。bj 表示了当其它自变量不变时,xj 改变一个单位所引起的 y 的改变量。复确定系数(multiple determinent coefficient):它表示了因变量 y 的总体变异中被所有自变量所解释的比例。多元线性回归分析的逐步回归法1.向前选择法 (forward selection);2. 向后消去法 (backward elimination);3. 逐步过程法 (stepwise proc

51、edure)决定模型好坏的常用指标有三个:检验总体模型的p-值,确定系数R2值和检验每一个回归系数bj 的p-值。多元相关分析相关分析 (correlation analysis):研究两个或多个变量之间关联性或关联程度的一种统计分析方法。相关系数 (correlation coefficient):描述变量之间的关联程度大小的常数,它介于 -1和 1之间,一般用来表示。多个变量之间关系三个基本方法:1.偏相关分析partial correlation analysis:判断其它因素不变的情况下,一个变量与另一个变量之间是否关联。2.复相关分析multiple correlation analysis:判断一个变量与另一组变量之间是否关联3.典型相关分析canonical correlation analysis:判断一组变量与另一组变量之间是否关联多元线性回归分析模型:Y=+1 X1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论