版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学的基本步骤和基本概念横断面研究病例对照研究队列研究动物实验临床试验社区干预试验1、统计学的基本步骤:①研究设计;②收集资料;③整理资料;④分析资料;⑤对分析结果的正确解释和表达。横断面研究病例对照研究队列研究动物实验临床试验社区干预试验1观察性研究一J统计设计一-实验性研究―「统计描述:运用统计学指标对数据特征及其分布规律进行客观描述和表达统计分析T统计推断:在一定的可信程度或概率保证下,根据样本信息推断总体特征L集中趋势:L集中趋势:L统计描述L离散程度:定量资料1「参数估计:L统计推断TL假设检验:方差、标准差、极差、四分位间距、变异系数均数的标准误、总体均数的置信区间t检验、管检验、方差分析、秩和检验统计描述:率、构成比、相对比定性资料T一统计推断:X2检验、秩和检验、二项分布、Poission分布2、总体和样本:总体:是根据研究目的所确定的所有同质观察单位某种观察值(变量值)的集合。样本:从研究总体中抽取的一部分满足代表性的个体观察值所组成的集合称为样本,样本包含的观察单位数称为样本含量或样本大小。3、参数和统计量:参数:描述总体分布特征的指标,总体均数U、总体标准差。、总体率n统计量:根据样本算得的某些数值特征,样本均数X、样本标准差S、样本率p4、变量和资料变量:是观察单位的某种特征或属性,变量的观测值就是所谓的变量值。5、随机误差和系统误差误差:泛指实测值与真实值之差,一般可分为随机误差和非随机误差。随机误差:即抽样误差,由于随机抽样造成的实测值与真实值之差。是不可避免的,但一般服从正态分布,可以通过统计学方法进行分析。系统误差:最常见的非随机误差,指实测值系统偏离真实值、具有方向性的误差。6、概率、频率和小概率事件频率:若用随机事件A发生表示观察到某个可能的结果,在n次随机试验中,随机事件A发生了m次,则称A发生的比例f=m/n为频率,医学上所说的患病率、病死率等都是频率。概率:描述事件发生可能性大小的一个度量。小概率事件:当某事件发生的概率小于或等于0.05时,统计学习惯上称该事件为小概率事件。7、同质性和个体变异同质性:通常指研究对象在一定范畴内的各种可能影响主要观察指标的其他因素处于相同或非常相似的情况。个体变异:同质个体中同一观察指标的个体观察值之间的差异称为该观察指标的个体变异。调查研究设计1、调查研究及其特点调查研究:又称观察性研究,指研究者在研究中没有施加任何干预措施,仅客观地观察和记录研究对象的现状及其相关特征的研究。特点:①研究过程中没有人为施加的干预措施,研究事物或现象及其相关特征(包括研究因素和非研究因素)是客观存在的;②不能将研究因素随机地分配到研究对象中,也不能用随机化分组来平衡非研究因素对调查结果的影响。2、调查研究设计的基本内容:①明确调查目的和指标;②确定调查对象和观察单位;③确定调查方法;④确定调查方式;⑤确定调查项目和调查表;⑥制定资料整理分析计划;⑦制定调查的组织计划。3、调查设计的常用抽样方法及其优缺点普查:即调查目标总体中全部观察对象。优:理论上没有抽样误差,可以直接得到总体参数。缺:成本较高。抽样调查:即从总体中抽取一定数量的观察单位组成样本,对样本进行调查。分为概率抽样和非概率抽样。优:节省调查成本,有助于获得较为深入、细致和准确的资料。缺:样本推断总体时存在抽样误差。概率抽样:是指总体中观察单位被抽中的概率是已知的或可以计算的。优:总体代表性较好,可以计算抽样误差,可以对总体进行统计推断。缺点或前提:目标总体和抽样框架明确。非概率抽样:是指总计中每个观察单位被抽中的概率是已知或不能计算的。抽样方法定义优点缺点概率抽样单纯随机抽样按等概率原则直接从含有N个观察单位的总体中抽取n个观察单位组成样本均数(或率)及标准误的计算简单当总体观察单位较多时,要对观察单位一一编号,比较麻烦系统抽样先将总体的观察单位按某一顺序号分成n个部分,再从第一部分随机抽取第k号观察单位,依次用相等间距,从每一部分各抽取一个观察单位组成样本①易于理解,简单易行;②容易得到一个按比例分配的样本;③样本的观察单位在总体中分布均匀,其抽样误差一般小于单纯随机误差。①当总体中观察单位按顺序有周期趋势或单调增(或减)趋势时,将产生明显的偏性;②实际中按单纯随机抽样方法估计误差会一般偏大。分层抽样按对主要研究指标影响较大的某种特征,将总体分为若干类别,再从每一层内随机抽取一定数量的观察单位组成样本①减少抽样误差;②便于不同的层采用不同的抽样方法,有利于调查组织工作的实施;③还可对不同层进行独立分析。要求层内差异较小整群抽样将总体按照某种与主要研究指标无关的特征划分为K个“群”,每个群包含若干观察单位,再随机抽取k个“群”,由抽取的各个群的全部观察单位组成样本便于组织,节省经费,容易控制调查质量当样本含量一定时,其抽样误差一般大于单纯随机误差(因为样本观察单位未能广泛地散布在总体中)非概率抽样偶遇抽样研究者根据现实情况,抽取偶然遇到的人或选择那些距离最近的、最容易找到的人作为调查对象简单易行结果对总体代表性差立意抽样调查者根据研究目的分析判断来选择调查对象对研究者要求较高
定额抽样研究者首先依据那些可能影响研究指标的各种因素对总体进行分层,并确定各层样本占总体比例,再在各层中抽取样本样本代表性存在一定问题,选择性偏倚较大雪球抽样当无法了解总体情况时,可以从总体中少数成员入手,对他们进行调查,并请他们介绍所认识的其他符合条件的人,再去找那些人进行调查,如此重复,直到达到所需的样本含量常用于缺少抽样框架、目标总体不明、采用其他方法难以找到调查对象的情形4、调查问题安排顺序总原则:①符合逻辑;②一般问题在前,特殊问题在后;③易答题在前,难答题在后;④如果采用封闭式和开放式相结合的问题,一般先设置封闭式问题;⑤敏感问题一般放在最后。5、信度和效度效度:又称真实性或准确性,用以反映测量结果与“真实值”的接近程度。定量观察:通常用两者的相关系数「来描述标准效度。定性或半定量观察:Kappa系数描述两个测量手段或结果的一致性。信度:又称可靠信、重复性、稳定性或精密度,用以反映相同条件下重复测定结果的一致程度。重复测量法:组内相关系数ICC评价信度高低。ICC=/,厂MLMS为组间(研究对象间)均方,MS为组内(误差)均方,n为重复测量次数。一般MS-(n-1)MS A eA e认为ICCN0.75,说明测量结果的可重复性较好。实验研究设计1、实验设计的3个基本原则和3个基本元素:对照、随机化、重复,受试对象、处理因素、实验效应。2、对照形式主要有:空白对照、安慰剂对照、标准对照、实验对照、自身对照、相互对照。3、常用的实验设计类型及其优缺点:类型设计优点缺点完全随机设计单因素两水平或多水平效应设计简单,易于实施,出现缺失数据时仍可进行统计分析小样本时,均衡性可能较差,与随机区组设计相比,一般效率较低配对设计受试对象按配对因素相同或相近配成对子可增强处理组间的均衡性,效率较高配对条件不易严格控制随机区组设计受试对象按性质相同或相近分为b个区组,每个区组中的k个受试对象分配到k个处理组处理组之间的均衡性较好;更容易揭示处理之间的差别,效率较高非处理因素(配伍条件)不易控制交叉设计按事先设计好的实验次序,在各个时期对受试对象先后实施各种处理①节约样本含量;②能够控制个体差异和时间差异对处理因素的影响,故效率较高;③在临床试验中,均等地考虑了每个患者的利益。①每个处理的持续时间不能太长;②当受试对象的状态发生根本变化时,例死亡等,后一阶段的处理将无法进行;③受试对象一旦在某一阶段退出试验,就会造成该阶段及其以后的数据缺失析因设计两个或多个处理因素的各水平进行组合,对所有可能的组合中安排多个实验对象进行实验可以均衡地对各因素的不同水平进行全面组合,以最小的实验次数探讨各因素不同水平的效应,同时可获得各因素间的交互作用,通过比较还能需求最佳组合工作量较大,析因设计的处理数等于各因素水平数的乘积,其统计分析不但计算复杂,而且给众多交互作用的解释带来困难定量资料的统计描述1、频数表和频数图的制作及用途:频数表的制作:(1)求全距R,R二最大值-最小值;(2)划组段:①定组数,以8-15组为宜;②定组距:组距二R/组数,可适当取整;③定上下限:起点为下限,终点为上限,组囹下闭,上开),一般写下限,最后上下全。(3)统计频数和频率制作频数表。频数表和频数的用途:①揭示频数的分布特征:集中趋势和离散趋势;②揭示频数的分布类型:对称分布和偏态分布,集中偏小为正偏,集中偏大为负偏;③可以发现某些特大或特小的可疑值,提示检查核对。
2、频数分布特征的描述指标及其适用条件:*对于经对数变换后呈正态分布或近似正态分布的资料,应将原始观察值取对数值后计算几何标准差。分布特征指标计算公式适用条件集中趋势平均数X£x①原始资料:X=F =- 2 nn nZfX-fX+fX+■--fX ii②频数表资料:X=,11,22一昔f=——于1+于2ifk Zfi单峰对称分布资料,特别是正态分布或近似正态分布几何均数G①原始资料:G=nX1x2x3…x1 1 1 ZlgX或G=lg-1(lgX1+gX2+…gX”)=lg_1( L)n n②频数表资料:ZflgXflgX+flgX+ flgX 1 1G=lg-1('161,2:2 Jk&k)=lg-1(^-——)于1+于2+…f Zfi①正偏态分布资料,经过对数变换呈正态分布或近似正态分布;②观察值间呈倍数关系或近似倍数关系;③变量值中不能有0和负数,可适当加上一个正数;中位数M①原始资料:M—X^,当「为奇数时;2M=(X+X)/2,当n为偶数时n n+12 2②频数表资料:M=L+3(nx50%-Zf)Mf LMLM为中位数所在组段的下限;i为组距;fM为中位数所在组段的频数;ZfL为中位数所在组段前一组的累计频数。不对称分布的资料,两端无确切值或分布不明确的资料离散趋势极差RR二最大值-最小值单峰对称分布小样本资料四分位间距Q-QU LQ-Q=P-PP=L+—(nx%-Zf)U L75 25xxf LxLx为第x百分位数所在组段下限,i为第x百分位数所在组段的组距,fx为第x百分位数所在组段的频数,ZfL为第x百分位数所在组段前一组的累计频数偏态分布资料、两端无确切值或分布不明确资料方差S2V _ v (Zx"乙(X-X)2乙X2-*1'i i n①原女□资料:S2—I ■ —I -n-1 n一1丁 (ZfX)2ZfX2 〜 n②频数表资料:S2— n-1单峰对称分布资料标准差S变异系数CVSCV—之x100%X比较计量单位不同或均数相差悬殊的几组资料的离散程度3、正态分布及其应用:概率密度曲线和正态分布曲线:对于变量的频数分布满足中间多,两边少,且左右对称的资料,以观察变量(组距)为横轴,频率密度(频率密度二频率/组距)为纵轴,即可得到频率密度直方图,当观察单位逐渐增加,组段一8,频率分布图中的直条逐渐变窄,就会逐渐形成一条高峰位于中央(均数所在处)、两侧逐渐降低且左右对称、不与横轴相交的光滑曲线,即概率密度曲线,近似于数学上的正态分布曲线。若变量X的频率曲线逼近数学上的正态分布曲线,则称该变量服从正态分布。正态分布曲线的密度函数为:1 (一一||)2f(x)=-^e-2a2-8<x<+8(日为总体均数,o为总体标准差,n为圆周率,e为自然对数的底)八;2兀特点:①正态曲线在横轴上方均数处最高;②正态分布以均数为中心,左右对称;③正态分布有两个参数,即均数N与标准差o,N决定位置,o决定“胖瘦”③正态曲线在±1o处各有一个拐点;④正态曲线下的面积分布有一定的规律:X土1.645S-90%,X土1.96S-95%,X土2.58S-99%。令若X服从正态分布N(日,o2),经Z=X二艮变换后,则Z就服从均数为0,标准差为1的xo1 」正态分布N(0,1),称为标准正态分布或Z分布,其密度函数为:奴z)=^=e2,-oo<z<+oo。兀•正态分布的应用:(1)估计总体变量值的频率分布D:①(zx)可通过查附表2(Z分布界值表)获得。D=①(z)-①(z)Z=上E(可用样本均数X和样本标准差S作为总体均数目和总体标准差o的估计值)1 2 o(2)制定医学参考值范围:医学参考值范围指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标观察值的波动范围。制定步骤及注意事项:①确定观察对象和抽取足够的观察单位;②测定方法统一、准确;③决定是否分组制定参考值范围;④确定取双侧或单侧参考值范围;⑤选定适当的百分界限;⑥选择制定医学参考值范围的方法:部分指标服从对数正态分布,对观察值取对数后计算其对数值的均数和标准差,按正态分布法算出医学参考值范围的对数值,然后取反对数求其真数。百分界限(%)正态分布法百分位数法双侧单侧双侧单侧只有下下艮只有上限只有下限只有上限95X±1.96S叉-1.64S叉+1.64SP〜P 2.5 92.5—P 5 P 95 99X±2.58SN-2.32SN+2.32SP〜P 0^ 99^—P 1 P 99
总体均数的估计1、1、••抽样误差:这种由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异称为抽样误差。均数的标准误:由于随机抽样所造成的样本均数与总体均数的差别,即为样本均数的抽样误差。样本均数的标准差称为均数的标准误(SEM),用符号外表示,它说明各样本均数又围绕总体均数u的离散程度,可用来描O述样本均数的抽样误差大小。°X=茴在抽样研究中,总体标准差。常常未知,常用样本标准差s作为。的估计值,因而得到均数标准误的估计值为,-……cS其计算公式为:S-=「=xme根据数理统计的中心极限定理:从均数为u,标准差为。的正态总体中进行独立随机抽样,其样本均数服从均数为u,标准差为。/后的正态分布;即使是从非正态总体(均数为小标准差为Q中进行独立随机抽样,当样本含量逐渐增大(nN50)时,其样本均数的分布逐渐逼近与均数为u,标准差为。/石的正态分布。e标准差与均数的标准误的区别于联系:标准差均数的标准误区别统计符号总体标准差用。表示,样本标准差用S表示均数的标准误用与表示,其估计值用L表示计算公式s=jE(x-.)2n—1=木统计学意义标准差越小,个体值分布相对越集中,样本均数对数据的代表性越好标准误越小,样本均数的分布越集中,样本均数与总体均数的差别越小,抽样误差越小,的本均数估计总体均数的可靠性越大用途描述个体值的变异程度描述均数的抽样误差大小联系S-X=92、t分布产生、特征•t分布的产生:从正态总体中随机抽取的样本的均数又服从总体均数为u、总体标准差为2的正态分布。经过Z变换,正态分布N(u,哆)转化为标准正态分布N(0,1),即Z分布。由于实际研究工作中,为未知常见,一一S .、一..X-U只能以为代替支,而S-=r中S会因为样本不同而不尽相同,即S9有变异,故一^不再服从标准正态分XXX7n x S-x布,而服从t分布,即:Z=——止-Z=——止—t=..=X_匕#=n-1° °X Sq S/<'n•t分布特征:①t分布是一簇单峰分布曲线。②t分布以t=0为中心,左右对称且均匀下降。③其形态变化与自由度v的大小有关。自由度丫越小,则t值越分散,曲线越低平;自由度/逐渐增大时,t分布逐渐逼近标准正态分布;当v=8时,t分布即为标准正态分布。3、总体均数的估计:点估计用样本统计量直接作为总体参数的估计值。区间估计是给出被估计参数的可能范围。e区间估计:是指按照一定的概率(1-a),估计总体参数所在的范围,这个范围称为参数的置信区间,概率(1-a)称为置信度。•总体均数置信区间的估计:总体均数口的双侧(1-a)置信区间的计算公式为:P(-1 <t<t)—1-a—pP(-1 < 上<t)—1-a—>X-1s-<曰<X+1s-a/2,v a/2,v a/2,vS/n a/2,v a/2,vX a/2,vX其余计算同下表。•两总体均数差值的置信区间:假设两正态总体分布服从正态分布NQ1,4)和NQ2,吟),当呼,吟均已知,但咛一时,两总体均数之差%”的双侧(2置信区间为:(*「*J土%.Sq,一x2其中t值的自由度丫=(『1)+(4-1)=%+4-2,Sy均称为两均数之差的标准误。s J心(n-1)S2+(n-1)S2S=:S2(1)S2=1123-x1-x2\cnnc (n+n-2)1 1 1 2S2S当n,n均较大时,差值的可信区间为:(X一X)±zL+H2 1 2 a/2,v丫nn•置信区间的含义:总体均数的95%置信区间的含义是从正态总体中重复100此抽样,每次样本含量为n,每个样本均按攵±t-,Sy计算95%置信区间,则在这100个置信区间中,理论上有95个置信区间包含了总体均U.U5/2,VX数(估计正确),而有5个置信区间未包含总体均数(估计错误),即犯错误的概率是0.05o•总体均数置信区间与医学参考值范围的区别:区别总体均数置信区间医学参考值范围意义按一定的置信度(1-a)估计总体均数所在范围绝大多数“正常人”的某项解剖、生理、生物化学指标的波动范围计算公式①。未知:(X-%/2/Sn,X+%/2/9②。未知而n较大时:(另一Z/S一N+Z,S.)' a/2,uX a/2,uX③。已知:(文-Z.展,N+Z,j)〜 a/2,uX a/2,uX①正态分布双侧,(文-Z”S,N+Za/2,a单侧,々-Za/2,F+8)或(-8,N+Za/2,“S)②偏态分布双侧,号〜P100T单侧,(1,+8)或(-8,P100T)用途估计总体均数所在的范围判断观察对象的某项指标正常与否,为临床诊断提供参考假设检验1、假设检验的基本思想:在总体参数相等这一假设成立的前提下,计算出现等于及大于(或等于及小于)现有样本统计量的可能性(P值)。在零假设H0成立的前提下利用小概率反证法的逻辑思维方式,先计算比现有样本检验统计量以及更极端情况的可能性(P值),然后根据检验水准进行判断。如果P值很小,小于或等于事先规定的检验水准a,如0.05,结论就是拒绝零假设H0,接受Hj认为总体参数间不同;如果P值大于a,不拒绝H。,尚不能认为总体参数之间不同。2、假设检验的基本过程:①建立检验假设,确定检验水准a:零假设H0和备择假设可,检验水准注明单侧或双侧。②计算检验统计量:注明自由度V。③确定P值,做出统计推断。3、I型错误和n型错误:当拒绝h0时,认为在零假设成立的情况下,出现现在这种样本均数以及更极端情况的概率很下(P<0.001),但是,并不是说不可能发生。如果真实的情况是H0成立,这时结论就错了。因此,当我们进行假设检验时,无论是拒绝零假设H0,还是不拒绝零假设H0,都有可能犯错误。I型错误:统计学上将这种拒绝了实际上正确的零假设H0(弃真)的错误称为I型错误,a称为犯I型错误的概率。11型错误:统计学上将这种不拒绝实际上不成立的零假设h0(存伪)所犯的错误称为n型错误,b称为犯n型错误的概率。真实情况假设检验的结论拒绝H0不拒绝H0H0正确I型错误(a)推断正确(1-a)乩不正确推断正确(1-B)n型错误(0)e当样本量固定时,a越小,B越大,反之,a越大,B越小。要同时减少a和B,只有通过增加样本含量来实现。•检验效能:如果两个总体参数间确实存在差异,即H1:uWu0成立,使用假设检验方法能够发现这种差异(即拒绝H0)的能力称为检验效能,记为(1-B)。一般要求检验效能应在0.8以上。4、假设检验需要注意的问题:(1)数据应该来自科学严密设计的实验或调查;(2)数据应该满足假设检验方法的前提条件:①独立性,即各观察值间相互独立;②正态性,即该样本来自服从正态分布的总体。(3)正确理解假设检验中概率P值的含义,P值是指在H0成立的前提下,出现现有样本统计量以及更极端情况的概率。P值越小,说
明当前样本的证据越倾向于拒绝H0,当P值小于或等于事先规定的检验水准a时,就拒绝H0。P值的大小不仅与总体参数间的差别有关,而且与抽样误差大小等有关,但P值大小不能得出总体参数间差别大小的结论。(4)结论不能绝对化:报告假设检验结果时要给出检验水准、单双侧检验、样本量大小等。(5)统计学意义与实际意义:有统计学意义存在有实际意义.、可能有实际意义.、无实际意义.:无统计学意义存在样本过小和可接受零假设。t检验1、t检验的应用条件:①要求两样本均来自正态分布总体;②两样本总体方差相等。•配对设计资料:①配对的两个受试对象分别接受两种不同处理之后的数据,如把同年龄、同种属、同窝别的动物配成一对;②同一样品用两种方法(或仪器)检验出的结果;③同一受试对象处理前后的测定数据。用途公式单样本:N与从。单样本:N与从。比较t= 0-= =0-,v=n—1s— s/<nd—0td—0t= S一d =,v=n—1成组:5与也比较X—Xt=i s成组:5与也比较X—Xt=i s X1-X2X,—X。;1 ,s2(+)
cnnX,-X2s2(n—1)+s2(n—1),1 1、-4——1 2——2 (—+—)成组:5与也比较+n2ni(ni、n2均大于5°)在进行两小样本均数比较时,若两总体方差叫w吗,可使用t'检验。(S工+S上)2 XXTS?二X.4X.,■1一1 ,,2一n—1n—1正态性检验与方差齐性检验:①正态性检验:P-P图、Q-Q图和统计学检验(W检验、D检验及矩法检验)当进行矩法检验计算偏度系数(SKEW)和峰度系数(KURT)时,双侧1=0.10,只有当上述两个检验都不拒绝H0时,才有理由认为总体的分布为正态分布。②两总体的方差齐性检验:双侧。=0.10,P>a,不拒绝H0时,尚不能认为两总体方差不齐。1r S2(较大)v=n—1,v=n—1F二—t——v=n—1,v=n—1S2(较小)2方差分析方差分析的基本思想:将总变异按设计和需要分解成两个或多个部分。用途:比较k个总体均数间差别有无统计学
意义。应用条件:①各样本是相互独立的随机样本,均服从正态分布;②各样本的总体方差相等,即满足方差齐性。•完全随机设计资料的方差分析:又称单因素方差分析。完全随机设计是将同质的受试对象随机地分配到各处理组,再观察其实验效应。%=SS组间+SS组内,v总=v组间+v组内变异来源SSvMSF总变异E(X—X)2N—1组间变异/n(X—X)2k—1ss组间/v组间MS组间/MS组内组内变异巴一SS组间N—kss组内/v组内
随机区组设计资料的方差分析:属于无重复数据的两因素方差分析。随机区组设计又称配伍组设计,通常是将受试对象按性质相同或相近者组成b个区组(又称配伍组),再将每个区组中的受试对象分别随机分配到卜个处理组中。SS总=SS处理+SS区组+SS误差,%=v处理+y区组+y误差变异来源SSvMSF总变异£(X—X)2N—1处理组zn(X—X)2k—1ss处理/v处理MS处理/MS误差区组£n(X—X)2jjb-1ss区组/v区组MS区组/MS误差误差SS总一SS处理一SS区组“总 v处理 v区组SS误差/v误差个多个均数两两之间比较:SNK法(q检验):比较每两个样本均数所代表的总体均数是否不同。Dunnett-t检验:用于多个处理组与对照组的比较。多个均数两两之间比较进行t检验会增大I型错误。交叉设计资料的方差分析:按事先设计好的实验次序,在各个时期对受试对象先后实施各种处理。田总=非处理+SS阶段+SS个体+SS误差\「v处理+V阶段+V个体+V误差变异来源SSvMSF总变异£(X-X)22n-1处理£n处理(X处理-X)21SS处理/1MS处理/MS误差阶段£n (X -X)2阶段阶段1SS阶段〃MS阶段/MS误差个体£n (X -X)2个体个体n—1SS个体/(n-1)MS个体/MS误差误差SS总-SS处理-SS阶段-SS个体n—2SS误差/(n-2)•析因设计资料的方差分析:析因设计是将两个或多个实验因素的各水平进行全面组合,对各组合都进行实验,从而探讨各实验因素的单独效应、主效应以及各因素间的交互效应。统计推断时先判断有无交互效应,若存在交互效应时,单纯研究某个因素的作用是没有意义的,必须在另一个因素的不同水平下研究该因素的作用大小。SS总=SS处理+SS误差=(SS4+SSB+SSAB)+SS误差v总=v处理+v误差=(vA+vB+vAB)+v误差变异来源SSvMSF总变异£(X-X)2N—1处理£n(X-X)2k-1A£n(X-X)2AA1SSA/vAMSA/MS误差B£n(X-X)2BB1SSb/vBMSB/MS误差ABSS处理-SSa-SSb1SSab/vBBMSAB/MS误差误差SS总-SS处理N-kSS误差八误差•重复测量资料的方差分析:重复测量资料是同一受试对象的同一观察指标在不同时间点上进行多次测量所获得的资料,常用来分析该观察指标在不同时间点上的变化特点。前提条件:除需满足一般方差分析的条件外,还需特别满足协方差阵的球形性或复合对称性。若球对称性质不能满足,方差分析的结果会增大I型错误的概率。球对称性通常采用Mauchly检验来判断。若PWa,从理论上讲,应对受试对象内所有变异的自由度进行校正,包括时间效应、处理X时间的交互效应以及个体内误差三者的自由度均需乘以G-G法或H-F法的“球对称”系数0再查F界值表获得P值。重复测量资料还可以用Mixed回归模型分析,不要求资料满足球形对称性。ss总一SS受试对象间+SS受试对象内一(SS处理+SS个体间误差)+(SS时间+SS处理x时间+SS个体内误差)V总 V受试对象间+V受试对象内 "处理+V个体间误差)+"时间+V处理X时间+V个体内误差)变异来源SSvMSF总变异z(X-X)2N-1受试对象间工n(X-X)2k—1处理Zn处理(X处理-X)2g—1ss处理/y处理MS处理/MS个体间误差个体间误差ss对象间ss处理k-gss个体间误差/y个体间误差受试对象内SSjSS对象间N—k时间Zn(X -X)2时间时间P-1ss时间/'间MS时间/MS个体内误差处理X时间n处理X时间(X处理X时间X)(g-1)(P-1)SS处理x时间处理X时间"S处理x时间/"S个体内误差误差ss对象内s'时间s'处理x时间N—k-g(p—1)ss个体内误差/“个体内误差e随机区组设计与完全随机设计相比,因为通过区组控制了可能的混杂因素,并将区组变异从原组内变异中分解出来,所以,当区组因素有统计学意义时,方差分析的随机误差部分更为准确,检验效能更高。e随机区组设计和2X2析因设计虽然均为两因素,但随机区组设计通常为研究单因素而设计,区组因素只是一个控制因素,不能分析其交互效应;2X2析因设计为两因素设计,可以分析两因素间的交互作用。对析因设计资料,应先分析交互效应。若交互效应有统计学意义,须固定某一因素的水平,逐一分析其他因素的单独效应;反之,若交互效应无统计学意义,则因素间的作用相互独立,分析某一因素的作用只需考察该因素的主效应。定性资料的统计描述1、定性资料:在医学研究和实践中,有一类资料是按照事物的特征或属性进行分类的,这类资料称为定性资料,也称分类资料或计数资料。定性资料的频数分布:定性资料频数分布表又称列联表,是用两个分类变量对同一资料进行双向分类形成的表,可用于考察两种属性的关系。常用相对数指标:(1)率:是指某现象实际发生数与某时间点或某时间段可能发生该现象的观察单位数之比,用以说明该现象发生的频率或强度。包括频率和速率两类指标。(2)构成比(proportion):即比例,是指事物内部某一部分组成观察单位数与同一事物各组成部分的观察单位总数之比,用以说明事物内部各组成部分所占比重。特点:①分子是分母的一部分,各组成部分的构成比数值之和等于1或100%。②事物内部各组成部分之间呈此消彼长关系。(3)相对比(ratio):是两个有关联的指标之比值,用以说明一个指标是另一个指标的几倍或几分之几。可分为:①关系指标:指两个有关的非同类事物的指标,如医护人员与病床数之比。②对比指标:指同类事物的两个指标之比,以达到比较的目的。如男女性别比。
应用相对数的注意事项:①计算相对数应有足够的观察单位数;②分析时不能以构成比代替率;③应将分子和分母分别合计求合计率;④相对数的比较应注意其可比性;⑤样本率或样本构成比的比较应作假设检验;⑥某些情况下最好使用绝对数:传染病疫情描述和其他突发事件的描述。2、率的标准化:标准化法的基本思想就是采用统一的标准构成,以消除年龄、性别、病情轻重及病程长短等因素构成不同对病死率、死亡率、治愈率等的影响,使算得的标准化率具有可比性。直接法:已知被标化组的年龄别死亡率/,时,官用直接法计算标准化率。(1)已知标准组年龄别人口数时,£Np标准化率p'=——(标准化人口N按照被标化组的年龄别死亡率p去死)(2)已知标准组年龄别人口Nii构成比时,标准化率p'=Z(N)p(标准组年龄别人口构成比x被标化组的年龄别死亡率称为分配死亡率)Ni间接法:当只有被标化组的年龄别人口数勺、死亡总数厂和标准组的年龄别死亡率P时,可采用间接法。, _r_ rp'=Px£^7=PxSMR(被标化组人口n按照标准组的年龄别死亡率P去死)£--是被标化组的实乙nP i i乙nPii ii际死亡数与预期死亡数之比,称为标准化死亡比(SMR)标准组的选择:①根据研究目的选择有代表性的、较稳定的、数量较大的人群;②将欲比较的两地或两组的人口数合并作为标准组,或选择其中一组较多的人口作为标准组。e应用标准化法的注意事项:①标准化率并不代表真实水平,选择的标准不同,计算出的标准化率也不相同。因此标准化率仅适用于相互间的比较,实际水平应采用未标化率来反映。②样本的标准化率是样本指标值,亦存在抽样误差,若要比较其代表的总体标准化率是否不同,需作假设检验。③当被标准化组各年龄段人口数太少,年龄别死亡率波动较大时,宜采用间接法。④各年龄组率若出现明显交叉,或呈非平行变化趋势时,则不适合采用标准化法,宜分层比较各年龄组率。x2检验殍检验时在X2分布的基础上,利用样本信息考察样本频数分布与假设成立条件下的理论频数分布之间差异的假设检验方法。由于X2分布本身是一种连续型随机变量的概率分布形式,而基于频数算的的X2值是离散的,不可能取[0,+8)的任意值,因此,Pearson^只是近似服从8分布,只有当样本例数或理论频数足够大时,这种近似才较好,进行8检验才是有效的。1、独立样本率或构成比比较的X2检验2x2列联表资料的X2检验:v=k-s—p=(R—1)(。-1)①当n>40且所有格子的T>5时,工①当n>40且所有格子的T>5时,工(A-T)一 T~(a+b)(c+d)(a+c)(b+d)②当n>40且有1<T<5时,亦可使用确切概率法_ (|ad-bc\-n『2)2n _£(|②当n>40且有1<T<5时,亦可使用确切概率法( (a+b)(c+d)(a+c)(b+d) T(a+b)!(c+d)!(a+c)!(b+d)!、③当n<40或有T<1时,应选择Fisher确切概率法P= £P=1i a!b!c!d!n! ,四格表确切概率法的基本思想:在四格表周边合计不变的条件下,利用超几何分布直接计算发生样本事件及比样本事件更极端情形发生的概率。由于四格表的自由度为1,在周边合计不变的条件下,只需依次增减样本四格表第1个格子数据,即a由小变大,即可得到各种组合的四格表,按a由小到大排列,然后依次计算出各种组合的概率尸产找出概率小于或等于原四格表概率的所有四格表,将其对应的概率相加,得出双侧概率。最后,将计算出的概率与检验水准a比较,得出结论。•RXC列联表资料的X2检验:一般要求不能有1/5以上格子的T<5,或有1个格子的T<1。X2二dzDi二n(Z土一1)T nn个RXC列联表X2检验注意事项:①计算X2值时,必须用绝对数,而不能用相对数,因为X2值的大小与频数大小有关。②X2检验时要求理论频数不宜过小,否则有可能导致分析的偏性。处理方法:a.最好增大样本含量,以达到增大理论频数的目的;b.将理论频数大小的行或列与性质相近的邻行或邻列合并,相应的实际频数相加,使重新计算的理论频数增大;c.删去理论频数太小的格子所对应的行或列;d.用确切概率法;③在比较各处理组的平均效应大小是否有差别时,应该用秩和检验。有序多分类变量时,X2值没有考虑效应的等级顺序,X2检验只能说明各处理效应的构成比是否有差异。④当多个样本率(或构成比)比较的X2检验,结论拒绝H0时,只能认为各总体率(或总构成比)之间总的来说有差异,但不能说明它们彼此之间都有差异,或某两者间有差异。多个样本率两两比较的方法:a.调整检验水准后进行两两比较;b.X2分割;c.估计两率之间的置信区间。2、配对设计样本率比较的X2检验:配对2X2列联表资料的X2检验:当b+c>40时,x2=(b—C)2,v=1(配对设计的X2检验又被称为McNemar检验)b+c当b+c<40时,x2=(b:。卜1)2,v=1(Yates校正或连续性校正)b+ce注意事项:①比较两种诊断方法的诊断效能有无差异时,要求所投入的检品是用标准法检出的阳性样品,或者受检对象是确诊的病例,以便判断两种方法的优劣。a、d反映的是甲、乙两种属性一致的情况。②由于a、d两个格子不能反映差异,因此,当a、d比较大,b、c比较小时,若得到差异有统计学意义,需结合两样本率差异的大小作出专业结论。③X2检验的分析目的在于比较两种方法检出阳性率的差异,而非两种方法检出阳性率的一致性。若要分析检出结果是否一致,应进行一致性检验(Kappa检验)配对RXR列联表资料的X2检验:^R-1(n—m)2T二乙一4—,v=R-1(A为第i行第i列的实际频数,n和m分别为第,行合计和第,列合计)Rn+m-2A i iii=1iiii3、拟合优度的北检验:是根据样本的频数分布检验其总体是否服从某特定的理论分布。其原理是按照该理论分布计算理论频数,利用8检验,推断实际频数与理论频数的吻合程度。可用于判断频数分布是否符合正态分布、二项分布或Poisson分布等。X2=Z(A;TXV=k-S-1(k为组段数,S为利用样本统计量估计的总体参数个数)iTe注意事项:①拟合优度的X2检验同样要求样本含量应足够大,且每个组段的理论频数均应三5。理论频数过小时的处理方法:a.将理论频数小于5的组段与相邻组段合并,使窄5。b.当v=1时,可进行连续型校正,校正(A-T-0.5)2公式如下:x2=Z-i—t i=1 i②拟合优度X2检验中期望频数分布服从理论分布,为了降低犯^型错误的概率,将斓高到0.1或0.2。4、率的线性趋势X2检验:当率按某变量自然顺序的等级分层,或连续性变量等级化后在分层时,可采用CochranArmitageq趋势检验以分析率随该分层因素变化的线性趋势。N(NZtN-TZnZ)2X2T V V ,VT1T(N-T)[N乙nZ2-(ZnZ)2]N是总人数,n是各组人数,T是总阳性数,t是各组阳性数,Z是各组评分。如果是按数量分组的资料,评分的原则与分组间隔相适应;如果是按性质分组的资料,评分的原则是1,2,3,…。
秩和检验1、参数检验(parametrictest):以特定的总体分布为前提,对未知的总体参数作推断的假设检验方法。非参数检验(nonparametrictest):不以特定的总体分布为前提,也不对总体参数作推断,故也称为任意分布检验(distribution-freetest)。由于非参数检验没有利用观察值的具体数据,而只利用了其大小次序的信息,信息利用不够充分,故凡适合参数检验的资料,应首选参数检验。2、秩和检验(ranksumtest):是将原数据转换为秩次,比较各组秩和的一类非参数检验方法。适用范围:①等级资料;②总体分布类型不明的资料;③非正态分布的资料;④对比组间方差不齐的资料;⑤一端或两端观察值不确切的类型。Wilcoxon符号秩和检验(Wilcoxonsigned-ranktest):可用于配对设计计量差值的比较,还可用于单一样本与总体中位数的比较。①配对设计的两样本比较:Wilcoxon配对符号秩和检验的基本思想:在配对样本中,由于随机误差的存在,其对差值的影响不可避免。假定两种处理的效应相同,则差值的总体分布为对称分布,并且差值的总体中位数为0。若此假设成立,样本差值为正的秩和与差值为负的秩和应相差不大,均接近i(n+1)/4;当正负组秩和相差悬殊,超出抽样误差可解释的范围时,则有理由怀疑该假设,从而拒绝H0。编秩过程:(1)求差值d.;(2)编秩,以差值的绝对值由小到大编秩,当差值为0,舍去不计,n随之减少;(3)分别计算正差值的秩和T+与负差值T的秩和;(4)确定检验统计量T,任取T+或T作为检验统计量T。查表法:附表10(T界值表),若T值在上、下界值范围内,其P值大于相应的概率;若T值恰好等于界值,其P值一般等于相应概率;若T值在上、下界值范围外,其P值小于相应的概率,下移一行再做比较。正态近似法:随着n的增大,T统计量的分布逐渐逼近均数为n(n+1)/4,方差为n(n+1)(2n+1)/24的正态分布,当n>50时,近似程度较满意。T—nT—n(n+1)/4|-0.5'~Znn(n+1)(2n+1)/24T-n(n+1)4|-0.5। (当相持的情形较多时,如个体数超过n(n+1)(2n+1)工(t3一24482425%,可用校正的统计量Zc,今为第j个相同秩次的个数)②单一样本与总体中位数比较;求差值、编秩、求秩和、计算检验统计量。成组设计两样本比较的秩和检验:Wilcoxon秩和检验(Wilcoxonranksumtest)推断连续型定量资料或有序分类资料的两个独立样本代表的总体分布位置是否有差别。基本思想:假设含量为n1和n2的两个样本(且n1<n2),来自同一总体或分布相同的两个总体,则\样本的秩和T1与其理论秩和n1(N+1)/2相差不大,即[T]-n](N+1)/2]仅为抽样误差所致。当两者相差悬殊,超出抽样误差可解释的范围时,则有理由怀疑该假设,从而拒绝H0。①原始数据的两样本比较:原始数据为连续性定量资料,且不满足参数检验条件时编秩过程:编秩过程同上,若两样本例数相等时,取任意组的秩和作为检验统计量;若两样本例数不相等时,取样本含量较小组的秩和作为检验统计量。(1)查表法:当样本含量较小组W10,且两样本含量之差W10时,查附表11(内大外小)。(2)正态近似法:当n1>10或n1-n2>10时,根据中心极限定理,这时T1的分布已接近均数为n1(N+1)/2,方差为nfn2(N+1)/12的正态分布。Z=二二,c=1-Z(13-1)/(NZ=二二,c=1-Z(13-1)/(N3-N)(当相持的情形较多时,如个体数超过25%n(N+1)/12可用校正的统计量Zc,今为第j个相同秩次的个数)②等级资料的两样本比较:编秩、求秩和、确定统计量,计算同上。成组设计多个样本比较的秩和检验:Kruskal-WallisH秩和检验,同于推断非正态分布定量变量或有序分类变量的多个总体分布位置有无差别。多个独立样本间的多重比较可以采用秩变换后进行方差分析及SNK法多重比较,也可以通过调整a水准(a,=a/需比较次数)直接采用两独立样本的Wilcoxon秩和检验。随机区组设计的秩和检验:可用Friedman秩和检验(FriedmanMtest),又称M检验,为了比较平衡区组因素影响后个处理间的效应,采用了不同的编秩方法(区组内按大小编秩)。多个相关样本的两两比较与多个独立样本间的多重比较相似。
二项分布和Poisson分布及其应用1、二项分布的定义、适用条件及性质和应用令在相同条件下每次试验只有两种对立结果(A或)、各次试验相互独立并且可重复的试验叫作Bernoulli试验或成败性试验。n次Bernoulli试验,所感兴趣的事件A发生X次的概率分布叫做二项分布。当每次Bernoulli试验发生阳性的概率为五时,n次Bernoulli试验中恰好发生X个阳性的概率为:P(X)=CP(X)=CX兀X(1一兀)n—X
nn!X!(n-X)!兀x(1一兀)n一X(X=0,1,2…,n)二项分布常计为X〜B(n,n)适用条件:①每次试验只会发生两种对立的可能结果之一;②在相同试验条件下,每次试验产生某种结果的概率n固定不变;③重复试验是相互独立的。性质:(1)二项分布的均数与标准差:若X〜B(n,n),则:X的总体均数:口=n兀;X的总体方差:O2=n兀(1一兀);X的总体标准差:。=\,;而(1-兀)。若以样本率表示,则:样本率P的总体均数为:口=1口=兀pn一I», jr 1 兀(1一兀)样本率P的总体方差为:02=—O2= ——人pn2 n样本率P的总体标准差为:1 样本率P的总体标准差为:1 :兀(1一兀)=n令样本率的标准差也称率的标准误,常用来描述样本率的抽样误差。当总体率五未知时,以样本资料计算的P=X/n作为五的估计值,则'的估计值为:5作为五的估计值,则'的估计值为:5〃=p(1-p)n(2)二项分布的图形:当n=0.5时,二项分布图形是对称的;当nW0.5时,图形是偏态的,随着n的增大,图形趋于对称。当n-8时,只要五不太靠近0或1,二项分布近似正态分布。应用:(一)总体率的区间估计:①直接法:对于小样本资料3<50),直接查百分率的置信区间表(附表7)即可得到总体率的95%和99%置信区间;②正态近似法:当n较大、p和1-p均不太小,如np和n(1-p)均大于5时,可利用样本率的口的分布近似正态分布来估计总体率的(1-。)置信区间。计算公式:p土ZSa/2p(二)单个样本率与已知总体率的比较:①直接法:对单侧检验,有下面两种情况:A若是回答“差”或“低”的问题,则计算出“阳性”次数至多为k次的概率,即:£p(£p(x)=X=0工X=0n!X!(n一X)!加X(1一兀)B若是回答“优”或“高”的问题,则计算出现“阳性”次数至少为k次的概率,即:P(X>k)=£p(X)=Z——n——兀X(1一兀)n一X
x=k x=kX!(n-X)!兀W兀0,因此,对于双侧检验:由于要回答的是“是否有差别”,即无效假设H0:兀=兀0,备择假设H1:
所要计算的双侧检验概率P值应为实际样本出现的概率与更背离无效假设的事件出现的概率之和,即P=P(x=k)+ZP(x=i),其中i满足P(X=i)<P(X兀W兀0,因此,>例题:一种鸭通常感染某种传染病的概率是0.2,现将一种药物注射到25只鸭后发现有1只鸭发生感染,试判断这种药物对预防感染是否有效。(1)建立假设检验,确定检验水准H°:此药物对预防感染无效,即兀=0.2;H1:此药物对预防感染有效,即冗<0.2; 单侧a=0.05(2)计算概率:在X〜B(25,0.2)成立的前提下,至多有1只感染的概率,则有:P(X<1)=P(X=0)+P(X=1)=0.825+C150.210.824=0.0274 *这表明在自然情况下,25只鸭感染只数不超过1只属于小概率事件,很难在一次实验中出现,现在的事实是竟然出现了;(3)作出统计推断:根据检验水准,有理由拒绝药物未起作用的假设H0,接受H1,认为药物是有预防作用的。②正态近似法:当n较大,n不接近0,也不接近1,如nn和n(1-n)均大于5时,利用正态近似原理,可作样本率p与已知总体率n作样本率p与已知总体率n0的比较,检验统计量为:p一兀
0
俨0(1一兀0)(三)两独立样本率的比较:两独立样本率比较的目的在于利用样本信息对相应两总体率的差别进行统计推断。设两样本含量分别为人和与,均较大;两样本率分别为p1和p2,且p1、1-p1及p2、1-p2均不太小,如np、n1(1-pJ及nR、n2(1-p2)均大于5时,采用正态近似法。检验统计量为:। 2z=z=4^sS p1-p2P1-P2XJX2(1_
n+nX+X-1 1、T 2)(一十)n+nnn2、弋Poisson2、弋而试验的次数n很大的小概率事件出现规律性的一种泊松分布是描述当试验中成功的概率式很小(如汽而试验的次数n很大的小概率事件出现规律性的一种离散型随机分布。用于描述在单位时间(空间)内稀有事件的发生数。•Poisson分布的概率密度函数:若离散型随机变量X,其取值为0,1,2,…,相应的概率函数为:e-RaxP(X)=—7—则称X服从参数为u的Poisson分布,记作X〜P(u)。0:自然对数的底,e^2.7182;X!u为总体均数(u>0),称为Poisson分布的参数;X为随机变量。 之P(X)=1X=0适用条件:①平稳性:X的取值与观察单位的位置无关,只与观察单位的大小有关。②独立增量性(无后效性):在某个观察单位上X的取值与前面各观察单位上X的取值独立(无关)。③普通性:在充分小的观察单位上X的取值最多为1。即在试验次数n足够大时,每次试验可看作是一个“充分小的观测单位”,且每次试验只会发生两种互斥的可能结果之一(“阳性”或“阴性”),这样每次实验的阳性数X的取值最多为1。性质:①总体均数U与总体方差。2相等,即与工。②当n很大,而n很小,且nn=u为常数时,Poisson分布可看作是二项分布的极限分布。③当后20时已接近正态分布,当后50时则非常接近正态分布,Poisson分布资料可作为正态分布处理。④Poisson分布具备加和性:如果X『X2,…,Xk相互独立,且它们分别服从以UjU2,…Uk为参数的Poisson分布,则T=XjX2+…+Xk也服从Poisson分布,其参数为口=〜+匕+…";⑤u越小,Poisson分布越偏,u越大,Poisson分布渐近正态分布。应用:①可用来分析一些不具有传染性、无永久免疫、无遗传性且发病率很低的疾病的发病程度,例出生缺陷、癌症等非传染性疾病;②研究单位时间(或单位空间、面积)内某事件发生次数的分布,如分析单位时间中放射性脉冲数,单位面积或容积内细菌数,单位空间内粉尘颗粒数,单位空间某种昆虫或野生动物数等的分布。
(一)总体均数的区间估计:①查表法:样本计数XW50时,可直接查Poisson分布u的置信区间表(附表8)。②正态分布法:当X>50时,可采用正态近似法估计总体均数的(1-a)置信区间。如总体均数的双侧(1-&)置信区间计算公式如下:X±Z5汉。(二)单个样本均数与已知总体均数的比较:检验假设同二项分布①直接法:当总体均数u<20时,可采用直接计算概率的方法对样本代表的总体均数与已知总体均数间的差别进行统计推断,即对以样本代表的总体率n与已知的总体率n0进行比较。单侧检验时:若备择假设为斗:口>匕(或者斗:n>;°),则所要计算的单侧检验概率P=P(XNk);若备择假设为此:口<匕(或者斗:n”°),则所要计算的单侧检验概率P=P(XWk)。双侧检验时:备择假设斗:口2%(或者斗:冗£冗0),所要计算的双侧检验概率P=2P(X=i),其中i满足P(X二i)WP(X二k)。②正态近似法:一般当口三20时,近似正态分布。样本计数*与已知总体均数%的比较,检验统计量为:(三)完全随机设计两个样本均数的比较:设两个样本计数分别为£和%,当£和%均较大(一般要求£三20且X2三20)时,可采用正态近似法比较。 1 1「X一X①两个样本的观察单位数相等(njnJ时:Z=&+X1V1 2②两个样本的观察单位数不等('WnJ时:②两个样本的观察单位数不等('WnJ时:XX―1——23、正态分布、二项分布和Poisson分布之间的关系:①Poisson分布与二项分布:当n很大,n很小时,二项分布B(n,n)逼近Poisson分布P(nn)。根据这一性质,在n很大且n很小时,利用Poisson分布概率计算可以简化二项分布的概率计算。②正态分布与二项分布:当nn和n(1-n)均较大时(通常要求nn和n(1-n)均大于5并且n>40),二项分布逐渐逼近于均数为nn,方差为n(1-n)n的正态分布。此时可用正态分布N(nn,nn(1-n))作近似二项分布的概率计算,并且对应的样本率P=X/n近似正态分布N(n,n(1-n)/n)。③正态分布与Poisson分布:当均数u越来越大时,Poisson分布逐渐逼近于均数为u,方差为u的正态分布。据此性质,均数较大的Poisson分布(通常要求u>20)可用正态分布计算。二项分布用于率的计算和比较,Poisson分布用于均数的计算和比较。统计表与统计图1、统计表制表原则:重点突出、简单明了、主谓分明、层次清楚。基本结构:标题、标目、线条、数字。2、统计图基本架构:标题、标目、刻度、图例。统计图适用条件条图适用于比较相互独立的统计指标的数值大小圆图、百分比条图描述分类变量各类别所占构成比,后者特别适合多个构成比的比较线图描述某统计量随另一连续性数值变量变化而变化的趋势直方图描述数值变量的频数分布箱式图描述数据的分布特征统计地图描述某指标在地理区域的分布
双变量关联性分析1、两变量关联性分析的目的在于推断从某一总体中随机抽取的同一份样本观测出的两个变量间是否存在关联性,以及这种关联性的密切程度如何,这种关联并不表示专业上的因果关系。在统计学上两个随机变量之间呈直线趋势的关系被称为直线相关,又称简单相关。・两个定量变量间的直线相关:Pearson积矩相关系数----常被用于定量描述两个定量变量间直线关系的相关方向和密切程度,又被称为直线相关系数,用厂表示。样本相关系数,正负号表示两变量间直线相关的方向,大于0为正相关,小于0为负相关,等于0为零相关。其绝对值大小表示两变量间直线相关的密切程度,绝对值越接近于1,说明相关密切程度越高;绝对值越接近于0,说明相关密切程度越低。厂取值范围在[-1,1]之间。£xy」(£x)(£y)ii=1TOC\o"1-5"\h\ziini iii=1t=1 i=1 t=1£(xjx)2£(yi-y)2i=1 i=1统计推断:用样本计算出来的相关系数[[££(xjx)2£(yi-y)2i=1 i=1统计推断:用样本计算出来的相关系数Vini inii=1 i=1 i=1 i=1r是一个样本统计量,存在抽样误差,需作假设检验以便判断总体相关系数p是否为0。若PWa时,则拒绝H°,可认为两变量间存在直线相关关系;若P>a,则不拒绝H°,尚不能认为两变量间存在直线相关关系。 ° °r—0 .1—r2①t检验:t=—S=:--(S为样本相关系数r的标准误,当X和丫无线性关系,即H成立时,t服rSr\n-2 r 0 rr从自由度为v=n-2的t分布)②查表法:根据自由度丫』-2,查相关系数界值表(附表14),|丁|越大,P越小;|丁|越小,P越大。。注意事项:①进行直线相关分析前应先绘制散点图;②Pearson积矩相关系数的统计推断要求两个随机变量均服从正态分布。③出现离群点慎用;④相关关系不一定是因果关系;⑤分层资料不可盲目合并。・秩相关:对于不服从正态分布、总体分布未知、存在极端值或原始数据用等级表示的资料可采用秩相关,也称等级相关,不以特定的总体分布为前提,属于非参数统计方法。最常用的统计量是Spearman秩相关系数rs,又称等级相关系数,其值在[-1,1]之间,无单位,rs>0,为正相关;rs<0,为负相关。rs:将两变量x、y成对的观察值分别从小到大编秩,用秩次作为分析变量,直接计算Pearson积矩相关系数。lr=p7qq统计推断:总体秩相关系数4的假设检验,可用以下方法进行推断:当nW50时,可查等级相关系数界值表(附表15),若|q|超过临界值,则拒绝H0;当n>50时,可作t检验,同上。・分类变量的关联性分析:两个分类变量关联性分析在设计上是从同一个总体中进行随机抽样,对样本中的每个个体,考察其两种属性的关系。其目的是检查两个分类变量之间是否独立。对于至少一个变量为无序分类变量的两个分类变量的关联性分析,通常先是根据交叉分类计数所得的列联表进行两种属性独立性的X,2检验,然后计算关联系数。y2 , .一——,k=min(y2 , .一——,k=min(R,C)n(k-1)(2)RXC列联表的关联性分析:两种属性独立性的X2检验,然后计算关联系数。V=令至少一个变量为无序分类变量的两个分类变量的独立性检验与几个独立样本频率比较的假设检验所用的X2检验公式、理论频数计算公式和自由度的计算公式完全相同。但是,必须注意,这两种分析方法所针对的研究目的、设计方案、数据结构之间及其结果解释都不相同。(3)两有序分类变量的关联性分析:宜用Goodman-KruskalGamma方法(简称Gamma法)来完成。利用列联表,计算Gamma系数:①共变(concordance,。:变量X和Y具有相同变化趋势,即两者同向变化。②异变(discordance,。:变量X和Y具有不同变化趋势,即两者反向变化。
③共变频数(Nc):变量X和Y具有相同变化趋势的对子数。④异变频数(Nd):变量X和Y具有不同变化趋势的对子数。⑤Gamma系数:如果两变量间相互独立,那么两变量共变频率与异变概率之差应为零;否则,可认为两变量存在相关。其总体值用Y表示,样本值用G表示:G=N~NN+N独立性检验一-Z检验:Z=Gx:NJNd、(N为列联表的总例数)\N(1-G2)直线回归分析1、直线回归:用来研究两个连续型变量之间数量上线性依存关系的方法,又称简单回归。直线相关或回归分析步骤:①绘制散点图,判断是否有线性趋势及异常值;②满足运用条件时,可计算样本相关/回归系数;③对样本相关/回归系数的假设检验;④正确解释相关/回归系数的意义;⑤回归分析应评价回归模型的拟合效果R2。描述歹随x的变化而变化的方程称为直线回归方程,也称为直线回归模型,可表示为:9=。+次。其中,夕表示当x取某一值时因变量y的平均估计值;b为回归系数,表示x增加(或减少)1个单位时y的平均改变b个单位;a为回归直线的截距或常数项,表示x=0时,y的平均估计值。与单变量问题类似,由于个体观察值不一定总等于其均数,所以散点图中个点不会恰好都在回归直线上,故两变量的直线关系并非一一对应的函数关系,而是回归关系,也就是说因变量的均数随着自变量的改变呈线性变化。2、回归方程的估计:统计学上将各点距回归直线的纵向距离平方和最小这一原则称为“残差平方和最小”。按照最小二乘法,当E(y,一9J2取得最小值时所对应a和b的计算公式如下:I Z(X一工)(J-y) _y V (ZX)(Zy)b=产=—_、——,a=y-bxy=乙(x-x)(y-y)=乙xy l -(x-x)2 nXX式中,lxy为x与y的离均差交叉乘积和,简称离均差积和。3、直线回归的统计推断:•回归系数的假设检验:对总体回归系数B是否等于0进行统计推断。①方差分析:对因变量y的离均差平方和E(y—歹)2作分解:E(y—歹)2=E(y—歹)2+E(y—y)2上式也可表示为:SS总上式也可表示为:SS总=SS回+SS残,v总="一1'v回=1,v残=n-2,v总="回十"残SS即E(y-歹)2,称为总离均差平方和,即不考虑y与x的回归关系时y的总变异。总SS回即E(y-刃2称为回归平方和。SS回反映了在y的总变异中可以用y与x的回归关系所解释的部分,也即在y的总变异中由于y与x的回归关系而使y的总变异减少的部分。SS回越大,说明回归效果越好。SS侬即E(y-y)2,称为残差平方和,反映在总平方和中无法用回归关系解释的部分,表示考虑回归关系之残后y的随机误差。在散点图中,各实测值离回归直线越近,SS残越小,说明直线回归的估计误差越小。「MSSSvF=回=一回回式中,MS为回归均方,MS为残差均方。SS=bl=l2/1=b21MSSSv 回 残 回xyxyxxxx残残残在H0为B=0的假设下,统计量F服从自由度为v回、v残的F分布(附表4)。一,b-0 …S「②t检验:t= ,v=n-2S=y-x^SS=1-残bS b :i y•x\n-2b xxx•总体回归系数B的置信区间:0的双侧(1—a)置信区间为b±%/2("一2)Sb,式中与为样本回归系数b的标准误;%/2m-2)是自由度为u=n-2的双侧概率对应的t界值。
•决定系数:回归平方和,,与总离均差平方和、,总之比称为决定系数,记为R2,R2♦,取值在0到1之间,无单位,作为反映回归贡献的相对程度,即在因变量y的总变异中,用y与x的回归系数系能解释的比例。还可用来对回归拟合效果作假设检验。4、••令令R2 SSVMSF= =—回一回=回(1-R2)/(n—2)SS残/v残MS残直线回归分析的应用:因变量总体条件均数的置信区间:给定数值”由于样本回归方程算出的%=a+%只是总体条件均数以\的一个点估计值。由于存在抽样误差,%会因样本而异,反映其抽样误差大小的标准误计算如下:11(X-X)2 人S.=sI-+———其条件总体均数RI的双侧(1-。)置信区间为:y土t S,yp y•x\n l y^ p3n-2)ypxx p因变量个体y值的预测区间:利用回归方程进行统计预测,就是将自变量带入回归方程中,对因变量的个体值/ 1(x-X)2进行估计。给定数值与,对应的个体y也存在一个波动范围,其标准差S,S=S 1+-+———P yx y\x y•x丫 n lp P xx%=%时个体y值的双侧(1-。)预测区间为y土tSP p0/2,vyxp当%-%p时,其条件总体均数的置信区间与个体y值的预测区间含义是不同的:前者表示在固定的%处,反复抽样100次,可算出100个相应y的总体均数的置信区间,平均而言(概率意义上)有100X(1-a)个置信区间包含总体均数;而后者表示个体值的取值范围,即固定在%处,随机抽取100个个体,平均将有100X(1-a)个个体值在求出的范围内。直线回归与直线相关分析的区别与联系:区别直线相关分析直线回归分析使用条件要求x、y服从双变量正态分布①x与y呈线性关系;②个体观察值之间相互独立;③不同的x值所对应的随机变量y的方差相等;④在给定某个x值时y服从正态分布应用反映两变量间相关关系、方向和密切程度反映两变量数量依存变化的关系意义相关系数r说明具有直线关系的两变量间相互关系的方向与密切程度回归系数b表示x每改变一个单位所引起的y的平均改变量计算公式r=(xy/jlJyyb=lxy/lXX取值范围-1<r<1一8<b<+8单位r没有单位b有单位联系①对于服从双变量正态分布的同一组数据,既可作直线相关关系,又可作直线回归分析,计算出的b与r正负号一致。②相关系数与回归系数的假设检验等价,即对于同一样本,tb=tr。由于相关系数的假设检验可以方便地查表得到P值,所以可用相关系数的假设检验来回答回归系数的假设检验问题。③对于服从双变量正态分布的同一组资料,其相关系数r和回归系数b可以相互换算:r-J。④用回归可以解释相关。决定系数R2-SS回/SS总,为相关系数的平方。SS回越接近SS总,则相关系数和决定系数都越接近1,说明引入回归效果越好。
生存分析1、生存资料:这类既考虑事件是否出现,又考虑事件出现的时间长短的资料,在统计学上称为生存资料。特点:①包含有结局和发生结局所经历的时间两方面信息;②结局为两分类互斥事件;③一般是通过随访观察收集得到;④生存时间的不完全形式(不确切),使得资料分布类型不规则、不确定(未知),分布形式多样。生存分析:它是将事件的结局和发生这种结局所经历的时间进行综合分析的一类统计分析方法。基本内容:①描述生存过程;②比较生存曲线;③分析生存过程的影响因素。死亡事件:又称失效事件或终点事件,泛指标志某种处理措施失败或失效的特征事件。生存时间:泛指研究者关心的某种现象的持续时间。①完全数据:指从观察起点到发生死亡事件所经历的时间。②截尾数据(censoreddata):简称截尾值,又称删失值或终检值,从观察起点至截尾时点所经历的时间。生存时间观察过程的截尾不是由于死亡事件,而是由于其他原因引起的,称为截尾。截尾的主要原因:(1)失访:指失去联系;(2)退出:指死于非研究因素或非处理因素而退出研究;(3)终止:指设计时规定的研究时限已到而终止观察,但研究对象仍然存活。死亡概率:记为q,是指死于某时段内的可能性大小,即在某单位时段开始时存活的个体在该时段内死亡的可能性大小。某年内死亡数q能性大小。某年内死亡数q二 1 某年年初观察例数-土截尾例数生存概率:记为p,表示在某单位时段开始时存活的个体到该时刻结束时仍存活的可能性大小。某年活满1年人数某年年初观察例数-2截尾例数t时刻仍存活的例数死亡率:记为^?(t),是指观察对象能存活到某一时点t的概率。S(t)=P(T>t)=‘而三将一(如观察总例数人无截尾数据)当存在截尾数据时采用概率乘法原理估计生存率:s(t)=P(T>t)=pXpX...XpTOC\o"1-5"\h\z1 2 i\o"CurrentDocument"人 人生存曲线:是指以时点t为横坐标,以各时点生存率s(t)为纵坐标,将各个时点t的生存率S(t)在坐标系中i i i i连接在一起的曲线图,用以描述生存过程。中位生存时间:又称半数生存期、中位生存期,是指生存率为0.5时
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 劳动者安全生产协议书七篇
- 麻痹性肠梗阻病因介绍
- 非火器性颅脑开放伤病因介绍
- 阴虱病病因介绍
- 内蒙古通辽市(2024年-2025年小学六年级语文)部编版随堂测试(上学期)试卷及答案
- 中考历史复习方案专题突破知识专题六大国史
- (参考模板范文)申请报告
- 园艺植物种子生产教学课件
- 企业内部凝聚力培训课件
- 保健按摩师中级练习题库及答案
- 分拣装卸等劳务外包合同
- 理正软件抗滑桩常见问题课件
- 广东开放大学 《大学英语B》形成性考核 参考答案
- 河北医大《口腔修复学》教学大纲
- 2022年全国焊工竞赛试题库汇总-下(多选、判断题部分)
- 采油站工艺流程图课件
- 【语法】一般过去时态-完整版课件
- 2023届高三上学期9月月考作文“自在与成人”审题指导及范文三篇
- 体育概论第三章体育的目的课件
- 轻质隔墙技术交底记录
- 安全技术防范系统设备安装检验批质量验收记录
评论
0/150
提交评论