




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、nTs时,逼近正标准正态分布与正态分布的关系: 对正态分布的(X- 11) / a进行U的变换,U= (X- g ) / a ,则正态分布变换为 卩=0, a =1的标准 正态分布,亦称U分布。正态分布的特征:(1)正态曲线在横轴上方均数处最高。(2)正态分布以均数为中心,左右对称。(3) 正态分布有2个参数,即均数1和标准差a。1是位置参数,当a固定不变时,g越大,曲 线沿横轴越向右移动;反之,1越小,则曲线沿横轴越向左移动。a是形状参数(亦称变异度参数),当1固定不变时,a越大,曲线越平阔;a越小,曲线越尖峭。通常用 N( 1 , a 2)表示均数 为1,方差为a的正态分布。(4)正态分布
2、在1 a处各有一个拐点。(5)正态曲线下面积的分布有一定规律。t分布:2、当n工0.5,且n小时呈偏态分布;随 n不断增大,逐渐趋于对称分布;当 态分布。实际工作中,只要 n足够大,n与1- n均不太小时(通常规定 n 50且nnb 5与n (1- n) 5 时),可看作近似正态分布。Po isson 分布I:对于二项分类变量,若某结果发生的概率很小,如n 20时,可按正态分布处理,当 n 0.01 2将x看成变量值,那么可将正态变量进行u变换(u=x-卩/ a 后,也可将N ( ,,b匚)变换x 成标准正态分布 (0,1)。常用s作为a的估计值,统计量为t,此分布为t分布。统计量:t=-sx
3、t分布特征为:(2) 、Poisson分布的方差2与均数相等。a(3)、Poisson分布可以看成是二项分布的极限形式。(4)、Poisson分布的极限形式也是二项分布,一般当时,二项分布可以当作 Poisson分布来处理。(5)、Poisson分布具有可加性。2t分布曲线形态变化与自由度的大小有关。自由度越小,t值越分散,曲线越低平;自由度逐渐增大时,则t分布逐渐逼近标准正态分布。t分布即为U分布。二项分布:2是一种连续型分布,U分布的平方即为7 分布。2/ 反映了实际频数与理论频数的吻合程度。(1-27分布:对于二项分类变量,若某结果发生的概率为n,其对立结果发生的概率为(1- n),且各
4、次试验相互独立时,这种试验在统计学上称为贝努里试验,二项分布概率函数的公式:P(x) =Cx nn-x2只有考虑了自由度 v的影响,/ 值才能正确地反应实际频数 A和理论频数T的吻合程度。1、当n =0.5时,无论n大小,其图形均呈对称分布;性质:卩=n n a = Jnn (1 - n )分布的特点:若用相对数表示,即样本率的均数和标准差分别为,则n未知时,用样本率 P作为n的估计值,则 Sp= JP(1 一 p)/n27分布是一种连续型分布,其形状依赖于自由度V的大小: 当自由度V 2时,曲线呈L型; 随着V的增加,曲线逐渐趋于对称;二项分布的特点/ 2当自由度V*时,分布趋向正态分布。假
5、设检验的基本思想:方差分析的基本思想:“小概率”的=0.01,甚至更由大到小回归系数的t检验的基本思想:先提出假设(例:参数相等),在假设成立的前提下考察实际抽到的样本是否属于小概率事件,由 此对提出的假设进行验证。若属于小概率事件,则拒绝该假设;否则不拒绝该假设。通过样本回归系数b与总体均数回归系数 3进行比较来判断回归方程是否成立。配对设计资料的符号秩和检验的基本思想:假定两种处理效应相同,则其差值的总体分布是对称的,总体中位数为按照研究目的和设计类型,将观察值总变异的离均差平方和(SS)和自由度(Y)分别分解成若干个部分,并用每一部分的均方(MS=SS/ Y)作为反映变异的指标。其中一部
6、分变异主要反映个 体变异造成的抽样误差,其余每一部分变异反映某个处理因素不同水平间的变异。假定各观测值 均独立地来自同方差的正态分布总体,当所研究的处理因素各水平间总体均数相等(H0成立)时,则相应部分变异与误差部分变异的比值服从F( k 2)分布,因此可根据检验统计量 F值做出假设检验的推断结论。27检验的基本思想:厂=送(A-T)3首先根据检验假设H0计算各格子的理论频数,用T反映各格实际频数与理论 频数的吻合程度。若 H0成立,理论上实际频数与理论频数应相等,但由于抽样误差的存在,样2本中的A与T不会完全相等,但应相差不大,即在一次抽样中得到较大工 值的概率很小。若由 现有样本得到了较大
7、的 x2值(大于界值x2( a,)v则按a检验水准拒绝H0,接受H1 ;否则不拒 绝H0。2多个样本率比较的 Y 分割法的基本思想: 配对设计资料的符号秩和检验正太近似法的基本思想: 由H0成立的总体中抽样,当观察例数比较多时,正、负秩和理论上应相等,即使存在差别,也只 是某些随机因素造成的。因T+T-=n(n+1)/2,若H。成立,多数情况下T+和T都应该在 (T+T-)/2=n(n+1)/4附近,并且由差值d的随机样本中获得正、负秩和相差悬殊的可能性很小。因此 若样本的正、负秩和相差太大,就有理由拒绝 H0,接受Hi;反之,不能拒绝H0。成组设计两样本秩和检验的基本思想:若Ho假设成立,即
8、可认为两样本是从同一个总体中抽取的随机样本,将二者混合后由小到大编秩,两样本组的平均秩和应大致相等,若有细微差别,也可认为是随机抽样造成的。也就是说,从相 同总体中随机抽样,两样本平均秩和相差很大的可能性非常小,根据数理统计推断原理,这样的 小概率事件在一次抽样中不可能发生。因此,实际研究中,若按上述方法计算的两样本平均秩和 相差很大,就有理由拒绝 H0,接受Hi。小概率原理: 小概率事件在一次试验中几乎不可能发生。 利用该原理可对科研资料进行假设检验。标升 界人为规定勺;对于可范引起严重后集的事件丈中人出m警,可规定 小。逐步回归分析的基本思想I 在供选择的 m个自变量中,依各自变量对因变量
9、作用的大小,即偏回归平方和的大小,把自变量依次逐个引入。每引入一个变量,就对它进行假设检验。当P兰a时,将该自变量引入3利用7 值的可加性原理,把 2Xk表分割成多个独立的四格表,这些四格表的自由度之和等于回归方程。新变量引入回归方程后,对方程中原有的自变量也要进行假设检验,并把贡献最小且 退化为不显著的自变量逐个剔出方程。因此逐步回归每一步(引入一个自变量或剔除一个自变量)前后都要进行假设检验,直至既没有自变量能够进入方程,也没有自变量从方程中剔除为止。回 归结束,最后所得方程即为所求得的“最优”回归方程。2 2原2X k表的自由度,其/ 值之和近似等于原2X k表的/ 值。当进行多个样本率
10、的两两比较时,为了保证假设检验中犯I性错误的概率不变,须重新规定检验水准 个样本率两两比较的次数不同,故重新规定检验水准的估计方法亦不同。a,因分析目的不同,等级相关的基本思想对于不符合正态分布的资料或等级资料,将两个变量的原始观察值分别由小到大编秩,然后利用 量变量的秩次之差计算相关系数。标准化法的基本思想将所比较的两组或多组资料的构成按统一的“标准”调整后,计算标化率,使其更具有可比性。参考值范围可信区间(总体均数的区间估计)概念包括绝大多数正常人的人体形态、机 能和代谢产物等各种生理及生化指标 常数,也称正常值按一定的概率或可信度(1- a用一个区间 来估计总体参数所在的范围意义大部分(
11、如95% )变量值的所在范围反映的是总体参数在某在的范围的概率(95% )用途用于临床上辅助诊断的依据用于估计总体参数计算方法均数加减U倍的标准差均数加减t倍的标准误.X对象步骤明确研究总体:从“正常人”总体 中抽样 同一测定方法以控制系统误差判断是否需要分组根据专业知识确定单侧还是双侧医学参考值范围的估计方法:丄+ ( Xo X )Vn UX-X )2(1)正态分布方法:适用于正态或近似正态分布的资料。双侧界值:X U b /2S单侧上界:X+U。S,或单侧下界:X-U b S(2)对数正态分布方法:适用于对数正态分布资料。双侧界值:Lg-1 (X lgx Ub /2S lgx )单侧上界:
12、Lg-1 (X lgx +u b S lgx),或单侧下界:Lg-1 (X尬-u。S尬)(3)百分位数法:用于偏态分布资料以及资料中一端或两端无确切数值的资料。 双侧上界:P2.5和P97.5 ;单侧上界:P95,或单侧下界:F5总体均数的估计方法:一种是点估计,即用统计量X估计总体均数 卩;二是区间估计,亦称可信区间。标准差标准误Ste(X匚)2SS时 n1 P表示观察值的变异程度大小估计均数的抽样误差大小S计算变异系数CVX 100%X估计总体均数可信区间X -t a/2 , v S x g X +t a /2 , v S x确定医学参考值的范围计算标准误进行假设检验标准差和标准误的比较联
13、系:标准误与标准差成正比;若标准差固定不变,可通过增加样本含量来减少抽样误差。(1)b未知且n小:x -t/2,v S x g x +t a /2,v S x(2)b未知,但n足够大,t 分布逼近 U 分布:X -U a /2Sx g X +Ua /2 Sx两类错误:I型错误:拒绝了实际上成立的 检验水准拒绝了 H0,接受H1。 论上犯I型错误的概率为H0,即样本来自卩=g 0的总体, 这类在假设检验中拒绝了原本正确的 a值得大小视研究目的而定。通常设由于抽样的偶然性,按a =0.05H0的错误称为I型错误。a =0.05 o,理(3)b 已知:X -U a /2 b X 50时,可按正态近似
14、原理先求总体平均数X -%2仮,X 5叹)4的95%或 99%可信区间:a水准能识别该差别的能力。 如1- 3 =0.95表示:若两总体确有差别, 有95次能得出两总体有差别的结论。直线相关和回归的区别与联系:理论上平均100次抽样中,y的的可信区间卩?是指总体中自变量 X取某个特定值x0时,应变量Y的总体均数。其100(1-8%的可信区间为:区别:资料的要求不同:相关要求两个变量呈双变量正态分布;回归要求 是精确测量和严格控制的变量;统计意义不同:相关反映的是两变量间的伴随关系,二者的关联程度如何,而回归反映的是两 变量间的依存关系,即因果关系,或从属关系;y服从正态分布,而 x可以.X分析
15、的目的不同:相关分析的目的是描述两个变量间的相互关系,用r来反映这种关系的方向以及密切程度,而回归分析的目的是描述两个变量间的数量依存关系,从而进行统计预测和统计 控制;联系:对于同一资料,r和b的符号一致,说明两变量间关系的方向;相关系数与回归系数的假设检验是等价的,对于同一样本,tr=tb,实际应用中只检验其中之一即可;二者可以相互解释,相关系数的平方和等于回归平方和占总平方和的比例,即反映应变量 总变异中归因于x的部分;回归系数的意义偏回归系数的意义流行病学意义多元线性回归在其他自变量保持不变的条件下,自变 量X改变一个单位是因变量 Y的平均该 变量。在其他因素不变的条件下,某因素改变1
16、 个单位时,疾病或死亡危险性的增加量。Logistic回归当其它协变量均不变时,Xi每变化一个 单位或一个等级时,比数比的自然对数 (InORi)平均变化P个单位,可以反映 Xi对结局事件的作用强度。在其他因素不变的条件下,暴露因素使 疾病或死亡发生的改变量。Cox回归当其它协变量均不变时,Xi每变化一个 单位或一个等级时,相对危险度的自然 对数(ln RRi)平均变化P个单位,可以 反映Xi对结局事件的作用强度。在其他因素不变的条件下,暴露组发病 或死亡是非暴露组的倍数。率的标准化法:目的:消除混杂因素对结果的影响,使资料更具有可比性。其基本思想是:将所比较的两组或多组资料的构成按统一的“标
17、准”调整后,计算标化率,使其 更具有可比性。标准化率的计算方法:亦称标化率,直接法用于已知被标化组的年龄别率,以及已知标准组的年龄别人口数或年龄别人 口构成比时;间接法用于已知被标化组的年龄别人口数与发病(死亡)总数,但年龄别率未知, 以及已知标准组年龄别发病(死亡)率与总发病(死亡)率时。通常可从下列3种方法选用标准组:以两组资料中任一组的年龄别人口数或构成比作为标准组;以两组资料合并的各年龄组的人 口数或构成比作为标准组;以公认的或便于与他人资料比较的标准作为标准组。变量变换:目的:是使方差齐,使资料正态化,还可用于曲线的直线化。变换方法常用于对数变换 使服从对数正态分布的资料正态化; 使
18、方差不齐切各组的变异度接近的资料达到方差齐的要求; 使曲线直线化,常用于曲线拟合。平方根变换 使服从Poisson分布的计数资料或轻度偏态的资料正态化; 使方差不齐且各样本方差与均数间呈正相关的资料达到方差齐的要求。平方根反正弦变换使总体率较小或总体率较大的二项分布资料达到正态或方差齐的要求。倒数变换数据两段波动较大的资料,课时极端值的影响变小偏回归系数标准化;多元线性回归方程中,各自变量的单位不同,其偏回归系数之间是无法直接比较的。需要对偏回 归系数标准化,以消除量纲的影响。标准偏回归系数绝对值的大小,可用以衡量自变量对因变量贡献的大小,即说明各自变量在多元 回归方程中的重要性。t分布与U分
19、布 相同点:t分布与U分布均为以0为中心的单峰对称分布。不同点:(1) t分布是一个分布族,t曲线的形状与自由度有关,自由度越小,t值越分散,曲线越低平;自由度越大,t值越往中间集中,曲线峰值越高。而U分布即标准正态分布的图形,是唯一的一条 曲线。(2) 特定自由度的t分布曲线与U分布曲线相比,峰值低而尾部高翘,相应区间内曲线下的面 积小于U分布。联系:t分布的极限形式是U分布。随着自由度的增加,t分布逐渐接近U分布,当自由度 4曲时,t分 布TU分布。正态分布、二项分布、Poisson分布的区别和联系区别: 二项分布、po isson分布是离散型随机变量的常见分布,用概率函数描述其分布情况,
20、正态分布是连续型随机变量的最常见分布,用密度函数和分布函数描述其分布情况。 联系:(1) 二项分布与poisson分布的联系,当n很大,n很小时,a2为一常数时,二项分布近似服从poisson分布(2) 二项分布与正态分布的联系,当n不太靠近0或1,且样本含量n足够大;或np和n(1-p) 均5时,二项分布近似正态分布(3) poisson分布与正态分布的联系,当nA 20时,poisson分布近似正态分布。不同分布的统计描述:正态分布资料对数正态分布资料 等比级数资料偏态分布资料集中趋势均数几何均数中位数离散趋势标准差几何标准差四分位数间距误差:统计上所说的误差泛指测量值与真值之差,可分为随
21、机误差和非随机误差。非随机误差分类随机误差系统误差非系统误差定义由随机因素引起的误差在试验过程中产生的呈现一定 规律性的误差是在试验过程中由于偶然的失 误所造成误差,又称过失误差举 例抽样误差仪器为校准数据录入错误特点具有随机、变化、不恒 定的性质,不可避免。具有累加性。观察值有系统性、 方向性、周期性的偏离真值。处理可用统计学的方法估计其大小应设法消除其影响,不能消除 的估计其大小通过认真核对资料予以消除减少抽样误差的方法可分为选择性偏倚、测量性偏倚和混杂性偏倚。在完全随机设计资料的方差分析与随机区组设计资料的方差分析在试验设计和变异分解上有什么不同?实验设计变异分解完全随机设计采用完全随机
22、化的分组方法,将全部 实验对象分配到g个处理组(水平组), 各组分别接受不同的处理。SS、= SE且间+ SE且内随机区组设计随机分配的次数要重复多次,每次随 机分配都对同一个区组内的受试对象 进行,且各个处理组受试对象数量相 同,区组内均衡。SS、= SS 理 + SSx 组 + SS1 内分类变量资料和计量资料分类变量资料:将观察单位按属性或类别计数所得的资料。计量资料:这种由数值变量的测量值组成的资料。变量类型变量值表现实例资料类型数值变量定量(具体数值)身高计量资料无序所分类别或属性之间无顺序和程度上的差异血型多分类有序有顺序和程度上的差异文化程度计数资料(等级资料)分类变量二分类对立
23、的两类属性性别二分布资料(1)(2)(3)偏倚:改进抽样方法(增加样本的代表性),误差从大到小:樂群抽样单纯随柄三中即系统2中弄,展扌-样 增加样本量;选择变异程度较小的研究指标。在临床试验过程中,由于对某些非处理因素未加严格控制,致使这些非处理因素对试验效应产生 干扰,此种干扰所造成的系统误差称为偏倚。偏倚只能控制但不能完全避免,严格遵守实验设计 的基本原则是控制偏倚的重要途径。适用于适用条件亚分类亚分类适用资料类型亚分类研究目的单样本t检验样本均数与已知总体均数的比较推断样本所代表的总体均数卩 与已知总体均数卩0有无差别配对t检验配对设计资料的两均数的比较推断某种处理有无作用, 或两种处理
24、的效果有无差别t检验样本均数与总体均数比较(b未知且 n 50 或 n V 30);成组设计的两小样本均数的比较(ni, n2均小于30或50);配对设计的两样本均数比较。 当样本含量较小(n 50或n 50);成组设计的两小样本均数的比较(n 50)两样本的U检验完全随机设计的两样本均数的比 较推断两样本所分别代表的总体 均数是否相等完全随机设计资料的 方差分析完全随机设计的多个样本均数比 较的资料推断各个样本所代表的总体均 数是否相等配伍组设计资料的方 差分析配伍组设计的多个样本均数比较 的资料推断各样本所代表的总体均数 是否相等,但考虑了个体差异 对试验效应的影响方差分析1) 两个或多个
25、样本的均数间的比较;2) 分析两个或多个因素间的交互作用;3) 回归方程的线性假设检验;4) 多元线性回归分析中偏回归系数的假 设检验等。5) 两样本方差齐性检验1) 各样本是相互独立的随机样本;2) 个样本来自正态分布总体;3 )各总体方差相等,即方差齐。概括地说,就是任何一个观察值都是独立地来自 具有等方差的正态总体。重复测量数据的方差 分析样本率与总体率的比 较推断样本率所代表的未知总体 率n与已知总体率n 0是否相 等二项分布各观察单位只能具有两种相互对立的结果已知发生某结果的概率为 n,其对立结果的概 率为1-nn次试验是在相同的条件下进行的。两样本率的比较推断两个样本各自代表的两总
26、 体率是否相等样本阳性数与总体平 均数的比较断样本所代表的未知总体平均 数卩与已知总体平均数卩0是 否相等Po isson分布各观察单位只能具有两种相互对立的结果已知发生某结果的概率为n,其对立结果的概率为1-nn次试验是在相冋的条件下进行的 n 0.05。两样本阳性数的比较推断两个样本各自代表的两总 体平均数是否相等配对设计的符号秩和 检验推断其差值是否来自中位数为 零的总体成组设计两样本比较 的秩和检验完全随机设计的两个样本的比较推断两样本分别代表的总体分 布是否相同成组设计多样本比较 的秩和检验完全随机设计的多个样本的比较推断各样本分别代表的总体分 布有无差别非参数检 验(1)资料不符合
27、参数统计法的应用条件(总体 为正态分布、且方差相等)或总体分布类型未知;(2)等级资料;(3)分布呈明显偏态又无适当的变量转换方法 使之满足参数统计条件;(4 )在资料满足参数检验的要求时,应首选参 数法,以免降低检验效能随机区组设计资料的 秩和检验配伍组设计资料的比较适用于适用条件亚分类亚分类适用资料类型亚分类研究目的27四格表资料的检验:两个或多个样本率(或构成比) 的比较关联性检验频数分布拟合优度检验配对四个表资料的21.检验两种检验方法、培养方法、诊断 方法的比较27检验两个总体率间或构成比间有无差别; 多个总体率间或构成比间有无差别; 多个样本率间的多重比较;两个分类变量间有无关联性
28、;两个总体率间或构成比间有无差别;27行*列表资料的检验: 多个样本率的比较,两个或多个构成比的比较,双向无序分类资料的关联性检 验。直线相关了解两个数值变量间是否存在 相关关系,以及这种关系的密 切程度和方向如何。线性回归 模型定量描述两变量之间的线性数量依存 关系;利用回归方程进行预报;利用回归方程进行统计控制。线性:任意给定的 X多对应的应变量 Y的总 体均数与自变量 X呈线性关系;独立:任意两个观察单位之间相互独立;正态:任意给定的 X值,Y均服从正态分布; 等方差:在自变量 X的取值范围内,不论 X 取什么值,Y都具有相同的方差。等级相关不服从双变量正态分布 总体分布未知的资料原始数
29、据用等级表示原始数据一端或两端无确切值多元线性 模型描述一个因变量 Y与多个自变量 Xi, X2,Xm间的数量关系。影响因素分析估计与预测统计控制 线性:Y与Xi,X2,Xm之间具有线性关系; 独立:各观测值 Y之间相互独立;正态、等方差:残差 服从均数为0、方差为 a2的正态分布,等价于对于任意一组自变量Xl, X2,Xm,应变量丫均服从正态分布且方差 齐。Logistic回归研究因变量是二分类或多分类观察结果 与影响因素之间的关系因变量Y不满足正态性有些自变量对因变量的影响为非线性生存分析对生存状况进行统计描述(生存概率、 生存率、中位生存时间);寻找影响生存时间的“危险因素”和“保护因素
30、”;估计生存率和生存时间长短,进行预 后评价。样本要有代表性,由随机抽样的方法获得,要 有一定的数量; 完全数据所占的比例不能太少,即截尾值不宜太多;截尾值出现的原因无偏性; 生存时间尽可能精确; 缺项要尽量补齐。研究协变量X与观察结果即生 存函数之间的关系Cox比例 风险回归模型通过风险函数和基础风险函数 的比值反映协变量对生存时间 的影响数值变量资料的假设检验t检验单样本t检验t=X - 口0s/ jnv=n-1总变异X2 -Cn-1配对t检验两样本t检验单样本u检验t=t=X1 - X2 =Sx12u=v=n-1X1 -X2s2(n 11) +s;(n21) ,1 丄彳(+ni + n
31、22匕)n1 n2v=n 1+n2-2处理组配伍组u检验两样本的u检验:u=X -卩0SM/RX1 -X2X1 X2I 22佔 /n4 + S2 /n2误差b(送 Xj)2jTbkb (送 Xj送亠-jm k)2-C-CSS总-SS处理-SS 配伍k-1b-1SS处理/v处理SS配伍/v配伍(k-1 ) ( b-1)SS误差/v 误差*C为校正系数 C=(送X)2/ n b为配伍组数MS处理/MS误差多个样本均数间的两两比较(Newman-Keuls):简称q检验,MS配伍/MS误差变异来源SS方差分析配伍组设计资料的方差分析:两因素方差分析的计算公式 MSXA 一 XBJ MS组内(或误差)
32、/1丄1、q= sXA 忑吋2一=十)完全随机设计资料的方差分析:单因素方差分析的计算公式变异来源SSvMSF总变异Z X2 -Cn-1ni.(S Xij )2丄jTSSa间MS组间组间变异Z - -C k-1i#niv组间MS组内组内变异SS 总-SS组间n-kSS组内/v组内*C为校正系数 C= (S X)2 /n分类资料的假设检验 二项分布二项分布:又称为贝努里试验:P (X) =GX n x (1- n) n-x服从二项分布资料的假设检验:(1)样本率和总体率的估计:k直接计算法:最多有 k例阳性的概率:P(X k) =S P(x)=1-送P(x)k027P -冗0X n 冗0正态近似
33、法: u= _ _0(1 -n0)./n 屮n n0(i n。)(2)两样本率的比较:可用 U检验。Pi -P2u= -sPi “2Pi -P2P为合并阳性率,P = (Xi+X2) (ni + n2)xi,X2为两个样本的阳性例数。Poisson 分布两样本观察单位(时间、面积、容积等)不同时:27检验Xi X2u= L - ”V Xi, ni + x n2Oisson 分布:屮/ XP(X)= e (口 /x!P (0) =e 服从 Poisspn 分布的假设检验:(X)=P (X -1)卩X(1 )样本均数与总体均数的比较:适用于卩0 k) =Zkk4P(x)=i-S P(x)0正态近似
34、法:当 卩20时,Poisson分布逼近正态分布。u=(x- U0)/Ju02四格表资料的y 检验:资料特点检验方法当nA 40且所有的T 527 检验的基本公式2四格表资料工检验的专用公式当nA 40且所有的T A 5,且P a时四格表资料的Fisher确切概率法当 nA 40,但 1 wT w 5 时四格表资料的7检验的校正公式四格表资料的Fisher确切概率法当n 40,或T 40)(|b-C T)b+cv=1 (条件为:b+c50 ,超出附表的范围,用正态近似法作U检验:U -丄n(n中14 0.5Jn(n+1)(2 n+1)/24若相同秩次较多时(不包括差值为0者),计算校正Ue:T
35、 -n(n +1)/4|-0.5I3|n(n +1)(2n 十1)送(tj -tj)V 2448其中tj为第j (j = 1,2)个相同秩次的个数。 成组设计两样本比较的秩和检验(计量or等级)若ni或n2-ni超出了 T界值表的范围,可用正态近似法:u =T -nJN +1)/2 -0.5Jan 2( N +1)/12式中N = n什n2, 0.5为连续性校正数。若相同秩次较多(如超过 25% )时应进行校正,Uc=U/JC其中c=1-送(t: tj)/(N3-N)tj为第j个相同秩次的个数成组设计多样本比较的秩和检验匚-3(N +1)niTi为各组的秩和, 当相同秩次较多时Hc=H/C,式
36、中 C=1-2(-tj)/(N3-N)ni为各组例数,Nnmii(如超过25%),应计算校正值 He3 .、,3多个样本间两两比较的秩和检验TA-TB,_V = N -kN(N +1 IN -1 -H 1 丄 1、V 12(Nk)“A ne 丿式中,TA、TB和nA、nB分别为任2个对比组(A、B)的平均秩和与样本含量,TA =TA /nA,TTB /nB ,k为处理组数,N为各处理组的总例数,中算得的统计量H值或He值。随机区组设计资料的秩和检验M二工-亍2k当处理组数 k或配伍组数b超出M界值表的范围时,可采用近似H为秩和检验x2分布法:2 12 2/ =ITi -3b(k + 1W=k-
37、1式中,k为处理组数,b为配伍组数,Ti为bk(k + 1)第i个处理组的秩和。当各区组间相同的秩次较多时,须进行校正: 2- / 232上c=/ /e e=1-2( -tj)/bk (k -1)。式中,t为各区组内第j个具有相同秩次的个数,b为配伍组数,k为处理组数。多个样本间两两比较的秩和检验TA-TBTA -TB =Jbk(k+ 1)/12其中,k为处理组数,b为配伍组数,TA、TB分别为对比组的秩和,A-B是其对应的标准误。sp earma n等级相关spearman等级相关系数rs: 1=1-6廿n(n2 -1)式中d为每对观察值所对应的秩次之差;n为对子数相关系数检验:I当n50时
38、,可用u检验:uFsnT直线回归总体回归系数的区间估计SY.X Sb = f - fc-2,n_2 Sb,b+ta2,n_2 Sb| -J XXn -2为自由度。式中Sb为回归系数的标准误;直线回归11y的置信区间估计参数估计的基本思想:先建立似然函数与对数似然函数,求使对数似然函数最大时的参数值,其估计值即为最大似然估计值。偏回归系数 必,卩2,Pm与比数比(优势比)OR有对应关系。X j两个不同暴露水平 C1和C0发病的优势比为:卜皿,卩y是指总体中自变量 X取某个特定值 I直线回归个体 丫值的容许区间估计h 丄(xo -X ixo时,应变量丫的总体均数在其它影响因素相同的情况下,某危险因
39、素ORj =expPj(Ci - Co)sI 1(x0-X2做沖卢5 f+D表示当自变量X取某个特定值xo时,估计因变量y值个体值的波动范围多元线性回归分析方程中参数的估计可用最小二乘法求得,也就是求出能使估计值 Y?和实际观察值Y的误差平方和Q = E(Y -审为最小值的一组回归系数d 4 ,bm值对模型及偏回归系数的假设检验:1、 对模型的假设检验 一方差分析(F检验)2、 对偏回归系数的假设检验 一方差分析(F检验)和t检验3、 标准偏化回归系数logistic回归模型:ORORj为调整后优势比,表示扣除了其它自变量影响后危险因素由于Rj值与模型中的常数项 Po无关,因此P0在危险因素分
40、析中常常被视为无效参数。 对于发 病率很低的慢性疾病如心脑血管病、恶性肿瘤等,优势比可作为相对危险度(RR)的近似估计。即: oR-R/eR)氐(1-F0) F0模型评价包括三部分内容:=RRXX j的作用。一是对模型中的每个自变量进行检验;二是对所建立的回归方程进行拟合优度检验;三是对所建立的回归方程预测准确度的检验。Cox回归模型 只考虑一个协变量 X时:RR=exP ( 3 )考虑多个危险因素,其中 Xi增加1个单位而其它变量都不变时,相对危险度:RRi=exP ( 3 i) 同时考虑2个协变量,2个因素都存在的危险率与 2个因素都不存在时的危险率之比(相对危险度)为:若卩io若P i1
41、,该因素为危险因素;,则RR1,该因素为保护因素; ,贝U RR = 1,该因素为无关因素。模型参数意义参数估计多元线性 回归分析也称复线性回归分析,它研究一组自变量如何直接影响一个因变量。假定因变量Y与自变量Xi间存在如下关系:Y = P+PlXi+p2X2+PmXm+g式中,B 0是常数项,01、卩2 Pm称为偏回归系数,Bi的含义为在其它自变量 保持不变的条件下,自变量 xi改变一个单位时因变量 Y的平均改变量。为随机 误差,又称残差,它表示 Y的变化中不能由自变量 xi解释的部分。最小二乘法logistic 回归模型设因变量丫是一个二分类变量,其取值为丫=1和丫=0。影响丫取值的m个自
42、变量分别为Xl,X2,Xm。在 m个自变量(即暴露因素)作用下阳性结果发生的条件概率为P =P(丫 =怀公2,Xm),则logistic回归模型可表示为:Pexp (P o+ PiXi+p2X2+ +PmXm)l+exp( (P Po o +P+P1 1X1 1 +P+P2 2X2 2 卄 +PmXm m)作logit变换后,logistic回归模型可以表示成如下的线性形式:ln P=Po +P1X1+P2X2 州l+PmXm1-P常数项00是当各种暴露因素为 0时,个体发病与不发病概率之比的自然对数值。 偏回归系数 已,P2,,Pm表示在其它自变量固定的条件下,第j个自变量每改变一个单位时l
43、ogit (P)的改变量。它与比数比(优势比)OR有对应关系。最大似然法Cox回归模型不是直接用生存时间作为回归方程的因变量,协变量对生存时间的影响是通过风险 函数和基础风险函数的比值反映的,其中的风险函数和基础风险函数是未知的。h(t,X )=h0(t bxP(PX )= h0(t exp(P1X1 + P2X2 十+PmXm)h (t,X):表示具有协变量 X的个体在时刻t的危险率,又称为瞬时死亡率。T为生存时间,H0(t):所有危险因素为0时的基础风险率,它是未知的,但假定它与h(t,X)是呈比例的。X(X1 ,X2,X m )表示与生存时间可能有关的协变量或交互项。其中的因素可能是定量
44、的或定性的,在整个观察期间内不随时间的变化而变化。P=(P为Cox模型的偏回归系数,是一组未知的参数,需根据实际 的数据来估计。当其它协变量都不变时,Xi每变化一个单位,相对危险度的自然对数(ln RR)变化3个单位。借助于偏似然函数应用相对数时的注意事项:如果出现以上情况,可通过以下方法解决:、数估计或假设检验。率的标准化时应注意的事项后者是由相关系数的大小决定的。绘制直线回归的回归线的注意事项:不应超过x的实测值范围;绘制的直线必然通过(x, y);1/5。计算相对数的分母不宜过小;分析时不能以构成比代替率;对观察单位数不等的几个率,不能直接相加求其平均虑;比较相对数时应注意其可比性;样本
45、资料的相对数也存在抽样误差,进行统计推断时应遵循其抽样误差的分布规律,进行参标准化的目的在于消除混杂因素对结果的影响,使计算的标准总率具有可比性;通常,直接法 因其计算简便更为常用,但若原资料中有些年龄组人口过少,易使年龄别死亡率波动较大时宜用 间接法;标准化率并不表示某地实际水平,只能表明对比资料间的相对水平,且同一资料用不同“标准”标化,所得标化率不同,但是对比时的分析结论通常不变;对于存在混杂因素的两个总率进行比较时,若不进行标准化,也可通过比较两组的各年龄别发 病(死亡)率,得出正确结论;比较两样本的标准化率时,还应进行两样本标准化率的假设检验。假设检验时应注意的事项要有严密的抽样研究
46、设计-假设检验的前提正确选用检验方法正确理解“显著性”的含义对差别有无统计学意义的判断不能绝对化。当检验结果为接受原假设时,如果检验效能较差,应考虑结论是否可靠。假设和水准需要事先确定。假设检验与检验水准的注意事项 检验假设和检验水准应该在研究的设计阶段就确定,不能等到已知实验结果后,再根据个人需要 和实验数据确定,更不能随意修改。:对四个表资料的 7 2检验注意事项:最好是增加样本含量,使得理论频数增大;根据专业知识,考虑能否删去理论频数太小的行和列,能否将理论频数太小的行和列于性质相近的邻行或邻列合并;改用双向无序R*C的Fisher确切概率计算法。当多个样本率比较时,所得统计推断为拒绝H
47、o,接受Hi时,只能认为各样本率间总的来说有差别,但不能说明任两个样本率间均有差别,需要做多个样本率的多重比较。2对于有序的R*C表资料不宜用Z 检验。对于R*C表的资料要根据分类类型和研究目的选用 恰当的检验方法。服从Poisson分布的假设检验注意事项: 对于总体均数可以用乘法将小单位化大,也可以用除法将大单位化小,对于样本均数,只能用除 法将大单位化小,而不能用乘法将小单位化大。直线相关分析的注意事项:计算相关系数时首先绘制三点图,判断两变量是否存在线性趋势;相关分析时要求 X、Y均为随机变量,而不能用于事先界定X、Y的资料;相关分析时必须剔除异常点;相关分析要有实际意义,两变量相关,并
48、不一定存在联系,可能是另外一种因素引起的;分层资料不宜盲目的合并,进行相关分析;同时进行相关分析时,如果不能确定各层研究对象 具有同质基础,不宜盲目合并。不能将假设检验中显著性大小理解为两变量相关程度的大小,直线回归分析的注意事项:I回归分析要有实际意义,注意变量之间的内在联系和规律,两变量之间还必须是因果关系;n对资料的要求:一般 y来自正态总体的随机变量,x可以是正态总体的随机变量,也可以是精 确测量和严密控制的值;m进行分析前应先绘制散点图;IV必须剔除一些异常点;V回归方程的适用范围不能随意外延。其适用范围一般以自变量取值范围为界。本方法只适用于样本含量不太大的资料,它仅考虑了两种方法
49、结果不一致的情况,而未考虑样本含量n和两种方法一致的两种情况,所以当n很大且a与d的数值也很大,而b与c的数值相对较小时,即使检验统计结果有统计学意义,其实际意义也不大。一般人行*列表资料中各格的理论频数不能小于1,且1=T1,说明 该因素是疾病的危险性增加,为危险因素;ORV1,说明 该因素是疾病的危险性减小,为保护因素;同质:统计学中对研究指标影响较大的,可以控制的主要因素。变异:同质基础上各观察单位某变量值的差异。总体:根据研究目的确定的同质研究对象中所有观察单位某变量值的集合。可以分为有限总体和 无限总体。 样本:是按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。样本代表
50、性的前 提:同质总体,足够的观察单位数,随机抽样。总体的三个基本特征:I同质性、大量性、差异性。现象不同质,无法将其结合在一起;少量单位, 反映不出现象的规律性;各个单位都一样,没有差别,无须进行统计研究。1总体是相对的,总体的大小是根据研究目的而确定的。2.样本应有代表性,即应该随机抽样并有足够的样本含量。随机性就是要保证总体中的每个个体有相同的几率被抽作样本。随机抽样:为了保证样本的可靠性和代表性,需要采用随机的抽样方法 等概率抽样的方法包括:简单随机化抽样、系统抽样、分层抽样、分群抽样。参数I:总体的统计指标。为固定常数。统计量:样本的统计指标。为参数附近波动的随机变量。例如研究中国25
51、岁以上的成年人高血压患病率,对全国25岁以上的成年人进行普查,所得到的患病率为参数;若用随机的方法抽出一部分地区的人进行检查,计算的患病率则为统计量。概率 :是描述随机事件发生的可能性大小的数值。频率与概率 频率与概率的区别:(1)频率:某种现象在样本中出现的比率,是样本特征。样本的实际发生率称为频率。设在相同 条件下,独立重复进行 n次试验,事件A出现f次,则事件A出现的频率为f/n。(2) 概率:随机事件发生可能性的数值度量,常用P表示,取值范围0W VPW1,是总体的特征。 频率与概率间的关系:样本频率总是围绕概率上下波动。样本含量n越大,波动幅度越小,频率越接近概率。频数表的用途:揭示
52、数值变量频数分布的类型和特征 作为陈述资料的形式便于发现某些特大或特小的可疑值便于进一步的统计分析指的是计算某一统计量时,取值不受限制的变量个数。通常V =n-k。其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。自由度通常 用于抽样分布中。相关系数刑变量间直线相关的性质和密切程度,用直线相关系数来描述,也称 关系数或简单相关系数。随访资料:指对一批研究对象进行追踪观察所获得的有关其结局以及出现这种结局所经历的时间 的方面的资料。起点事件:研究者根据研究目的所关心的某一事件的起点。2终点事件:研究者根据研究目的所关心的某一事件。不同的研究目的有不同的终
53、点事件。 生存时间数据:I根据研究对象的结局可分为两类:死亡率:指单位时间内研究对象的死亡频率或强度,即平均每千人(或万人、百人)中的死亡人数:P表示:P (T t) 记为S(t):=某单位时段内死亡数 q _该时段期初观察人数若该时段内有删失,则分母用校正人口数:1校正人口数=期初观察人数删失数完全数据:观察对象在观察期内出现反应(终点事件),这时所记录到的时间信息是完整的;截尾数据:又称为截尾值、删失数据、不完全数据,尚未观察到研究对象出现反应(终点事件) 时,即由于某种原因停止了随访,这时记录到的时间信息是不完整的。截尾的原因主要有三方面:失访:失去联系,观察期内由于搬迁或观察对象不配合
54、的原因可造成失访;退出:退出研究,如观察期内研究对象意外死亡,死于其他疾病,临时改变治疗方案等而中途 退出研究;停止:观察期结束时仍未出现结局。生存时间及特点广义的生存时间是指从某个起始事件开始到某个终点事件的发生(出现反应)所经历的时间。也 称为失效时间。特点:(1)分布类型不易确定。一般不服从正态分布,少数情况下近似服从指数分布等,多数情况下往 往不服从任何规则的分布类型。(2)生存时间的影响因素多而复杂且不易控制。(3)根据研究对象的结局,生存时间数据可分为两种类型:完全数据和截尾数据。生存分析常用分析方法I:(1)非参数法:非参数法的特点是不论资料是什么样的分布形式,只根据样本提供的顺
55、序统计 量对生存率进行估计,常用的方法有乘积极限法和寿命表法。对于两个及多个生存率的比较,其 无效假设只是假定两组或多组总体生存时间分布相同,而不对其具体的分布形式及参数进行推断。(2) 参数法:参数法的特点是假定生存时间服从于特定的参数分布,然后根据已知分布的特点对影响生存的时间进行分析,常用的方法有指数分布法、Weibull分布法、对数正态回归分析法和对数logistic回归分析法等。参数法通过估计的参数得到生存率的估计值。对于两组及以上的样本,可根据参数估计对其进行统计推断。(3) 半参数法:半参数法兼有非参数法和参数法的特点,主要用于分析影响生存时间和生存率的因素,属多因素分析方法,其
56、典型方法及Cox模型分析法。死亡概率:是指某单位时段期初的观察对象在该单位时段死亡的可能性大小:某单位时段内死亡数夫该时段平均人口数0平均人口数=(该时段期初人口数 +期末人口数)2生存概率:表示某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小,用_活满某时段的人口数_P=该时段期初观察人数=1 _q若有删失,则分母用校正人口数。生存率(指研究对象经历 t个时段后仍存活的概率,及生存时间大于等于 t的概率,用 表示。生存率随时间t的变化而变化,即生存率是相对于时间t的函数,称为生存函数,若前t个时段没有删失:S(t)= p(t)时段结束时仍存活的人数 ()P(研究期初观察人数若观察期
57、内有删失,假定观察对象在各个单位时段内是否生存的时间是相互独立的,其生存概 率分别用 pi,P2.Pt,则 s(t)= pip2.Pt =n Pjtj10时,可认为多元共线性严重存在。特征根系统:主要包括条件指数和方差比。增加样本含量,理论频数增大。根据专业知识,考虑删去理论频数太小的行或列,试能否将理论频数太小的行或列与其它相近的邻行或邻列合并。改用双向无序 R X C表的Fisher确切概率法。根据两独立样本推断两总体率相等的方法有哪些?如何正确选用?分析思路?率的标准化法、分层分析、u检验、卡方检验/各组分率大小无交叉T率的标准化法两样本内部构成比不同T各组分率大小有交叉T分层分析两样本
58、内部构成比相同T两样本来自正态分布且方差齐,山、n2均50, n1p1、n1(1- p与n2P2、n2 (1- p2)均5时,u检验两样本来自正态分布且方差齐但不满足u检验条件,卡方检验回归分析中,总变异,回归变异,剩余变异的统计学意义总变异SS总:.Y =工(丫 -Y r为Y的总离均差平方和,反映未考虑X与Y的回归关系时Y的写出百分位数计算公式,并解释各符号含义Px = Ly(n 咲汛)fxPX :百分位数,0 x 50时,样本率与总体率的比较:nA 50,np与n(1-p)均5时,两样本率的比较:n1、n2 均50,n1p1、n1 (1- p1)与 n2p2、n2 (1- p2)均5 时,
59、Poission分布总体均数的可信区间:样本阳性例数50,Wilcoxon符号秩检验:当n50时,用正态近似法作 u检验:变异。SS、=ss回归+ SS除回归变异SS回归:即 旳-Y 2 ,称为回归平方和,反映在 Y的总变异中,由于 X与Y的直线 盲法实验理论数不宜过小:行X列表中各格的理论频数不应小于1,并且1 T5的格子数不宜超过格子总数的资料不满足条件的处理措施:1/5。条件指数是最大特征根与每个特征根之比的平方根:hj(j =1,2,m)当hj 10且对应的方差比大于 0.5时,可认为多元共线性严重存在。单盲是指受试者被盲,即观察者知道受试者分组情况,但受试者本人不知道。双盲是受试者
60、和观察者双方均不知道分组情况。三盲是指观察者、受试对象以及负责资料收集和分析的人员均不了解分组情况试验设计的基本因素:处理因素、受试对象、实验效应处理因素:研究者根据研究目的确定的,通过合理安排实验,从而科学的考察其作用大小的因素; 非处理因素:对正确的评价处理因素的作用有一定的干扰,但研究者并不想通过本次实验考察其作用大小的因素;注意事项:要区分处理因素和非处理因素;主要依据研究目的来确定;抓住实验中的主要因素,且因素 的水平数不宜过多;处理因素必须标准化,即保证处理因素在整个实验过程中始终如一,保持 不变;实验效应:通过观察指标来反映观察指标的基本原则:客观性;精确性(包括准确度和精确度,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高定服装版师笔试试题及答案
- 2025年全自动精密贴片机项目合作计划书
- 2025年金华东阳市国有企业招聘A类工作人员考试试题【答案】
- 2025年山西长治职业技术学院招聘考试试题【答案】
- 2025年吉林省外事办公室下属事业单位招聘考试笔试试题【答案】
- 2025年泌尿肛肠外科手术器械合作协议书
- 2025餐饮年度工作计划
- 2025年汽车仪表相关计数仪表项目建议书
- 探索教育创新银饰工艺与现代教育的结合
- 2025届广西壮族自治区贵港市桂平市高二物理第二学期期末达标检测试题含解析
- 老人躺卧后的安全检查
- 《基因与出生缺陷》课件
- 2025年中国航空航天新材料行业市场运行态势及投资前景展望报告
- 《水利水电工程白蚁实时自动化监测预警系统技术规范》
- GB/T 15316-2024节能监测技术通则
- 科创板股票开户知识测评题库及答案
- 光伏分布式项目日报模板
- 苏科版九年级物理上册一课一测-11.1杠杆
- GB/T 44951-2024防弹材料及产品V50试验方法
- 中试平台管理制度
- 电视台装饰装修工程施工设计方案
评论
0/150
提交评论