

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、医学统计学总结绪论1 1、随机现象:在同一条件下进行试验,一次试验结果不能确定,而在一定数 量的重复试验之后呈现统计规律的现象。2 2、同质:统计学中对研究指标影响较大的,可以控制的主要因素3 3、变异:同质基础上各观察单位某变量值的差异。数值变量:变量值是定量的,由此而构成的资料称为数值变量资料或计量资料,其 数值是连续性的,称之为连续型变量。变量无序分类变量:所分类别或属性之间无顺序和程度上的差异分类变量:定性变量有序分类变量:有顺序和程度上的差异4 4、总体:根据研究目的确定的同质研究对象中所有观察单位某变量值的集 合。可以分为有限总体和无限总体。5 5、样本:是按随机化原则从同质总体中
2、随机抽取的部分观察单位某变量值的 集合。样本代表性的前提:同质总体,足够的观察单位数,随机抽样。统计学中,描述样本特征的指标称为统计量,描述总体特征的指标称为参 数。6 6 概率:描述随机事件发生的可能性大小的一个度量。若P P(A=1=1,则称 A A为必然事件;若 P P (A A) =0,=0,则称 A A 为不可能事件;随机事件 A A 的概率为 0 0v P PV 1.1.小概率事件:若随机事件 A A 的概率 P P a,则称随机事件 A A 为小概率事件, 其统计学意义为:小概率事件在一次随机试验中认为是不可能发生的。统计描述1 1、频数分布有两个重要的特征:集中趋势和离散程度。
3、频数分布有对称分布 和偏态分布之分。后者是指频数分布不对称,集中趋势偏向一侧,如偏向数值小的 一侧为正偏态分布,如偏向数值大的一侧为负偏态分布。2 2、常用的集中趋势的描述指标有:均数,几何均数,中位数等。均数:适用于正态或近似正态的分布的数值变量资料。样本均数用表示,总体均数用 卩表示。几何均数:适用于等比级数资料和对数呈正态分布的资料。注意观察值中不 能有零,一组观察值中不能同时有正值和负值。中位数:适用于偏态分布资料以及频数分布的一端或两端无确切数据的资 料。3 3、常用的离散程度的描述指标有:全距,四分位数间距,方差,标准差,变 异系数。全距:任何资料,一组中最大值与最小值的差。四分位
4、数间距:适用于偏态分布以及分布的一端或两端无确切数据资料 方差和标准差:正态分布资料。标准差表示观察值的变异度的大小。变异系数:比较度量单位不同或均数相差悬殊的两组资料的变异度。4 4、标准正态分布:对正态分布的(X-X-卩)/ /(T(T 进行 u u 的变换,u=u= (X-X-卩)/ /(T(T , ,则 正态分布变换为 卩=0=0, (T(T =1=1 的标准正态分布,亦称 u u 分布。u u 被称为标准正态变 量或标准正态离差。两个参数:卩是位置参数,(T(T 是形状参数。用 N N (0,1(0,1 )表示标准正态分 布。常用估计医学参考值范围的方法有:(1)正态分布方法:适用于
5、正态或近似正态分布的资料。双侧界值:X Xu c /2S/2S 单侧上界:X+uX+uc S,S,或单侧下界:X-u(TX-u(T S S(2)对数正态分布方法:适用于对数正态分布资料。双侧界值:Lg-1Lg-1 (X X lgxlgx u c/2S/2S IgxIgx ) 单侧上界:Lg-1Lg-1 (X X IgxIgx +u+u c S S lgxlgx ),或单侧下界:Lg-1Lg-1 (X X lgxlgx -u-u c S S lgxlgx )(3) 百分位数法:用于偏态分布资料以及资料中一端或两端无确切数值的资 料。双侧上界:P2.5P2.5 和 P97.5P97.5;单侧上界:
6、P95,P95,或单侧下界:P5P5参考值范围(% %单侧双侧常用的 u u 值表5 5、分类变量资料的统计描述:常用相对数指标描述,包括:率,构成比,相 对比。率:说明某现象发生的频率或强度。(病死率不等于死亡率)构成比:说明某现象内部组成部分所占的比重或分布,常以百分数表示。相对比:亦称比,是A B2个有关指标之比,说明 A A 为 B B 的若干倍或百分之 几。两个指标可以性质相同,也可以性质不同。应用相对数时的注意事项:1 1、计算相对数的分母不宜过小;2 2、分析时不能以构成比代替率;3 3、对观察 单位数不等的几个率,不能直接相加求其平均率;4 4、比较相对数时应注意其可比性;5
7、5、对样本率(或构成比)的比较应遵循随机抽样,并做假设检验。6 6 标准化法:标准化的目的在于消除混杂因素对结果的影响,使资料更具有 可比性。其基本思想是:将所比较的两组或多组资料的构成按统一的“标准”调整 后,计算标化率,使其更具有可比性。标准化率的计算方法:亦称标化率,直接法用于已知被标化组的年龄别率, 以及已知标准组的年龄别人口数或年龄别人口构成比时;间接法用于已知被标化组的年龄别人口数与发病(死亡)总数,但年龄别率未知,以及已知标准组年龄别发 病(死亡)率与总发病(死亡)率时。通常可从下列 3 3 种方法选用标准组:以两组资料中任一组的年龄别人口数 或构成比作为标准组;以两组资料合并的
8、各年龄组的人口数或构成比作为标准 组;以公认的或便于与他人资料比较的标准作为标准组。7 7、统计表:结构:由标题、标目、线条和数字构成。编制统计表的要求:1标题:概括表的内容,列于表的上方居中,应注明时间和地点;2标目:主语和谓语分别列于横、纵标目,文字简明,层次清楚。横标目列 于表的左侧,通常为被研究的事物,纵标目列于表的上端,为说明横标目的统计指 标。3线条:通常,除表的顶线、底线、纵标目下以及合计上的横线外,其余线 条均省去,顶线和底线应略粗些,表的左上角不宜用斜线。4数字:用阿拉伯数字表示,同一指标的小数位数要一致并对齐,数字暂缺 或无数字者分别用“”或“- -”表示,数字为 0 0
9、者要记作“ 0 0”,不应空项,为方 便核实和分析,应有合计。5备注:一般不列入表内,必要时可用“ * *”标出,列于表下。8 8、统计图:1条图:用于相互对比关系的资料;02圆图与百分条图:适用于百分构成比资料,表示事物各组成部分所占的比 重或构成;3线图:用于连续性资料,用于说明事物在时间上的发展变化,或某现象随 另一现象而变动的情况;4直方图:表示连续性资料的频数分布;5散点图:适用于直线相关分析,说明两个变量间的数量关系和变化趋势。抽样分布与参数估计抽样研究的目的是用样本信息来推断总体特征,即统计推断,包括两个内 容:一是总体参数的估计,二是假设检验。1 1、抽样误差:由于变异的存在,
10、抽样研究所造成的样本统计量与总体参数之 间的差异或各样本统计量之间的差异称为抽样误差。常用标准误0反映均数抽样误差的大小;用率的标准误(T P反映率的抽样误差的大小;用PossionPossion 计数的标准误a反映其抽样误差的大小。2 2、 中心极限定理和正态分布推理:从正态分布 N N(y,T2 2)总体中以固定 n n 随机抽取样本,样本均数0 0的分布仍服从正态分布,即使是从偏态分布总体中随机抽样,只要n n 足够大,的分布也近似正态分布。样本均数的均数仍为卩,样本均数的标准差为3 3样本均数的抽样误差S(简称标准误)是反映均数抽样误差大小的指标a回用样本均数 S S 作为 C的估计值
11、,则a03 3、t t 分布:将0 0看成变量值,那么可将正态变量进行 u u 变换(u=u=S S- -卩/ / c)后,也可将 N N (卩,0 0)变换成标准正态分布 N N( 0 0,1 1)。常用 s s 作为 c的估计值,统计量为 t t,此分布 为 t t 分布。统计量 t=t=a at t 曲线的形态变化与自由度 V V 的大小有关。V V 越小,t t 值越分散,曲线越低平, V V 逐渐增大时,则 t t 分布逐渐逼近正态分布,当 v=v=无穷大时,t t 分布即为 u u 分布。4 4、总体均数的估计有两种方法:一种是点估计,即用统计量0 0估计总体均数zl;二是区间估计
12、,亦称可信区间。(1 1)c未知且 n n 小:-t-t a /2/2,V V SXSX VyV+t+t a /2/2 , v v sxsx(2)(T(T 未知,但 n n 足够大,t t 分布逼近 u u 分布:Q Q-U-U a /2SX/2SX V 卩 VJ+U+U a/2sx(3)(T(T 已知:0 0-U-U a /2/2TX XV 卩 V+U+U a /2/2TX X标准差和标准误的比较标准差标准误S=S=呂表示观察值的变异程度大小估计均数的抽样误差大小 计算变异系数 CV=CV=0100%100%估计总体均数可信区间0 0-t-t a /2/2 , v v sxsx V 卩 VJ
13、+t+t a /2/2 , v v SXSX确定医学参考值的范围 进行假设检验 计算标准误数值变量资料的假设检验1 1、 假设检验的原理:假设在一次抽样研究中得出了u u1.961.96,则 p pw 0.050.05 , 此为小概率事件,依据“小概率事件在一次随机试验中认为是不可能发生的”的定 理,可认为此样本不是来自该总体。2 2、步骤:建立假设和确定检验水准;假设有两种,一种是检验假设,常称 无效假设或零假设,记为 H0,H0,假设样本所代表的总体参数与已知总体参数相等; 另一种是备择假设,记为 H1,H1,是与 H0H0 相联系且对立的假设;检验水准,亦称显著 性水准,是判断拒绝或不拒
14、绝 H0,H0,也是允许犯 I 型错误的概率,通常用 0.050.05。2选定检验方法和计算统计量确定 P P 值,做出推断结论。P P 值是指从 H0H0 所 规定的总体中随机抽样时,获得等于及大于现有样本统计量的概率。3 3、 t t 检验:适用于:样本均数与总体均数比较(T T 未知且 n nv 5050 或 n nv 3030);成组设计的两小样本均数的比较(n1n1,n2n2 均小于 3030 或 5050);配对设计 的两样本均数比较。应用条件:当样本含量较小(n nv5050 或 n nv3030)时,要求样本来自正态分布 总体;用于成组设计的两样本均数比较时,要求两样本来自总体
15、方差相等的总 体。4 4、单样本 t t 检验:用于样本均数与已知总体均数的比较,研究目的是推断样 本所代表的总体均数 卩与已知总体均数 卩 0 0 有无差别。统计量 t=t=3v=n-1v=n-15 5、配对 t t 检验:用于配对设计资料的两均数的比较。其研究目的是推断某种 处理有无作用,或两种处理的效果有无差别配对设计类型有 3 3 种:先将受试对象按配比条件配对,然后用随机分组方法将各对中的 2 2 个受试对象分别分配到不同的处理组;同一对象分别接受2 2 种不同处理;同一对象处理前后。t=t=a(J是差值的样本均数)v=n-1v=n-16 6 两样本 t t 检验:用于完全随机设计的
16、两样本均数的比较,两个样本来自两 个总体,其研究目的是推断两样本所分别代表的总体均数是否相等。t=t=v=nv=n 1+1+ n2-2n2-27 7、单样本 u u 检验:用于样本均数与已知总体均数比较,其研究目的同 t t 检 验。研究目的是推断样本所代表的总体均数 卩与已知总体均数 卩 0 0 有无差别。其 统计量 u=u=8 8、两样本的 u u 检验:用于完全随机设计的两样本均数的比较,两个样本来自 两个总体,其研究目的是推断两样本所分别代表的总体均数是否相等。其统计量 为:u=u=9 9、 正态性检验和方差齐性检验:资料在做假设检验之前首先应该检验资料是 否来自正态总体,并且它们的方
17、差是否齐。1010、两类错误:I型错误:拒绝了实际上成立的 H0,H0,即样本来自卩= =卩 0 0 的总体,由于抽样的 偶然性,按a =0.05=0.05 检验水准拒绝了 H0,H0,接受 H1H1。这类在假设检验中拒绝了原本正 确的 H0H0 的错误称为 I型错误。,理论上犯 I型错误的概率为a , a值得大小视研究目的而定。通常设 a =0.05=0.05。U型错误:不拒绝了实际上不成立的 H0,H0,即样本来自卩工卩 0 0 的总体,由于 抽样的偶然性,按 a =0.05=0.05 检验水准不拒绝 H0,H0,这类在假设检验中不拒绝原本不 正确的 H0H0 的错误称为 U型错误。犯 U
18、型错误的概率为B,它只有与特定的 H1H1 结合起来才有意义。同时减少 a和 B的方法是增加样本含量。1-1- B称为检验效能或把握度,即 两总体确有差别时,按 a水准能识别该差别的能力。如 1-1- B =0.95=0.95 表示:若两总 体确有差别,理论上平均 100100 次抽样中,有 9595 次能得出两总体有差别的结论。1111、假设检验时应注意的事项1要有严密的抽样研究设计-假设检验的前提2正确选用检验方法:完全随机的设计的两数值变量资料比较时,若 n n 小且 方差齐,则选用两样本 t t 检验;若方差不齐,则选用 t t 检验或成组设计的两样本比 较的秩和检验;若n1n1, n
19、2n2 均大于 5050,则选用两样本 u u 检验。3正确理解“显著性”的含义4对差别有无统计学意义的判断不能绝对化。方差分析1 1、 基本思想:按研究目的和设计类型,将总变异的离均差平方和SSSS 和自由度 v v 分别分解成若干部分,并求得各相应部分的变异。其中的组内变异或误差主要 反映个体差异或抽样误差,其它部分的变异与之比较得出统计量F F 值,由 F F 值的大小确定 P P 值,并作出推断,从而了解该因素对观测指标有无影响。组内变异主要由个体差异所致,组间变异可能由两种原因所致:一是抽样误 差,二是由于接受的处理不同。2 2、总离均差平方和 SSSS 和自由度vSSSS 总= =
20、0v v 总=门-1-13 3、 组间离均差平方和 SSSS 组间,自由度v组间和均方 MSMS 组间SSSS 组间= =v v 组间=k-1=k-1MSMS 组间= =ZJ4 4、组内离均差平方和 SSSS 组内,自由度v组内和均方 MSMS 组内SSSS 组内=SS=SS 总-SS-SS 组间v组内二n-kn-k MSMS 组内=SS=SS 组内/v/v 组内多样本均数比较的方差分析的应用条件:各样本是相互独立的随机样本; 各样本来自正态分布总体;各总体方差相等,即方差齐。5 5、完全随机设计资料的方差分析:亦称单因素的方差分析,可用于完全随机 设计的多个样本均数比较的资料,研究目的是推断
21、各个样本所代表的总体均数是否 相等。单因素方差分析的计算公式变异来源 SSSSvMSMS F F总变异a an-1n-1组间变异0 0Ek-1k-1S组内变异 SSSS 总-SS-SS 组间 n-kn-k SSSS 组内/v/v 组内C C 为校正系数C=C=到6 6 配伍组设计资料的方差分析:亦称两因素的方差分析,用于配伍组设计的 多个样本均数比较的资料,其研究目的是推断各样本所代表的总体均数是否相等, 但考虑了个体差异对试验效应的影响。两因素方差分析的计算公式变异来源 SSSSvMSMS F F总变异n-1n-1处理组k-1k-1 SSSS 处理/v/v 处理 MSMS 处理/MS/MS
22、误差配伍组b-1b-1 SSSS 配伍/v/v 配伍 MSMS 配伍/MS/MS 误差误差 SSSS 总-SS-SS 处理-SS-SS 配伍 (k-1k-1)( b-1b-1)SSSS 误差/v/v 误差C C 为校正系数C=C=b b 为配伍组数分类资料的假设检验1 1、二项分布:应用条件:各观察单位只能具有两种相互对立的结果 已知发生某结果的概率为 n,其对立结果的概率为 1-1- nn 次试验是在相同的条件下进行的。n未知时,用样本率 P P 作为 n 的估计值,则Sp=Sp=总体率的估计:正态近似法:当样本含量n n 足够大,且样本率 p p 或 1-p1-p 均不太小,如 npnp
23、与 n n (1-p1-p)均大于 5 5 时样本率 p p 的抽样误差分布近似正态分布,可信 区间为:(p-up-ua/2Sp,p+Up+Ua /2Sp/2Sp)2 2、PoissonPoisson 分布:对于二项分类变量,若某结果发生的概率很小,如nV0.050.05 时,单位时间、人群、空间内“阳性”发生次数x x (x=0 x=0,1 1,2 2,)的概率可用 PoissonPoisson 分布概率函数来描述:P(X)=P(X)=1 递推公式:P P (0 0)= =性质:卩=n=n nCTCT若均数和标准差用率表示,则0-0-p=p=应用条件:nV 0.050.05 夕卜,其余同二项
24、分布。分布的性质:(1)、 PoissonPoisson 分布式一种单参数的离散型分布,其参数为卩,表示单位时 间、人群、空间内某事件平均发生的次数。(2) 、PoissonPoisson 分布的方差0与均数相等。(3) 、PoissonPoisson 分布可以看成是二项分布的极限形式。(4) 、PoissonPoisson 分布的极限形式也是二项分布,一般当 n n2020 时,可按正态 分布处理,当 n 0.010.01 时,二项分布可以当作 PoissonPoisson 分布来处理。(5) 、PoissonPoisson 分布具有可加性。总体均数的估计:(正态近似法)LJ3 3、服从二项
25、分布资料的假设检验:(1 1)样本率和总体率的估计:直接计算法:最多有 k k 例阳性的概率:P(xP(x k k)= =a a=1-=1-s s正态近似法:当a不太靠近 0 0 或 1 1,且样本含量 n n 足够大;或 n n且 n n (1 1S)5时,二项分布接近正态分布。u=u=3(2 2)两样本率的比较:目的是推断两个样本各自代表的两总体率是否相等, 当两个样本率均满足正态近似条件时,可用 u u 检验。其公式为:u=u=为合并阳性率,= =(x1+x2x1+x2) /(n/(n 1+1+ n2)n2)x1,x2x1,x2 为两个样本的阳性例数。4 4、服从 PoissonPois
26、son 分布的假设检验:对于 PoissonPoisson 分布的假设检验,对于总体 均数可以用乘法将小单位化大,也可以用除法将大单位化小,对于样本均数,只能 用除法将大单位化小,而不能用乘法将小单位化大。(1 1)样本均数与总体均数的比较:适用于卩 0 0V2020,且样本阳性数 X X 较小作单侧检验时。直接计算法:最多有 k k 例阳性的概率:P(xP(x k k)= =s=1-=1-s正态近似法:当11 2020 时,PoissonPoisson 分布逼近正态分布。u=u=(2 2)两样本阳性数的比较:目的是推断两样本各自代表的两总体平均数是否相等。当两样本阳性数 XIXI, X2X2
27、 均大于 2020 时,可用 u u 检验。其计算用两种情况:两样本观察单位(时间、面积、容积等)相同时:u=u=(4(4)两样本观察单位(时间、面积、容积等)不同时:u=u=5 5、0检验:是一种连续型分布,u u 分布的平方即为0分布。对于同一份资料,。0检验的检验统计量为凶,其基本公式为:,自由度 v=v=(行数-1-1 )(列数-1-1)式中 A A 为实际频数,T T 为理论频数。理论频 数 T T 的计算公式为:0为第 R R 行第 C C 列的理论频数,nRnR 为相应行的合计,nCnC 为相应列的合计,n n 为总例数。自由度v=( R-1R-1)( C-1C-1). .0反映
28、了实际频数与理论频数的吻合程度。只有考虑了自由度v v 的影响,0值才能正确地反应实际频数 A A 和理论频数 T T 的吻合程度。6 6 四格表资料的 检验:最小理论频数0的判断,R R 行与 C C 列中,行合计数中的最小值与列合计数中的最小值所对应的理论 频数最小。(1) 四个表资料检验的专用公式:(2) 四个表资料检验的校正公式:在实际工作中,对于四个表资料,通常规定为:(1) 当 n n4040 且所有的 T T5 时,用S检验的基本公式或四个表资料凶检验的专用公式;当 p pa时,改用四个表资料的 FisherFisher 确切概率法(2) 当 n n4040,但 K K T TW
29、5时,用四格表资料的0检验的校正公式;或改用四个表资料的 FisherFisher 确切概率计算法。(3) 当 n nv4040,或 T Tv 1 1 时,用四个表资料的 FisherFisher 确切概率法(4(4)a连续性校正仅用于 v=1v=1 的四格表资料,尤其是 n n 小时。当 V VA2时一般不做校正7 7、配对四个表资料的0检验:由于在抽样研究中,抽样误差是不可避免的,样本中的b b 和 c c 往往不相等(即 b bM c c),为此,需进行假设检验,其检验统计量为:v=1v=1 (条件为:b+cb+c 4040)LKIv=1v=1 (条件为:b+cb+cv 4040)本方法
30、只适用于样本含量不太大的资料,它仅考虑了两种方法结果不一致的 情况,而未考虑样本含量 n n 和两种方法一致的两种情况,所以当 n n 很大且 a a 与 d d 的 数值也很大,而 b b 与 c c的数值相对较小时,即使检验统计结果有统计学意义,其实 际意义也不大。8 8、行* *列表资料的S检验:只适用于多个样本率的比较,两个或多个构成比的比较以及双向无序分类资 料的关联性检验。其基本数据由三种情况:1多个样本率的比较时,有 R R 行 2 2 列,称为 R*2R*2 表2两个样本的构成比比较时,有 2 2 列 C C 列,称为 2*C2*C 表3多个样本的构成比比较以及双向无序分类资料
31、关联性检验时,有R R 行 C C列,称为 R*CR*C 表。以上三种可统称为行* *列表资料基本公式:基本公式为:专用公式:自由度v=(行数-1-1 )(列数-1-1 )注意事项:一般人行* *列表资料中各格的理论频数不能小于 1 1, 且 1T51T5 格子数不能超过 总数的 1/51/5。如果出现以上情况,可通过以下方法解决:最好是增加样本含量,使得理论频数增大;根据专业知识,考虑能否删去理论频数太小的行和列,能否 将理论频数太小的行和列于性质相近的邻行或邻列合并;改用双向无序R*CR*C 的FisherFisher 确切概率计算法。当多个样本率比较时,所得统计推断为拒绝H0,H0,接受
32、 H1H1 时,只能认为各样本率间总的来说有差别,但不能说明任两个样本率间均有差别,需要做多个样本 率的多重比较。对于有序的 R*CR*C 表资料不宜用0检验。对于 R*CR*C 表的资料要根据分类类型和研究目的选用恰当的检验方法。9 9、双向无序分类资料的关联性检验:对于此资料,常常需要分析两个分类变 量之间有无关系,关系的密切程度如何,进一步分析密切程度时,可以用 PearsonPearson 列联系数取值在 0 01 1 之间,0 0 表示完全不相关,1 1 表示完全相关,愈接近于 0 0,关系愈不密 切,愈接近1 1,关系愈密切。1111、R*CR*C 表的分类及检验方法的选择:分类:
33、双向无序、单向有序、双向有序属性相同和双向有序但属性不同四 种。双向无序 R*CR*C 表:两个分类变量皆为无序分类变量,对于该资料:如果 研究目的为两个样本率(或构成比)的比较,可用行 * *列资料的E检验;如果研究目的是分析两个分类变量之间有无关联性以及关系的密切程度 时,可用行* *列表资料的0检验以及 PearsonPearson 列联系数进行分析。单向有序 R*CR*C 表:有两种形式:一种是 R*CR*C 表的分组变量是有序的,而指 标变量是无序的;研究的目的通常是多个构成比的比较,可用行* *列表资料的0检验进行分析。另一种是 R*CR*C 表中的分组变量是无序的,而指标变量是有
34、序的,研 究目的通常是多个等级资料的比较,可用秩和检验或RiditRidit 分析。双向有序属性形同的 R*CR*C 表:两个分类变量皆为有序且属性相同,研究目 的通常是分析两种检测方法的一致性,此时宜用一致性检验(或称KappaKappa 检验);也可用特殊模型分析方法。双向有序属性不同的 R*CR*C 表:两分类变量皆为有序的,但属性不同,对于 该资料:如果研究目的是分析不同年龄组患者疗效见有无差别, 可把它视为单向 有序的 R*CR*C 表资料,选用秩和检验;如果研究目的是分析两个有序分类变量间是 否存在相关关系,可以用等级相关分析或 PearsPears onon 积矩相关分析;如果研
35、究目的是分析两个有序分类变量是否存在线性变化趋势,可以用有序分组资料的线性趋势 检验。非参数检验非参数检验的统计推断基础是比较分布而不是比较参数,所以不必考虑被研 究对象的为何种分布以及分布是否已知。在实际工作中,对符合参数检验应用条件 的资料,或经变量变换后符合参数检验应用条件的资料应首选参数检验;而不能满 足参数检验应用条件的资料,应选用非参数检验。主要选择编秩的方法,比较统计 变量 T T,而做出统计推断。直线回归与相关分析1 1、直线相关:如果两个随机变量中,当其中的一个变量由大到小的变化时, 另一个变量也相应的由大到小(后由小到大)的变化,并且相应变化的散点图在直 角坐标系呈现直线趋
36、势,则称这两个随机变量存在直线相关。相关分析是研究变量和变量集合之间数量协同变化关系的密切程度和方向的 统计方法。要求:两个变量 X X 和丫都服从正态分布,严格说应服从双变量正态分布。直线相关系数:用于说明具有直线相关关系的两个变量间的相关关系的密切 程度和相关方向;亦称积差相关系数,总体的为p,样本的为丫。的取值在-1,1-1,1之间。其意义如下:若 则 X X 与丫存在直线相关关系;kJ为正相关;kJ为负相关;0 0越大,说明两变量间的相关关系越密切; 0 0越小,说明两变量间的相关关系越不密切;若到为完全相关;若LHJLHJ,则 X X 和丫不存在相关关系。表示存在不同程度的线性相关关
37、系:为低度线性相关;0 0为显著线性相关;S为高度显著线性相关。相关分析的步骤:(在 X X 与丫均服从双变量正态分布的情况下)绘制散点图:呈线性趋势,计算相关性;呈曲线趋势,进行曲线拟 合;无任何趋势,不必分析。根据上述公式计算丫的值;相关系数的假设检验,由于抽样误差的存在,判断 是否来自的总体,常用 t t 检验,公式:(或直接查 t t 界值表)总体相关系数的区间估计:当kJ时,从这样的总体中抽样,计算出的 丫不服从正态分布,而进行反正切变换后,n n 较大时,Z Z近似服从均数为乙方差为的正态分布。则 Z Z 的可信区间为(),对其进行s的变换,可以得出zl的可信区间。直线相关分析的注
38、意事项:1 1 算相关系数时首先绘制散点图,判断两变量是否存在线性趋势;相关分析时要求 X X、丫均为随机变量,而不能用于事先界定 X X、丫的资料;相关分析时必须剔除异常点;相关分析要有实际意义,两变量相关,并不一定存在联系,可能是另外一种因素引起的;分层资料不宜盲目的合并,进行相关分析;同时进行相关分析时,如果不 能确定各层研究对象具有同质基础,不宜盲目合并。不能将假设检验中显著性大小理解为两变量相关程度的大小,后者是由相 关系数的大小决定的。2 2、等级相关:适用于不服从双变量正态分布或总体分布未知的资料,还可用 于等级资料的相关分析。等级相关系数0表示两个变量间相关系数的密切程度与相关
39、方向。基本思想:对于不符合正态分布的资料或等级资料,将两个变量的原始观察 值分别由小到大编秩,然后利用量变量的秩次计算相关系数。3 3、直线回归: 处理两个变量间线性数量依存关系的一种统计分析方法。回归方程为:为应变量,给定 x x 的 y y 的条件均数的估计值;b b 为回归斜率,表示当自变量 x x 每变 化 1 1 个单位时,应变量 y y 平均变化 b b 个单位;a a 为截距,表示没有自变量 x x 时其他 因素对 y y 的平均影响。线性回归模型的前提条件:线性:应变量 y y 的总体均数与自变量 x x 呈线性关系;因此进行回归分析前 应先绘制散点图;独立:任意两个观察单位之
40、间相互独立;正态性:对任意给定 x x 的值,y y 均服从正态分布;该分布的均数是回归直 线上与 x x 值相对应的那点的纵坐标;等方差:自变量 x x 的取值范围内,不论 x x 取什么值,y y 都具有相同的方 差。直线回归分析的步骤:绘制散点图,通过观察散点的形态来判断线性假设是否成立;建立直线回归方程,即求出回归参数 a a 和 b b;通常用最小二乘法估计参数,即要求残差平方和达到最小;rix I1 K 1绘制回归线;注意:不应超过 x x 的实测值范围;所绘制的直线必然通过);3 直线的左端延长与纵轴的焦点必然是截距 a a。回归方程的假设检验:检验方法有方差分析和t t 检验1方差分析:基本思想:将应变量 y y 的总变异 SSSS 总分解成 SSSS 回归和 SSSS 剩余 两部分,然后利用 F F 检验来判断回归方程是否成立。任意一点 P P( x x,y y)的纵坐标被回归直线与均数J J截成 3 3 段:三部分的变异可以表示为:即 SSSS 总=SS=SS 回归+SS+SS 剩余各部分的意义:SSSS 总:即Id,为 y y 的总离均差平方和,反映未考虑 x x 和 y y 的回归关系时的 y
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025河北省安全员《A证》考试题库及答案
- 二零二五年度智能制造入股合同协议书
- 2025年度农业科技企业员工借调与农业技术推广合同
- 2025年度个体工商户合伙协议范文与投资融资及财务规划协议
- 2025年度征收城市老旧危房房屋拆迁补偿协议
- 2025年度人事专员劳动合同(附员工培训服务内容)
- 2025年度文化产业发展劳动合同法规范与创意人才合同
- 2025年度个人租赁市场租赁合同电子签名合同
- 2025年度健康养生馆店铺承包合作协议
- 2025年度太阳能光伏发电站机电安装服务协议
- 高中主题班会 悟哪吒精神做英雄少年-下学期开学第一课主题班会课件-高中主题班会课件
- 新学期 开学第一课 主题班会课件
- 民法典合同编讲座
- 2024年青岛港湾职业技术学院高职单招语文历年参考题库含答案解析
- 广西壮族自治区公路发展中心2025年面向社会公开招聘657名工作人员高频重点提升(共500题)附带答案详解
- 大学转专业高等数学试卷
- DBJ51-T 198-2022 四川省既有民用建筑结构安全隐患排查技术标准
- 公司厂区保洁培训
- 江苏省招标中心有限公司招聘笔试冲刺题2025
- 2024年防盗门销售合同范本
- 支付令申请书(2025版)
评论
0/150
提交评论