医学统计学 第三版 复习总结_第1页
医学统计学 第三版 复习总结_第2页
医学统计学 第三版 复习总结_第3页
医学统计学 第三版 复习总结_第4页
医学统计学 第三版 复习总结_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章 绪论统计的三大特征:实用性、丰富性、公平性总体(population):l 是根据研究目的确定的、同质的全部研究对象中所有观察单位某种变量值的集合。l 同质基础:时间、空间、条件等l (1)有限总体(finite population):有限观察单位l (2)无限总体(infinite population):很多为无限总体。样本l 根据随机化原则从总体中抽取的一定数量(sample size)的个体,称为样本(sample),用样本信息来推断总体特征。l 从总体中抽取部分个体的过程称为抽样(sampling)。同质(homogeneity)l 是指影响被研究指标的非实验因素相同。变异

2、(variation, variablility )l 同质基础上的各观察单位(亦称为个体)之间的差异为变异。如同性别、同年龄、同民族、同地区儿童的身高有高有低,称为身高的变异。参数(parameter)和统计量(statistic)l 总体的统计指标称为参数。如:总体均数(),总体发病率,总体死亡率,等,l 样本的统计指标称为统计量如:样本均数(x),样本发病率,样本死亡率,等,l 统计学上用不同的符号表示。误差(error) 观察值与实际值的差异,成为误差。分为:过失误差;系统误差;随机测量误差;随机抽样误差;(1)过失误差(mistaken error):过失所致的误差(不认真,错误判断

3、,记录等原因);(2)系统误差(systematic error):仪器未校准所致的误差(统一偏高,或偏低);这两类误差可以避免。(3)随机测量误差(random measurement error):不同观察者或同一观察者多次观察值的不相同。 这种误差不可避免。(4)抽样误差(sampling error):总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),表现为多次抽样的样本均数或率不同。这种由抽样引起的差异称为抽样误差。抽样误差愈小,用样本推断总体的精确度愈高;反之,其精确度愈低。由于生物的个体变异是客观存在的,因而抽样误

4、差是不可避免的,但抽样误差有一定的规律性。小概率事件定理:“小概率事件一次抽样不可能发生” 变量及变量值l 变量(variable):观察对象的特征或指标。对变量进行取值所采用的工具或标准成为测量尺度(scale)。l 测量的结果称为变量值(value of variable) 或观察值(observed value, measurements)。随机化(randomization)使总体中的每个个体有均等的机会成为样本观察单位的过程,称为随机化。l 随机抽样旨在避免人的主观性,让机遇起作用,以反映总体的客观情况。常用:抽签法,随机数目表法,计算器随机数法;单纯随机抽样(simple rand

5、om sampling):总体全部观察单位编号,再用随机数字法或抽签法;整群抽样cluster sampling:直接由若干个群组成的总体中随机抽取若干个群,再对被抽取的每个群的全部观察单位加以调查。系统抽样systematic sampling:( 间隔抽样,机械抽样)先将总体观察单位按某顺序号分成n个部分,再从第一部分抽第k号观察单位,依次用此相等间隔机械地从每一部分各抽一个观察单位组成样本。分层抽样stratified sampling:先按某种特征将总体分为若干组别、类型、区域,再从每一层内随机抽样,组成样本。l 抽样误差:分层抽样系统抽样单纯随机抽样整群抽样第二章 统计资料的收集和整

6、理一、资料的类型根据是否定量划分:(1)计量资料(measurement data)用定量方法测量每个观察单位的某项指标,所得的数值资料为计量资料,亦称数值变量资料。一般有度量衡单位。 常用:平均数,标准差,t检验,方差分析,相关与回归 等分析。(2)计数资料(enumeration data)将观察单位按某种属性或类别分组,然后清点各组的观察单位数,为计数资料(亦称分类变量资料,无序分类资料)。常用:率、构成比、卡方检验等(3)等级资料 (ranked data) 将观察单位按某种属性的不同程度分组,所得各组的观察单位数为等级资料,亦称有序分类资料。常用:率、构成比、秩和检验等。三者联系:等

7、级资料与计数资料不同:属性的分组有程度差别,各组大小顺序排列;等级资料与计量资料不同:每个观察单位未确切定量,称为半定量资料。介于计量资料与计数资料之间。计量资料 计数资料 等级资料调查设计和实验设计调查设计一般包括专业设计和统计设计。实验设计(experiment design) 医学实验的基本要素包括处理因素、受试对象和实验效应三部分。实验设计应遵循对照(空白对照,试验对照,安慰剂对照,配对对照,组间对照)、随机、重复(即样本例数)的原则 。频数分布表(frequency distribution table)l 用途:(1)揭示频数的分布特征:两个重要特征:l 集中趋势(central

8、tendency):数值高低不等,但中等水平的人数最多。l 离散趋势(tendency of dispersion):数值之间参差不齐;逐渐变大(或变小)的人数渐少。向两端分散。第三章 计量资料的统计描述集中趋势central tendency平均数(average):用于描述数值变量资料的集中趋势(平均水平)。特点:简明概括,便于比较。包括:算术平均数,几何平均数,中位数,百分位数1、算术平均数(arithmetic mean)一组变量值之和除以变量值个数所得的商,简称均数。总体均数,样本均数x表示。适用条件:资料成正态分布(或近似正态,或对称分布)。计算方法:直接法,加权法均数的两个重要属

9、性:(1)各离均差(各观察值与均数之差)的总和等于零。(2)离均差的平方和小于各个观察值x与任何数a(a 不等于均数)之差的平方和。均数是一组观察值理想的代表值。均数的应用:(1)只能在合理分布的基础上,对同质事物求均数才有意义,才能反映事物的特性。(2)均数最适用于对称分布,尤其是正态分布资料。此时,均数位于分布的中央,能反映观察值的集中趋势。2、几何均数geometric mean g将n个观察值的乘积再开n次方的方根(或各观察值对数值均值的反对数)。适用条件: (1)观察值为非对称分布,差距较大,用算术均数表示其平均水平会受少数特大或特小值影响;(2)数值按大小顺序排列后,各观察值呈倍数

10、关系或近似倍数关系。如:抗体滴度,药物效价等;(3)观察值不能有0;(4)观察值不能同时有正值和负值。几何均数的应用:(1)常用于等比级数资料,滴度,效价,卫生事业平均发展速度,人口几何增长,对数正态分布资料;(2)同一组资料求得的几何均数小于算术均数。3、中位数(median, m) :位于中间位置上的数值。把一组观察值,按大小顺序排列,位置居中的变量值(奇数个)或位置居中的两个变量值的均值(偶数个)。是位置指标,以中位数为界,将观察值分为两半,有一半比它大,一般比它小。适用于:(1)资料偏态分布;(2)两端无确定数值;(3)资料分布不清楚;如:潜伏期,毒物测定值等用中位数表示其集中趋势。5

11、、百分位数(percentile, p):位于某个百分位置上的数值。把一组数据从小到大排列,分成100等份,各等份含1%的观察值,处在分割界线上的数值,就是百分位数,pr 表示。百分位数将总体或样本的全部观察值分为两部分,理论上有r%的观察值比它小,有(100-r)%的观察值比它大。如含量为n的样本,p5即表示:理论上有n5%个观察值比p5小,有n95%个观察值比p5大。一般说,分布中部的百分位数相当稳定,具有较好代表性,靠近两端的百分位数,只在样本含量足够大时,才稳定,故,样本量不够大时,不应取太近两端的百分位数。常用的百分位数:5,25,75,95 分位数。百分位数常用于确定医学正常值范围

12、(normal range)。中位数是特定的百分位数。四者的比较:中位数常用于描述偏态分布资料的集中趋势,它反映居中位置的变量值的大小。不受特大,特小值的影响,只受位置居中的观察值的影响,因而不够敏感。而均数,几何均数是由全部观察值综合计算出的,敏感性好。但理论上,中位数等于算术均数。百分位数常用于描述一组资料在某百分位置上的水平和分布特征。多个百分位数结合使用,可更全面地描述总体或样本的分布特征,包括位置大小和变异度。离散趋势tendency of dispersion常用指标:全距,四分位数间距,方差,标准差,变异系数1、全距(range):极大与极小值之差。全距大,资料离散程度大,但易受

13、极端值大小的影响。样本量越大,抽到极端值的可能性越大,全距可能会越大。故:全距不宜单独使用。2、四分位数间距(quartile interval q):将一组资料分为四等份,上四分位数p75和下四分位数p25之差,叫四分位数间距。意义:q越大,离散程度越大,通常用于描述偏态分布资料的离散程度。优点:比全距稳定;若资料一端或两端无确切数值,只能选择q作为离散指标。缺点:未考虑全部观察值,不能全面反映资料离散趋势。3、方差(variance)和标准差(standard deviation sd)对总体而言,为了克服极差和四分位数间距的缺点,要描述资料的离散趋势,必须考虑到各个观察值,离均差的平方和

14、是最好的指标,意义:方差,标准差越大,变异程度越大。其值越小,观察值的离散度越小,用均数反映平均水平的代表性越好。标准差应用:(1)反映一组观察值的离散程度: 数值单位相同:直接比较标准差; 数值单位不同:计算变异系数;变异系数(coefficient of variation, cv) 也称离散系数(coefficient of dispersion)标准差与均数之比用百分数表示。公式:常用于比较度量单位不同或均数相差悬殊的资料的变异。同时考虑了均数和标准差,更客观。比如:身高,体重的变异比较(2)估计变量值的频数分布:(3)计算标准误(4)估计医学正常值范围:双侧:均数 1.96倍标准差(

15、95%)单侧:均数 1.645倍标准差(95%)正态分布(normal distribution)概念: 频数分布以均数为中心,左右两侧基本对称,靠近均数两侧频数较多,离均数愈远,频数愈少,形成一个中间多,两侧逐渐减少的对称分布。是一种连续型分布。又称高斯分布. 正态分布用n( ,)表示,其位置与均数有关,形状与标准差有关。标准正态分布:为了应用方便,常将式进行变量变换,即:u变换. 所得到的新变量u的分布即为标准正态分布。u的含义:变量到均数间的距离相当于标准差的倍数。u变换后,=0,=1,使原来的正态分布变换为标准正态分布(standard normal distribution)亦称u分

16、布。正态分布的特征和分布规律:简答 (1)曲线在x轴的上方,与x轴不相交,当x=时,曲线位于最高点。 f(u=0)=0.3989(2)曲线关于直线x=左右对称。(3)正态分布有两个参数:均数,标准差;标准正态的参数分别为:0, 1。(4)正态分布的面积分布有一定规律。正态曲线下面积的分布规律正态曲线下,横轴上一定区间的面积,等于该区间的频数发生的概率(即所有随机事件发生的概率)。正态曲线下面积的分布规律的应用:一、确定医学参考值范围意义:是正常人指标测定值的波动范围,可用于划分正常,或异常。步骤:1、抽样 2、控制测量误差 3、取单侧或双侧 4、选定合适的百分界限 5、资料正态性检验 6、进行

17、参考值估计补充:常用方法:正态分布法(正态分布),对数正态分布法(对数正态分布或近似正态分布),百分位数法(偏态分布)二、确定概率分布三、质量控制第四章 均数的抽样误差和 t分布一、均数的抽样误差和标准误均数的抽样误差sampling error of mean由于总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),样本均数之间也互不相等,这种由抽样引起的差异称为均数的抽样误差。用样本均数的标准差来估计,称标准误(standard error)。即总体标准差和样本例数的比值,通常以样本标准差作为总体标准差的估计值标准误越大,均数的

18、抽样误差越大,样本均数与总体均数间的差异越大。s区别简答是方差的平方根。说明一组数据在其周围的分散情况(变异程度)。反映对这组数值的代表性。是均数的标准差。 说明一组均数在“均数的均数”(总体均数)周围的分散情况。反映用样本均数代表总体均数的可靠性。表示抽样误差的大小。标准误的应用1、用来衡量抽样误差的大小: 标准误越小,样本均数与总体均数越接近,样本均数的可信度越高;2、结合标准正态分布与 t 分布曲线下的面积规律,估计总体均数的置信区间。3、用于假设检验。二、t 分布(t-distribution) 标准化的均数的分布t分布曲线特征简答: t分布是一簇对称于0的单峰分布曲线。 自由度越小(

19、相当于标准差大),曲线的中间越低,两边越高;随自由度增大, t分布曲线逐渐逼近于标准正态分布曲线。 当自由度无穷大时, t分布就是标准正态分布曲线。 每一条t分布曲线,都对应于相应的自由度。t分布曲线下的面积规律:与标准正态曲线下的面积规律相似: 在某一个自由度下,两侧外部总面积为5%的界限的t值称为t0.05/2(),把两侧外部总面积为1%的界限的t值称为t0.01/2()。 因此,中部占95%面积的t值范围:t0.05/2()- t0.05/2(),中部占99%面积的t值范围:t0.01/2()- t0.01/2()。使用t值表注意: 同一自由度下, p越小,t值越大;p值相同时,自由度越

20、大,t越小;当自由度无穷大时,t值与u值相等。这也是u分布与t分布的区别。t分布的主要应用: 总体均数置信区间估计; t检验;三、总体均数置信区间的估计 统计推断:参数估计,假设检验 参数估计: 点估计(point estimation):用样本统计量作为对总体参数的估计值() 。比如均数的估计。 区间估计(interval estimation):根据选定的置信度估计总体均数所在的区间(a 50)足够大,也可参考u分布进行 3、总体标准差未知,样本例数较小,按t分布原理,依据自由度,查出某个概率相应的t界值95%置信区间的意义: 理论上,用一次抽样所得的样本均数估计总体均数,犯错误的概率为5

21、%. 或进行100次抽样,可算得100个置信区间,平均有95个置信区间包括客观存在的总体均数,只有5个置信区间未包括总体均数。置信区间与正常值范围:简答95%正常值范围一般是指同质总体内包括95%个体值的估计范围,若总体为正态分布95%置信区间是指按照95%置信度估计的总体参数的可能范围,常按照下式计算。 前者用标准差,后者用标准误。第五章 假设检验,u, t-检验假设检验基本思想: 先对总体的参数或分布作出某种假设,如假设总体均数(或总体率)为一定值,两总体均数(或总体率)相等,总体服从正态分布或两总体分布相同等。 然后,用适当方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。其结果

22、将有助于研究者作出决策,采取措施假设检验步骤:简答1、建立检验假设和设定检验水准无效假设(null hypothesis) h0:假设差异仅由抽样误差所致,而两个总体参数相同。是从反证法的思想提出的。备择假设(alternative hypothesis), h1: 即差别不仅是由抽样误差所致,而且总体参数不同。h1是和h0相联系的,对立的假设。确定检验水准(size of a test) 也叫显著性水准(significance level):用表示。即:拒绝了实际上成立的h0的概率;一般取0.05,或0.01. 2、计算统计量根据研究设计类型,资料特征,统计方法的适用条件,选择和计算统计量

23、。3、确定概率p值,作出统计推断结论计算统计量后,判断在h0成立条件下,出现该统计量或更大统计量的概率。如果p大于,是接受h0的区间;如果大于或等于界值的范围,p小于或等于,是拒绝h0的区间。双侧,单侧检验:比较及选择原则,单选或简答根据专业知识, 可能大于,也可能小于 0,称双侧检验;若认为大于、等于不可能小于 0(或相反),为单侧检验。若不能确定单侧的情况,应采用双侧检验。 在同一t值的界限上单侧检验的概率仅相当于双侧检验概率的一半。因此,总体均数间确有差别时,单侧检验比双侧检验更易得出差别有统计意义的结论。对同一资料进行检验,有可能双侧检验无统计意义而单侧检验有统计意义。但用单侧还是双侧

24、检验,必须事先根据专业知识予以确定,不能等到计算完t值以后再主观选定 选择原则: 双侧检验永远是正确的 单侧检验只有在少数情况下才是合适的 即使要做单侧检验,也必须事先确定 单侧检验:有某种倾向时使用; 双侧检验:没有任何倾向;第一类错误与第二类错误简答-比较选择 假阳性错误(false positive error),统计上称为第一类错误(type i error),用表示。 即无效假设(h0:u=u0)是正确的,但被拒绝,误判为有差别(弃真错误)。统计学上定p0.05为有意义,即在统计推断上允许犯假阳性错误的概率为5%。当无效假设正确时,在100次抽样中,可以有5次推断是错误的。同样,如果

25、定p0.01为有意义,即犯假阳性错误的概率为1%。故统计学上有意义的界限实际上就是允许犯第一类错误的界限。 假阴性错误(false negative error),统计学上称为第二类错误(type ii error)。 即无效假设(h0:u=u0)不正确,实际上应是h1:uu0,但算得的统计量t没有超过t0.05的水平从而接受了无效假设,错误地得出无差别的结论(取伪错误)。用b表示。i类错误:虽然无效假设为真,但由于抽到了较大(检验统计量)的样本,使得p值小于检验水准而导致被拒绝。ii类错误:虽然无效假设为假,但由于抽到了较小(检验统计量)的样本,使得p值大于检验水准而导致不被拒绝。第一类错误

26、减小,第二类错误的概率就增大了。 选择统计学意义水平,应考虑两类错误对所要研究事物的影响哪一个重要。一般来说,定0.05为有统计学意义的水平是比较适宜的。其他条件不变,增大样本含量可使第二类错误的概率减小。同时正确的实验设计能够减少抽样误差,提高检验效能。p值的正确理解选择简答p值是指在无效假设的前提下,得到观察到的量(或更极端的量)的概率。p值越小说明无效假设越不可靠。或者说,p值越小就越有理由推翻无效假设。至于p值是否属于“小”,一般根据事先确定的检验水准a来判断的。p值的大小与观察到的量的大小之间没有必然的联系。实际差别与统计学意义简答 统计学意义:如果总体均数相同,抽到这样大统计量的可

27、能性很小,可以拒绝 h0。但并不意味两总体均数差别很大。 样本量很大时,即使均数差别不大,统计学意义却显著。 样本小时,即使均数差别很大,统计学意义却不显著。u检验和t检验简答两者比较:u检验条件: 总体标准差已知,资料服从正态分布情况下(1)样本均数与总体均数比较(2)两大样本均数的比较;t检验条件:用于样本量小、总体标准差未知时(1)样本与总体均数比较(2)配对设计资料比较(3)两样本均数比较(同时要求两样本的总体方差相同,服从正态分布)配对资料:配对设计:两样本中的观察值由于存在某种联系而一一对应结成对子(matching)的情况.常用配对方式:简答 1、同一受试对象处理前后的比较:高血

28、压治疗前后的血压值,或每一名病人有一对数据; 2、同一对象身体不同部位测定值比较:如左右臂皮肤的敏感试验,测得红斑直径; 3、同一样品两种不同方法测定结果:两种仪器,两名化验员,两种条件等; 4、成对设计:动物配对后随机分到两组后的测定结果;第六章 方差分析(一)概念,思想,应用,变异分解概念:方差分析是检验两个或两个以上样本均数间差别无统计意义的统计检验方法。前提条件:各组总体均数为正态分布,方差齐。方差分析的基本思想是:将所有测量值间的总变异按照其变异的来源分解为多个部份,然后进行比较,评价由某种因素所引起的变异是否具有统计学意义。方差分析主要用于:1、均数差别的显著性检验 2、分离各有关

29、因素并估计其对总变异的作用 3、分析因素间的交互作用,4、方差齐性检验。优点:1、不受对比组数的限制; 2、可同时分析多个因素作用; 3、可分析因素间的相互作用; 4、灵敏度高; 5、结论较准确均方:变异程度除与离均差平方和的大小有关外,还与其自由度有关,由于各部分自由度不等,因此各部分离均差平方和不能直接比较,须将各部分离均差平方和除以相应自由度,其比值称为均方差,简称均方(mean square,ms)。ms组内:组内均方,l组内/n组内ms组间:组间均方, l组间/n组间总变异(total variation):全部测量值xij与总均数 间的差异 (xij-x)2,v=n-1=nk-1组

30、间变异( between group variation ):各组的均数xi 与总均数间的差异 n(xi-x )2, v=k-1组内变异(within group variation ):每组的每个测量值xij与该组均数的差异(xij-xi)2, v=k(n-1)f值:fms组间/ms组内f界值:f0.05(n1,n2) f f0.05(n1,n2), p0.05公式是在h0成立的条件下进行的,即ms组间与ms组内差别应该很小, f值应该接近于1。均数间的相互比较student-newman-keuls(snk-q 检验)法:适用于任意两组间进行比较dunnett-t 检验:适用于多个实验组与

31、同一个对照组的比较lsd-t 检验:称最小显著性差异t 检验,适用于对多组中某一对或几对在专业上有特殊意义的均数进行比较。 三种方法是一致的,但并非等价,实际应用中应根据设计选取,不可多种方法一起使用,然后选取有利的结果。拉丁设计定义:对于两个以上的标志进行方差分析,而且各种标志的水平数相同,采用拉丁方设计。其优点是可以从较少的实验数据,获取较多的信息。但设计要求各因素的水平数必须相等,在实际应用时有一定局限性。而且,当各因素间有交互作用时,该设计不合适。拉丁方是以拉丁字母排列的方阵的简称。方差齐性检验多个方差齐性的bartlett 法此外,levene 检验法对原数据是否为正态不灵敏,比较稳

32、健,也常常采用。方差分析中的数据转换:选择或简答(1) 平方根转换x= x 当x0)方差分析(二)概念及方差分析表当实验的处理是由两个或两个以上的因素,每个因素至少有两个水平的全面组合时,称之为析因实验。一、22析因实验(factorial experiment)设计两个因素,每个因素有两个水平的实验设计。单独效应:是指其它因素的水平固定时,同一因素不同水平间的差别。主效应:指某一因素各水平间的平均差别。交互效应:某因素的各个单独效应随另一因素水平的变化而变化,且相互间的差别超出随机波动的范围时,称者两个因素间存在交互作用或效应。如果ab两因素的联合效应不等于a与b的单独效应之和,则a,b存在

33、交互效应,若大于则有协同作用,若小于则为拮抗作用。二、222析因设计 是指有三个因素,每个因素有两个水平的实验设计。第七章 直线回归与相关(1) 依存关系:应变量(dependent variable)y随自变量(independent variable)x变化而变化。 回归分析(2) 互依关系: 应变量y与自变量 x间的彼此关系 相关分析第一节 直线回归 ( linear regression 线性回归)1直线回归的概念:直线回归是分析两变量间线性依存变化的数量关系。2. 函数关系与回归关系:前者是确定关系,后者是不确定关系直线回归的任务:就是找出一条最能描述变量间非确定性数量关系的一条直线

34、,此直线为回归直线,相应的直线方程称为直线回归方程( linear regression equation)。对资料的要求:自变量 x :正态总体中的随机变量或指定变量 因变量 y :服从正态分布的随机变量标准估计误差各实际值y与估计值 有一定的误差,称为估计误差。各实际点与回归线纵轴方向的离散程度,可以用类似求标准差的式子进行计算,即标准估计误差a b的意义:考a 为回归直线在 y 轴上的截距,即与y轴交点的纵坐标(x0)。b 为回归系数,即回归直线的斜率;其统计学意义是 x 增加(减)一个单 位,y 平均变动 b 个单位b0,y随x的增大而增大(减少 而减少) 斜上; b0,y随x的增大而

35、减小(减少 而增加) 斜下; b=0,y与x无直线关系 水平。 b越大,表示y随x变化越快,直线越陡峭。3直线回归方程参数的计算最小二乘法原则 (least square method):使各实际散点(y)到直线()的纵向距离的平方和最小。即使(残差或剩余值)最小残差(residual)或剩余值,即实测值y与假定回归线上的估计值的纵向距离 回归系数的检验方法:方差分析法各种变异分解-重点 ss总,的离均差平方和(total sum of squares),未考虑与的回归关系时的总变异。 ss剩,为剩余平方和(residual sum of squares),对的线性影响之外的一切因素对的变异,

36、即总变异中,无法用解释的部分。ss剩越小,回归效果越好。 ss回,为回归平方和(regression sum of squares),由于与的直线关系而使变异减小的部分,即总变异中,可以用解释的部分。ss回越大,回归效果越好。 t检验法 s b 为样本回归系数标准误;s yx 为剩余标准差同一组资料作直线相关与回归时 tb 与 tr 等值回归系数的标准误 b为总体回归系数b 的估计值,其误差为sb 决定系数:回归平方和与总平方和之比,大小反映了回归贡献的相对程度,也就是在y的总变异中回归关系所能解释的百分比。总体回归线的95%置信带,与个体y值比较即 (x=xi)的可信区间方差由y 及 b (

37、x - x)的方差两部分构成个体yi 值的范围预测与总体回归线比较直线回归方程的应用描述两变量的依存数量关系利用回归方程进行预测利用回归方程进行控制第二 直线相关 ( linear correlation )简单相关(simple correlation),用于双变量正态分布资料。进行直线相关分析的基本任务在于根据x、y的实际观测值计算表示两个相关变量x与y线性相关程度和性质的统计指标相关系数r,并进行显著性检验。 1直线相关的概念 直线相关是研究两变量 x、y 之间协同变化的线性关系 的分析方法。2对资料的要求 x、y 都是正态分布资料的随机变量。3相关系数 (correlation coe

38、fficient ,r ) * 表示方法: -1 r 1意义:描述两个变量直线相关的方向与密切程度的指标。4、直线回归与直线相关的联系与区别简答区别:1)意义直线回归反映两变量的依存关系;直线相关反映两变量的相互关系。2)对资料的要求直线回归:自变量是正态总体的随机变量或指定变量,y 一定是正态总体的随机变量;直线相关:两变量均为正态总体的随机变量。联系:1)同一组资料的 r 与 b 的正负符号是一致的;2)同一组资料的 r 和 b 的假设检验结果是一致的,即 t r = t b。3)两变量间有相关关系,不一定有因果关系;但两变量间有因果关系,一定有相关关系。第三节 spearman 秩相关适

39、用资料: 不服从双变量正态分布 总体分布类型未知 原始数据用等级表示等级相关系数rs(即spearman correlation coefficient)反映两变量间相关的密切程度与方向 第八章 相对数计数资料的统计描述一、常用相对数(relative number) 1、比( ratio)又称对比指标或相对比,表示两个有联系的同类指标之比,常用倍数或百分数表示。2、比例(proportion)又称构成指标,表示某一事物内部各组成部分所占的比重或分布,常用百分数表示。、率(rate):又称频率指标,表示某现象发生的频率或强度,比例基数用k表示,据习惯定,一般至少保留12为整数。包括%、1/万、

40、1/10万二、 医学中常用的相对数指标1、医学人口统计指标(1)人口总数(2)人口构成(3)人口生育 自然增长率粗出生率粗死亡率(4)人口死亡 粗死亡率(总死亡率) mortality rate2、反映疾病发生水平的频率指标(疾病统计指标)重点发病率 ( incidence rate)某病发病率(一定时期某病新发生的病例数/同时期内可能发生某病的人口数)k(1) 时期:指观察所包括的时间范围,通常为年或月;(2)新发生的病例数:指第一次发生某种疾病,以第一次就诊为准。(3)可能发生“某病”:指存在发生某病的危险性和条件(流行病学上为暴露人群)。患病率(prevalence rate) 指在某时

41、点接受医学检查时,可能发生某病的全体受检人群中被发现的某病病人现患新、旧病例数。某病患病率(检查时发现的某病现患病例数/ 该时点受检人口数)k适用于病程较长的疾病的统计,反映某种疾病在一定人群中流行的规模或水平病死率(fatality)某病死亡率(观察期间内因某病死亡人数/同期某病病人总数) k三、应用相对数应注意的问题简答l 1,计算率和构成比的分母不宜过小:否则样本率不稳定,易造成错觉;l 2,不要将构成比作率分析;l 3,求平均率时不能直接将几个率相加求其合并率或平均率,而应以总发生数除以总可能发生例数。l 4,应注意资料的可比性资料是否存在偏性当内部结构不同的相对数间进行比较时,若比较

42、合计率,应计算标准化率。率的抽样误差与标准误l 率的抽样误差:由抽样造成的样本率和总体率的差别称为率的抽样误差。率的总体标准误用sp表示 sp的样本估计值为率的样本标准误sp 总体率的区间估计当np5和n(1-p)5时,样本率p近似服从均数为p、标准误为sp的正态分布,当总体率未知时, sp用估计值sp取代 总体率的假设检验(u检验)l 适用条件:1. 适用于一个样本率与一个总体率的比较,或两个样本率间的比较。而不能用于多个率或构成比资料的比较;2. 要求样本量较大, 一般np与n(1-p)均大于5,率的分布近似于正态分布。率的标准化直接,间接比较,标准选择1. 标准化法(standardiz

43、ation)的意义当比较两个总率时,如果两组内部某种能影响指标水平的重要特征的构成上有差别,往往造成总率的升高或下降,影响两个总率的对比;因此要设法消除其内部构成的差异,使之能合理地进行比较,所用的方法称为标准化法。标准化法即在一个指定的标准构成条件下进行率的比对的方法。目的:采用统一的标准构成以消除内部构成不同对总率的影响,使标准化后的标准化总率具有可比性。(1).选择标准人口:a. 应选择有代表性、较稳定的、数量较大的人群b. 将比较的两组(或多组)的人口数合并作为标准组c. 选其中一组(选人口数较多组)作为标准组、直接法:以标准人口构成与实际的年龄组别死亡率求得一个调整死亡率。2、间接法

44、:采用标准年龄组别死亡率与相互比较的两组年龄组别人口数计算求得的死亡率。第九章 卡方检验(一)概念: 检验两组(或几组)率或构成比差异是否有统计意义(样本量不限)。行与列两个顺序变量之间是否相关。卡方检验的基本思想反映了实际频数和理论频数吻合的程度。如果检验假设成立,则实际频数与理论频数之差一般不会很大,出现大的卡方值的概率是很小的基本公式: n =(r-1)(c-1)x2检验的专用公式法连续性较正公式: 条件:当四格表中有任一格子理论数1t5,同时总例数n40, 配对四格表资料x2检验 配对四格表资料的关联性分析 四格表精确检验法条件:四格表资料中若 n40,或有任一格子理论数t2 or c

45、2l 两个以上的率的比较l 两个或多个构成比的比较l 按两种属性分类的频数表资料的关联性分析计算公式:行 列表分类资料的关联性分析pearson列联系数r : 列联表卡方检验的注意事项:(1) r*c 表中4/5以上格子的理论数应该5; 假设1/5以上格子理论数小于,a. 增加实验样本含量b. 相邻行或列数字合并;c.删除所在行或列的数据d.直接计算概率(2) x2 检验的结果接受1时仅提示所比较的各组总体来说有差别,但不能表示其间任一两者间有差别,也不表示差别的强度 (3)对于顺序变量,用秩和检验更合适卡方检验(二)多个样本率间的多重比较bonferroni法: 行乘列表资料的分类和相应检验

46、目的及方法:a、对于双向无序行乘列表资料若研究目的为多个样本率(或构成比)的比较,可用行列表资料的检验;若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时,可用行列表资料的检验以及pearson列联系数进行分析。 b、单向有序行乘列表资料 有两种形式一种是表资料中的分组变量(如年龄)是有序的,而指标变量(如传染病的类型)是无序的。其研究目的通常是分析不同年龄组各种传染病的构成情况,此种单向有序表资料可用行列表资料的检验进行分析。另一种情况是表资料中的分组变量(如疗法)为无序的,而指标变量(如疗效按等级分组)是有序的(列为顺序变量)。其研究目的为比较不同疗法的疗效,此种单向有序表资料

47、宜用行平均分检验或秩转换的非参数检验进行分析。c、双向有序属性相同的行乘列表资料 资料中的两个分类变量皆为有序且属性相同。实际上是配对四格表资料的扩展,即水平数3或以上的配伍资料,如用两种检测方法同时对同一批样品的测定结果。其研究目的通常是分析两种检测方法的一致性,此时宜用一致性检验或称kappa检验。d、双向有序属性不同的行乘列表资料资料中两个分类变量皆为有序的,但属性不同,对于该类资料,若研究目的为分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序表料,选用秩转换的非参数检验;若研究目的为分析两个有序分类变量间是否存在相关关系,宜用行列平均分检验计算或等级相关分析(spearman等

48、级相关)或pearson积矩相关分析。 若研究目的为分析两个有序分类变量间是否存在线性变化趋势,宜用有序分组资料的线性趋势检验。e、多层列联表的分析 -mantel-haenszel analysis分层分析,按资料多来源(多中心,多地区),性别,年龄等分层校正。多层2 r:分层分析时,每层有一个2 r表形成多层2 r表。求校正的c2smh加权c2检验 -(率的cochran检验)内部构成不同的两个率差别的统计意义检验,用此法最合适!第十章 二项分布与普哇松分布三种分布的比较二项分布:从阳性率为的总体中随机抽取许多大小为n的样本,则出现阳性数为x(x=0,1,2,3,n)的样本的分布呈二项分布

49、。二项分布的条件:1、 各事件是相互独立的2、 各事件是相互排斥的,适于非遗传,非传染性疾病二项分布的形态:当阳性率0.5时,分布是对称的;当0.5时,分布是偏态的,但n增大时可趋于对称;1、n 50且np和n(1-p)均5时(同率utest),二项分布近似正态分布: 1)可信区间:可用p1.96sp 2) 样本率与总体率,样本率之间的比较用utest2、一般当n5时,二项分布是偏的,不能用以上方法二项分布的应用:1、 计算概率大小,判断疗效2、 求总体率的可信区间:n50且 np 和n(1-p)均0.05),则不能认为该病具有家族聚集性。普哇松分布是指单位时间,单位空间或单位容积中颗粒数或某

50、罕见事件发生数的概率分布。条件:各事件是相互独立的与二项分布的比较:(1) 当总体比例很小,样本含量n趋向于无穷大时(重复次数n100,每次出现概率50),poission分布越接近正态分布。(二项,poission,正态三角) 二项分布 正态分布n100, but p50) poisson分布3、 可加性:如果x1,x2,xn是从poission分布总体中(可以是相同或不同的总体)随机抽取的样本中的计数,则它们之和也服从poission分布;4、 总数的分布也属poission分布:每小格的计数是poission分布,共有400个格子计数。若以此400格为一单元进行观察,则每400格的计数的

51、分布也属poission分布。总体均数的可信区间:1、 当样本计数x50时,用poission分布法即查表法2、 当x50时,用近似正态分布法(1.96,2.58)计数差别的检验:1、 样本计数与总体计数:(1)较小时,poission分布确切概率法(2)较大时(50),近似正态法 ; 2、 两样本计数(不同情况采用不同公式):(1)时间或体积单位相同;又包括x1,x220和x1,x2(5,20)(2)时间或体积单位不同第十一章 非参数检验参数检验:以特定的总体分布为前提,对总体参数进行假设检验的一类检验方法非参数检验:与参数检验比较,及优缺点是一种不依赖于总体分布的具体形式的统计方法,其比较的是分布,而不是参数,不受总体参数的影响。非参数检验的优点:(1) 适用范围广:适用于任意分布分布不明,偏态,方差不齐,半定量资料,数据一端无界限资料(2) 收集资料方便:可使用“等级”,“符号”等评定结果(3) 有较好的稳健性缺点:对适用参数检验的资料,采用非参数检验,则会损失信息,在小样本时降低检验效能power(即检验出相同大小的差异需要较多例数)配对资料:符号等级检验(查表法/公式法)两

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论