医学统计知识点整理_第1页
医学统计知识点整理_第2页
医学统计知识点整理_第3页
医学统计知识点整理_第4页
医学统计知识点整理_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医学统计学知识点整理第一节 统计学中基本概念一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。“同质”是相对的,是客观事物在特定条件下的相对一致性,而 “变异”则是绝对的二、总体与样本1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。2、样本:是从总体中随机抽取的部分观察单位变量值的集合。三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。 用希腊字母表示。卩& n样本统计量:根据样本个体值统计计算出来的描述样本的特征量。 用拉丁字母表

2、示。X.S.p总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数, 包括区间估计和假设检验四、误差:实测值与真值之差1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。 随机测量误差、抽样误差。2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可 知的或可能掌握的。3.非系统误差:过失误差,可以避免或清除。五、概率是用来描述事件发生可能性大小的一个量值,常用 P表示。概率取值01。统计上一般将pw 0.05或pw 0.01的事件称为小概率事件,表示其发生的概率 很小,可以认为在一次抽样中不会发生。第二节统计资料的类型变量:确定总体之后

3、, 研究者应对每个观察单位的某项特征进行观察或测量, 这 种特征能表现观察单位的变异性,称为变量。一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。 表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g) 等。二、无序分类变量资料又称为定性资料或计数资料: 将观察对象按观察对象的某种类别或属性进行分组 计数,分组汇总各组观察单位后得到的资料。分类:二分类: + -;有效,无效; 多分类: ABO 血型系统 特点:没有度量衡单位,多为间断性资料【例题单选】某地A、B、O AB血型人数分布的数据资料是()A.定量资料B.计量资料C.计

4、数资料D.等级资料【答案】 C【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。 因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选 C。【例题单选】测量正常人的脉搏数所得的变量是()A.二分类变量B.多分类变量C定量变量D.定性变量【答案】 C【解析】脉搏数有数值大小, 有度量衡,所以这个资料属于定量资料。 本题选 C。三、 有序分类变量资料半定量资料或等级资料: 将观察对象按观察对象的某种属性的不同程度分成等级 后分组计数,分组汇总各组观察单位后得到的资料。特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同 举例: - + + +第三节

5、统计工作的基本步骤 1.统计设计2.收集资料3.整理资料4.分析资料:统计描述:是利用统计指标、 统计表和统计图相结合来描述样本资料的数量特征 及分布规律。统计推断:是使用样本信息来推断总体特征。 统计推断包括区间估计和假设检验。 第四节 统计表与统计图 一、统计表统计表的基本结构与要求 标题:高度概括表的主要内容,时间、地点、研究内容,位于表的上方,居中摆 放,左侧加表的序号。标目:横标目和纵标目。 线条:通常采用三线表和四线表的形式。没有竖线或斜线。数字:表内数字一律用阿拉伯数字。同一指标,小数位数应一致,位次对齐。无 数字用“一”表示。暂缺用“表示。“0为确切值。备注:位于表的下面,通常

6、是对表内数字的注解和说明,必要时可以用“ *”等 标出。一张统计表的备注不宜太多。二、 制表原则 重点突出,一个表一个中心内容 主谓分明,层次清楚简单明了,一切文字数字线条尽量从简 【例题单选】统计表内不列的项是 ()(2010.7 )A.标目 B. 线条 C. 数字D.备注【答案】 D【解析】统计表内备注位于表的下面,不列在统计表内,所以本题选择D。三、 统计图1.(1)标题 (2)标目(3)刻度( 4)图例:不同颜色或者不同线条表示,需 要说明。2.常用统计图的适用条件与要求(1)条图:适用于比较、分析独立的或离散变量的多个组或多个类别的统计指 标。0(2)圆图和百分比条图:构成比的比较(

7、3)线图:描述某统计量随另一连续性数值变量变化而变化的趋势。(4)直方图:数值变量的频数分布。(5)散点图:用点的密集程度和趋势描述 2个变量间的数量关系(6)箱式图:多组数据分布的比较(7)统计地图:用不同的颜色和花纹表示统计量的在地理分布上的变化,适宜 描述研究指标的地理分布。【例题填空】描述某地十年间结核病死亡率的变化趋势宜绘制 _图。【答案】线图数值变量资料的统计分析第一节数值变量资料的统计描述一、频数分布表1.编制步骤(1)计算全距(2)确定组距(3)划分组段(3)统计频数(4)确定频率与累 计频率2.频数分布表的主要用途:(1)揭示资料的分布类型 (2)观察资料的集中趋势和离散趋势

8、(3)便于发 现某些特大或特小离群值(4)便于进一步计算统计指标和作统计处理二、集中趋势指标数值变量资料的集中趋势指标是用平均数来描述的, 代表一组同质变量值的平均 水平。常用的有算术均数、几何均数和中位数。1算数均数适用于对称分布(正态分布)或者近似对称分布的资料。习惯上以卩表示总体均数,以表示样本均数。2. 几何均数 数值变量呈倍数关系或者呈对数正态分布,如抗体效价及抗体滴 度,某些传染病的潜伏期、细菌计数等,宜用几何均数(G)。几何均数常用于 等比资料或对数正态分布资料。3.中位数 是指将一组变量值从小到大排列,位次居中的观察值就是中位数。适用条件:变量值中出现个别特别大或特别小的数值;

9、偏态分布资料;数值一端或两端无确定数值;资料类型不明。4.百分位数 是一种位置指标,以Px表示,把一组数据从小到大排列后,理论 上有x%的变量比Px小,有(100-x) %的变量值比Px大【例题单选】描述正态分布资料集中趋势的指标是(A.中位数B几何均数C算术平均数D.标准差【答案】C【解析】算数均数适用于对称分布或者近似对称分布的资料。几何均数常用于等比资料或对数正态分布资料。中位数适用条件:变量值中出现个别特别大或特别 小的数值;偏态分布资料;数值一端或两端无确定数值 ;资料类型不明。标准 差描述数据的离散趋势指标。所以本题选择 Co三、离散趋势指标1.极差和四分位数间距极差:简记为R,亦

10、称全距,即一组变量值中最大值与最小值之差,反应变量值 的离散范围。四分位数间距Q: 般和中位数一起描述偏态分布资料的分布离散趋势的平均离散情况。标准差是方差的正平方根。用途:s X X j X2 厶11n 1n 1(6未知)参数估计-用样本指标估计总体指标假设检验3.方差和标准差:方差表示样本观察值的离均差平方和的均值。表示一组数据 卩值,曲线沿着X轴平行移动,其形状不变,故卩称为位置参数。标准差C描述 了正态分布的离散程度,若固定卩,6越小,曲线越陡峭;反之,6越大,曲线 越平坦故C称为形状参数或离散度参数。(4)正态曲线下的面积分布有一定的 规律。4.正态曲线下面积的分布规律(二)医学参考

11、值范围的制定医学参考值:是指绝大多数正常人的人体形态、功能和代谢产物等各种生理及生 化指标常数,也称正常值。第二节 数值变量资料的统计推断一、均数的抽样误差与标准误抽样误差:由于个体变异和抽样造成的样本统计量与总体参数和样本统计量之 间的差异。均数的抽样误差:由于抽样造成的样本均数与总体均数和样本均数间的差异。 标准误:样本均数的标准差,用右来表示。、t分布t分布曲线以0为中心,vt分布为一簇单峰分布曲线,u不同,曲线形状不同s. vnsx 1t分布与u有关,u越小,t值越分散,t分布的峰部越低,而两侧尾部翘得越 高t界值表中一侧尾部面积称单侧概率 (a )两侧尾部面积之和称双侧概率(a /2

12、) 如:t0.05/2,9=2.262 , t0.05,9=1.833在相同自由度时,丨t I值增大,a减小 在相同a时,单尾a 对应的t值比双尾a 的小三、总体均数的区间估计总体均数置信区间(可信区间)的计算统计描述区间估计:是按预先给定的概率(1-a )所确定的包含未知总体参数的一个范围(一) 小样本或c未知-按t分布,-1(二) 1已知 c U分布 一乐,瓦+ %血、口2.c未知,但大样本(n60 )-按 u分布四、假设检验的意义和基本步骤假设检验:先对总体的参数或分布做出某种假设,再用适当的统计方法根据样 本对总体提供的信息,推断此假设应当拒绝或不拒绝。基本步骤:1、建立检验假设,确定

13、检验水准(1)Ho:(无效假设) 卩=e(2)Hi:(备择假设) 吋(JO ,卩o(或 卩0 x(3)确定检验水准 a =0.052选定检验方法,计算检验统计量3.确定P值,作出推断结论第三节 均数的t检验与u检验t检验应用条件:样本与总体/两样本均数的比较 当n 60且n2 60)五、 假设检验应注意的问题1、 假设检验应有严格的抽样设计 -同质2、 要注意选用的假设检验方法的应用条件3、 正确区分差别有无统计意义与有无专业上的实际意义4、 结论不能绝对化5、 假设检验的单侧检验与双侧检验的选择 假设检验的两类错误第I类错误:拒绝实际上成立的 Ho,犯第I类错误的概率大小为 a第U类错误:不

14、拒绝实际上不成立的 Ho,犯第U类错误的概率为 俟当样本含量n 定时,a越小,B越大;若想同时减少a和B,只有增大样本 含量。1- P称为假设检验的功效当所研究的总体与Ho确有差别时,按检验水准 a能够发现它(拒绝Ho)的概率。分类变量资料的统计分析第一节分类变量资料的统计描述、常用相对数率:说明某现象发生的频率或强度。 构成比:说明某一事物内部各组成部分所占的比重或分布。 相对比:说明一个指标是另一个指标的几倍或百分之几。 【例题单选】某医院住院病人中有 15的胃癌患者,该 15是()A.患病率B.发病率C构成比D相对比【答案】C【解析】 15的胃癌患者指的是胃癌患者占住院病人的 15%,所

15、以是构成比。 【例题填空】构成比是说明 _或分布指标。率是说明 _或强度的指标。【答案】比重;频率二、应用相对数时应注意的问题 (2011.7简答题)1.计算相对数时,观察单位数应足够多2.分析时不能以构成比代替率3.相对数的相互比较应注意可比性,不具有可比性应进行标准化4.样本率或构成比的比较应做假设检验第二节分类变量资料的统计推断一、 率的抽样误差与标准误二、 总体率的区间估计1.查表法:当n较小,如nW50,特别是p接近与0或1时(小概率事件),按 二项分布原则估计总体率的可信区间。2.区间估计正态近似法:当样本含量n足够大,样本率p或1-p均不太小时如np和n(1-p)均大于5,样本率

16、的分布近似正态分布,总体率可信区间在(1-a) 可信度下,估计为:P Ua /2Sp例:总体率95%勺可信区间:P 1.96Sp;总体率99%勺可信区间:P 2.58Sp三、 两总体率之差的区间估计条件:当样本含量 n 足够大,样本率 p 或 1-p 均不太小时,即 np 和 n(1-p) 均大于 5,样本率的分布近似于正态分布 (p 1-p 2 -u a /2 Sp1-p2 ,(p 1-p 2 +u a /2 Sp1-p2 )(二)四格表资料的X检验的校正公式(A T0.5)2T或四、率的u检验(一) 样本率与总体率比较的 u检验(二) 两样本率比较的u检验第三节 X检验一、四格表资料的X检

17、验(一)四格表资料的X检验的基本思想假设两组资料率的差异来自抽样误差,用 X1值反映实际频数和理论频数吻合 的程度。在Ho (n 1= n 2)成立的条件下,实际频数与理论频数相差不应该很大, 若实际算出的X 2值较大,超过了设定的检验水准,则有理由怀疑 Ho的真实性, 从而拒绝Ho,接受Hi (Hi: n 1工冗2)应用:推断两个(或多个)总体率或构成比之间是否有差别和多个样本率间的多重比较、四个表资料的卡方检验 四个表X检验基本公式: 四个表X检验专用公式:适用条件:两样本率比较时, 总例数n40且所有格子T5配对设计四个表卡方检验公式:若 b+c 401 (ad bc n/2)2n(a

18、b)(c d)(a c)(b d)1.当n40且所有的T5时,用X检验的基本公式或四格表资料X检验的专用公式;当a时,改用四格表资料的Fisher确切概率法。2.当n40但有 K T5时,用四格表资料X检验的校正公式或改用四格表资料的Fisher确切概率法3.当nv40,或Tvl时,用四格表资料的Fisher确切概率法。(三)四格表资料的确切概率法四格表资料的Fisher确切概率法是一种直接计算概率的方法,理论依据是超几 何分布,四格表资料的确切概率法不属于 X检验的范畴,常作为四格表资料假 设检验的补充。二、配对四格表资料的X检验八 b , v =1若 b+cv 40/ =叫4,v =1三、

19、行x列表资料的 X检验用于多个样本率的比较,两个或多个构成比的比较理论频数不应小于1,K T5的格子数不应超过总格子数1/5多个样本率比较,若所得统计推断为拒绝 H0,接受H1时,只能认为各总体率之 间总的来说有差别,但不能说明任两个总体率之间均有差别。一般的X 2检验不适用于有序分类资料(等级资料)一一等级” 程度” 优劣 的比较分析。因为检验只利用了两组构成比提供的信息,损失了有序指标包含 的等级”信息。第四节 秩和检验秩和检验是将定量数据从小到大、等级从弱到强或从强到弱转换成秩后,求秩和,计算检验统计量一一秩统计量,做出统计推断。应用:? 不满足t检验条件的数值变量资料? 有序分类变量资

20、料(等级资料)? 分布类型不明? 一端或二端无确定数值? 任何分布类型的资料秩和检验应用中的注意事项(1)秩和检验一方面由于其方法的稳健性而具备不受总体分布限制,适用范围广 的优点,但另一方面,在秩转换的过程中损失了原数据的部分信息。如果已知计量资料满足(或近似满足)t检验应用条件,这时若选秩和检验,由于没有充分 利用资料提供的信息,会降低检验效能。即当 Ho不真时,秩和检验将不如t检 验能较灵敏的拒绝H。,犯第2类错误的概率要比t检验大。(2)对于计量资料,若满足正态和方差齐性条件,应选t检验对总体均数作假设检 验;当资料偏离假定条件时,选用秩和检验才是可靠的。(3)对于大样本资料,通过把原

21、变量值或等级转换成秩后,可采用t检验方法对平均秩次进行检验。【例题填空】等级资料的比较宜选用 _检验。【答案】秩和【例题简答】秩和检验的优点【答案】秩和检验适合任何分布的资料;具有较好的稳健性。第十八章直线回归和直线相关第一节直线回归用于分析两变量间依存变化的数量关系一、直线回归方程式中的X为自变量;式中的是由自变量 X推算应变量丫的估计值。a是回归直线在丫轴上的截距,即X=0时的丫值;b为样本的回归系数,即回归直线的斜率,表示当 X变动一个单位时,丫平均变 动b个单位。a和b的估计常用最小二乘法原则所有的点离回归线的纵向距离最近;回归线必然通过T丫)求回归方程的的步骤: 在普通坐标系中作散点图,看是否有直线趋势。 求X、丫的离均差乘积和Ixy及X、丫的离均差平方和Ixx、lyy 求a和bb虫 (X艮)(丫 丫) 列出回归方程:=a+bW X r【例题填空】直线回归是分析间数量关系的统计方法。(2011.4)X Y【答案】两个变量丫n2二、总体回归系数的假设检验)nt检验法判断b是否来自回归系数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论