浙大统计——描述统计_第1页
浙大统计——描述统计_第2页
浙大统计——描述统计_第3页
浙大统计——描述统计_第4页
浙大统计——描述统计_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医学统计学与电脑实验736049bb39728b8e1ac064772936963f.pdf 12 / 8第一章 描述性统计中山大学公共卫生学院 医学统计学与流行病学系 骆福添重点12公式1-1 1-3 1-5 1-71-2 1-4 1-6 1-8变量与数据频数表与直方图样本平均水平的度量样本变异的度量相对数与率的标准化 医学研究可搜集到一批原始数据,如某地120名正常成年男子rbc数如下表。 面对这大小不一的120个数据,无论多认真审视也说不清这些rbc数的情况怎样、特征如何。 如果算得平均数为4.71(1012/l),即知:尽管这120个数据大小不等,但集中在4.71左右。这就是统计描述,

2、平均数4.71便是此样本数据的一个特征数。 统计描述就是描述样本数据的特征。用表、图和指标来描述样本数据的特征。例1.4 某地120名正常成年男子红细胞数(1012/l)t165.125.134.584.314.094.414.334.584.245.454.324.844.915.145.254.894.794.905.094.645.145.464.664.204.213.735.175.795.464.494.855.284.784.324.945.214.685.094.684.915.135.263.844.174.563.526.004.054.924.874.284.465.03

3、5.695.254.565.534.584.864.974.704.284.375.334.784.755.395.274.896.184.135.224.444.134.434.025.865.125.363.864.685.485.314.534.834.113.294.184.134.063.424.684.525.193.705.514.644.924.934.903.925.044.704.543.954.404.313.774.164.585.353.715.274.525.214.374.804.753.865.69第一节 变量与数据一、变量的类型1)连续型变量与计量资料:测量结

4、果的记录(y)2)离散型变量与计数资料:清点数目的记录(x)3)有序变量与等级资料:半定量测量的结果(z) 与变量有关的概念:* 变异:许多医学现象的表现因人而异,称为变异。* 变量:表示个体某种变异特征的量称为变量。* 变量值:是指个体某种变量的观察值。二、数据的结构与特点1)基本观察单位:又称为个体,上述例01中每个病人为一个观察单位(眼、家庭、班级)。2)记录项目:表1.1 100名高血压患者治疗后的临床记录患者编号年龄(岁)性别治疗分组收缩压(kpa)舒张压(kpa)心电图疗效评定 变量(名)137男a药18.6711.47正常显效245女对照20.0012.53正常有效变量值343男

5、b药17.3310.93正常有效(观察值)459女对照22.6714.67异常无效10054女b药16.8011.73正常有效连续离散离散连续连续离散有序变量类别第二节 频数表与直方图一、频数表1)分类频数表:表1.32)半定量频数表:表1.53)计量频数表:表1.6t16(变量类别有序)表1.3 108名病人中职业频数表表1.5 某药物疗效频数表类别频数频率(%)累积频数累积频率(%)类别频数频率(%)累积频数累积频率(%)工28 25.9 28 25.9治愈65 43.3 65 43.3农23 21.3 51 47.2有效45 30.0110 73.3兵24 22.2 75 69.4无效2

6、5 16.7135 90.0学18 16.7 93 86.1恶化15 10.0150100.0商15 13.9108100.0合计150100.0合计108100.0 欲了解上述某地120名正常成年男子rbc数的情况,不妨先将数据分组整理,而后分析其特征。 计量频数表编制步骤:找出最大最小值,求出全距:r=最大值最小值确定组距:i=r/10=(6.18-3.29)/10=0.2890.30分组段,用唱票划记法统计各组段的频数 由组段和频数两栏组成的整理表称为频数分布表,简称频数表。 从表1.6的第1,3栏可见:120名正常成年男子rbc数在4.85(4.70组的中点)上下;变异度(离散趋势)不

7、大,即频数的变化较平稳;对称性较好。 频数表适用于大样本,一般分10组左右,组段下限及间隔取方便数,第一组段包含最小值,最后组段右端封口。二、频数图和直方图1)频数图:将频数表数据在直角坐标系上绘制成图便称为频数分布图,简称频数图,其意义同频数表,但较直观。2)直方图:计量频数表作图时,以方块的面积(不是高度)表示频数的多少,称为直方图(图1.3)。3)频数表与频数图的意义较具体地、直观地描述一组数据的分布特征;便于发现可疑的异常值;有助于正确选用统计指标和便于计算。t16_表1.6 120名正常成年男子红细胞计数的频数表t14f13组段划记频数频率(%)累积频数累积频率(%)(1)(2)(3

8、)(4)(5)3.20一 2 1.7 2 1.73.50正 5 4.2 7 5.93.80正正10 8.31714.24.10正正正正1915.83630.04.40正正正正2218.35848.24.70正正正正正2420.08268.35.00正正正正2117.510385.85.30正正11 9.211495.35.60正 4 3.311898.05.906.20一 2 1.7120100.0合计120100.0t16图1.3(a) 120名男子红细胞计数频数分布图第三节 样本平均水平的度量 常用平均水平指标,即平均数的种类:算术均数、几何均数、中位数(众数、调和均数)一、算术均数()

9、将例1.4的120个数据加起来再除以120得4.71(1012/l)便是习惯上说的平均数。统计学上称之为算术平均数,简称均数。1.直接法:(1.1)式中n为例数,是求和符号(大写希腊字母,念sigma)。 均数的适用条件:数据呈对称分布,尤其是正态分布(后述) 均数的意义:均数位于分布的中心位置,反映全部观察值的平均水平,又称集中趋势。2.加权法:表1.7 120名正常成年男子红细胞计数加权平均演算表组段组中值(x)=权重频数(f)频率(f/n)权重系数组中值频率i(1)(2)(3)(4)=(3)/120(5)=(2)(4)= (2) (3)/120=xi*fi/n3.203.35=(3.20

10、+3.50)/220.0170.05583.503.6550.0420.15213.803.95100.0830.32924.104.25190.1580.67294.404.55230.1920.87214.704.85240.2000.97005.005.15210.1750.90135.305.45110.0920.49965.605.7540.0330.19175.906.206.0510.0080.0504合计1201.0004.6950权w2=0.3权w1=0.1155重x1=15重x2=5权重=权重(w1x1=w2x2) 权重系数重=(f/n)x(1.2)本教材公式其他教材公式t

11、004二、几何均数 有些医学资料如抗体滴度,呈倍数关系,算术均数不能反映其平均水平。例如,抗体滴度:4, 8, 16, 16, 64, 128算术均数=39.3,代表性很差。 几何均数:(1.3)(1.4)式(1.2)与(1.3)是等价的,式(1.3)更易体现“几何”的含义。三、中位数(md):median 有些医学资料如发汞、潜伏期、住院天数等,分布是偏态的(图1.4),算术均数或几何均数都不能反映其平均水平。 数据从小到大顺序排队后,位于正中间的数值称为中位数。1)直接法:n为奇数:n为偶数:2)频数表法:近似法(线性插值法或等份插值法)表1.8 某地居民发汞(mol/kg)频数表组段频数

12、累积频数组中值(1)(2)(3)(4)120202366 86 (fa)4(a)5(b)60 146 (fb)67 4819489182121011162281213623414151235161712361819323920合计239(1.5)md所在组段下限值组距平分为fm等份md需补加的份额数1计算中位数所对应得名次n/2(239/2=119.5) 2从累计频数中找到改名次所对应的组段记为ab,该组段两端点所对应得累积频数记为fafb 3根据公式可估计n/2名次所对应得数值即中位数 你说的是对的,而且中位数所对应的名次可以不是整数第四节 样本变异的度量 前述平均数是样本数据的特征值(代表

13、值),如均数4.71代表例1.4的120个数据。ex-01 有两组男子身高如下,其均数相等,问两组身高(特征)是否一样?甲组:170, 175, 180, 185, 190均数=180 (cm)乙组:160, 170, 180, 190, 200均数=180 (cm)解:不完全一样,因其变异程度不同 (图001)。 可见,平均数只反映了数据分布(中心)位置方面的特征(平均水平);数据分布的形状特征(变异度)应该有另一指标来表示。 常用的变异度指标有如下4种:一、极差或全距(r)r=最大值最小值。其效果“极差”,因最大与最小值稳健性最差,即:若反复抽样,所得的r值差别很大(如潜伏期)。 极差(r

14、)的适用情况:一般用于小样本非正态资料变异度的描述。如急性食物中毒的潜伏期、考古学观察值等。二、四分位数间距(q) 百分位数(xp)解释: 设有50个数据,从小到大排队,数据在队列中的顺序位置用百分数p表示,如队列中第五个数据的位置为10%,第六个数据的位置为12%,第五十个数据位置为100%,则称第五个数据的值为10百分位数,第六个数据的值为12百分位数,。百分位数是一种位置指标(其它参考书记为px, percentile)。ex-02 设有100个观察值如表002,表002 发汞100个数据从小到达排队及其百分位数序号观察值百分位数符号序号观察值百分位数符号11.101百分位数x121.1

15、22百分位数x2757.33上四分位数x752.51.132.5百分位数x2.531.143百分位数x39517.5595百分位数x9541.304百分位数x49617.9596百分位数x9651.815百分位数x59718.0097百分位数x9797.518.297.5百分位数x97254.22下四分位数x259818.4098百分位数x989919.2099百分位数x99506.12中位数md10019.50 重要的几个百分位数:1)中位数:即50百分位数,指md的数据占50%2)下四分位数:即25百分位数,指x25的数据占25%3)上四分位数:即75百分位数,指x75的数据占75%4)其

16、它:5百分位数、95百分位数,2.5百分位数、97.5百分位数(估计参考值范围)。 百分位数计算公式:由于n一般不会恰好等于100,因此,不论直接法或频数表法,常用线性插值法计算,其公式为(1.6)前述中位数的计算公式(1.5)实际是式(1.6)的一个特例,即当p=50时,式(1.5)与式(1.6)等价(全等)。 百分位数计算步骤:ex-03 计算例1.5(表1.7)的下、上四分位数。解:即计算x25与x751)找到p百分位数对应的名次,np%,本例23925%=59.7523975%=179.25(保留小数位)2)找到该名次所在组段(位置),记为ab,本例x25在组段“3”,a=3,b=5x

17、75在组段“7”,a=7,b=93)找到a和b对应的累计频数,记为fa,fb,本例x25的fa=20,fb=86x75的fa=146,fb=1944)代如式(1.5)计算:下、上四分位数为 四分位数间距(q)定义与计算公式:q=x75x25本例:q=8.39-4.20=4.19 (m mol/kg) 四分位数间距(q)的意义:表示分布于中间的一半数据的变异范围。其稳健性比前述的极差r好很多,因中间半数数据的稳健性较好。 四分位数间距(q)的适用情况:多用于大样本非正态资料变异度的描述。如住院天数、慢性病潜伏期等。三、方差与标准差 前述的极差r与四分位数间距q都是依据2个数值计算,只利用了样本的

18、小部分信息,稳健性总是不理想的。 理想的变异度指标应能利用样本中每一个数据的信息,方差与标准差符合此要求。1)样本方差(s2): 整个样本的变异由每一个个体提供的,个体的变异可由离均差的平方来表示,即 定义:整个样本的平均变异度便称为方差(s2),即总体方差:(1.7)分母“n1”称为自由度,数理统计学家认为,若为小样本,以n来求均值,估计的方差偏大,故用n-1作分母(无偏估计)。 应用公式:(1.8)式(1.8)是由式(1.7)推导出来的,两者完全等价,但式(1.8)在计算上比式(1.7)方便得多。2)标准差(s):方差的平方根称为标准差。即 对例1.4求得:s2=0.32;s=0.57(1

19、012/l) 方差是平方值,不便与均数联合应用;而标准差便可直接与均数联合应用。 标准差的适用条件:正态分布资料(后述)。 标准差的应用:( 标准差表示平均差别大小)常与均数联合在一起,用于描述一组数据的变异程度,表达格式为。例1.4均数与标准差分别为4.71和0.57,可表达为4.710.57四、变异系数(cv)ex-03 测得正常青年男子身高为1706(cm),体重为607(kg),其身高与体重何者变异度大?解:两者标准差单位不同、均数差别很大,不可比。 变异系数公式:(1.9) 变异系数意义:消除标准差的量纲(单位)及均数的影响,使之具有广泛的可比性。 计量资料统计描述指标的选用(一般原

20、则):(1)均数与标准差:描述一般的生理指标数据;(2)几何均数(不计算变异度指标):主要用于抗体滴度的描述;(3)中位数与四分位数间距:主要用于描述潜伏期、住院时间、微量元素含量。第五节 相对数与率的标准化一、比、比率和速率:1)比(ratio):又称相对比,即两个指标之比,如男女性别比。2)比率(proportion):一般指构成比,用于表示某部分在全体中所占的比重。如肿瘤死亡占全部死亡的百分比为3)速率(rate):又称频率指标,简称为率,表示事件发生的强度或严重程度,如发病率、患病率、死亡率,等。 率在应用中常出现定义不严谨问题,但须知率的可比性是第一位的,尤其卫生管理部门要求的指标,

21、千万不可自作主张修改计算公式。二、粗死亡率不可比较:是指粗死亡率受影响的因素多,如性别和年龄构成,等。 见下表表1 两个地区的年龄别死亡率资料年龄组(岁)a 地 区b 地 区年中人口数(千人)死亡数(千人)死亡率()年中人口数(千人)死亡数(千人)死亡率()(1)(2)(3)(4)(5)(6) (7) 0 400 2 5.0 288 1 3.515200010 5.0 238 1 4.230200015 7.5 794 5 6.345 800 8 10.02000 18 9.060 40016 40.02000 70 35.075 8012150.0 300 36120.0合计568063 1

22、1.15618131 23.3*直接比较粗死亡率是不行的。*分别在各年龄组中比较死亡率最合理。三、标准化方法:1、表1.9分析:粗看:合计死亡率a地区低于b地区细看:各年龄别死亡率a地区高于b地区原因:年龄因素干扰表1.9 两个地区的年龄别死亡率资料 t110 t19a年龄组(岁)a 地 区b 地 区年中人口数(千人)死亡数(千人)死亡率()年中人口数(千人)死亡数(千人)死亡率()(1)(2)(3)(4)(3)/(2)(5)(6) (7) 0 400 2 5.0 288 1 3.515200010 5.0 238 1 4.230200015 7.5 794 5 6.345 800 8 10.

23、02000 18 9.060 40016 40.02000 70 35.075 8012150.0 300 36120.0合计56806311.1粗死亡率不可比较5618131 23.31)直接法:假如样本的年龄别死亡率发生在某个标准人口的话,(以标准人口为权重系数)推算的、期望的、理论上的合计死亡率称为直接法标准化率。 标准化方法旨在产生一个可比的综合指标 “ 标准人口”: 全国 或 全省 或 两地之和 “ 标准人口”的期望死亡人数及其合计值直接法标准化死亡率 = “ 标准人口”的期望粗死亡率例:用两地人口之和为标准人口,对表1的资料按直接法标准化后考察两地的死亡威胁何者为大。表1.10 两

24、个地区的直接法标准化死亡率t19 t19a年龄组(岁)标准人口数(千人)=表1.9中(2)+(5)a 地区b地区死亡率()表1.9中(3)/(2)期望死亡人数(千人)死亡率()期望死亡人数(千人)(1)(2)(3)(4)=(2)(3)(5)(6)=(2)(5)0688=400+2885.03.433.52.401522385.011.194.29.403027947.520.966.317.60452800010.028.009.025.206024004096.0035.084.0075380150.057.00120.045.60合计1129819.2=216.58/11298100021

25、6.5816.3=184.20/112981000 184.202)间接法:假如样本的死亡数按某个标准的年龄别死亡率分配到各个年组的话,推算的、期望的、理论上的合计死亡率称为间接法标准化率。“ 标准年龄别死亡率” : 全国 或 全省 或 两地联合估计 实际人口的期望死亡人数及其合计值 标准死亡比(standard mortality ratio) smr= 实际死亡人数期望死亡人数 间接法标准化死亡率 = smr ( 标准粗死亡率 )表1.11 两个地区的间接法标准化死亡率年龄组(岁)标准死亡率()a地区b地区年中人口数(千人)期望死亡数(千人)年中人口数(千人)期望死亡数(千人)(1)(2)

26、(3)(4)=(2)(3)(5)(6)=(2)(5)0 4.3 400 1.72 286 1.2315 4.62000 9.20 238 1.0930 6.9200013.80 794 5.4845 9.5 800 7.602000 19.0060 37.5 40015.002000 75.0075135.0 8010.80 300 40.50合计 17.258.12142.30a地:smr6358.121.084 (标化死亡比)间接法标准化死亡率17.21.08418.64()b地:smr131142.300.921;间接法标准化死亡率17.20.92115.84()比较两地的smr或比较两地的间接法标准化死亡率,可以认为a地的死亡威胁甚于b地。2 粗死亡率与标准化死亡率的实质 粗死亡率:是年龄别死亡率(x)的加权平均,权重是本地各年龄组人口数(构成比 wa) 权重为人口构成 直接法标化率:也是年龄别死亡率(x)的加权平均,权重是标准人群各年龄组人口数(构成比 wd) 权重为标准人口的构成 间接法标化率:标准组年龄别死亡率(x)的加权平均,权重是当地各年龄组人口数(构成比 w),标准粗死亡率的修正,修正系数为smr*宜选取多种“ 标准人口”和“ 标准年龄别死亡率”。结果具一致性时方可下结论。 权w2=0.3权w1=0.1155

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论