版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室第一章第一章医学统计学中的基本概念医学统计学中的基本概念叶孟良叶孟良2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 统计学(统计学(statistics):): 1.Statistics: A science dealing with the collection, analysis, interpretation, and presentation of numerical data. (Websters 国际大辞典国际大辞典) 2.Statistics:The
2、science and art of dealing with variation in data through collection, classification, analysis in such a way as to obtain reliable results. (John M. Last,流行病学词典流行病学词典) 总之,统计学是一门处理数据中总之,统计学是一门处理数据中变异性变异性的科学与艺术,内容的科学与艺术,内容包括包括收集收集、分析分析、解释解释和和表达数据表达数据,目的是求得可靠的结论,目的是求得可靠的结论一、绪论一、绪论 统计学思维和方法已经渗透到医学研究和卫生统
3、计学思维和方法已经渗透到医学研究和卫生决策之中,在科研的总体设计、资料的收集、整决策之中,在科研的总体设计、资料的收集、整理、分析直到最后得出结论都与之密切相关。理、分析直到最后得出结论都与之密切相关。 例:例: 1.北京某医院某大夫使用北京某医院某大夫使用“乌贝散乌贝散”治疗胃治疗胃溃疡出血溃疡出血107例,有效例,有效101例,有效率例,有效率94.4%,那么,那么别的医生也一定是别的医生也一定是94.4%吗?那么是吗?那么是多少多少?高还是?高还是低?(低?(求置信区间求置信区间)2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 2.重庆某医院有位
4、老大夫,用重庆某医院有位老大夫,用“冠心灵冠心灵”治疗治疗冠心病,其对照组用西药,观察结果如表冠心病,其对照组用西药,观察结果如表 表 冠心灵与单存西药疗效对比显效有效无效合计单纯西药925640冠心灵1918542请问:冠心灵是否比单纯西药有效?(涉及统计学中假设检冠心灵是否比单纯西药有效?(涉及统计学中假设检验的问题)验的问题)2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室二、医学统计工作的内容和资料的类型二、医学统计工作的内容和资料的类型1、医学统计工作的内容:、医学统计工作的内容: design (设计)collection data(收集)s
5、orting data(整理资料)analyzing data (分析资料)2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 design (设计)(设计) 根据研究目的制定研究方案 专业设计: 统计设计: 研究对象的选择(纳入与排除标准),样本量和样本取得的方法, 实验组与对照组的分组原则, 观察指标及其精度, 试验过程中的质量控制, 拟采用的统计分析方法等。2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室collection data(收集)(收集) 收集准确、完整、充满信息的原始资料 资料的来源: 专题试验(
6、实验)研究、流行病学调查等 常规登记资料:例如门诊病例、住院登记资料等 卫生工作报表2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室sorting data(整理资料)(整理资料) 把收集到的原始资料,有目的地进行加工,使资料系统化、条理化,以便进一步统计分析 归类 核查资料的完整性、可靠性(例如:漏项、逻辑性检查、专业合理性、专业一致性检查)2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室analyzing data (分析资料)(分析资料) 统计描述 统计分析 统计推断参数估计假设检验 把经过整理的资料做一系列
7、的把经过整理的资料做一系列的统计描述统计描述和和统计推统计推断断,阐明事物的特征和规律。,阐明事物的特征和规律。2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室2、type of data(资料的类型资料的类型) 两类: 定量(计量、数值变量定量(计量、数值变量)资料资料 定性(计数、分类变量)资料定性(计数、分类变量)资料2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室定量(计量、数值变量定量(计量、数值变量)资料资料 每个观察对象通过定量测定的方法都有一个确切的值,通常有单位,但也有例外(例如 淋巴细胞转化率)
8、。医学中:身高、体重、血压、血红蛋白值等 定性(计数、分类变量)资料定性(计数、分类变量)资料 按照研究对象的某个特征进行分组,然后分组计数所获得的资料。 例如:男 25 女352022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 无序分类资料:分组时表现为互不相容的类别 二分类:性别(男25 女35 有效 无效) 多分类:血型(A 10 B 5 AB 7 O 3)、职业 有序分类资料(等级资料):按照程度递增或递减 例: 癌症分期:早、中、晚。 药物疗效:治愈、好转、无效、死亡。 幽门螺旋杆菌感染程度 (- + + +)2022-3-152022-3-15
9、重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 判断资料类型的标准: 看每个观察对象是否有一个确切的值,有:计量 无:计数 资料可以由高级向低级转化(高精度向低精度),如 血压值 (正常、异常)住院号住院号年龄年龄身高身高体重体重住院天数住院天数职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局20256552025655272716516571.571.55 5无无中学中学顺产顺产足月足月20256532025653222216016074.074.05 5无无小学小学助产助产足月足月20258302025830252515815868.068.06 6管理员管理员大学大学顺产顺
10、产足月足月20225432022543232316116169.069.05 5无无中学中学剖宫产剖宫产足月足月20224662022466252515915962.062.01111商业商业中学中学剖宫产剖宫产足月足月20245352024535272715715768.068.02 2无无小学小学顺产顺产早产早产20258342025834202015815866.066.04 4无无中学中学助产助产早产早产20194642019464242415815870.570.53 3无无中学中学助产助产足月足月20257832025783292915415457.057.07 7干部干部中学中学
11、剖宫产剖宫产足月足月观察单位observations个体individuals变量variablesQuantitative data Quantitative data 计量资料计量资料Qualitative data Qualitative data 计数资料计数资料Units;elements2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室三、统计学中的几个基本概念 (一)同质与变异(一)同质与变异 (二)总体与样本(二)总体与样本 (三)参数与统计量(三)参数与统计量 (四)误差(四)误差 (五)频率与概率(五)频率与概率 2022-3-1520
12、22-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(一)同质与变异 homogeneity and variation 1 1、同质:同质:是指观察单位间被是指观察单位间被研究指标的影响因素相同研究指标的影响因素相同。如:。如:研究儿童的生长发育,规定的同性别、同年龄、同地区、研究儿童的生长发育,规定的同性别、同年龄、同地区、同民族、健康的儿童即为同质的儿童。同民族、健康的儿童即为同质的儿童。 研究目的条件下的性质相同研究目的条件下的性质相同 观察单位的研究特征为观察单位的研究特征为变量变量。 变量的观察结果为变量的观察结果为变量值变量值。2 2、变异:变异:性质相同的同质对象
13、的某个或某几个特征值不同。性质相同的同质对象的某个或某几个特征值不同。2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 同质与变异的例子 例例1 调查调查2006年重庆年重庆7岁男童的身高和体重岁男童的身高和体重同质同质:2006年、重庆市、年、重庆市、7岁男童岁男童变异变异:身高和体重各不相同:身高和体重各不相同 例例2 研究某降压药的疗效研究某降压药的疗效同质同质:高血压患者、用某药治疗:高血压患者、用某药治疗变异变异:疗效各不相同:疗效各不相同2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(二) 总体与样本
14、 population and sample总体总体:根据研究目的:根据研究目的确定的确定的同质同质研究对象研究对象的的全体全体(集合)。分(集合)。分有限总体有限总体与与无限总体无限总体样本样本:从总体中随机:从总体中随机抽取的部分观察单位抽取的部分观察单位 2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室代表性的条件代表性的条件 随机抽样 足够数量(样本含量) 样本的分布与总体的分布一致(构成)2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科
15、大学卫生统计教研室随机抽样 random sampling为了保证样本的为了保证样本的可可靠性靠性和和代表性代表性,需,需要采用随机的抽样要采用随机的抽样方法(在总体中每方法(在总体中每个个体具有个个体具有相同的相同的机会机会被抽到)。被抽到)。2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室足够数量:样本含量样本的结构分布与总体的分布特征一致 例如:欲研究重庆市7岁儿童的生长发育情况 总体:男107:女100 样本:应该接近或近似男107:女1002022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(三) 参数与统计
16、量 parameter and statistic参数参数:总体总体的统计指标,的统计指标,如总体均数、标准差,采如总体均数、标准差,采用希腊字母分别记为用希腊字母分别记为、。固定的常数固定的常数 样本样本抽取部分观察单位抽取部分观察单位 推断推断inference统计量统计量:样本样本的统计指标,如样本均数、标准差,采用拉的统计指标,如样本均数、标准差,采用拉丁字母分别记为丁字母分别记为 。 参数附近波动的随机变量参数附近波动的随机变量 。SX、2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(四) 误差 error误差误差:实际:实际观察值观察值与客
17、观与客观真实值真实值之差,之差,以及以及统计量统计量与与参数参数之差。之差。(1)系统误差)系统误差(2)随机误差)随机误差2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(1)系统误差 systematic error 在实际观测过程中,由受试对象、研究者、仪在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因造成的器设备、研究方法、非实验因素影响等原因造成的有有一定倾向性或规律性一定倾向性或规律性的误差。流行病学称之为的误差。流行病学称之为偏偏倚倚(bias)。)。 特点:观察值有特点:观察值有系统性系统性、方向性方向性、周
18、期性周期性的偏的偏离真值。离真值。 可以通过严格的可以通过严格的实验设计实验设计和和技术措施技术措施消除消除。2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(2)随机误差random error 排除上述误差后尚存的误差,受多种无法控制排除上述误差后尚存的误差,受多种无法控制的因素的影响。的因素的影响。 特点:大小方向不一的随机变化。特点:大小方向不一的随机变化。随机测量误差随机测量误差(random measurement error) 提高操作者熟练程度可以减少这种误差提高操作者熟练程度可以减少这种误差 随机抽样误差随机抽样误差( random s
19、ampling error):):由抽样造成的样本统计量和总体参数间的差异。由抽样造成的样本统计量和总体参数间的差异。不可避免,但有一定的分布规律,可估计。不可避免,但有一定的分布规律,可估计。(五)(五) 概率概率与与频率频率 probability and frequencyfrequency 确定性现象确定性现象:在一定条件下,在一定条件下,一定一定会发生或一定不会会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果发生的现象。其表现结果为两种事件:肯定发生某种结果的叫的叫必然事件必然事件;肯定不发生某种结果的叫;肯定不发生某种结果的叫不可能事件不可能事件。 随机现象随机现
20、象:在同样条件下在同样条件下可能可能会出现两种或多种结果,会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为究竟会发生哪种结果,事先不能确定。其表现结果称为随随机事件机事件。 随机事件的特征:随机事件的特征:随机性随机性;规律性规律性:每次发:每次发生的可能性的大小是确定的。生的可能性的大小是确定的。概率概率:随机事件发生的可能性大小,用大写随机事件发生的可能性大小,用大写的的 P P 表示,是一个稳定的值;取值表示,是一个稳定的值;取值00,11。2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室必然事件必然事件 P P = 1 =
21、1 不可能事件不可能事件 P P =0 =0 随机事件随机事件 0 0 P P 1 1 P P 0.05 0.05(5 5)或)或P P 0.01 0.01(1 1)称为称为小概率事件小概率事件( (习惯习惯) ),统计学上认为不大可能发生。,统计学上认为不大可能发生。小概率事件小概率事件2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 样本的实际发生率称为样本的实际发生率称为频率,频率,具有波动具有波动性性。设在相同条件下,独立重复进行。设在相同条件下,独立重复进行n次试次试验,事件验,事件A出现出现f 次,则事件次,则事件A出现的频率出现的频率为为f
22、 / n。 频率与概率间的关系:频率与概率间的关系: 样本频率总是围绕概率上下波动样本频率总是围绕概率上下波动样本含量样本含量n n越大,波动幅度越小,频率越接近概越大,波动幅度越小,频率越接近概率。率。频率 frequency2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 复习:复习: 总体与样本、统计量与参数、系统误差与抽样总体与样本、统计量与参数、系统误差与抽样误差误差1 1、 调查某地某年调查某地某年7 7岁正常男童的身高岁正常男童的身高2 2、 观察某人群脉搏数(次观察某人群脉搏数(次/ /分)分)3 3、 观察某人群脉搏数,定义脉搏数在观察
23、某人群脉搏数,定义脉搏数在6060次次/ /分分-100-100次次/ /分为正常,分为正常,60100100次次/ /分为分为异常,按异常,按“正常正常”与与“异常异常”分别清点人数得分别清点人数得到的资料到的资料2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室4 4、某单位职工体检、某单位职工体检101101名正常成年女子的血名正常成年女子的血清总胆固醇(清总胆固醇(mmol/Lmmol/L)5 5、某医院、某医院19981998年在某城区随机调查了年在某城区随机调查了85898589例例6060岁以上老人,体检发现高血压患者为岁以上老人,体检发现高
24、血压患者为28232823例,高血压患病率为例,高血压患病率为2823/85892823/8589* *100/%=32.87%100/%=32.87%2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室资料的统计描述资料的统计描述叶孟良2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室统计描述的意义统计描述的意义 社会活动看似杂乱无章,对个体来说社会活动看似杂乱无章,对个体来说有很多不确定性,但总体上都是服从一些有很多不确定性,但总体上都是服从一些统计规律的。统计规律的。 医学工作有很多数据,统计学描述就医学工作有很多
25、数据,统计学描述就是对这些数据进行加工和提炼,找出规律、是对这些数据进行加工和提炼,找出规律、预测未知。预测未知。 统计描述是最简洁有力的语言。统计描述是最简洁有力的语言。2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室概念:即用少量几个统计指标刻画出原始数概念:即用少量几个统计指标刻画出原始数据的特征称为统计描述。据的特征称为统计描述。计量资料的统计描述方法:计量资料的统计描述方法: (单变量单变量) 1. 通过频数表描述数据特征通过频数表描述数据特征 2.用统计指标用统计指标 定量描述数据的特征。定量描述数据的特征。 2022-3-152022-3-
26、15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室描述计量资料的统计方法有两类:描述计量资料的统计方法有两类: 统计图表:统计图表:主要是频数分布表(图主要是频数分布表(图) 统计指标:统计指标:定量描述数据的特征定量描述数据的特征2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室一、数值变量的频数分布(一)、频数分布表(一)、频数分布表频数分布表:将变量值分为不同数量的组段,清点频数分布表:将变量值分为不同数量的组段,清点各组段的例数。各组段的例数。意义:概括了解变量值在各组段的意义:概括了解变量值在各组段的分布和规律分布和规律。频数表的编制频数表
27、的编制 例:某年某市例:某年某市120120名名1212岁男童的身高(岁男童的身高(cmcm)资料如下,作)资料如下,作统计描述统计描述。2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 132.1 135.5 134.5 148.8 134.4 148.8 137.9 151.3 140.8 149.8 143.6 149.0 145.2 141.8 146.8 135.1 150.3 133.1 142.7 143.9 142.4 139.6 151.1
28、144.0 145.4 146.2 143.3 156.3 141.9 140.7 145.9 144.4 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8 150.0 142.1 143.5 139.2 144.7 139.3 141.9 147.8 140.5 138.9 148.9 142.4 134.7 147.3 138.1 140.2 137.4 145.1 145.8 147.9 146.7 143.4 150.8 144.5 137.1 147.1 142.9 134.9 143.6 142.3 143.3 140.2 125.9
29、132.7 152.9 147.9 141.8 141.4 140.9 141.4 146.7 138.7 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1 144.0 137.4 134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 146.5 145.4 129.4 142.5 141.2 148.9 154.0 147.7 152.3 146.6 139.2 139.92022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 1、求数据的、求数据的极差极差(range)
30、:): 极差是全部数据中的最大值与最小值极差是全部数据中的最大值与最小值之差,它描述了数据变异的幅度。之差,它描述了数据变异的幅度。本例本例极差极差: R=160.9-125.9=35cm2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 2、划分组段、划分组段(1)确定)确定组数组数: 制作频数表是为了简化资料,显示数据制作频数表是为了简化资料,显示数据的分布规律,因此组数不能太多。也不能太的分布规律,因此组数不能太多。也不能太少,太少会掩盖数据分布的规律。少,太少会掩盖数据分布的规律。 适宜的分组数与观察值的个数适宜的分组数与观察值的个数n的多少的多少
31、有关。有关。n为为30时,可分时,可分5到到6组,随着组,随着n的增加,的增加,分组适当增加,较大样本时,一般取分组适当增加,较大样本时,一般取10组左组左右。右。2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(2)确定)确定组距组距 一般采取等距分组。一般采取等距分组。 组距组距=极差极差/组数组数 本例组距本例组距=35/10=3.542022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(3)确定各组段的上下限:)确定各组段的上下限: 下限下限(low limit):每个组段的起点):每个组段的起点 上限上限(u
32、pper limit):每个组段的终点):每个组段的终点 上限上限=下限下限+组距组距 第一组段必须包含最小值,其下限一般取包含最第一组段必须包含最小值,其下限一般取包含最小值的较为整齐的数值。本例最小值为小值的较为整齐的数值。本例最小值为125.9,取,取125为第一组段的下限。其为第一组段的下限。其上限上限=125+4=129。 各组段不能重叠,每一组段均为各组段不能重叠,每一组段均为半开半闭区间半开半闭区间。2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 3、用手工或电脑编制画记表、用手工或电脑编制画记表2022-3-152022-3-15重庆医
33、科大学卫生统计教研室重庆医科大学卫生统计教研室 3、统计各组段内的数据频数得到频数表组段组段 划记划记 频数频数 f 频率(频率(%) 累计频数累计频数(1) (2) (3) (4) (5)125 一一 1 0.8 1 129 正正 4 3.3 5133 正正 正正 9 7.5 14137 正正正正正正正正正正正正 28 23.3 42141 正正正正正正正正正正正正正正 35 29.2 77145 正正正正正正正正正正正正 27 22.5 104149 正正一正正一 11 9.2 115153 正正 4 3.3 119157161 一一 1 0.8 120合计合计 120 1002022-3
34、-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 身高是一个连续变化的量身高是一个连续变化的量,被称为被称为连续连续性变量性变量。 已婚育龄妇女的现有子女数、幼儿的已婚育龄妇女的现有子女数、幼儿的牙齿数等,其取值是牙齿数等,其取值是0、1、2等不连续的量,等不连续的量,这种变量被称为这种变量被称为离散型变量离散型变量。2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 4、频率频率与与累计频率累计频率频率:频率:频数表中的各组频数之和等于总例数频数表中的各组频数之和等于总例数n,将各组的频数除以将各组的频数除以n所得的比值被称为
35、所得的比值被称为频率频率。累计频数累计频数:某组段及前面各组段的频数之和。:某组段及前面各组段的频数之和。累计频率累计频率:累计频数除以总例数。:累计频数除以总例数。2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(二)频数分布图(二)频数分布图 125 129 133 137 141 145 149 153 1572022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 (三)频数分布特征(三)频数分布特征 从频数表,特别是频数分布图可以看到频从频数表,特别是频数分布图可以看到频数分布有两个特征:数分布有两个特征: 、大
36、多数岁男童的身高向中央集中,、大多数岁男童的身高向中央集中,为集中趋势;为集中趋势; 、少部分男童的身高较低和较高,向两、少部分男童的身高较低和较高,向两端离散,为离散趋势。端离散,为离散趋势。(四)、频数分布的类型(四)、频数分布的类型1、对称分布对称分布: 指集中位置在中间,左右两侧对称。指集中位置在中间,左右两侧对称。2、偏态分布偏态分布: 指集中位置偏向一侧,频数分布不对指集中位置偏向一侧,频数分布不对称。称。 正偏态正偏态 负偏态负偏态2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(五)频数分布表的用途(五)频数分布表的用途1、揭示资料的分布
37、类型及特征、揭示资料的分布类型及特征2 2、便于发现某些特大或特小的可疑值、便于发现某些特大或特小的可疑值3 3、便于进一步计算统计指标和作统计处理、便于进一步计算统计指标和作统计处理4 4、 组段的频率作为概率的估计。组段的频率作为概率的估计。2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 125 129 133 137 141 145 149 153 157对称分布对称分布2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室05101520252.3 2.6 2.9 3.2 3.5 3.8 4.1 4.4 4.7
38、 5.0 5.3 5.6 5.9图图2-1 101名正常成年女性血清总胆固醇频数分名正常成年女性血清总胆固醇频数分布布频数频数血清总血清总胆固醇胆固醇正态分布正态分布对称分布对称分布2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室051015201224364860728496108潜伏期/h病例数图图2-2 59名链球菌咽喉炎患者潜伏期名链球菌咽喉炎患者潜伏期正偏态分布正偏态分布101例正常人的血清肌红蛋白含量051015202505101520 2530354045频数 负偏态分布负偏态分布2022-3-152022-3-15重庆医科大学卫生统计教研
39、室重庆医科大学卫生统计教研室集中趋势的描述集中趋势的描述平均数指标的概念和作用平均数指标的概念和作用 平均数表示一组同质计量数据平均数表示一组同质计量数据集中趋势的位置集中趋势的位置和和平均水平平均水平。作用:是一组计量数据平均水平的作用:是一组计量数据平均水平的代表值代表值;可作为;可作为不同组间的不同组间的比较值比较值。 常用的三种平均数指标有常用的三种平均数指标有:算术均数算术均数、几何均几何均数数、中位数中位数2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(一)算术均数(一)算术均数 简称均数均数 总体均数总体均数用用 表示表示 样本均数样本均
40、数用用 表示表示X公式适用频数公式适用频数为正态或近似为正态或近似正态分布的计正态分布的计量资料量资料.适用条件适用条件2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 1、直接法、直接法(样本例数较少样本例数较少) 将所有数据直接相加,再除以总例数将所有数据直接相加,再除以总例数n:nXnXXXXXXn21N21XNNX2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 例如:例如: 测定了名健康人第一小时末血沉,分别是、测定了名健康人第一小时末血沉,分别是、10mm,求均数求均数)mm(65305109236x2
41、022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 2、加权法(、加权法( 样本例数较多,近似计算样本例数较多,近似计算) 用各组段的用各组段的组中值组中值代替该组段中的任代替该组段中的任一观察值,该组段的频数是一观察值,该组段的频数是f f,即有,即有f f个组中个组中值,则有组中值与频数的乘积代替该组段的值,则有组中值与频数的乘积代替该组段的各个值相加各个值相加. . 计算公式:计算公式:nfxnxfxfxfxkk 22112022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 利用频数表,将每组段的组中值即组中值即(下
42、限(下限+上限)上限)/2代替该组段观察值的实际取值,用加权法求算术平均数。 在样本例数较多的情况下,加权法与直接法算得的结果相差不大。 见P102022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 当数据呈单峰对称分布数据呈单峰对称分布时, 位于分布的中心,它是频数分布最集中的位置。若数据分布不对称,则 不位于分布的中心,也不在分布的集中趋势位置,它不反映数据的一般水平。XX2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室二、几何均数(,geometric mean) 适用于原始数据分布不对称,数据分布不对称,但经对
43、数转换后呈对称分布对数转换后呈对称分布的资料;滴度资料(等比资料)。 如血清滴度资料。公式:)lg(lg121nXGXXXGnn2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 例例2.2 测得测得1010个人的血清滴度的倒数分别为个人的血清滴度的倒数分别为2 2,2 2,4 4,4 4,8 8,8 8,8 8,8 8,3232,3232,求平均滴度。,求平均滴度。 71032lg32lg8lg8lg8lg8lg4lg4lg2lg2lglg1G2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 几何均数是对数转换后的
44、数据的算术均数的反对数。 当资料中出现相同观察值时,也可用加权法计算几何均数: 例例2.3 (频数表资料)(频数表资料) 应用:主要用于血清学和微生物学中。应用:主要用于血清学和微生物学中。 )lg(lg1fXfG2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室三、三、中位数中位数(median) 中位数中位数是指将一组观察值从小到大排序是指将一组观察值从小到大排序后居于中间位置的那个数值,全部观察值后居于中间位置的那个数值,全部观察值中,大于和小于中位数的观察值个数相等。中,大于和小于中位数的观察值个数相等。 任何分布的定量数据均可用中位数描述任何分布
45、的定量数据均可用中位数描述其分布的集中趋势。其分布的集中趋势。2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 直接法公式: 当n为偶数时 当n为奇数时)21() 12()2()(21nnnXMXXM2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室1.1.原始资料原始资料 如测得如测得5 5个人的个人的VLDLVLDL中的中的apo_Bapo_B的含量的含量(mg/dl)(mg/dl)为为0.840.84、 2.852.85、 5.465.46、 8.588.58、 9.609.60,则,则 M=5.46=5.46
46、(mg/dlmg/dl) 若测量结果:若测量结果:0.840.84、 2.852.85、 8.588.58、 9.69.6,则,则 M=(2.85+8.58)/2=5.72=(2.85+8.58)/2=5.72(mg/dlmg/dl) 2.2.频数表资料频数表资料 表表2-4 2-4 某地某地630630名正常女性血清甘油三脂含量名正常女性血清甘油三脂含量(mg/dl)(mg/dl)甘油三脂甘油三脂频数频数 累积频数累积频数累积频率累积频率(%) 0.10 27 27 4.30.40169196 31.10.70167363 57.6 M1.00 94457 72.51.30 81538 85
47、.41.60 42580 92.11.90 28608 96.52.20 14622 98.72.50 4626 99.42.80 3629 99.83.10 1630100.0 合计合计630 - -2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室03060901201501801频频数数甘油三脂甘油三脂(mg/dL)0.10.4 0.7 1.01.31.6 1.92.2 2.5 2.83.16300.5196ML L、i iM M、f fM M分别为分别为M所在组段的下限、组距和频数,所在组段的下限、组距和频数, f fL L为为M所在组段之前各组段
48、的累积频数所在组段之前各组段的累积频数。914. 030. 01671965 . 063070. 0MMMLiffnLM5.02022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 连续型变量中位数的的计算可用公式: 组距 中位数所在组前 一组的累计频数 中位数所在组下限 中位数所在组的频数)2(LMMfnfiLM2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室四、百分位数(percentile) 是一种位置位置指标,样本的第X百分位数常记为Px,它是指把数据从小到大排列后处于第X百分位置的数值。它将全部数据分成两部分,
49、在不包括Px的全部数据中有X%的数据小于Px,有(100-X)%的数据大于Px。2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 中位数是特殊的百分位数,第50百分位数,M=P50 。 连续性变量频数表资料百分位数计算公式:)%(LXXXXfXnfiLP的累计频数百分位数所在组前一组第百分位数所在组的频数第百分位数所在组的组距第百分位数所在组下限第XfXfXiXLLXXX:2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室百分位数的应用百分位数的应用 、中位数是百分位数的特例。其特点是不易受、中位数是百分位数的特例。
50、其特点是不易受异常值的影响,适用于描述明显偏态分布、或两异常值的影响,适用于描述明显偏态分布、或两端无确定数值数据的平均水平。端无确定数值数据的平均水平。 、多个百分位数相结合可以用来说明一特定的、多个百分位数相结合可以用来说明一特定的问题:离散程度、参考值范围、把资料划分等级问题:离散程度、参考值范围、把资料划分等级2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室第三章第三章变异程度的统计描述变异程度的统计描述2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 前面一节讲述了一组观察值的集中趋势,但平均前面一节讲述
51、了一组观察值的集中趋势,但平均数并不能使我们全面地认识事物,试看下例:数并不能使我们全面地认识事物,试看下例: 例:例: 对甲、乙两名高血压患者连续观察对甲、乙两名高血压患者连续观察5天,测天,测得的收缩压分别为(得的收缩压分别为(mmHg): 甲患者甲患者 162 145 178 142 186 ( =162.6) 乙患者乙患者 164 160 163 159 166 ( =162.4) 甲x乙x平均水平差不多,但甲患者的血液波动较大平均水平差不多,但甲患者的血液波动较大第一节衡量变异程度的指标第一节衡量变异程度的指标2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学
52、卫生统计教研室 分为两类: 1、间距计算间距计算:极差:极差(R)、四分位数间距、四分位数间距 (Q) 2、平均差距计算平均差距计算: 平均偏差、离均差平方和平均偏差、离均差平方和 、均方差、均方差(2 、s2) 、标准差、标准差( 、s)和变异系数和变异系数(cv)等等)(ssl、2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室一、极差和四分位数间距一、极差和四分位数间距1、全距(、全距(range)极差)极差R=max-min优点优点: 该法简单明了、容易使用,如用于说明传该法简单明了、容易使用,如用于说明传染病、食物中毒等的最短、最长潜伏期等染病、
53、食物中毒等的最短、最长潜伏期等缺点缺点:只用到最大、最小值,样本信息没能充分利用。只用到最大、最小值,样本信息没能充分利用。当资料呈明显偏态时,最大、最小值不稳当资料呈明显偏态时,最大、最小值不稳样本例数越多,样本例数越多,R可能越大,两组观察值例数悬可能越大,两组观察值例数悬殊时不用殊时不用R比较。比较。(mmHg)44142186甲R(mmHg) 7159166乙R2、 四分位间距(四分位间距(inter-quartile range)Q 极差不稳定,主要是受两端的数据的影响,所以有极差不稳定,主要是受两端的数据的影响,所以有人建议将两端数据截去一定比例,如各去掉人建议将两端数据截去一定比
54、例,如各去掉25% Q=p75-p25=Qu-QL 例如例如:50岁岁60岁正常女性血清甘油三脂含量的百岁正常女性血清甘油三脂含量的百分位数分位数P75和和P25的位置分别为的位置分别为63.2 mg/dl和和135.7 mg/dl,则则 四分位间距比四分位间距比R稳定,但仍未考虑每个观察值稳定,但仍未考虑每个观察值,在统计在统计分析应用得不普遍。分析应用得不普遍。(mg/dl)5 .722 .637 .135Q2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室二 、离均差平方和、方差、标准差和变异系数2022-3-152022-3-15重庆医科大学卫生统
55、计教研室重庆医科大学卫生统计教研室1 1、平均偏差、平均偏差( (M Mean ean D Differenceifference) ) 如对于例如对于例3.1:甲患者:甲患者: 乙患者:乙患者: 特点特点:直观直观 , 易理解;但由于用了绝对值,不便于易理解;但由于用了绝对值,不便于数学处理,实际中很少使用。数学处理,实际中很少使用。 nXX平均偏差)15.52(mmHg56 .1621866 .1621456 .162162平均偏差2.32(mmHg)54 .1621664 .1621604 .162164平均偏差2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫
56、生统计教研室2、离均差平方和离均差平方和( sum of square,简写为简写为SS ) 公式为: 通过计算可转化为下式:2)(SSxxnxxxx222)()(2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室总体方差总体方差 2=在在样本样本中,中,未知,常用下式替代,未知,常用下式替代, S2=Nx2)(3 3、方差、方差将离均差平方和再取平均,其结果称作均方差,简称将离均差平方和再取平均,其结果称作均方差,简称方差。方差。 注意:注意: 样本方差的分母样本方差的分母 n-1 称为自由度,称为自由度,意在所有的意在所有的n个离均差平方和中个离均差平
57、方和中,只只有有n-1个是独立的,由于样本均数个是独立的,由于样本均数 的限制,在所有离均差平方项中的限制,在所有离均差平方项中只要有只要有n-1个已知个已知,剩下的一项便自剩下的一项便自动确定动确定. n-12022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室4、 标准差(standard deviation)表示每一个数对均值的离散程度,是绝对变异指标总体标准差总体标准差=未知,样本标准差未知,样本标准差 Nx )(21/)(1222)(nnxxnsxx2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室例如对于例例如
58、对于例3.13.1经计算经计算有有 甲患者:甲患者: 同理乙患者:同理乙患者:813X1337132X5n(mmHg)49.19155/8131337132S(mmHg)88. 2S2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 如果是频数表资料,公式如下:如果是频数表资料,公式如下: 1/)(22nnfxfxs例例140正常成年男子的红细胞的标准差正常成年男子的红细胞的标准差:(见见P18 例例3.2)38. 0104104180.66920.32242s2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 标准差
59、的优点:标准差的优点: 1、可以求合并标准差、可以求合并标准差 2、与均数结合能完整的概括一个正态分布、与均数结合能完整的概括一个正态分布l标准差的应用标准差的应用:描述变异程度、计算标准误、:描述变异程度、计算标准误、计算变异系数、描述正态分布、估计正常值范计算变异系数、描述正态分布、估计正常值范围围2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室5. 变异系数(coefficient of variation)C.V. 适用于各组观察值适用于各组观察值单位不同单位不同或单位虽同而或单位虽同而平均数相差很大平均数相差很大的情况。是相对变异指标的情况。是
60、相对变异指标例如例如1、同年龄同性别学生的、同年龄同性别学生的身高身高和和体重体重两组观察值。两组观察值。2、同年龄同性别学生的、同年龄同性别学生的身高身高和和胸围胸围两组观察值。两组观察值。3、不同年龄不同年龄儿童的儿童的身高身高的几组观察值。的几组观察值。%100 xscv2022-3-152022-3-15重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 例例3.3 测得某地成年人舒张压的均数为测得某地成年人舒张压的均数为77.5mmHg,标准差为标准差为10.7mmHg;收缩压的均数收缩压的均数为为122.9mmHg,标准差为,标准差为17.1mmHg.试比较舒试比较舒张压和收缩压
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医院工作人员年度工作总结汇编8篇
- 重庆市七校2024-2025学年高二上学期12月月考 数学试题(含解析)
- 广东省潮州市2024-2025学年九年级上学期期末复习化学卷(1-8单元)(含答案)
- 2024年河北省沧州市黄骅市小升初数学试卷(含答案)
- MBA 消费者行为学案例分析2
- 初中数学学与教的案例分析
- 2.3 共射放大电路中的动态分析
- 母婴护理(白城医学高等专科学校)知到智慧树答案
- 庐芦山花卉市场建设可行性研究报告
- 某医药公司物流配送项目建设可行性研究报告
- 物流公司仓库安全班组建设方案2
- 初中美术岭南版八年级上册《图形·联想·创意》教学设计
- 医学教材 超声检查在压力性损伤诊断和治疗中的应用
- DB34∕T 2290-2022 水利工程质量检测规程
- 电子政务概论-形考任务5(在线测试权重20%)-国开-参考资料
- 工业自动化设备维护与升级手册
- 大数据安全与隐私保护考核试卷
- 8《网络新世界》(第一课时)教学设计-2024-2025学年道德与法治四年级上册统编版
- 辽宁省水资源管理集团有限责任公司招聘笔试真题2022
- 浙江省嘉兴市2023-2024学年八年级上学期期末检测语文试卷
- GB/T 44239-2024增材制造用铝合金粉
评论
0/150
提交评论