




已阅读5页,还剩72页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医学统计学 (Medicine Statistics),南京大学医学院范怡梅,第一章 医学统计学基本概念与常用统计描述指标,统计学(statistics): “The science and art of dealing with variation in data through collection, classification and analysis in such a way as to obtain reliable results.”,第一节 医学统计学在医学科学中的地位和作用,医学统计学(Medicine Statistics ) 是应用概率论和数理统计的基本原理和方法,结合医学实际阐述统计设计的基本原理和步骤,研究资料或信息的收集、整理与分析的一门学科。 是统计学在医学上的应用; 理论基础是概率论和数理统计; SPSS Statistical Package for Social Sciences Statistical Product and Service Solutions SAS Statistical Analysis System 作用; 统计工作的步骤。,第二节 统计工作的步骤,研究设计(research design) 调查设计、实验设计 资料收集(data collection) 统计分析(statistical analysis) 统计描述(statistical description) 统计推断(statistical inference),例 某医生发明了一种新的治疗某病的疗法(治疗组),用现在公用的疗法作为对照(对照组),经临床试验,对照组与治疗组的疗效分别为P1=75%与P2=95 % ,问:能认为这两个有效率之间的差别有显著性意义吗? 假设的3批实验结果,组别,例数,有效率(%),疗效: 有效 无效 合计,甲实验 对照组 治疗组 乙实验 对照组 治疗组 丙实验 对照组 治疗组,15 19 30 38 45 57,5 1 10 2 15 3,20 20 40 40 60 60,75.0 95.0 75.0 95.0 75.0 95.0,甲实验中,c2=1.765,P0.05,两个有效率之间的差别无显著性意义; 乙实验中,2=6.275, 0.01 P 0.05,两个有效率之间的差别有显著性意义; 丙实验中,2=9.412,P 0.01,两个有效率之间的差别有极显著性意义。,第三节 统计学中的几个 基本概念,1.总体与样本(population and sample) 根据研究目的确定的同质观察单位的全体称为总体。 从总体中随机抽取、进行研究的一部分个体所组成的集合,称为样本。 要保证样本的可靠性、代表性。 2.同质与变异(homogeneity and variation) 统计研究的是有变异的事物,统计分析的任务就是在同质分组的基础上,通过对变异所呈现出来的统计规律性的研究,透过偶然现象,揭示同质事物的本质特征和规律。,3.抽样误差(sampling error) 因抽样产生的样本与样本,样本与总体相应统计指标之间的差异,称为抽样误差。 抽样误差的大小主要取决于观察单位间变异程度的大小和样本含量的多少。 4.参数和统计量(parameter and statistic) 总体的指标统称为参数,样本指标称为统计量。,5.概率(probability) 概率是描述随机事件发生的可能性大小的数值,常用P表示。随机事件概率的大小在0与1之间,即0P 1。 习惯上将P 0.05,称为小概率事件。,6统计资料的类型,定量资料,分类资料,如身高(cm)、体重(kg)等。,无序分类,有序分类,二项分类,多项分类,(等级资料),如阳性与阴性、治愈与未愈。,如血型为A、B、AB、O型。,如治疗结果为治愈、显效、好转、无效四级。,第四节 数值变量的描述性统计,统计图表; 统计指标。,一、 频数分布 (frequency distribution),(一) 编制频数表的步骤,求极差 R=84-57=27(次/分) 划分组段 确定组数:较大样本时,一般取10组左右。 确定组距:极差/组数=27/10=2.73(次/分) 确定各组段的上下限:上限=下限+组距 统计各组段内的数据频数,编制频数表,表2.1 130名健康成年男子脉搏(次/分)的频数分布表,脉搏组段 (1),频数 (2),频率(%) (3),累计频数 (4),累计频率(%) (5),56 59 62 65 68 71 74 77 80 8385 合计,2 5 12 15 25 26 19 15 10 1 130,1.54 3.85 9.23 11.54 19.23 20.00 14.62 11.54 7.69 0.77,2 7 19 34 59 85 104 119 129 130,1.54 5.38 14.62 26.15 45.38 65.38 80.00 91.54 99.23 100.00,(二) 频数表的用途,可以揭示资料的分布类型和分布特征,以便于选用相应的统计分析方法。 便于进一步计算指标和统计处理。 便于发现某些特大或特小的可疑值。,二、 集中趋势(central tendency)的描述,三种平均数(average) 算术均数(arithmetic mean) 几何均数(geometric mean) 中位数(median),(一)算术均数( arithmetic mean, ),简称均数,适合于表达呈正态分布资料的平均水平。 直接法:,例2-2:,=,81+70+66+69,13,=71.69(次/分),加权法:,例: =,57.52+60.55+63.512+84.51,130,=71.62(次/分),(二)几何均数 (geometric mean, G),适用于原始数据分布不对称,但经对数转换后呈对称分布的资料。,例:40名麻疹易感儿童接种麻疹疫苗后一个月,测其血凝抑制抗体滴度,结果如表所示,求几何均数。,抗体滴度,人数 f,滴度倒数 X,lgX,1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512,1 4 5 8 11 6 4 1,4 8 16 32 64 128 256 512,0.6021 0.9031 1.2041 1.5051 1.8061 2.1072 2.4082 2.7093,(三)中位数(median, M),适合于表达偏态资料、或分布不明的资料的平均水平,尤其适合于表达只知数据的个数、但部分较大或较小数据的具体数值未准确知道的资料的平均水平。,对于原始数据和频数分布表资料,分别用下列两式计算中位数。,M=,(X n/2+X(n/2+1) )/2,(n为偶数),X(n+1)/2,(n为奇数),其中, LM :中位数所在组下限; iM :中位数所在组的组距; fM :中位数所在组的频数; fL :中位数所在组前一组的累计频数。,例2-4 表2.3 107正常人的尿铅含量(g/L)的中位数计算表,含量( g/L ) (1),频数f (2),累计频数 f (3),累计频率 % (4),0 4 8 12 16 20 24 28 合计,14 22 29 18 15 6 1 2 107,14 36 65 83 98 104 105 107,13.08 33.64 60.75 77.57 91.59 97.20 98.13 100.00,M=8+ (107/2 - 36) = 10.41(g/L),4,29,三、 离散趋势(tendency of dispersion)的描述,例:设有三组同年龄、同性别儿童体重(kg)数据如下: 甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34,描述离散程度的指标: 极差、四分位数间距、方差、标准差及变异系数。,(一) 极差(全距,range, R),为一组同质观察值中最大值与最小值之差。 甲组 R=34-26=8 乙组 R=36-24=12 甲组数据分布较乙组集中。,优点:计算简单 缺点: 1.没有充分利用样本信息,只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度。 2.样本含量越大,抽到较大或较小观察值的可能性越大,则极差可能越大,因此,样本含量悬殊时不宜用极差比较分布的离散度。 所以,一般不用极差来反映离散程度。,(二) 四分位数间距 (quartile interval, Q),1.分位数的概念 分位数是一种位置指标,一个特定的分位数将任何一个频数曲线下的面积分为两部分。 第1四分位数记作Q1,第2、第3四分位数,分别记作Q2、Q3;第1百分位数,记作P1。同理,还有第2、第3、 、第99百分位数,分别记作P2、P3、 、P99。 显然,Q1=P25、Q2=P50=M、Q3=P75,2.百分位数(percentile)的计算公式 对连续型变量频数表资料,按下式计算第X百分位数PX:,其中, LX :第X百分位数所在组下限; iX :第X百分位数所在组的组距; fX :第X百分位数所在组的频数; fL :第X百分位数所在组前一组的累计频数。,例 某地200例正常成人血铅含量的频数分布如表所示,请计算出血铅含量的95%正常值范围。 200例正常成人血铅含量的频数分布表,血铅含量 频数 累计频数 (mol/L) (1) (2),0 0.24 0.48 0.72 0.97 1.21 1.45 1.69 1.93 2.17 2.42 2.66 2.903.14,6 48 43 36 28 13 14 4 4 1 2 0 1,6 54 97 133 161 174 188 192 196 197 199 199 200,解:即求P95。 nX%=20095%=190,故某地正常人血铅含量95%的单侧正常值范围的上限为 1.81 (mol/L)。,3.四分位数间距(quartile interval, Q) Q=P75-P25 Q=QU-QL 优缺点:用四分位数间距作为描述数据分布离散程度的指标,比极差稳定,但仍未考虑到每个数据的大小,常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。,例2-10 据书中表2.3资料求四分位数间距Q。 P25= 4+,4,22,(107 25%,14)=6.32 (g/L),P75= 12+,4,18,(107 75%,65)=15.39 (g/L),Q= P75 - P25=15.39-6.32=9.07 (g/L),(三)方差 (variance),n - 1称为自由度,(四)标准差 (standard deviation),加权法:,(五)变异系数(coefficient of variation, CV),1.用于比较度量衡单位不同的多组资料的变异度。 2.比较均数相差悬殊的多组资料的变异度。,例 某地不同年龄组男子身高(cm)的变异程度,年龄组 33.5岁 3035岁,人数 100 100,均数 96.1 170.2,标准差 3.1 5.0,变异系数 3.2% 2.9%,四、 正态分布 (normal distribution),(一) 正态分布的概念和特征,正态分布的图形:正态分布的密度函数:,-X+ ,通常用N( , 2)表示均数为、方差为2的正态分布。,正态分布的特征,1.正态曲线在横轴上方均数处最高; 2.正态分布以均数为中心,左右对称; 3.正态分布有两个参数,即均数与标准差。 是位置参数,当固定不变时, 越大,曲线沿横轴越向右移动; 越小,曲线沿横轴越向左移动。 是变异度参数,当固定不变时, 越大,曲线越平阔; 越小,曲线越尖峭。 4.正态曲线下的面积分布有一定的规律。,常用的两个区间: 1.96 及2.58 的区间面积分别占总面积(或总观察例数)的95%及99%,如下图所示:,95%,2.5%,2.5%,-1.96 ,+1.96 ,99%,-2.58 ,+2.58 ,0.5%,0.5%,(二)标准正态分布(standardized normal distribution),令,- u+ ,用N(0,1)表示标准正态分布,(三) 正态分布的应用,制定医学参考值范围(medical reference range) 许多统计方法的理论基础,参考值范围的制定,正态分布法 百分位数法,% 90 95 99,单 只有下限,侧 只有上限,双侧 P5P95 P2.5P97.5 P0.5P99.5,单 只有下限 P10 P5 P1,侧 只有上限 P90 P95 P99,例 出生体重低于2500克为低体重儿。若由某项研究得某地婴儿出生体重均数为3200克,标准差为350克,估计该地当年低体重儿所占的比例。,补充题 以下是101名30-49岁正常成年男子的血清总胆固醇(mmol/L)测定值的频数表,请据此资料:(1)选择适当的集中趋势指标并计算之;(2)选择适当的离散程度指标并计算之;(3)求该地30-49岁健康男子血清总胆固醇的正常值范围;(4)估计该地30-49岁健康男子血清总胆固醇值小于4.50 mmol/L的概率。,血清总胆固醇 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.07.5 合计,频数f 1 8 9 23 25 17 9 6 2 1 101,fx 2.75 26 33.75 97.75 118.75 89.25 51.75 37.5 13.5 7.25 478.25,fx2 7.56 84.50 126.56 415.44 564.06 468.56 297.56 234.38 91.13 52.56 2342.31,第五节 抽样误差与区间估计,一、 均数的抽样误差 与标准误,从样本获取有关总体信息的过程称为统计推断(statistical inference)。 由个体差异产生的,抽样造成的样本与样本、样本与总体相应统计指标之间的差异,称为抽样误差(sampling error) 。,标准误(standard error, SE):样本统计量的标准差。 均数的标准误(SEM , ) : 即样本均数的标准差。 样本观测值的标准差与样本均数的标准误的比较: 1.标准差与标准误都反映数据的离散性; 2.标准差的大小反映各个个体的观测值X之间的变异 程度(离散程度),标准误的大小反映各个样本均 数 间的变异程度(离散程度),也反映了样本均 数代表总体均数的可靠性。,数理统计推出: 1.从正态总体N( , 2)中,随机抽取例数为n的样本,样本均数 也服从正态分布;即使从偏态总体随机抽样,当n足够大时, 也近似正态分布; 2.从均数为,标准差为的正态或偏态总体,抽取例数为n的样本,样本均数 的总体均数也为,标准差用 表示,则 可按下式计算:,二、 t分布,(一) t分布的概念, ,, 即u分布。,用S代替,得到,t分布,(二)t分布的图形和特征,以0为中心,左右对称的单峰分布; t分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分布逐渐逼近u分布;当= 时,t分布即为u分布。 t分布曲线下总的面积等于1,即t值落入区间(- , )内的概率为1。t值落入任一区间 (t1,t2)内的概率等于该区间内曲线和横坐标轴所夹的面积。,附表2 t界值表通式: 单侧:P(t -t ,)= , 或P(t t ,)= 双侧: P(t -t /2,) + P(t t /2,)= 图中非阴影部分面积的概率为: P( -t /2, t t /2,)= 1-,三、 总体均数的估计,参数估计是指用样本指标值估计总体指标值。 包括点估计和区间估计。,点估计: 就是用样本统计量直接作为总体参数的估计值。 区间估计: 即按预先给定的概率(1-)确定包含未知总体参数的可能范围。该范围称为参数的可信区间或置信区间 ,预先给定的概率称为可信度或置信度,常取95%或99%。 可信区间的确切含义指的是:有1- 的可能认为计算出的可信区间包含了总体参数。,总体均数可信区间(confidence interval)的计算: 1. 未知:按t分布。 由于P(-t /2, t t /2, )= 1- , ,2. 已知或未知但n足够大时:按u分布 双侧可信区间为: (,)或 (,),均数的可信区间与参考值范围的区别: 1.意义不同 均数的可信区间的统计意义: (1)按预先给定的概率,确定的包含总体均数的可能范围,因此它用于估计总体均数。 (2)可信度要高,但精度不能下降。 参考值范围的统计意义: “正常人”的解剖、生理、生化某项指标的波动范围,可以用于判断观察对象的某项指标正常与否。 2.两者的计算公式有差别:可信区间用了标准误,参考值范围用了标准差。,补充题 152例麻疹患儿病后血清抗体滴度倒数的分布如下,试作总体几何均数的点值估计和95%区间估计。 152例麻疹患儿病后血清抗体滴度倒数的分布,滴度倒数 1 2 4 8 16 32 64 128 256 512 1024 合计 人 数 0 0 1 7 10 31 33 42 24 3 1 152,第六节 SPSS演示,Data Editor Viewer Syntax Editor Script,例2.1 View Variable:,View Data:,定义变量名,变量名最长不超过64个字节; 首字符必须是字母或汉字,不能以_或.结尾; 变量名中不能有空格或某些特殊符号,如! ? *; 变量名不能与SPSS的关键字相同,如ALL,AND,BY,EQ,GE,GT,LE,LT,NE,NOT,OR,TO,WITH等; 对变量名英文字母的大小写不作区分.,Analyze Descriptive StatisticsFrequencies Variable: x Statistics Percentile Values:Quartiles Central Tendency: Mean; Median Dispersion: Std. deviation Distrib
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 襄阳职业技术学院《英语:听力》2023-2024学年第二学期期末试卷
- 西安建筑科技大学《镜前表演及实践》2023-2024学年第二学期期末试卷
- 浙江省杭州下城区重点达标名校2024-2025学年初三1月份阶段模拟测试语文试题试卷含解析
- 江西航空职业技术学院《Python语言程序设计Ⅱ》2023-2024学年第二学期期末试卷
- 南充职业技术学院《中国地理(二)》2023-2024学年第二学期期末试卷
- 宁夏大学《孙冶方经济科学奖与中国经济发展》2023-2024学年第二学期期末试卷
- 昆山杜克大学《日语笔译》2023-2024学年第二学期期末试卷
- 重庆工贸职业技术学院《生物工程专业实验(一)》2023-2024学年第二学期期末试卷
- 吉林省松原市乾安县七中2025届普通高中毕业班3月质量检查英语试题含解析
- 浙江省绍兴实验学校2025年初三英语试题第三次质量检测试题试卷含答案
- 糖尿病患者的足部护理
- 土地流转合同补充协议书
- 七年级语文下册《登幽州台歌》课件
- 兼职劳务协议合同模板
- 2025全国国家版图知识竞赛题库及答案(300题)中小学组试题及答案
- 2025年河南机电职业学院高职单招语文2019-2024历年真题考点试卷含答案解析
- 2025年浙江长征职业技术学院单招综合素质考试题库及答案1套
- 湖南新高考教学教研联盟暨长郡二十校联盟2025届高三年级第二次联考历史试题及答案
- (二模)东北三省三校2025年高三第二次联合模拟考试 英语试卷(含答案解析)
- 2025年甘肃西北永新集团招聘11人笔试参考题库附带答案详解
- 2025年吉林交通职业技术学院单招职业技能考试题库新版
评论
0/150
提交评论