版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医学统计学全册配套最完整精品课件12医学统计学
第一章绪论
3第一节统计学与医学统计学
4一.统计与统计学的定义
一.统计、统计学与医学统计学的定义
51.统计
是一种对客观现象数量方面进行的调查研究活动;是收集、整理、分析、推断、判断等认识活动的总称。数据汇总仅仅是统计工作的一小部分内容。
62.统计学作为一门学科的定义是:关于数据收集、表达和分析的普遍原理和方法。
73.医学统计学
是用统计学原理和方法研究生物医学问题的一门学科。医学统计方法在医学研究中的运用主要有三个方面:8①以正确的方式收集数据,如实验设计、调查设计等。②描述数据的统计特征,如数据化简、统计指标的选择与计算、统计结果的表达等。③统计分析及得出正确结论,如根据概率分布,对实验和观察结果存在的差异和关联作出统计推断。
9工作生活中常见的统计学问题如何判断药物的疗效?(假设检验)明天是否下雨?体育彩票能否中奖?(概率论)子女为什么象父母,其强度有多大?(相关与回归)美国的民意测验是如何进行的?(设计,抽样)统计学是对令人困惑费解的数字问题做出设想的艺术。10二.统计学的发展简史
111.早期
公元前3050年古埃及人为修建金字塔筹集建筑费,对全国的人口和财产进行了普查。
12
2.近代
19世纪,应用数学家为解决赌徒们在博彩中出现的输赢概率问题逐渐形成和发展了概率论,从而为统计学的发展奠定了坚实的基础。13
实例(观察对比)1853-1854年伦敦霍乱死亡率与饮水水源
用户数死亡人数死亡率(1/万户)重污染(Southwark和Vauxhall公司)
40046
1263315.4轻污染(Lambeth公司)
26107
9837.5伦敦其它地区256423
1422
55.5合计322576
278386.314实例(实验性研究)1747年,英国Lind医生对坏血病的干预研究。1835年,法国医生Louis对“放血”疗法治疗肺炎的效果评价。
1948年,英国发表了评价链霉素治疗肺结核疗效的随机对照的临床试验报告,第一次采用生物统计方法进行临床干预试验。1960年英国医生Doll,Hill等发现吸烟与肺癌有关。相对危险度RR=1.66/0.07=23.71948年,郭祖超教授(1912~1999)编著的《医学与生物统计方法》,是我国第一部医学统计方法的教科书。16
3.现代
计算机和统计软件如SAS、SPSS的出现使统计学得到了突飞猛进的发展。17
统计方法是建立在现代科学方法之上,由统计学理论指导的数据收集、表达和分析的方法.2.医学论文中的统计学问题60年代到80年代,国外医学杂志调查结果:有统计错误的论文20%~72%。1996年对4586篇论文统计(中华医学会系列杂志占6.9%),数据分析方法误用达55.7%。19
60年代到80年代,国外医学杂志调查表明:20%~72%的论文有统计错误。
1984年对《中华医学杂志》、《中华内科杂志》、《中华外科杂志》、《中华妇产科杂志》、《中华儿科杂志》595篇论文的调查结果为:相对数误用占11.2%,抽样方法误用占15.9%,统计图表误用占11.7%1996年对4586篇论文统计(中华医学会系列杂志占6.9%),数据分析方法误用达55.7%。
2001年《中华预防医学杂志》:中华医学会系列杂志误用约54%(1995)。1996年,有机构对申报科技成果的4586篇科研论文分析,统计方法使用率为76%。医学论文中统计运用错误,除了影响论文的科学性,还可能导致严重的伦理学问题。
3.伪造统计数据违反科学道德1976年NewScience杂志关于科研舞弊行为的调查(1)74%的调查表反映有不正当修改数据的情况(2)17%拼凑实验结果(3)7%凭空捏造数据(4)2%故意曲解结果21三.统计学的特点
医学+数学,侧重医学,淡化数学。用数量反映质量,如平均期望寿命,解放前为35岁,现在70岁,可反映国家医疗卫生服务总体水平的提高。大量观察+实验数据分析→可以揭示医学规律。
22
第二节
统计工作的基本步骤231.专业设计:选题、建立假说、确定研究对象和技术方法等→个性
2.统计设计:围绕专业设计确定统计设类型、样本大小、分组方法、统计分析指标及统计分析方法。
一、设计
24二、收集资料
(一)资料来源第一手资料
①
经常性:统计报表(死亡登记、疫情报告等),工作记录(病历、化验);②一时性:专题调查、实验或临床试验。第二手资料:已公布的资料,如数据银行、全国、全省卫生统计资料。
25(二)资料要求
1.完整:观察单位及观察项目完整。
观察单位:最基本的获取数据的单元。可以是一个体,亦可以是一个单位、家庭、地区,一批样品,一个采样点。
26
2.准确:即真实、可靠。真实是统计学的灵魂。
3.及时:即时限性。如人口普查规定调查开始日期和截止日期。27三.整理资料
整理资料即原始数据的条理化、系统化的过程。所采取的手段→合理化分组,目的→实现专业目标。质分组:按事物的属性或性质分组→分类变量;量分组:按数据的大小→数值变量。28四.分析资料
1.统计描述:用统计指标、统计图表对资料的数量特征及分布规律进行测定和描述。
2.统计推断:用样本信息推断总体特征:①参数估计,②假设检验。29
第三节统计资料的类型
有三种类型的资料:计量资料,计数资料,等级资料
基本概念:变量及变量值,研究者对每个观察单位的某项特征进行观察和测量,这种特征称为变量,变量的测得值叫变量值(也叫观察值),称为资料。按变量值的性质可将资料分为定量资料和定性资料。301.计量资料定义:通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。特点:有度量衡单位多为连续性资料(通过测量得到)如患者的身高(cm)、体重(kg)、血压(mmHg)、脉搏(次/分)、红细胞计数(1012/L)31定义:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。特点:没有度量衡单位多为间断性资料(通过枚举或记数得来)如肤色(黑、白)、血型(ABO)、职业(工农兵)、性别(男女)
2.计数资料32
定义:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。特点:每一个观察单位没有确切值各组之间有性质上的差别或程度上的不同。
①癌症分期:早、中、晚。②药物疗效:治愈、好转、无效、死亡。
③尿蛋白:,,,++,+++及以上3.等级资料33(三)资料的转化(变量类型的转化)
数值变量分类变量
34例如:测得5人的WBC(个/m3)数如下:
300060005000800012000数值变量过低正常正常正常异常分类变量若按正常3人,异常2人分组→二分类变量若按过低1人,正常3人,过高1人分组→等级资料35
*提示:
①多途径;②尽量用定量指标,否则损失信息量;③定性指标可转化为定量指标,但较粗糙。36第四节统计学中的几个基本概念1、同质与变异2、总体与样本3、参数与统计量
4、误差5、频率
37研究单位(unit):研究中的个体(individual),是根据研究目的确定的。
例如:研究7岁男孩身高的正常值范围研究单位:一个人38变量(variable):研究单位的研究特征。
例如:研究7岁男孩身高的正常值范围变量:身高
39变量值(valueofvariable):变量的观察结果。
例如:研究7岁男孩身高变量值:测得的身高值(120.2cm,118.6cm,121.8cm,…)40第四节统计学中的几个基本概念1、同质与变异2、总体与样本3、参数与统计量
4、误差5、概率
41
同质(homogeneity):根据研究目的给研究单位确定的相同性质。
研究广州市2004年7岁男孩身高的正常值范围?同质:同广州市、同7岁、同男孩、同无影响身高的疾病。42变异:同质事物个体间的差异。
来源于一些未加控制或无法控制的甚至不明原因的因素。是统计学存在的基础,从本质上说,统计学就是研究变异的科学。例如:广州市2004年7岁男孩身高有高有矮
43对变异的认识:
(1)自然变异的范围是有限的,可以度量;参差不齐的测量值,通过大量重复观测可以显现出统计分布规律,如表1-1数据的变异特征至少有以下两点:44①变异的范围在3.29~6.18;②有明显的统计分布规律,4.7~5.0的人数最多。根据表1-1的数据,统计上还可以进一步推论出正常成年男子红细胞计数的正常值参考范围。45表1-1120名正常成年男子红细胞计数值
84.314.094.414.334.584.245.454.324.844.994.794.905.094.645.145.464.635.175.795.464.494.855.284.784.324.945.214.685.094.684.915.135.263.844.174.563.526.004.054.924.874.284.465.035.695.254.565.534.584.864.974.704.284.375.334.784.755.395.274.824.444.134.434.025.865.125.363.864.685.485.314.534.834.113.263.424.684.525.193.705.514.644.924.934.903.925.044.704.543.954.404.313.774.164.585.353.715.274.525.214.374.804.753.865.69最大值=6.18,最小值=3.29,极差=2.89。算术均数=4.72,标准差=0.574647
(2)用统计的方法可以确定出所研究对象的变异范围,如正常成年男性的细胞数的范围。身高范围等等。
(3)没有变异就没有统计,变异使统计有了用武之地。48第四节统计学中的几个基本概念1、同质与变异2、总体与样本3、参数与统计量
4、误差5、概率
49总体:根据研究目的确定的同质研究对象的全体。当研究有具体而明确的指标时,总体是指该项变量值的全体。2.总体与样本
(populationandsample)例如:调查某地2002年正常成年男子的红细胞数的正常值范围50研究单位:一个人变量:红细胞数同质:同某地、同2002年、同成年男子、同正常。总体:1)某地所有的正常成年男子
2)某地所有的正常成年男子的红细胞数511)有限总体(finitepopulation):研究单位数是有限的例如:调查某地2002年正常成年男子的红细胞数的正常值范围2)无限总体(infinitepopulation):研究单位数是无限的例如:高血压患者←无时间、空间限制。52注意:随机抽样(无主观性)样本含量(samplesize):样本中包含的研究单位数。例如:某药治疗高血压患者30名样本含量(n)为30样本(sample):是总体中抽取的有代表性的一部分。populationandsample总体:根据研究目的确定的同质研究对象的全体(集合)。分有限总体与无限总体样本:从总体中随机抽取的部分观察单位
随机抽样randomsampling为了保证样本的可靠性和代表性,需要采用随机的抽样方法(在总体中每个个体具有相同的机会被抽到)。55对样本数据进行观察或计算统计指标,目的是推论总体。56第四节统计学中的几个基本概念1、同质与变异2、总体与样本3、参数与统计量
4、误差5、概率
573.参数与统计量
parameterandstatistic参数:总体的统计指标,如总体均数,采用希腊字母记为μ。总体样本抽取部分观察单位
μ?
推断inference统计量:样本的统计指标,如样本均数,采用拉丁字母分别记为。统计量是参数附近波动的随机变量。58第四节统计学中的几个基本概念1、同质与变异2、总体与样本3、参数与统计量
4、误差5、概率
594.误差
误差:统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有以下二种:系统误差和随机误差(随机测量误差,抽样误差)。
(1)系统误差:指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。
60
在消除了系统误差的前提下,由于非人为的偶然因素,对于同一样本多次测定结果不完全一样,结果有时偏大有时偏小,没有倾向性,这种误差叫随机测量误差。A、随机测量误差(2).随机误差:由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。61
由于抽样原因造成的样本指标与总体指标之间的差别。特点:有抽样抽样误差就不可避免。统计上可以计算并在一定范围内控制抽样误差。B、抽样误差例如:=120.0cmn=100N=5万→=118.6cm62
(1)改进抽样方法,增加样本的代表性。样本量n相等的情况下:整群抽样>单纯随机抽样>系统抽样>分层抽样(2)增加样本量n(3)选择变异程度较小的研究指标减少抽样误差的方法:63第四节统计学中的几个基本概念1、同质与变异2、总体与样本3、参数与统计量
4、误差5、概率
64.(1)、频率(relativefreguency):一次随机试验有几种可能结果,在重复进行试验时,个别结果看来是偶然发生的,但当重复试验次数相当多时,将显现某种规律性。例如,投掷一枚硬币,结果不外乎出现“正面”与“反面”两种,现在,我们看一掷币模拟试验:65实验者投掷次数出现“正面”次数频率HuPingcheng111.0000HuPingcheng200.0000HuPingcheng320.6667HuPingcheng430.7500HuPingcheng530.6000HuPingcheng620.4000HuPingcheng740.5714Buffon404020480.5069K.Pearson1200060190.5016K.Pearson24000120120.500566
可见,在相同条件下重复试验,试验结果为“正面”或“反面”虽不能事先断定,但我们知道试验的所有可能结果只有两种。
在重复多次后,出现“正面”或“反面”这个结果的比例称之为频率。67
设在相同条件下,独立地重复n次试验,随机事件A出现次,则称为随机事件A出现的频率。当n逐渐增大时,频率趋向于一个常数,则称该常数为随机事件A的概率,可记为P(A),简记为P
。0≤P(A)≤1685.概率probability
确定性现象:在一定条件下,一定会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的叫必然事件;肯定不发生某种结果的叫不可能事件。
随机现象:在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为随机事件。随机事件的特征:①随机性;②规律性:每次发生的可能性的大小是确定的。概率:描述随机事件发生的可能性大小的数值,用大写的P表示;取值[0,1]。69必然事件P=1不可能事件P=0随机事件0<P<1
P≤0.05(5%)或P≤0.01(1%)称为小概率事件(习惯),统计学上认为不大可能发生。小概率事件70如何学习统计学
(特点:灵活、抽象)理解基本的统计原理培养统计思维能力:抽象的,逻辑推理多练习:课堂练习,课下做习题
联系实际:阅读文献工作和生活实际数据特征与统计描述
第一节频数分布表与频数分布图第二节计量资料的常用统计指标第三节 计数资料的常用统计指标第四节统计图表本章结构
第一节频数分布表与频数分布图
一、频数分布表(frequencytable)
用途:用于描述资料的分布特征
频数:在一批样本中,相同情形出现的次数称为该情形的频数。资料类型组段频数计数和等级观察结果的所有分类相同类别出现的次数计量根据观察结果重新划分分组统计表1某地150名正常成年男子红细胞数(1012/L)
编号红细胞数编号红细胞数13.98……24.541434.6734.741445.4045.131455.2954.431464.7764.811475.3874.981485.1583.791494.64……1505.191.频数表的编制步骤(1)求极差(range):即最大值与最小值之差,又称为全距。本例极差:R=5.88-3.79=2.09
(1012/L)(2)决定组数、组段和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分8-15个组,为方便计,组距参考极差的十分之一,再略加调整。本例i=R/10=2.09/10=0.209≈0.2。(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。
组段(1)
频数,f(2)
组中值,X(3)fX(4)=(2)×(3)3.7~~44.016.04.1~~174.474.84.5~264.6119.64.7~324.8153.64.9~265.0130.05.1~185.293.65.3~105.454.05.5~45.622.45.7~5.9
合计15.85.8150719.8三、频数分布图
二、频数表和频数分布图用途1.描述频数分布的类型*(1)对称分布:若各组段频数的分布以频数最多的组段为中心左右两侧大体对称(总体则完全对称),就认为该资料是对称分布(2)偏态分布:右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。
表2115名正常成年女子血清转氨酶(mmol/L)含量分布左偏态分布(负偏态分布):
左侧的组段数多于右侧的组段数,频数向左侧拖尾。表3101名正常人的血清肌红蛋白()含量分布2.描述计量资料分布的
集中趋势和离散趋势①集中趋势(centraltendency):变量值集中位置。本例在组段“4.7~”。——平均水平指标②离散趋势(tendencyofdispersion):变量值围绕集中位置的分布情况。离“中心”位置越远,频数越小;且围绕“中心”左右对称。——变异水平指标
3.便于发现一些特大或特小的可疑值*4.便于进一步做统计分析和处理第二节计量资料的常用统计指标描述集中趋势的特征数描述离散趋势的特征数计量资料(定量资料、数值变量资料)总体:有限或无限个(定量)变量值样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xnn为样本例数(样本大小、样本含量)一、描述集中趋势的特征数(平均指标)总称为平均数(average)反映了资料的集中趋势(centraltendency
)。常用的有:
1.算术均数(arithmeticmean),简称均数(mean)
2.几何均数(geometricmean)
3.中位数
(median)
均数(mean)Σ为求和符号,读成sigma,k,X,f意义“权数”符号:总体样本
适用条件:资料呈对称分布,尤其是正态或近似正态。
计算:
(1)直接法(2)频数表法2.几何均数(geometricmean)几何均数:变量对数值的算术均数的反对数。
几何均数的适用条件与实例适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料
例血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。此例的算术均数为22222,显然不能代表滴度的平均水平。同一资料,几何均数<均数频数表资料的几何均数抗体滴度⑴
人数,f⑵
滴度倒数,X⑶lgX⑷
f·lgX⑸1:4
1:81:161:32┇1:512
合计1562┇572481632┇5120.60210.90311.20411.5051┇2.70930.60214.51557.22463.0102┇13.546572.2471例:几何均数=反对数(72.2471/40)=64.003.中位数(median)
意义:中位数是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。符号:Md
适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。
中位数计算公式与实例
先将观察值按从小到大顺序排列,再按以下公式计算:特点:仅仅利用了中间的1~2个数据例:5人潜伏期:2,3,5,8,20频数表资料的中位数下限值L上限值Ui;fm中位数Md
潜伏期/h
(1)
频数,f(2)
累计频数Sf(3)0~17176~466312~3810118~3213324~613930~013936~414342~48
合计2145145例中位数=12+6x[(145x50%-63)/38]
=13.5(h)均数、中位数二者关系正态分布时:均数=中位数小结:
集中趋势的描述——平均数
平均数:描述一组变量值的集中位置或平均水平的指标体系。
不同的分布使用不同的指标
(算术)均数:正态或近似正态或观察值相差不大的小样本资料
几何均数:对数正态分布或等比级数资料
中位数:一般偏态分布(传染病发病的潜伏期)二、描述离散趋势的特征数
(变异(variation)指标)
反映数据的离散度(Dispersion
)。即个体观察值的变异程度。常用的指标有:
1.极差(Range)
(全距)
2.百分位数与四分位数间距
PercentileandQuartilerange
3.方差
Variance
4.标准差StandardDeviation
5.变异系数
CoefficientofVariation
盘编号甲乙丙14404804902460490495350050050045405105055560520510合计250025002500均数500500500
例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙1.极差(Range)(全距)
1204020符号:R意义:反映全部变量值的变动范围。
优点:简便,如说明传染病、食物中毒的最长、最短潜伏期等。
缺点:1.只利用了两个极端值
2.n大,R也会大
3.不稳定适用范围:任何计量资料;是参考变异指标2.百分位数与四分位数间距
Percentileandquartilerange百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。记为Px。四分位间距:
(定义:P53)Q=P75-P25
四分位半间距quartiledeviation:QD=QR/2P100(max)P75P50(中位数)P25P0(min)Px频数表资料的百分位数下限值L上限值Ui;fm百分位数PxP25=6+6x[(145x25%-17)/46]=8.51(h)P75=18+6x[(145x75%-101)/32]=19.45(h)Q=19.45-8.51=10.94(h)
潜伏期/h
(1)
频数,f(2)
累计频数Sf(3)0~17176~466312~3810118~3213324~613930~013936~414342~48
合计2145145百分位数的应用确定医学参考值范围(referencerange):如95%参考值范围=P97.5-P2.5;表示有95%正常个体的测量值在此范围。中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征3.方差
方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。样本方差为什么要除以(n-1)数理统计证明,n代替N后,计算出的样本方差对总体方差的估计偏小。对于样本资料,对离均差平方和取平均时分母用n-1代替n。4.标准差
标准差(standarddeviation)即方差的正平方根;其单位与原变量X的单位相同。标准差的计算盘编号甲乙丙甲2乙2丙214404804901936002304002401002460490495211600240100245025350050050025000025000025000045405105052916002601002550255560520510313600270400260100合计250025002500126040012510001250250标准差50.9915.817.91方差=(3476.48-719.82/150)/(150-1)=0.1503标准差=0.39(1012/L)
组段(1)
频数,f(2)
组中值,X(3)fX(4)=(2)×(3)3.7~~44.016.04.1~~174.474.84.5~264.6119.64.7~324.8153.64.9~265.0130.05.1~185.293.65.3~105.454.05.5~45.622.45.7~5.9
合计15.85.8150719.85.变异系数(coefficientofvariation)符号:CV适用条件:①观察指标单位不同,如身高、体重②同单位资料,但均数相差悬殊均数
标准差变异系数青年男子身高170cm6cm3.5%体重60kg7kg11.7%
意义:挑选指标时变异系数越小,指标越好。变异指标小结1.极差较粗,适合于任何分布2.标准差与均数的单位相同,最常用,适合于近似正态分布3.变异系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,常配套使用如正态分布:均数、标准差;
偏态分布:中位数、四分位半间距第三节计数资料的常用统计指标一、计数资料的数据整理二、常用相对数指标三、应用注意事项
计数资料(分类资料):总体:有限或无限个定性(分类)变量值样本:从总体中抽取的n个定性(分类)变量值整理为:分类个体数,即:计数资料频数表绝对数一、计数资料的数据整理
计数资料:按某种属性分类,然后清点每类的数据(以下是:孕妇分娩资料)住院号年龄职业文化程度分娩方式妊娠结局202565527无中学顺产足月202565322无小学助产足月202583025管理人员大学顺产足月202567724知识分子中学顺产早产202564730管理人员大学顺产足月202584832无小学剖宫产足月201991527无中学顺产死产202586129无大学剖宫产足月202460125农民中学顺产足月200038626无小学顺产足月按年龄(2岁一组)与职业整理年龄工人管理人员农民商业服务无知识分子总计182000305209261018045222871024701115024503428521534436126504325451337036628343510347857248301114112239171143214231424360344253122283621145114383110218400020002合计2071411022085372061401二、常用相对数绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治愈人数、死亡人数等。但绝对数通常不具有可比性:1.如2005级临床五年制一、二大班学生人数不同时,比较两班医学统计学的及格人数没有意义,因此需要在绝对数的基础上计算相对数。相对数:两个有联系的指标之比,常用的相对数有:一、比二、比率三、速率相对比简称比,是两个有关指标之比,说明两指标间的比例关系。计算公式为式中两指标可以是绝对数、相对数或平均数。(一)比(ratio)
(一)两个绝对数之比:
如某年某医院出生婴儿中,男性婴儿为370人,女性婴儿为358人,则出生婴儿性别比例为370/358×100=103,说明该医院该年每出生100名女婴儿,就有103名男性婴儿出生,它反映了男性婴儿与女性婴儿出生的对比水平。
(二)两个率之比:如相对危险度(RR)。
例如某地某年龄组男性吸烟和非吸烟的冠心病死亡资料如下表,试分析其相对危害度。
说明男性吸烟组的冠心病死亡率是非吸烟组的2.139倍。表4
某地某年龄组男性吸烟和非吸烟的冠心病死亡资料
(三)两个相对比之比:如流行病学常用的比数比(OR)。
例服用反应停与肢体缺陷关系病例对照研究资料如表所示:
比率分子分母都是绝对数,且分子必须是分母的一部分。无量纲,[0,1]
。1.率(rate)(强度相对数)说明某现象或某事物发生的频率或强度。
率=(实际发生数/可能发生总数)×比例基数如:治愈率、病死率、阳性率、人群患病率等比例基数:100%、1000‰、10000/万、100000(1/10万)等(按习惯,使结果保留1-2位小数)例如:患病率通常用百分率、婴儿死亡率用千分率、肿瘤死亡率以十万分率表示。(二)比率(proportion)2.构成比(结构相对数)(proportion):表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。通常以100%为比例基数。其计算公式为
如:教研室16人高级职称有4人,占25%;中级职称有8人,占50%;初级职称有4人,占25%。(三)速率(rate):分母中含有时间量纲。是反映单位时间内某事件出现的可能性大小,多用于面向人群的出生、死亡和发病资料的统计.
人口出生率=(某年中活产总数/该年平均人口数)×100%三、应用注意事项1、不能以构成比代替率。率与构成比容易误用
年龄组⑴
受检人数⑵白内障例数⑶
患者年龄构成比(%)⑷患病率(%)⑸=(3)/(2)40~50~60~70~≥80合计5604412961492268129135971915.1828.7930.1321.654.2412.1429.2545.6165.1086.361468448100.0030.522、计算相对数的分母不宜过小。小则直接叙述。3、进行率的对比分析时,应注意资料可比性。如比较疗效时,比较组间应病情轻重相同,性别影响,应按性别分组后再作比较。(1)观察对象是否同质,研究方法是否相同,观察时间是否相等,以及地区、周围环境、风俗习惯和经济条件是否一致或相近等。(2)观察对象内部结构是否相同,若两组资料的年龄、性别等构成不同,可以分别进行同年龄别、同性别的小组率比较或对总率(合计率)进行标准化后再作比较。
4、正确求平均率。例:若P1=x1/n1,P2=x2/n2
P3=x3/n3
P=(x1+x2+x3)/n1+n2+n3)(正确)
P=(P1+P2+P3)/3(错误)5.样本率(或构成比)同样存在抽样误差,故应进行样本率(或构成比)差别的假设检验。第四节统计图表
统计表(statisticaltable)——数据代替文字描述,便于统计结果的精确、简洁的表达和对比分析
统计图(statisticalchart)——用图形代替数据,获得直观、形象的效果一、统计表1.统计表的结构
2.统计表的种类
标题:标目:线条:数字:无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。备注:1、统计表的基本结构
顶线底线表名标题
表5某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)
受检人数异常人数检出率(%)
血压心率
TTTGPT5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。2.统计表的种类
根据分组标目的复杂程度,统计表可大致分为简单表和复合表。
简单表(simpletable):只按一个特征或标志分组。见表6。
组合表(combinativetable):按两个或两个以上特征或标志结合起来分组。如表5。简单表示例分组标志为矫治方法6表5某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)
受检人数异常人数检出率(%)
血压心率
TTTGPT5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。
(丁建生等.中国卫生统计1999;16(3):166)复合表示例
分组标志:不同年份不同检测指标例下表是复方猪胆胶囊治疗两型老年性慢性支气管炎的疗效比较,请对该表的绘制进行评价,并指出所存在的问题。表
两个组的疗效观察
分型及疗效
单纯型慢性支气管炎
喘息型慢性支气管炎
指标
治愈
显效
好转
无效
治愈
显效
好转
无效
例数
60
98
51
12
23
83
65
11
合计
209
12
171
11
疗效
%
94.6
94.0
表7复方猪胆胶囊治疗两型老年慢性支气管炎患者的疗效比较一、统计图
统计图(statisticalchart或statisticalgraph)是用点、线、面等几何图形,直观形象地表达、描述数据或结果。
1.统计图的结构
2.
统计图的种类与绘制注意事项1、统计图的结构标题:用于简明扼要地说明资料的内容,一般位于图的下方中央位置。图域:即制图空间,是整个统计图的视觉中心。除圆图外,一般都是存在于特定的坐标体系下。标目:分为纵标目和横标目,表示坐标系下纵轴与横轴的含义。图例:用于识别比较的统计图中各种图形所代表的含义。刻度:即纵轴和横轴上的坐标。刻度数值按从小到大的顺序,纵轴由下向上,横轴由左向右排列。2.统计图的种类与绘制注意事项直条图百分条图圆图线图与半对数线图直方图箱图散点图统计地图
(1)条图(bargraph)
1.概念
条图用等宽长条的高度表示按性质分类资料各类别的数值大小,用于表示他们之间的对比关系。
2.适用资料:相互独立的资料(资料有明确分
组,不连续)。
3.分类
(1)单式条图具有一个统计指标,一个分组因素。
(2)复式条图具有一个统计指标,两个分组因素。
条图表5某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)
受检人数异常人数检出率(%)
血压心率
TTTGPT5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。
(丁建生等.中国卫生统计1999;16(3):166)条图条图绘制条图注意事项
⑴纵轴的刻度必须从“0”开始。
(2)横轴各直条一般按统计指标由大到小排列,也可按事物本身的自然顺序排列。
(3)各直条的宽度要一致,各直条应有相等的间隔,其宽度一般与直条的宽度相等或为直条宽度的一半。
(2)圆图(piegraph)
1.概念
以圆形的总面积代表100%,把面积按比例分成若干部分,以角度大小来表示各部分所占的比重。
2.适用资料:构成比资料2002年某医院1402例孕妇分娩结果分娩结果例数构成比(%)过期产211死产211早产21215足月114883总计1402100(3)百分条图(percentagechart)
百分条图的作用与圆图相同。但更适用于多组百分比的比较。020406080100呼吸系统病脑血管病恶性肿瘤损伤与中毒心脏疾病其它图5我国部分县1988年的死因构成比不同性别某癌三种类型的构成
分化型癌低分化腺癌未分化型合计男52.327.819.9100女100(4)线图一、普通线图(线图)1.概念线图(linegraph)是用线段的升降来表示统计指标的变化趋势。如某事物随时间的发展变化,或某现象随另一现象变迁的情况。2.适用资料适用于随时间变化的连续性资料。3.分析目的:用线段的升降表示某事物在时间上的发展变化趋势。二、半对数线图1.概念是一种特殊的线图,其坐标纵轴是对数尺度,特别适宜作不同指标变化速度的比较。
2.适用资料适用于随时间变化的连续性资料,尤其比较数值相差悬殊的多组资料时采用。3.分析目的:半对数线图中线段的升降是用来表示某事物发展速度(或者说是相对比)。普通线图(线图):纵横轴均为算术尺度,半对数图:纵轴为对数尺度,横轴为算术尺度。注意:在普通线图中,结核病死亡率线条的坡度比白喉死亡率线条下降的陡峭,只能说明两种疾病的死亡率逐年变化幅度不同,不能错认为结核病死亡率的下降速度比白喉死亡率的下降速度快。在半对数线图中就不会出现这种错觉。在比较事物间的变化速度时,应选择半对数线图。
(5)直方图1.概念是以直方面积描述各组频数的多少,面积的总和相当于各组频数之和。2.适用资料:直方图用于表达连续性资料的频数分布。3.制图要求:(1)一般纵轴表示被观察现象的频数(或频率),横轴表示连续变量,以各矩形(宽为组距)的面积表示各组段频数。(2)直方图的各直条间不留空隙;各直条间可用直线分隔,但也可不用直线分隔。(3)组距不等时,横轴仍表示连续变量,但纵轴是每个横轴单位的频数。(6)散点图1.概念
散点图以直角坐标系中各点的密集程度和趋势来表示两现象间的关系。常在对资料进行相关分析之前使用。
2.适用资料:双变量资料。12名女大学生身高与体重散点图六、箱丝图与误差限图多用于比较两组或多组资料的平均指标与变异指标,描述其分布特征
1.箱丝图(boxandwhiskerdiagram)
适用于非正态或非对称分布的资料。Theend第3讲正态分布与医学参考值范围
第一节正态分布
正态分布(normaldistribution)也叫高斯分布(Gaussiandistribution),一种最常见、最重要的连续型对称分布。(正态分布是对称分布,但对称分布不一定是正态分布。)2.实际频数分布:中间频数多,两端越来越少,且左右大致对称理论频数分布:正态分布曲线。
一、数学形式二、正态曲线(normalcurve
)图形特点:钟型中间高两头低左右对称最高处对应于X轴的值就是均数曲线下面积为1标准差决定曲线的形状Xf(X)m
位置参数μ决定曲线的位置,形态参数σ决定曲线的形态Xf(X)m
三、标准正态分布标准正态分布(standardnormaldistribution)的两个参数为:μ=0,σ=1记为
N(0,1)
一般正态分布为一个分布族:N(m,s2)
;标准正态分布只有一个
N(0,1)
;这样简化了应用
四、曲线下面积u-∞附表2(p486)就是根据此公式和图形制定的曲线下面积分布规律0-11-1.961.96-2.582.5868.27%95.00%99.00%查附表2曲线下面积分布规律0-11-1.961.96-2.582.5868.27%95.00%99.00%μμ-σμ+σμ-1.96σμ+1.96σμ-2.58σμ+2.58σ68.27%95.00%99.00%计算正态曲线下面积实例
〖例〗上例中,求中间80%正常女子血清总胆固醇范围。
二、正态分布的应用1、估计医学参考值范围2、质量控制3、正态分布是许多统计方法的理论基础第二节医学参考值范围
临床上常用的参考值是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标,过去称正常值。
步骤:1.从“正常人”总体中抽样:明确研究总体
2.根据专业知识决定单侧还是双侧。
单侧下限---过低异常单侧上限---过高异常双侧---过高、过低均异常
单侧下限异常正常单侧上限异常正常异常正常双侧下限双侧上限异常1.正态分布法方法:1.正态分布法
2.百分位数法双侧1-α参考值范围:单侧1-α参考值范围:双侧95%正常值范围:单侧95%正常值范围:例3
估计例1某地108名正常成年女子血清总蛋白()的95%参考值范围2.百分位数法双侧95%参考值范围:
P2.5~P97.5
单侧95%参考值范围:<P95(上限)
或
>P5(下限)适用于偏态分布资料
第三节与正态分布有关的统计量分布一、t分布随机变量XN(m,s2)标准正态分布N(0,12)u变换均数标准正态分布N(0,12)Studentt分布自由度:n-1t分布的概率密度函数式中为伽玛函数;圆周率(Excel函数为PI())为自由度(degreeoffreedom),是t分布的唯一参数;t为随机变量。以t为横轴,f(t)为纵轴,可绘制t分布曲线。t分布曲线
t分布有如下性质:①单峰分布,曲线在t=0处最高,并以t=0为中心左右对称②与正态分布相比,曲线最高处较矮,两尾部翘得高(见绿线)③随自由度增大,曲线逐渐接近正态分布;分布的极限为标准正态分布。t分布曲线下面积(附表4)双侧t0.05/2,9=2.262
=单侧t0.025,9单侧t0.05,9=1.833双侧t0.01/2,9=3.250
=单侧t0.005,9单侧t0.01,9=2.821双侧t0.05/2,∞=1.96
=单侧t0.025,∞单侧t0.05,∞=1.64查P488,t界值表第5章参数估计
总体样本抽取部分观察单位
统计量
参数
统计推断统计推断statisticalinference如:样本均数样本标准差S
样本率P如:总体均数总体标准差总体率内容:参数估计(estimationofparameters)
包括:点估计与区间估计2.假设检验(testofhypothesis)总体样本抽取部分观察单位
统计量
参数
统计推断第一节样本均数的标准误如:样本均数样本标准差S
样本率P如:总体均数总体标准差总体率
抽样误差(samplingerror):由于个体差异导致的样本统计量与总体参数间的差别。一、抽样试验
从正态分布总体N(5.00,0.502)中,每次随机抽取样本含量n=5,并计算其均数与标准差;重复抽取1000次,获得1000份样本;计算1000份样本的均数与标准差,并对1000份样本的均数作直方图。按上述方法再做样本含量n=10、样本含量n=30的抽样实验;比较计算结果。抽样试验(n=5)抽样试验(n=10)抽样试验(n=30)1000份样本抽样计算结果总体的均数总体标准差s均数的均数均数标准差n=55.000.504.990.22120.2236n=105.000.505.000.15800.1581n=305.000.505.000.09200.09133个抽样实验结果图示由表可见,从同一总体中随机抽取样本含量n=10的若干样本,各样本算得的样本均数并不等于相应的总体均数,且各样本均数也不完全相同。这种由于随机抽样而造成的来自同一总体的样本均数之间及样本均数与相应的总体均数之间的差异,称之为均数的抽样误差。
由于样本均数与相应的总体均数之间存在着差异,由数理统计推理可知:从正态总体中随机抽取样本含量为n的样本,每抽取一个样本可计算一个样本均数,重复1000次抽样可得到1000个样本均数。
这些样本均数服从均数为,方差为的正态分布.其中为样本均数的总体标准差,计算公式为:
为了与反映个体差异的标准差(或)相区别,样本均数的标准差用表示。
统计上通常将统计量(如样本均数、样本率p等)的标准差称为标准误(standarderror,SE)。所以,样本均数的标准差又称为样本均数的标准误,是反映样本均数抽样误差大小的指标。
特点:
1.的大小与总体标准差成正比,与样本含量的平方根成反比。即当样本含量n一定时,标准差越大,即样本的个体差异越大,标准误就越大,样本均数的抽样误差就越大;标准差越小,标准误就越小,即样本均数抽样误差就越小。
2.当一定时,n越大,总体标准误就越小;n越小,总体标准误就越大。故影响抽样误差大小的主要因素是样本含量。作为总体参数(常数)通常是未知的,因而,在实际工作中常用样本标准差S来估计。二、总体均数的估计
(一)总体均数的点估计(pointestimation)与区间估计参数的估计点估计:由样本统计量直接估计总体参数区间估计:在一定可信度(Confidencelevel)下,同时考虑抽样误差
统计学中的统计推断包括两个重要的方面:一是利用样本统计量的信息对相应总体参数值做出推断,如用样本均数估计总体均数,用样本标准差S估计总体标准差等,称之为点估计。另一个是利用样本统计量来推断我们是否接受一个事先的假设,称之为假设检验。本章只讨论参数估计,假设检验将在下一章中讨论。而参数估计又分为点估计与区间估计。
1.点估计总体均数的点估计(pointestimation)就是用样本均数来直接地估计总体均数,这种方法比较简单,由于没有考虑到抽样误差,只适合大样本资料的统计推断。
按预先给定的概率(1)所确定的包含未知总体参数的一个范围。总体均数的区间估计:按预先给定的概率(1)所确定的包含未知总体均数的一个范围。
如给定=0.05,该范围称为参数的95%可信区间或置信区间;如给定=0.01,该范围称为参数的99%可信区间或置信区间。2.区间估计(intervalestimation):总体均数可信区间的计算
总体均数可信区间的计算需考虑:(1)总体标准差是否已知,(2)样本含量n的大小通常有两类方法:(1)t分布法
(2)u分布法
1.单一总体均数的可信区间
例某地抽取正常成年人200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,估计该地正常成年人血清胆固醇均数的95%可信区间。
故该地正常成年人血清胆固醇均数的双侧95%可信区间为(3.47,3.81)mmolL。
例为了解氨甲喋呤(MTX)对外周血IL-2水平的影响,某医生将61名哮喘患者随机分为两组。其中对照组29例(),采用安慰剂;实验组32例(),采用小剂量氨甲喋呤(MTX)进行治疗。测得对照组治疗前IL-2的均数为20.10IU/ml(),标准差为7.02IU/ml();试验组治疗前IL-2的均数为16.89IU/ml(),标准差为8.46IU/ml()。问两组治疗前基线的IL-2总体均数相差有多大?
第一步:
可信区间的确切涵义
1.95%的可信区间的理解:(1)所要估计的总体参数有95%的可能在我们所估计的可信区间内。(2)从正态总体中随机抽取100个样本,可算得100个样本均数和标准差,也可算得100个均数的可信区间,平均约有95个可信区间包含了总体均数。
2.可信区间的两个要素(1)准确度:用可信度(1)表示:即区间包含总体均数的理论概率大小。当然它愈接近1愈好,如99%的可信区间比95%的可信区间要好。(2)精确度:即区间的宽度区间愈窄愈好,如95%的可信区间比99%的可信区间要好。
当n确定时,上述两者互相矛盾。提高准确度(可信度),则精确度降低(可信区间会变宽),势必降低可信区间的实际应用价值,故不能笼统认为9
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030文化遗产数字化保护与虚拟博物馆展示技术研究方案
- 酒厂开业典礼策划方案模板
- 中学生地理实地考察方案模板
- 客户关系管理系统化方案
- 医院护理团队沟通与协作能力提升方案
- 高效团队激励方案解析
- 地铁车站明挖法基坑降水施工方案
- 信息发布系统安全施工方案
- 建筑物拆除施工安全专项方案
- 浆砌片石护坡施工进度方案
- 九年级化学上册 2.4 元素(2)教学设计 (新版)鲁教版
- 现代密码学(第4版)-习题参考答案
- 缝纫车间主管年终总结
- (康德一诊)重庆市2025届高三高三第一次联合诊断检测 地理试卷(含答案详解)
- 油气长输管道检查标准清单
- 幼教家长讲座
- 真需求-打开商业世界的万能钥匙
- 《脑出血》课件完整版
- 华东师范大学《刑法(总论)》2023-2024学年第一学期期末试卷
- PRP注射治疗膝关节炎
- 班组长时间管理培训
评论
0/150
提交评论