版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医学统计学
2024/11/112
例11、用某药治某病,治疗1例有效,能说该药的有效率为100%吗?2、治疗2例都有效,能说该药的有效率为100%吗?3、治疗10例9例有效,能说90%有效吗?2024/11/113例2
某医生用某药治疗胃溃疡病出血患者107例,有效101例,有效率为94.4%。如果别的医生也用同样的药来治疗胃溃疡病出血患者,其有效率也一定是94.4%吗?2024/11/114例3
某项关于某种药物的广告声称:“在服用本制剂的1000名上呼吸道感染的儿童中,有970名儿童在72小时内症状消失”,因此推断此药治疗儿童的上呼吸道感染是非常有效的,可以推广应用。这项推论正确吗?生物医学客观现象
推断统计揭示生物医学客观总体内在数量规律
描述统计
统计学探索生物医学数量规律过程1.统计学的基本概念一、定义
医学统计学:以医学(临床医学、预防医学、康复医学)理论与实践为指导,运用概率论及数理统计的原理和方法,研究医学资料的搜集、整理和分析的一门应用学科。二、统计工作的内容与步骤:研究设计(临床试验设计/实验室设计/调查设计)收集资料整理资料分析资料基本内容收集资料:注意保证原始数据的可靠性(质量控制)整理资料:(数据的清理、数据的逻辑检查以及数据库的维护等)分析资料:(描述性分析、推断性分析、多元统计分析、数据挖掘)收集资料资料来源:医疗日常工作记录、医学科学研究。整理资料
对原始资料进行科学的整理、加工,使资料系统化、条理化,以便进行统计分析。分析资料描述性分析(指标计算、统计图、表)推断性分析多元统计分析数据挖掘三、资料的类型:1、定性变量分类变量(名义变量):有序变量(等级变量):
2、定量变量
离散型变量:连续型变量:
2024/11/1114
分类变量:又称名义变量。其变量值是定性的,表现为互不相容的属性或类别(没有大小、强弱、优劣之分)。二分类:如性别、生死、疾病有无;多分类:如A、B、O、AB血型。2024/11/1115
有序变量:又称等级变量。其变量值具有半定量性质,表现为等级大小或属性程度(即有大小、强弱、优劣之分)。
例如:
观察用某药治疗某病患者的疗效,以每名患者为观察单位,结果可分为治愈、显效、好转、无效四级。2024/11/1116
定量变量:(measurementdata)其变量值是定量的,表现为数值大小,一般有度量衡等单位。离散性变量:如婴幼儿的牙齿数,孕妇产前检查次数等连续性变量:如身高、体重、红细胞数等2024/11/1117
变量转化:变量只能由高级向低级转化
离散型变量常常通过适当的变换或连续性校正后借用连续型变量或有序变量的方法来分析。连续型有序分类二值2024/11/1118
例如:测得5人的WBC(个/m3)数如下:
12345
300060005000800012000
定量变量
过低正常正常正常过高
分类变量
过低1人,正常3人,过高1人
等级变量
正常3人,异常2人
二分类变量2024/11/11191、总体(population
)
:同质个体所构成的全体(大同小异的对象全体)。例如:一个国家的所有成年人某地的所有小学生所有的肺结核患者总体与样本2024/11/11202、样本(sample):从研究总体中随机抽得的有代表性的一部分个体,其实测值的集合。例如:长沙市2002年7岁正常男童中随机抽取200名,其身高值构成一个样本2024/11/1121变量(观察指标、因素等):个体的某项或某些特征例如:身高、体重、性别、血型、反应、疗效等同质与变异
变量值:变量的观察结果例如:身高1.65米;体重52公斤性别女;血型“O”型反应阴性;疗效好转2024/11/1122
同质(homogeneity)
:给个体规定的一些相同性质即大同(主要的容易控制的影响因素相同)
例如:变量为身高,长沙市2002年7岁正常男童即为同质同质基础:同地区、同年份、同年龄、同为正常男童。2024/11/1123
变异(variation):同质个体变量值间的差异即小异
例如:长沙市2002年7岁正常男童的身高值各不相同原因:已知或未知或难于掌控的因素造成。2024/11/1124统计学的任务:在变异的背景上描述同一总体的同质性,揭示不同总体的异质性。2024/11/1125
为研究同性别、同年龄的中国小学生和日本小学生的平均身高是否不同,分别从两个总体中各抽取一份样本,各得一个平均数。数值不同,能不能就此推断两国同性别、同年龄小学生的平均身高不等?例如:2024/11/1126
试想:如果再从中国小学生中抽取一份样本,再得一个平均数。数值与前不同,也许你会说这是同一总体的个体大同小异造成的。那么,日本的那个均数与中国的那个均数不相等,是因为他们“大同小异”?还是因为两个总体本不相同?分析:2024/11/1127四、参数与统计量
参数(parameter):是统计模型的特征指标,是对总体而言,其大小是客观存在的,然而往往是未知的,如总体均数(mean)和总体方差(variance);
2024/11/1128统计量(statistic):由观察资料计算出来的量,如计算观察样本中的个体得到的样本均数,样本方差。统计学关心的常常是总体参数(总体指标)的大小,其依据却是统计量及其性质。2.统计表与统计图一、统计表1、统计表的结构:
标题标目(横标目、纵标目)线条数字必要的文字说明备注统计表的基本内容:
主语:被研究的事物,置于表左侧。谓语:说明主语的各项指标,置于表右侧。主语和谓语结合起来构成一个完整的句子。2、统计表的种类:
简单表复合表3、编制统计表的基本要求:
标题:应有时间、地点、主要内容,重点突出,简单明了;横标目与纵标目,即分组标志一般不应多于3个;主谓分明,层次清楚——统计表质量优劣的关键所在;数据准确、可靠——根本原则;数字,一律用阿拉伯数字,小数位统一,位数对齐,表内不留空白;线条:上下线及隔开纵横标目的横线,两边原则上不封口表12-4流行病学有关的主要因素(P139)例:上表的缺点:
标题不够明确,未注明时间、地点内容繁杂标目设计不合理文字、线条过多表12-5某地1974年钩端螺旋体病患者发病季节分布修改后的表格表12-6某地1974年钩端螺旋体病患者发病年龄分布修改后的表格表12-7某地1974年钩端螺旋体病患者发病职业分布修改后的表格二、统计图
标题图域(习惯上长:宽为7:5)标目图例刻度类型:
直条图(barchart)百分条图(percentagechart)圆图(piechart)普通线图(linechart)半对数线图(semi-logarithmiclinearchart)
直方图(histogram)箱图(box-whiskerplot)散点图(scatterchart)频数表与频数图频数表:用于反映各变量(观察单位的某种特征)值及其相应频数之间关系的一类表格。频数:对一种变量在多个观察单位中进行多次观察,其中某一变量值重复出现的次数.不同的资料类型编制频数表难易程度不同,其中计数资料和等级资料比较简单,而计量资料相对较繁杂些.。
计量资料频数表的编制
一般情况下,样本含量小于30的统计资料无须编制频数表。对于大样本的资料,编制频数表有利于进一步的统计分析、且频数表本身也具有统计描述的作用。
编制频数表的步骤编制频数表步骤流程图举例说明计量资料频数表的编制过程
步骤如下:R=160.8-129.4=31.4。组段数=10;组距=R/10=3.14≈3(cm);按要求确定每一组段上下限。分组统计每一组段的频数,编制频数表。计量资料频数分布表计量资料频数分布图
计量资料频数分布的类型和特征频数分布表的用途揭示数值变量频数分布的类型和特征作为陈述资料的形式便于发现一些特大或特小的可疑值便于进一步的统计分析3.统计描述和统计推断算术均数已知性质相同的数值之和除以数值个数所得的商。适用于对称分布或正态分布、近似正态分布的资料。在医学中,同性别正常人的生理、生化指标,如果身高、体重、胸围、血红蛋白值等都适合用算术均数。通常用希腊字母μ表示总体算术均数,用表示样本的算术均数。集中趋势的统计描述几何均数
用G表示,是将n个观察值的乘积开n次方所得的根。适用于数值资料按大小排序后呈倍数关系,近似倍数关系或对数正态分布。3.中位数(median)中位数是将一批数据从小至大排列后位次居中的数据值,符号为M,反映一批观察值在位次上的平均水平。适用条件:适合各种类型的资料。尤其适合于①偏态分布的资料;②资料有不确定数值;③资料分布不明等。
X1
例:对甲乙2名高血压患者连续观察5天,测得的收缩压分别为:甲患者(mmHg):162145178142186
乙患者(mmHg):164160163159166从列出的数据看,两人收缩压的均数几乎无差别,但甲患者血压波动比较大。因此描述一组观察值,除了报告平均水平,还需要有离散或变异的情况。离散趋势的统计描述
反映数据的离散度(Dispersion)。即个体观察值的变异程度。常用的指标有:
1.极差(Range)(全距)
2.四分位数间距Quartilerange
3.方差Variance
4.标准差StandardDeviation
5.变异系数CoefficientofVariation
衡量变异程度的指标1.极差(Range)(全距)优点:简便缺点:1.只利用了两个极端值
2.n大,R也可能会大
3.不稳定R甲=186-142=44(mmHg)R乙=166-159=7(mmHg)2.百分位数与四分位数间距
Percentileandquartilerange百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。记为Px。四分位间距:QR=P75-P25P100(max)P75P50(中位数)P25P0(min)Px3.平均偏差为了利用每一个观察值信息,计算各观察值偏离平均数的平均距离。为了避免正负抵消,将每个观察值与均数之差的绝对值相加,然后取平均,称作平均偏差(MeanDifference).甲患者:平均偏差=15.52(mmHg)乙患者:平均偏差=2.32(mmHg)说明:甲偏差大,但是用了绝对值,不方便后续使用。平均偏差=3.离均差平方和与方差离均差平方和(SS):计算平均距离,可以不通过取绝对值,而是通过取平方来避免正负抵消。方差(variance):样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。4.标准差
标准差(standarddeviation)即方差的正平方根;其单位与原变量的单位相同。标准差的计算盘编号甲乙丙甲2乙2丙214404804901936002304002401002460490495211600240100245025350050050025000025000025000045405105052916002601002550255560520510313600270400260100合计250025002500126040012510001250250标准差50.9915.817.915.变异系数变异系数(coefficientofvariation,CV)适用条件:①观察指标单位不同,如身高、体重②同单位资料,但均数相差悬殊均数
标准差变异系数青年男子身高170cm6cm3.5%体重60kg7kg11.7%变异指标小结1.极差较粗,适合于任何分布2.标准差与均数的单位相同,最常用,适合于正态分布和近似正态分布。3.变异系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,常配套使用如正态分布:均数、标准差;
偏态分布:中位数、四分位半间距正态分布的通俗概念:把数值变量资料编制频数表后绘制频数分布图(又称直方图)。若频数分布呈现中间为最多,左右两侧基本对称,越靠近中间频数越多,离中间越远,频数越少,形成一个中间频数多,两侧频数逐渐减少且基本对称的分布,那我们一般认为该数值变量服从或近似服从数学上的正态分布。正态分布的概念正态分布的特征及其面积规律正态分布曲线位于横轴上方,呈钟形。正态分布曲线以均数所在处最高,且以均数为中心左右对称。正态分布曲线由两个参数决定,即总体均数μ和总体标准差σ。在σ不变的情况下,函数曲线形状不变,若μ变大时,曲线位置向右移;若变小时,曲线位置向左移,故称μ为位置参数。在μ不变的情况下,函数曲线位置不变,若σ变大时,曲线形状变的越来越“胖”和“矮”;若σ变小时,曲线形状变的越来越“瘦”和“高”,故称σ为形态参数或变异度参数。通常用N(,2)表示均数为
,标准差为
的正态分布。N(μ,12)、N(μ,22)、N(μ,32)N(μ1
,σ2)、N(μ2
,σ2)
标准正态分布
(standardnormaldistribution)概念:均数为0,方差为1的正态分布称为标准正态分布,记为N(0,1)。2.概率密度函数:标准正态分布与一般正态分布的关系:
若x~N(,2),对x进行如下变换:
则可证明,u服从标准正态分布,即u~N(0,1)。标准正态变换标准正态离差x~N(,2)u~N(0,1)标准正态变换标准正态分布正态分布的特征及曲线下的面积规律正态分布曲线下的面积有一定的分配规律。通过对密度函数积分我们可以得到正态曲线下与横轴上所夹的面积为1(或100%)。理论上所有的正态分布曲线下面积分布规律:
±σ:范围内曲线下的面积占总面积的68.27%;
±1.645σ:范围内曲线下的面积占总面积的90%;
±1.96σ:
范围内曲线下的面积占总面积的95%;
±2.58σ:范围内曲线下的面积占总面积的99%。
-+-1.645
+1.645
-1.96
+1.96
-2.58+2.5815.866%15.866%68.27%5%5%90%2.5%2.5%95%99%0.5%0.5%4.
抽样误差与假设检验第1节均数抽样误差与标准误假如事先知道某地七岁男童的平均身高为119.41cm。为了估计七岁男童的平均身高(总体均数),研究者从所有符合要求的七岁男童中每次抽取100人,共计抽取了五次。μ=119.41cmσ=4.38cm五次抽样得到了不同的结果,原因何在?个体变异随机抽样不同男童的身高不同每次抽到的人几乎不同抽样误差抽样误差的定义定义:由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间的差异,称为抽样误差(samplingerror)。各种参数都有抽样误差。抽样误差的表现抽样误差的表现样本均数和总体均数间的差别样本均数和样本均数间的差别
标准误的定义标准误:用于表示均数抽样误差大小,也叫样本均数的标准差,它反映了样本均数之间的离散程度。样本均数的标准差称为样本均数的标准误。标准误表示样本均数的变异度。
标准误的计算计算公式为其中,σ为总体标准差,n为抽样的样本例数在研究工作时,由于总体标准差常常未知,可以利用样本标准差近似估计标准误的计算【例】根据7岁男童的身高资料,在已知总体标准差时,标准误为4.38/10=0.438cm而若以第一次抽样的样本标准差来代替总体标准差,则标准误为4.45/10=0.445cm标准误的意义标准误的意义反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小。标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估计总体参数越不可靠。反之亦然。标准误的大小与标准差有关,在例数n一定时,从标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小。说明我们可以通过增加样本含量来减少抽样误差的大小。标准误的用途标准误的用途衡量样本统计量代表总体参数的可靠性;估计总体参数的可信区间;进行假设检验。总体样本抽取部分观察单位
统计量
参数
统计推断第2节总体均数的估计
如:样本均数样本标准差S
样本率P如:总体均数总体标准差总体率内容:参数估计(estimationofparameters)
包括:点估计与区间估计2.假设检验(testofhypothesis)参数估计参数估计的概念参数估计:指用样本指标(统计量)估计总体指标(参数)。参数估计有点估计(pointestimation)区间估计(intervalestimation)1、点估计
用样本统计量直接作为总体参数的点估计值,即直接用随机样本的样本均数作为总体均数
的点估计值,用样本频率p作为总体概率
的点估计值缺点:没有考虑抽样误差,无法评价其可信度估计值它与真值之间的差距。
可信区间亦称置信区间(confidenceinterval,CI),是按预先给定的概率估计未知的总体均数(μ)的可能范围。事先给定的概率(1-α)称为可信度。常取95%
或99%的可信度(一般取双侧)。2.区间估计总体均数的95%(或99%)可信区间:表示该区间包括总体均数的概率(或可能性)为95%(或99%)第3节假设检验的基本思想1.、样本统计量的差别有两种可能:(1)完全由抽样误差引起,即总体参数相等,称为差别无统计学意义。(2)除由抽样误差引起,还由总体参数的差别引起,即总体参数不等,称为差别有统计学意义。统计学假设检验的目的就是为了识别:是由哪种可能所引起不相等?例:某商家宣称其新入货的鸡蛋“坏蛋率”为1%。为了对这批鸡蛋质量进行判断(即坏蛋率为1%或高于1%),顾客与商家约定从中随机抽5个检查。结果为4个好的,1个坏的。在“坏蛋率”为1%的前提下,5个坏蛋中出现1个或1个以上坏蛋的概率为4.9%(二项分布概率计算)。这种4.9%的概率在一次抽样中理应出现几率很小,顾客就会怀疑前提条件(“坏蛋率”为1%)的真实性。这一思维逻辑上升到统计理论是:“小概率时间在一次随机抽样中不大可能发生”,如果发生了。。。《卫生统计学》第5版方积乾主编
1、无效假设(nullhypothesis),符号为
H0,记为H0:μ=μ0或μ-μ0=0
2、备择假设(alternativehypothesis),符号为H1,记为H1:μ≠μ0或μ>μ0或μ<μ02、假设检验的两个假设3、小概率事件
统计学通常规定事件发生的概率等于或小于α
,称为“小概率事件”,小概率事件,在一次抽样试验中几乎是不可能发生的,如果在一次实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 内部商品房合同范例
- 售货员用工合同范例
- 0kv配电网工程临时用电供应合同
- 04年设备采购与安装调试合同
- 2024云计算平台服务采购合同
- 2024年广告投放与代理合同
- 人力资源招投标法人授权委托书
- 工程验收电力施工合同范本
- 房地产销售市场定位
- 建筑施工安全责任协议
- 两癌的健康知识讲座
- 中西方创世神话文化的比较
- 幼儿园户外游戏活动设计课件精
- 2023燃气工程分包合同正规版
- 陕西师范大学学位英语试题
- 【基于嵌入式的人体健康智能检测系统设计与实现14000字(论文)】
- 医学课件:临床决策分析
- 江苏开放大学2023年秋《中级会计实务(上) 050284》第4次任务参考答案
- 屋顶光伏安全专项施工方案
- 4.与食品经营相适应的主要设备设施布局操作流程等文件
- 四班三倒排班表
评论
0/150
提交评论