版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、程琮获得院一等奖课件医学统计学好用The teaching planfor medical studentsProfessor Cheng CongDept. of Preventive Medicine Taishan Medical College2 预防医学教授,硕士生导师。男,1959年6月出生。汉族,无党派。1982年12月,山东医学院公共卫生专业五年本科毕业,获医学学士学位。1994年7月,上海医科大学公共卫生学院研究生毕业,获医学硕士学位。2003年12月晋升教授。现任预防医学教研室副主任。主要从事医学统计学、预防医学,医学人口统计学等课程的教学及科研工作,每年听课学生500-8
2、00人。自2000年起连续六年,为硕士研究生开设医学统计学、SPSS统计分析简明教程、卫生经济学等课程,同时指导研究生的科研设计、开题报告及科研资料的统计处理与分析。发表医学统计学及预防医学的科研论文30多篇。代表作有“锌对乳癌细胞生长、增殖与基因表达的影响”,“行列相关的测度” 等。主编、副主编各类教材及专著8部,代表作有医学统计学、SPSS统计分析简明教程获得院级科研论文及科技进步奖8项,院第四届教学能手比赛二等奖一项,院教学评建先进工作者一项。获2004年泰山医学院首届十大教学名师奖。 程琮教授简介3医学统计学总目录 第1章绪论 第2章定量资料统计描述 第3章总体均数的区间估计和假设检验
3、 第4章方差分析 第5章定性资料的统计描述 第6章总体率的区间估计和假设检验 第7章二项分布与泊松分布 第8章秩和检验 第9章直线相关与回归 第10章实验设计 第11章调查设计 第12章统计表与统计图4第1章绪论 目录 第五节 学习统计学应注意的几个问题 第二节 统计工作的基本步骤 第三节 统计资料的类型 第四节 统计学中的几个基本概念 第一节 医学统计学的定义和内容5第一章 绪论第一节 医学统计学的定义和内容 医学统计学(medical statistics) -是以医学理论为指导,运用数理统计学的原理和方法研究医学资料的搜集、整理与分析,从而掌握事物内在客观规律的一门学科。 6医学研究的对
4、象-主要是人以及与其健康有关的各种影响因素。医学统计学的主要内容 :1.统计设计 包括实验设计和调查设计,它可以合理地、科学地安排实验和调查工作,使之能较少地花费人力、物力和时间,取得较满意和可靠的结果。2.资料的统计描述和总体指标的估计 通过计算各种统计指标和统计图表来描述资料的集中趋势、离散趋势和分布特征况(如正态分布或偏态分布);利用样本指标来估计总体指标的大小。 73.假设检验 是通过统计检验方法(如t检验、u检验、F检验、卡方检验、秩和检验等)来推断两组或多组统计指标的差异是抽样误差造成的还是有本质的差别。4.相关与回归 医学中存在许多相互联系、相互制约的现象。如儿童的身高与体重、胸
5、围与肺活量、血糖与尿糖等,都需要利用相关与回归来分析。8 5.多因素分析 如多元回归、判别分析、聚类分析、正交设计分析、主成分分析、因子分析、logistic回归、Cox比例风险回归等,都是分析医学中多因素有效的方法(本书不涉及,请参考有关统计书籍)。这些方法计算复杂,大部分需借助计算机来完成。 6.健康统计 研究人群健康的指标与统计方法,除了用上述的某些方法外,他还有其特有的方法,如寿命表、生存分析、死因分析、人口预测等方法9医学统计工作可分为四个步骤:统计设计、搜集资料、整理资料和分析资料。这四个步骤密切联系,缺一不可,任何一个步骤的缺陷和失误,都会影响统计结果的正确性。第二节 统计工作的
6、基本步骤 10设计(design)是统计工作的第一步,也是关键的一步,是对统计工作全过程的设想和计划安排。 统计设计就是根据研究目的确定试验因素、受试对象和观察指标,并在现有的客观条件下决定用什么方式和方法来获取原始资料,并对原始资料如何进行整理,以及整理后的资料应该计算什么统计指标和统计分析的预期结果如何等。 一、统计设计 11搜集资料(collection of date) 是根据设计的要求,获取准确可靠的原始资料,是统计分析结果可靠的重要保证。医学统计资料的来源主要有以下三个方面:1.统计报表 统计报表是医疗卫生机构根据国家规定的报告制度,定期逐级上报的有关报表。如法定传染病报表、出生死
7、亡报表、医院工作报表等,报表要完整、准确、及时。 二、搜集资料122.医疗卫生工作记录 如病历、医学检查记录、卫生监测记录等。 3.专题调查或实验研究 它是根据研究目的选定的专题调查或实验研究,搜集资料有明确的目的与针对性。它是医学科研资料的主要来源。13 整理资料(sorting data)的目的就是将搜集到的原始资料进行反复核对和认真检查,纠正错误,分类汇总,使其系统化、条理化,便于进一步的计算和分析。整理资料的过程如下:1.审核:认真检查核对,保证资料的准确性和完整性。 2.分组:归纳分组,分组方法有两种: 质量分组,即将观察单位按其类别或属性分组,如按性别、职业、阳性和阴性等分组。数量
8、分组,即将观察单位按其数值的大小分组,如按年龄的大小、药物剂量的大小等分组。三、整理资料 143.汇总: 分组后的资料要按照设计的要求进行汇总,整理成统计表。原始资料较少时用手工汇总,当原始资料较多时,可使用计算机汇总。四、分析资料 分析资料(analysis of data) 是根据设计的要求,对整理后的数据进行统计学分析,结合专业知识,作出科学合理的解释。 151.统计描述(descriptive statistics) 将计算出的统计指标与统计表、统计图相结合,全面描述资料的数量特征及分布规律。 2.统计推断(inferential statistics) 使用样本信息推断总体特征。通过
9、样本统计量进行总体参数的估计和假设检验,以达到了解总体的数量特征及其分布规律,才是最终的研究目的。 统计分析包括以下两大内容: 16医学统计资料按研究指标的性质一般分为定量资料、定性资料和等级资料三大类。一、定量资料定量资料(quantitative data) 亦称计量资料(measurement data),是用定量的方法测定观察单位(个体)某项指标数值的大小,所得的资料称定量资料。如身高()、体重()、脉搏(次/分)、血压(kPa)等为数值变量,其组成的资料为定量资料。 第三节 统计资料的类型 17 定性资料(qualitative data) 亦称计数资料(enumeration da
10、ta)或分类资料(categorical data),是将观察单位按某种属性或类别分组,清点各组的观察单位数,所得的资料称定性资料。 定性资料的观察指标为分类变量(categorical variable)。如人的性别按男、女分组;化验结果按阳性、阴性分组;动物实验按生存、死亡分组;调查某人群的血型按A、B、O、AB分组等,观察单位出现的结果为分类变量,分类变量没有量的差别,只有质的不同,其组成的资料为定性资料。二、定性资料 18三、等级资料等级资料(ranked data)亦称有序分类资料(ordinal categorical data),是将观察单位按属性的等级分组,清点各组的观察单位数
11、,所得的资料为等级资料。如治疗结果分为治愈、显效、好转、无效四个等级。 19 根据需要,各类变量可以互相转化。若按贫血的诊断标准将血红蛋白分为四个等级:重度贫血、中度贫血、轻度贫血、正常,可按等级资料处理。有时亦可将定性资料或等级资料数量化,如将等级资料的治疗结果赋以分值,分别用0、1、2等表示,则可按定量资料处理。 如调查某人群的尿糖的情况,以人为观察单位,结果可分、五个等级。 20同质(homogeneity) 是指观察单位或研究个体间被研究指标的主要影响因素相同或基本相同。如研究儿童的生长发育,同性别、同年龄、同地区、同民族、健康的儿童即为同质儿童。变异(variation) 由于生物个
12、体的各种指标所受影响因素极为复杂,同质的个体间各种指标存在差异,这种差异称为变异。如同质的儿童身高、体重、血压、脉搏等指标会有一定的差别。第四节 统计学中的几个基本概念一、同质与变异21二、总体与样本样本(sample):是从总体中随机抽取的部分观察单位变量值的集合。样本的例数称为样本含量(sample size)。注意:1。总体是相对的,总体的大小是根据研究目的而确定的。2。样本应有代表性,即应该随机抽样并有足够的样本含量。 22图示:总体与样本populationsample2sample1sample3sample4 sample523三、参数与统计量参数(parameter):由总体计
13、算或得到的统计指标称为参数。总体参数具有很重要的参考价值。如总体均数,总体标准差等。统计量(statistic):由样本计算的指标称为统计量。如样本均数,样本标准差s等。注意:一般不容易得到参数,而容易获得样本统计量。24四、抽样误差抽样误差(sample error): 由于随机抽样所引起的样本统计量与总体参数之间的差异以及样本统计量之间的差别称为抽样误差。如样本均数与总体均数之间的差别,样本率与总体率的差别等。注意:抽样误差是不可避免的。无论抽样抽得多么好,也会存在抽样误差。25五、概率概率(probability):是描述随机事件发生可能性大小的量值。用英文大写字母P来表示。概率的取值范
14、围在01之间。当P0时,称为不可能事件;当P1时,称为必然事件。小概率事件:统计学上一般把P0.05或P0.01的事件称为小概率事件。小概率原理:小概率事件在一次试验中几乎不可能发生。利用该原理可对科研资料进行假设检验。26第五节 学习医学统计学应注意的问题 1.重点掌握医学统计学的基本知识、基本技能、基本概念和基本方法,掌握使用范围和注意事项。2.要培养科学的统计思维方法,提高分析问题、解决问题的能力。 3.掌握调查设计和实验设计的原则,培养搜集、整理、分析统计资料的系统工作能力。 27课后作业 列举出计量资料、分类资料、等级资料各10个实例。 列举出可能事件、必然事件、不可能事件及小概率事
15、件各10个。 认真复习本章已学过的基本概念23遍。28 Best Wishes to All of You! Thank You for Listening!THE END 29医学本科生用主讲 程 琮泰山医学院预防医学教研室医学统计学30The teaching planfor medical studentsProfessor Cheng CongDept. of Preventive Medicine Taishan Medical College31第2章定量资料的统计描述 目录 第二节 集中趋势的描述 第三节 离散趋势的描述 第四节 正态分布 第一节 频数分布表32统计描述:是用统计
16、图表、统计指标来描述资料的分布规律及其数量特征。频数分布表(frequency distribution table):主要由组段和频数两部分组成表格。第一节 频数分布表第二章 定量资料的统计描述33二、频数分布表的编制 编制步骤 :1. 计算全距 (range): 一组变量值最大值和最小值之差称为全距(range),亦称极差,常用R表示。 2. 确定组距(class interval): 组距用i表示; 3. 划分组段: 每个组段的起点称组下限,终点称组上限。一般分为815组。 ;4. 统计频数: 将所有变量值通过划记逐个归入相应组段 ;5.频率与累计频率: 将各组的频数除以n所得的比值被称
17、为频率。累计频率等于累计频数除以总例数。 34表2-2 某年某市120名12岁健康男孩身高(cm)的频数分布 身高组段 (1) 频数 (2)频率(%) (3)累计频数 (4)累计频率 (%) (5)12510.83 10.8312943.33 54.17133108.34 1512.50合计120100.003536二、频数分布表的用途 1.揭示资料的分布类型 2.观察资料的集中趋势和离散趋势 3.便于发现某些特大或特小的可疑值 4.便于进一步计算统计指标和作统计处理 3738第二节 集中趋势的描述 集中趋势 :代表一组同质变量值的集中趋势 或平均水平。 常用的平均数有算术均数、几何均数和中位
18、数。另外不常用的有:众数,调和平均数和调整均数等。39一、算术均数算术均数 (arithmetic mean): 简称均数。适用条件:对称分布或近似对称分布的资料。 习惯上以希腊字母表示总体均数(population mean),以英文字母表示样本均数(sample mean)401. 直接法:用于观察值个数不多时 计算方法41(weighting method):用于变量值个数 较多时。 注意:权数即频数f,为权重权衡之意。42 身高 (1) 组中值X (2) 频数f (3) fX(4)=(2)(3) fX2(5)=(2)(4) 1251271127161291291314524686441
19、33135101350182250合计 120 17168 2460040 表2-4 120名12岁健康男孩身高(cm)均数和标准差加权法计算表 4344cm。 计算结果45几何均数(geometric mean,简记为):表示其平均水平。 适用条件:对于变量值呈倍数关系或呈对数正态分布(正偏态分布),如抗体效价及抗体滴度,某些传染病的潜伏期,细菌计数等。计算公式:有直接法和加权法。 二、几何均数 461.直接法: 用于变量值的个数n较少时 47直接法计算实例482.加权法 : 用于资料中相同变量值的个数f(即频数)较多时。 49 抗体滴度 (1)频数f (2)滴度倒数X (3) lgX (4
20、) flgX (5)=(2)(4) 1:4240.60201.20401:8680.90315.41861:167161.20418.4287合计 50 89.1045 表2-5 50名儿童麻疹疫苗接种后血凝抑制抗体滴度几何均数计算表505150名儿童麻疹疫苗接种后平均血凝抑制抗体滴度为。 计算结果:将有关已知数据代入公式有52变量值中不能有0;不能同时有正值和负值;若全是负值,计算时可先把负号去掉,得出结果后再加上负号。计算几何均数注意事项:53中位数 定义:将一组变量值从小到大按顺序排列,位次居中的变量值称为中位数(median,简记为M)。适用条件:变量值中出现个别特小或特大的数值;资料
21、的分布呈明显偏态,即大部分的变量值偏向一侧;变量值分布一端或两端无确定数值,只有小于或大于某个数值;资料的分布不清。 三、中位数及百分位数 54定义:百分位数(percentile)是一种位置指标,以Px表示。百分位数是将频数等分为一百的分位数。一组观察值从小到大按顺序排列,理论上有x%的变量值比Px小,有(100-x)%的变量值比Px大。故P50分位数也就是中位数,即P50=M 。 百分位数 55描述一组资料在某百分位置上的水平;用于确定正常值范围;计算四分位数间距。百分位数的应用条件:56计算方法:有直接法和加权法1.直接法:用于例数较少时 n为奇数时 n为偶数时 572.频数表法: 用于
22、例数较多时 中位数百分位数58 潜伏期(小时) (1)频数f (2)累计频数 (3) 累计频率() (4) 0171711.76 466343.412 3810169.9合计 145 表2-6 145例食物中毒病人潜伏期分布表 5960先找到包含Px的最小累计频率;该累计频率同行左边的组段值为L;L同行右边的频数为fx(或fm);L前一行的累计频数为fL;将上述已知条件代入公式计算Px或P50 。计算中位数及百分位数的步骤:61计算结果:62定义:用来说明变量值的离散程度或变异程度。注意:仅用集中趋势尚不能完全反映一组数据的特征。故应将集中趋势和离散趋势结合起来才能更好地反映一组数据的特征。常
23、用离散指标有:极差、四分位数间距、标准差、方差、变异系数。第三节 离散趋势的描述 63甲组: 184 186 188 190 192乙组: 180 184 188 192 196两组球员的平均身高都是188cm,但甲组球员身高比较集中,乙组球员身高比较分散。为了说明离散趋势,就要用离散指标。 实例分析64极差 极差(range,简记为R)亦称全距,即一组变量值中最大值与最小值之差 。特点:计算简单,不稳定,不全面,易变化;可用于各种分布的资料。一、极差和四分位数间距 65四分位数间距 公式: Q= P75P25 特点:比极差稳定,只反映中间两端值的差异。 计算不太方便。可用于各种分布的资料。6
24、6二、方差和标准差 方差(variance) 总体方差 样本方差 67自由度(degree of freedom)的概念n-1是自由度,用希腊小写字母表示,读作nju:。定义:在N维或N度空间中能够自由选择的维数或度数。例:ABC,共有n=3个元素,其中只能任选2个元素的值,故自由度n-1=3-1=2。 68方差的特点充分反映每个数据间的离散状况,意义深刻;指标稳定,应用广泛,但计算较为复杂,不易理解;方差的单位与原数据不同,有时使用时不太方便;在方差分析中应用甚广而极为重要。69(二)标准差(standard deviation) 总体标准差 样本标准差 70牢记:离均差平方和展开式: 71
25、标准差的特点:意义同方差,是方差的开平方;标准差的单位与原数据相同,使用方便,意义深刻,应用广泛;故一般已作为医学生物学领域中反映变异的标准,故称标准差。72标准差的计算方法:可分为直接法和加权法。 2.加权法 73直接法:标准差计算实例:例2.12 例2.2中7名正常男子红细胞数(1012/L)如下:4.67, 4.74, 4.77, 4.88,4.76, 4.72, 4.92,计算其标准差。 x22222222 74计算结果:75例2.13 对表2-4资料用加权法计算120名12岁健康男孩身高值的标准差。加权法:标准差计算实例:在表2-4中已算得fx=17168,fx2 =2460040,
26、 代入公式 76变异系数(coefficient of variation): 简记为CV ;特征:变异系数为无量纲单位,可以比较不同单位指标间的变异度;变异系数消除了均数的大小对标准差的影响,所以可以比较两均数相差较大时指标间的变异度。 三、变异系数77cmcmkg,kg。试比较身高与体重的变异程度。变异系数 计算实例78身高 体重变异系数 计算结果79第四节 正态分布一、正态分布的概念和特征 正态分布(normal distribution):也称高斯分布,是医学和生物学最常见的连续性分布。如身高、体重、红细胞数、血红蛋白等。 80图2-1 120名12岁健康男孩身高的频数分布81 正态分
27、布的函数和图形正态分布的密度函数,即正态曲线的方程为:82图2-2 频数分布逐渐接近正态分布示意 83为了应用方便,常按公式(2.19)作变量变换 u值称为标准正态变量或标准正态离差,有的参考书也将u值称为z值。 84这样将正态分布变换为标准正态分布(standard normal distribution) 85图2-3 正态分布的面积与纵高 86正态分布的特征 1. 集中性 正态曲线的高峰位于正中央, 即均数所在的位置。对称性 正态曲线以均数为中心,左右对称, 3. 正态分布有两个参数,即均数和标准差。 4. 正态曲线下面积有一定的分布规律 87图2-4 不同标准差的正态分布示意 88二、
28、正态曲线下面积的分布规律 89标准正态分布表(u值表) 标准正态分布曲线下的面积,由此表可查出曲线下某区间的面积。查表时应注意:表中曲线下面积为-到u 的下侧累计面积;当已知、和X时,先按公式(2.19)求得u值,再查表;当和未知时,并且样本例数在100例以上,常用样本均数和标准差S分别代替和 ,按公式(2.19)求得u值;曲线下横轴上的总面积为100%或1 90 前例2.1中,某年某市120名12岁健康男孩身高,已知均数=143.07cm,标准差S=5.70cm,估计该地12岁健康男孩身高在135cm以下者占该地12岁男孩总数的百分数;估计身高界于135cm150cm范围内12岁男孩的比例;
29、分别求出均数1SSS范围内12岁男孩人数占该120名男孩总数的实际百分数,说明与理论百分数是否接近。91根据题意,按公式(2.19)作u变换 92身高范围所占面积 故估计该地12男孩身高在135cm以下者约占7.78; 身高界于135cm150cm范围内者约占81.10。 93三、正态分布的应用 制定医学参考值范围 参考值范围也称为正常值范围。医学上常把绝大数正常人的某指标范围称为该指标的正常值范围。这里的“绝大多数”可以是90、95、99,最常用的是95。质量控制 常以均数2S作为上、下警戒值,以均数3S作为上、下控制值。 正态分布是很多统计方法的理论基础 94THE END THANK Y
30、OU FOR LISTENING95本科生用医学统计学教案主讲 程 琮泰山医学院预防医学教研室96The teaching planfor medical studentsProfessor Cheng CongDept. of Preventive Medicine Taishan Medical College97第3章总体均数的区间估计和假设检验 目录 第五节 均数的 u 检验 第二节 t 分布 第三节 总体均数的区间估计 第四节 假设检验的意义和基本步骤 第一节 均数的抽样误差与标准误 第六节 均数的 t 检验 第七节两个方差的齐性检验和t检验 第八节 型错误和型错误 第九节 应用假设
31、检验应注意的问题98图示:总体与样本Populationsample2sample1sample3sample4 sample599一、标准误的意义及其计算统计推断(statistical inference) :根据样本信息来推论总体特征。均数的抽样误差 :由抽样引起的样本均数与总体均数的差异称为均数的抽样误差。 标准误(standard error):反映均数抽样误差大小的指标。 第一节 均数的抽样误差与标准误100已知:标准误计算公式未知:101 实例:cmcm,按公式计算,则标准误为:102 ;2.进行总体均数的区间估计; 3.进行均数的假设检验等 。二、标准误的应用 103正态变量X
32、采用u(X)/变换,则一般的正态分布N (,)即变换为标准正态分布N (0,1)。又因从正态总体抽取的样本均数服从正态分布 N(, ),同样可作正态变量的u变换,即第二节 t 分布 一、t 分布的概念 104 实际工作中由于理论的标准误往往未知,而用样本的标准误作为的估计值, 此时就不是u变换而是t变换了,即下式: 105t分布于1908年由英国统计学家以“Student”笔名发表,故又称Student t 分布(Students t-distribution)。 106二、t分布曲线的特征 t分布曲线是单峰分布,以0为中心,左右两侧对称,曲线的中间比标准正态曲线(u分布曲线)低,两侧翘得比标
33、准正态曲线略高。t分布曲线随自由度而变化,当样本含量越小(严格地说是自由度 =n-1越小),t分布与u分布差别越大;当逐渐增大时,t分布逐渐逼近于u分布,当 =时,t分布就完全成正态分布 。t分布曲线是一簇曲线,而不是一条曲线。t分布下面积分布规律:查t分布表。107t 分布示意图108t分布曲线下双侧或单侧尾部合计面积我们常把自由度为的t分布曲线下双侧尾部合计面积或单侧尾部面积为指定值时,则横轴上相应的t界值记为t,。如当 =20, =0.05时,记为t0.05, 20;当 =22, =0.01时,记为t0.01, 22。对于t, 值,可根据和值,查附表2,t界值表。109t分布是t检验的理
34、论基础。由公式(3.4)可知,t值与样本均数和总体均数之差成正比,与标准误成反比 。在t分布中t值越大,其两侧或单侧以外的面积所占曲线下总面积的比重就越小 ,说明在抽样中获得此t值以及更大t值的机会就越小,这种机会的大小是用概率P来表示的。t值越大,则P值越小;反之,t值越小,P值越大。根据上述的意义,在同一自由度下,t t ,则P ; 反之,tt,则P。110第三节 总体均数的区间估计 参数估计:用样本指标(统计量)估计总体指标(参数)称为参数估计。估计总体均数的方法有两种,即:点值估计(point estimation )区间估计(interval estimation)。111一、点值估
35、计 点值估计:是直接用样本均数作为总体均数的估计值。此法计算简便,但由于存在抽样误差,通过样本均数不可能准确地估计出总体均数大小,也无法确知总体均数的可靠程度 。112二、区间估计 区间估计是按一定的概率(1-)估计包含总体均数可能的范围,该范围亦称总体均数的可信区间(confidence interval,缩写为CI)。1-称为可信度,常取1-为0.95和0.99,即总体均数的95%可信区间和99%可信区间。1-(如95)可信区间的含义是:总体均数被包含在该区间内的可能性是1-,即(95),没有被包含的可能性为,即(5)。113总体均数的可信区间的计算 且n较小(n100),可用u检验。不同
36、的统计检验方法,可得到不同的统计量,如t 值和u值。1244.确定概率P值 P值是指在H0所规定的总体中作随机抽样,获得等于及大于(或小于)现有统计量的概率。t t, ,则P ;t 。 1255.作出推断结论 当P时,表示在H0成立的条件下,出现等于及大于现有统计量的概率是小概率,根据小概率事件原理,现有样本信息不支持H0,因而拒绝H0,结论为按所取检验水准拒绝H0,接受H1,即差异有统计学意义,如例3.3 可认为两总体脉搏均数有差别;当P时,表示在H0成立的条件下,出现等于及大于现有统计量的概率不是小概率,现有样本信息还不能拒绝H0,结论为按所取检验水准不拒绝H0,即差异无统计意义,如例3.
37、3 尚不能认为两总体脉搏均数有差别。126下结论时的注意点:P ,拒绝H0,不能认为H0肯定不成立,因为虽然在H0成立的条件下出现等于及大于现有统计量的概率虽小,但仍有可能出现;同理,P ,不拒绝H0,更不能认为H0肯定成立。由此可见,假设检验的结论是具有概率性的,无论拒绝H0或不拒绝H0,都有可能发生错误,即第一类错误或第二类错误 127第五节 均数的u检验国外统计书籍及统计软件亦称为单样本u检验(one sample u-test)。样本均数与总体均数比较的u检验适用于:总体标准差已知的情况;样本含量较大时,比如n100时。对于后者,是因为n较大,也较大,则t分布很接近u分布的缘故。 一、
38、样本均数与总体均数比较的u检验128u 值的计算公式为:总体标准差已知时,不管n的大小。总体标准差未知时,但n100时。129 某托儿所三年来测得2124月龄的47名男婴平均体重11kg。查得近期全国九城市城区大量调查的同龄男婴平均体重11.18kg,标准差为1.23kg。问该托儿所男婴的体重发育状况与全国九城市的同期水平有无不同?(全国九城市的调查结果可作为总体指标) 实 例130(1)建立检验假设 H0: 0 ,即该托儿所男婴的体重发育状况与全国九城市的同期水平相同, 0.05(双侧)H1: 0 ,即该托儿所男婴的体重发育状况与全国九城市的同期水平不同。(2)计算u值 本例因总体标准差已知
39、,故可用u检验。本例n=47, 样本均数=11, 总体均数=11.18,总体标准差=1.23, 代入公式(3.7)131(3)确定P值,作出推断结论 查u界值表(附表2,t界值表中为一行),得u=1.96,0.05。按=0.05水准,不拒绝H0,差异无统计学意义。结论:可认为该托儿所男婴的体重发育状况与全国九城市的同期水平相同。 132二、两样本均数比较的u检验该检验也称为独立样本u检验(independent sample u-test),适用于两样本含量较大(如n150且n250)时,u值可按下式计算:133 测得某地2024岁健康女子100人收缩压均数为15.27kPa,标准差为1.16
40、kPa;又测得该地2024岁健康男子100人收缩压均数为16.11kPa,标准差为1.41kPa。问该地2024岁健康女子和男子之间收缩压均数有无差别? 实 例134(1)建立检验假设 H0:1 2 ,即该地2024岁健康女子和男子之间收缩压均数相同; H1: 12 ,即该地2024岁健康女子和男子之间收缩压均数不同。 0.05(双侧)(2)计算u值 本例 n1=100, 均数1=15.27, S1 n2=100, 均数2=16.11, S2135(3)确定P值,作出推断结论 查u界值表(附表2,t界值表中为一行),得u=1.96,现uu=1.96,故P0.05。按水准 =0.05,拒绝H0,
41、接受H1,差异有统计学意义。结论:可认为该地2024岁健康人的收缩压均数男性高于女性。 136第六节 均数的 t 检验 当样本含量较小(如n50)时,t分布和u分布有较大的出入,所以小样本的样本均数与总体均数的比较以及两个样本均数的比较要用t检验。t检验的适用条件:样本来自正态总体或近似正态总体;两样本总体方差相等。 137一、样本均数与总体均数比较的t检验 亦称为单样本t检验(one sample t-test)。即样本均数代表的未知总体均数与已知的总体均数(一般为理论值、标准值或经过大量观察所得的稳定值等)进行比较。这时检验统计量t值的计算在H0成立的前提条件下由公式(3.4)变为: 13
42、8t检验。 (1)建立检验假设 H0: 0 ,即该山区健康成年男子脉搏均数与一般健康成年男子脉搏均数相同; H1:0 ,即该山区健康成年男子脉搏均数与一般健康成年男子脉搏均数不同。 0.05(双侧) (2)计算t值 本例n = 25 , s = 6.5 , 样本均数=74.2 ,总体均数 =72 , 代入公式(3.10)139(3)确定P值, 作出推断结论 本例 =251=24,查附表2,t界值表,得t0.05,24=2.064,现t=1.6920.05。按 =0.05的水准,不拒绝H0,差异无统计学意义。 结论:即根据本资料还不能认为此山区健康成年男子脉搏数与一般健康成年男子不同。 140二
43、、配对资料的t检验 医学科研中配对资料的三种主要类型:同一批受试对象治疗前后某些生理、生化指标的比较;同一种样品,采用两种不同的方法进行测定,来比较两种方法有无不同;配对动物试验,各对动物试验结果的比较等。配对实验设计得到的资料称为配对资料。 141 先求出各对子的差值d的均值, 若两种处理的效应无差别,理论上差值d 的总体均数应为0。所以这类资料的比较可看作是样本均数与总体均数为0的比较。要求差值的总体分布为正态分布。 t检验的公式为:配对资料的 t 检验(paired samples t-test)142 设有12名志愿受试者服用某减肥药,服药前和服药后一个疗程各测量一次体重(kg),数据
44、如表3-4所示。问此减肥药是否有效? (1)建立检验假设 H0:d=0, 即该减肥药无效; H1:d0 ,即该减肥药有效。 单侧=0.05 143表3-4 某减肥药研究的体重(kg)观察值 144(2)计算t值本例n = 12, d = -16,d2 = 710,差值的均数=d /n = -16/12 = -1.33(kg )145(3)确定P值,作出推断结论 自由度=n-1=12-1=11,查附表2,t界值表,得单侧t0.05,11=2.201,现t=0.58 0.05。按=0.05水准,不拒绝H0, 差异无统计学意义。结论:故尚不能认为该减肥药有减肥效果。146 某单位研究饮食中缺乏维生素
45、E与肝中维生素A含量的关系,将同种属的大白鼠按性别相同,年龄、体重相近配成8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,然后定期将大白鼠杀死,测得其肝中维生素A的含量如表3-5。问不同饲料组的大白鼠肝中维生素A含量有无差别? (自学内容) 147三、两样本均数比较的t检验两本均数比较的t检验亦称为成组t检验,又称为独立样本t检验(independent samples t-test)。适用于比较按完全随机设计而得到的两组资料,比较的目的是推断它们各自所代表的总体均数和是否相等。 148样本估计值为 :总体方差已知:标准误的计算公式149若n1=n2时:已知S1和S2时:150
46、测得14名慢性支气管炎病人与11名健康人的尿中17酮类固醇(mol/24h)排出量如下,试比较两组人的尿中17酮类固醇的排出量有无不同。 原始调查数据如下:病 人X1健康人X2:n=11; 17.95 30.46 10.88 22.38 12.89 23.01 13.89 19.40 15.83 26.72 17.29 151(1)建立检验假设 H0:1 2 ,即病人与健康人的尿中17酮类固醇的排出量相同H1: 1 2 ,即病人与健康人的尿中17酮类固醇的排出量不同 152(2)计算t值 本例n1=14, X1=212.35, X12 n2=11, X2=210.70, X22=4397.64
47、 153(3)确定P值 作出推断结论 =14+11-2=23,查t界值表,得t0.05,23=2.069,现t=1.80350.05。按=0.05水准,不拒绝H0,差异无统计学意义。结论:尚不能认为慢性支气管炎病人与健康人的尿中17酮类固醇的排出量不同。154四、两样本几何均数t检验比较两样本几何均数的目的是推断它们各自代表的总体几何均数有无差异。适用于:观察值呈等比关系,如血清滴度;观察值呈对数正态分布,如人体血铅含量等。两样本几何均数比较的t检验公式与两样本均数比较的t检验公式相同。只需将观察X用lgX来代替就行了 155例3.10 将20名钩端螺旋体病人的血清随机分为两组,分别用标准株和
48、水生株作凝溶试验,抗体滴度的倒数(即稀释度)结果如下。问两组抗体的平均效价有无差别? 标准株(11人):100 200 400 400 400 400 800 1600 1600 1600 3200水生株(9人): 100 100 100 200 200 200 200 400 1600将两组数据分别取对数,记为x1, x2 。 x1: 2.000 2.301 2.602 2.602 2.602 2.602 2.903 3.204 3.204 x2156一、两样本方差的齐性检验 用较大的样本方差S2比较小的样本方差S2 第七节 两总体方差的齐性检验和t检验 1为分子自由度,2为分母自由度 15
49、7注意:方差齐性检验本为双侧检验,但由于公式(3.18)规定以较大的方差作分子,F值必然大于1,故附表3单侧0.025的界值,实对应双侧检验P=0.05;当样本含量较大时(如n1和n2均大于50),可不必作方差齐性检验。 158深层水:n1=8, 样本均数=1.781(mg/L), S1=1.899 (mg/L)表层水:n2=10,样本均数=0.247(mg/L), S2=0.210 (mg/L) 某研究所为了了解水体中汞含量的垂直变化,对某氯碱厂附近一河流的表层水和深层水作了汞含量的测定,结果如下。试检验两个方差是否齐性。159 确定P值 作出推断结论 本例18-1=7 , 210-1=9
50、,查附表3,F界值表(方差齐性检验用), 得F0.05,7,9=4.20, 本例F80.97 F 0.05,7,9=4.20; 故P0.05, 按=0.05 水准,拒绝H0, 接受H1,结论:故可认为两总体方差不齐。160方差不齐时,两小样本均数的比较,可选用以下方法:采用适当的变量变换,使达到方差齐的要求;采用秩和检验;采用近似法t 检验。二、t 检验161计算统计量t 值 162例3.12 由例3.11已知表层水和深层水含汞量方差不齐,试比较其均数有无差别?自学内容163假设检验中作出的推断结论可能发生两种错误:拒绝了实际上是成立的H0,这叫型错误(typeerror)或第一类错误,也称为
51、错误。 不拒绝实际上是不成立的H0,这叫型错误(typeerror)或第二类错误,也称为错误。 第八节 型错误和型错误164表3-6 可能发生的两类错误165166联系:一般增大,则减小; 减小,则增大;区别:(1)一般为已知,可取单侧或双侧,如0.05,或0.01。 (2)一般为未知,只取单侧,如取0.1或0.2。1 (把握度)0.75。两类错误的联系与区别1671-称为检验效能(power of test)或把握度,其意义是两总体确有差别,按水准能发现它们有差别的能力。 与的大小应根据实际情况适当取值。 1682.选用假设检验的方法应符合其应用条件 3.正确理解差别有无显著性的统计涵义 正
52、确理解差别有统计学意义 及临床上的差别的统计学意义。4.假设检验的推断结论不能绝对化 5.要根据资料的性质事先确定采用双侧检验或单侧检验 第九节 应用假设检验的注意问题169THANK YOU FOR LISTENINGTHE END 170医学本科生用泰山医学院 预防医学教研室Email: 主 讲 程 琮医学统计学171Teaching Plan for Medical StudentsMedical StatisticsProfessor Cheng CongDept. of Preventive Medicine Taishan Medical College172第4章 方差分析 目录
53、 第五节 多个方差的齐性检验 第二节 单因素方差分析 第三节 双因素方差分析 第四节 多个样本均数间的两两比较 第一节 方差分析的基本思想 第六节 变量变换173第四章 方差分析 学习要求:1。掌握方差分析的基本思想;2。掌握单因素、双因素方差分析的应用条件、意义及计 算方法;3。熟悉多个均数间两两比较的意义及方法;4。了解方差齐性检验和t检验的意义及方法;5。熟悉变量变换的意义和方法。174第一节 方差分析的基本思想一、方差分析的用途及应用条件方差分析(analysis of variance,缩写为ANOVA)是常用的统计分析方法之一。其应用广泛,分析效率高,节省样本含量。主要用途有:进行
54、两个或两个以上样本均数的比较;可以同时分析一个、两个或多个因素对试验结果的作用和影响;分析多个因素的独立作用及多个因素之间的交互作用;进行两个或多个样本的方差齐性检验等。方差分析对分析数据的要求及条件比较严格,即要求各样本为随机样本,各样本来自正态总体,各样本所代表的总体方差齐性或相等。175 二、方差分析的基本思想 处理因素可分为若干个等级或不同类型,通常称为水平。在不同的水平下进行若干次试验并取得多个数据,可以将在每个水平下取得的这些数据看作一个样本。若某个因素有四个水平,每个水平的数据代表一个样本,则获得四个样本的数据。 设有k个相互独立的样本,分别来自k个正态总体X1,X2,Xk,且方
55、差相等,即要求检验假设为 此假设的意义为,在某处理因素的不同水平下,各样本的总体均数相等。 1761。设某因素有多个水平,即试验数据产生多个样本。由多个样本的全部数据可以计算出总变异,称为总的离均差平方和。即SS总。2。数理统计证明,SS总可以由几个部分构成。单因素方差分析中, SS总由组间变异和组内变异构成。 SS总SS组间SS组内。3。组间变异主要受到处理因素和个体误差两方面影响,组内变异主要受个体误差的影响。当H0 为真时,由于处理因素不起作用,组间变异只受个体误差的影响。此时,组间变异与组内变异相差不能太大。177表42 PCNA在三种不同胃组织中的表达结果标本Xj不同胃组织XiABC
56、156302124637143392027Xj553221100874 (X)ni109827 ( N)均数55.3024.5612.532.37(总均值)Xj2312916273167239236( X2)1784。各种变异除以相应的自由度,称为均方,用MS表示,也就是方差。当H0为真时,组间均方与组内均方相差不大,两者比值F值约接近于1。 即 F组间均方组内均方1。5。当H0不成立时,处理因素产生了作用,使得组间均方增大,此时,F1,当大于等于F临界值时,则P0.05。可认为H0不成立,各样本均数不全相等。179三、方差分析的类型1。单因素方差分析(one-way ANOVA) 也称为完全
57、随机设计(completely random design)的方差分析。该设计只能分析一个因素下多个水平对试验结果的影响。2。双因素方差分析(two-way ANOVA) 称为随机区组设计(randomized block design)的方差分析。该设计可以分析两个因素。一个为处理因素,也称为列因素;一个为区组因素,也称为行因素。 1803。三因素方差分析 也称为拉丁方设计(Latin square design)的方差分析。该设计特点是,可以同时分析三个因素对试验结果的作用,且三个因素之间相互独立,不能有交互作用。4。析因设计(factorial design)的方差分析 当两个因素或多个
58、因素之间存在相互影响或交互作用时,可用该设计来进行分析。该设计不仅可以分析多个因素的独立作用,也可以分析多个因素间的交互作用,是一种高效率的方差分析方法。1815。正交试验设计的方差分析 如果要分析的因素有三个或三个以上,可进行正交试验设计(orthogonal experimental design)的方差分析。当分析因素较多时,试验次数会急剧增加,用此设计进行分析则更能体现出其优越性。该设计利用正交表来安排各次试验,以最少的试验次数,得到更多的分析结果。 182四、方差分析的基本步骤1。计算总变异:指所有试验数据的离均差平方和。 2。计算各部分变异 :单因素方差分析中,可以分出组间变异(S
59、S组间)和组内变异(SS组内);双因素方差分析中,可以分出处理组变异(SS处理),区组变异(SS区组)或称为配伍组变异(SS配伍)及误差变异(SS误差)。 1833。计算各部分变异的均方 在方差分析中,方差也称为均方,是各部分的离均差平方和除以其相应的自由度,用MS表示。基本公式为:MSSS。 4。计算统计量F值 F值是指两个均方之比。一般是用较大的均方除以较小的均方。故F值一般不会小于1。5。确定P值,推断结论 根据分子1,分母2,查F界值表(方差分析用),得到F值的临界值(critical value),即:如果FF界值,则PH0,接受H1。可以认为各样本所代表的总体均数不全相等。如果想要
60、了解哪两个样本均数之间有差异,可以继续进行各样本均数的两两比较。 184第二节 单因素方差分析1 。特点 单因素方差分析是按照完全随机设计的原则将处理因素分为若干个不同的水平,每个水平代表一个样本,只能分析一个因素对试验结果的影响及作用。其设计简单,计算方便,应用广泛,是一种常用的分析方法,但其效率相对较低。该设计中的总变异可以分出两个部分, 即SS总SS组间SS组内。2。常用符号及其意义(1)Xij 意义为第i组的第j个数据。其中下标 i 表示列,j 表示行。 (2) 意义为将第i组的全部j个数据合计。185 (3) 将第i组的j个数据合计后平方, 再将所有各i组的平方值合计。 (4)变异来
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年在线销售合作合同书范本
- 长期金融咨询服务合同模板
- 店面接盘协议书格式
- 长期供货协议样本
- 工业产品购销合同模板
- 劳动关系解除协议
- 个人参与创业团队入股协议
- 建筑工程清包工作合同参考
- 2023年高考地理第三次模拟考试卷(江苏B卷)(解析版)
- 货物分期付款购买协议样本
- 汽车事故应急预案
- 物流管理信息系统订单管理信息系统
- 2023中国可持续消费报告
- (广州卷)2024年中考语文第一次模拟考试卷附答案
- 科技创新政策解读
- 综合实践活动(1年级上册)第3课时 如何给树浇水-课件
- 医院培训课件:《医务人员职业暴露与防护》
- 留置针非计划性拔管原因分析品管圈鱼骨图柏拉图
- 安全生产目标责任制考核表
- 中国儿童肥胖报告2023
- 中小学学生体质国标测试评分标准(按年级)
评论
0/150
提交评论