医学统计学之假设检验t检验_第1页
医学统计学之假设检验t检验_第2页
医学统计学之假设检验t检验_第3页
医学统计学之假设检验t检验_第4页
医学统计学之假设检验t检验_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计中的几个基本概念一、总体与样本总体:指同质观察单位的集合2指同质观察单位某个变量值的集合(同质是指被研究指标的主要影响因素相同)总体根据有无时间和空间的限制又分为有限总体和无限总体样本:从总体中按随机抽样的方式抽取一定数量的观察单位所组成的集合样本要具备以下两个条件:(1)可靠性:样本中的每一个个体均来自既定的同一总体(2)代表性:样本中受试对象的构成分布与总体构成分布齐同。

随机抽样足够数量

分层抽样总体和样本的关系如下:总体抽样研究过程统计推断过程样本统计分析的基本思想

总体样本抽样推断样本统计描述二、同质与变异同质:是指被研究指标的主要影响因素相同变异:指同质事物间的差异。是客观存在的现象,可分为以下两类:个体变异:指同一特征或同一条件下个体间的差异。同质条件:都是鼻咽癌患者都用相同治疗方法变异现象:疗效各不相同随机测量变异:指同一个体重复观测结果未必相等的现象。三、概率与频率1、频率:某变量值出现的次数(频数)/重复观察的总次数。对一个随机事件重复观察时,尽管每进行n次试验,所得到的频率可能各不相同,但随着n的增大,频率会逐渐稳定在某个常数附近波动。频率的稳定性说明随机事件发生的可能性大小是事件本身固有的一种客观属性。2、概率:表示随机事件发生可能性大小的数值。(用P表示)通常由频率的稳定值反映。确定性事件:(1)必然事件P=1,(2)不可能事件P=0;随机性事件(3)概率取值介于0~1之间。概率越接近0,表明事件发生的可能性越小。概率越接近1,表明事件发生的可能性越大。概率和频率有区别:

频率是已经进行试验的结果,描述的是样本中事件出现的可能性大小(样本信息),样本不同,其值也不同,具有偶然性;

概率刻画的则是总体中随机事件出现的可能性大小(总体信息),是一种客观存在,是个确定数值,具有必然性。小概率原理:概率很小的随机事件在一次或少量实际观察中是不可能发生的(尽管理论上有发生的可能)小概率:P≤0.05或P≤0.01五、参数与统计量1、参数:根据总体分布特征而计算的总体指标。一般用小写的希腊字母表示。2、统计量:根据样本计算的相应指标(样本指标)。用拉丁字母表示。六、假设检验与两类错误1、假设检验:先对总体的参数或分布作出某种假设,然后用适当的方法根据样本对总体提供的信息,运用“小概率原理”推断假设是否成立。2、两类错误:Ⅰ型错误:拒绝实际成立的H0(弃真)Ⅱ型错误:不拒绝实际不成立的H0(存伪)(1)由假设检验可知,假设检验实际是在假定H0(µ1=µ2成立)的前提下抽样观察,出现当前样本现象的可能性大小(概率P)来进行推断的(2)假设检验的结论是概率性结论,无论是拒绝H0还是不拒绝H0,都有犯错误的可能;

拒绝H0时可能犯Ⅰ型错误(当H0成立时),这时犯错误的限制为通过假设检验下结论,平均100次抽样推断犯错误不超过5次;不拒绝实际不成立的H0时;可能犯Ⅱ型错误,犯错误的概率用

不易确定。

为把握度,即µ1和µ2确实有差别的话,通过假设检验发现这种差别的能力(检验效能)(3)要同时降低犯两类错误的概率,唯一的办法就是增大样本含量进行观察.第五章参数估计有关抽样的概念随机抽样:在抽样过程中,要使总体中的每一个观察对象都有同等机会被抽中成为样本。抽样研究的目的:利用样本信息估计或推断总体特征。统计分析的基本思想

总体样本抽样推断样本统计描述第一节抽样误差

定义:(1)从总体中随机抽取样本所产生的样本指标(统计量)与总体指标(参数)之间的差异。(2)从同一总体中随机抽样,样本指标(统计量)之间的差异。产生原因:总体中存在个体差异(生物的个体变异)特点:客观存在,不可避免;有一定范围,可以控制并估计其大小。

假定正常成年男子的红细胞计数服从正态分布,总体均数

=5.00(1012/L)、总体标准差

=0.50(1012/L)。我们借助计算机从该总体中作随机抽样,每次抽10名成年男子的红细胞计数组成一个样本,重复100次抽样。求出每个样本的样本均数和标准差。=5.00=0.50X2,S2X1,S1X3,S3n=10100次抽样所得样本均数与标准差样本号个体值样本均数,X标准差,S15.59、5.11、4.26…5.555.040.4425.49、5.56、5.47…4.865.190.42194.56、4.87、5.21…4.234.710.33734.08、4.73、4.84…5.334.660.46………总体5.00

0.50样本均数的抽样分布具有如下特点:1

各样本均数未必等于总体均数。2

各样本均数间存在差异。3

样本均数的分布为中间多,两边少,左右基本对称。4

样本均数的变异范围较之原变量的变异范围大大缩小。5

随着样本含量增大,样本均数的变异范围逐渐缩小。标准误:是统计量(如样本均数、样本率)的标准差,1反映样本均数间的离散程度2反映样本均数与总体均数间的离散程度(即抽样误差的大小)。100次抽样所得样本均数与标准差样本号个体值样本均数,X标准差,S标准误Sx15.59、5.11…5.555.040.440.13925.49、5.56…4.865.190.420.133194.56、4.87…4.234.710.330.104734.08、4.73…5.334.660.460.145………总体5.00

0.500.158

标准误的值越大,反映样本统计量的离散程度越大,通过一次抽样得到的某个样本统计量与总体参数(是个定值)相差也越大。第二节总体均数的估计统计推断包括参数估计和假设检验两方面。参数估计用样本指标(即样本统计量)来估计总体指标(即参数)。统计描述统计分析统计推断假设检验参数估计区间估计点估计统计指标集中趋势

离散趋势统计图表二、t分布1、t分布:从同一总体中抽出许多样本(n相同),就可得到许多t值,将这些t值绘成直方图,当样本数无限多时,就得到一条光滑的曲线,这就是t分布曲线,这种t值的分布就称为t分布。2、t分布的特点:(1)是单峰分布,以0为中心左右两侧对称;(2)形似标准正态分布,当自由度趋向无穷大时,t分布就成了标准正态分布;(3)t分布是一簇曲线,一个自由度对应一条曲线,自由度越大,曲线的峰越高,尾越低。t界值表临界值tα,ϒ

α=0.05(检验水准)

ϒ

=n-1(自由度)在t界值表中每一个t值都对应着一个P值在相同自由度时,t值越大,概率P值越小在相同自由度及相同t值时,双侧概率P值

是单侧概率的两倍。一、总体均数的点值估计点值估计:用某一随机样本均数来作总体均数的估计值。如随机抽查120例成年男子,测得血清铜含量均值为14.48(µmol/L),以此值作为当地成年男子的总体均数的估计值,叫“点值估计”。由于存在抽样误差,不同的样本可能得到不同的估计值。二、总体均数的区间估计区间估计:是按预先给定的概率(称为可信度,符号为1-α)利用样本来给总体均数定出一个范围(可信区间)。用公式表示为:

其含义为:从被估计的总体中随机抽取若干个含量为n的样本,每一个样本可得到一个相应的可信区间,理论上有(1-α)个区间包含总体均数(估计正确),有α个区间不包总体均数(估计错误)。

总体均数95%CI表示该区间包括总体均数μ的概率为95%,意思是若作100次抽样,可算得100个可信区间,平均有95个区间包括μ(估计正确),只有5个区间不包括μ(估计错误);由于5%是小概率,在一次实验中可认为小概率不发生,故实际应用时可认为估计的区间包括总体均数。

由一个样本估计一个相应的可信区间,当α=0.05时,被估计的总体均数不在该区间的概率仅5%,是个小概率,故可认为该区间包含总体均数(总体均数95%可信区间)。三、模拟实验模拟抽样成年男子红细胞数。设定:

产生100个随机样本,分别计算其95%的可信区间,结果用图示的方法表示。从图可以看出:绝大多数可信区间包含总体参数,只有5个可信区间没有包含总体参数。图4-2模拟抽样成年男子红细胞数100次的95%可信区间示意图例5-3随机抽取某地2002年9名7岁正常发育男孩测量其身高值得:均数为121.44(cm),标准差为5.75(cm)估计该地2002年7岁正常发育男孩身高总体均数95%可信区间。t0.058=2.306121.44-2.306×1.92121.44+2.306×1.92即(117.01,125.87)可信间的两要素:1、准确度:就是CI包含µ的概率大小;(1-α)值越大,可信度越高。2、精密度:就是区间的长度;长度越小(区间越窄)精密度越高。*当n确定时,准确度越高则精密度越低,两者是相矛盾的,在实际工作中为兼顾两者,以95%CI更为常用。第六章假设检验第一节假设检验的概念:在比较样本均数与已知总体均数差异、或两个样本均数及多个样本均数差异时,先对总体的参数或分布作出某种假设,然后用适当的方法根据样本对总体提供的信息,运用“小概率原理”推断假设是否成立。小概率原理:概率很小的随机事件在一次或少量实际观察中是不可能发生的(尽管理论上有发生的可能)小概率:P≤0.05或P≤0.01C病10例A药A药10例样本1样本2有效率50%

有效率60%差异

?试验1问题:差异是什么原因导致?抽样误差(个体差异)C病10例A药B药10例样本1样本2有效率50%

有效率60%差异

?试验2问题:差异是什么原因导致?A药=B药抽样误差(个体差异)C病10例A药B药10例样本1样本2有效率50%

有效率60%差异

?试验3问题:差异是什么原因导致?A药≠B药处理因素(药物因素)C病10例A药B药10例样本1样本2有效率50%

有效率60%差异

?试验4问题:差异是什么原因导致?1处理因素(药物因素)2抽样误差(个体差异)A总体=B总体差异A总体≠B总体(抽样误差)(处理因素)A总体A总体B总体B总体第二节假设检验的一般步骤一、建立假设,确定检验水准1、检验假设(无效假设)H0:µ1=µ2(或µd=0)

(备择假设)H1:µ1≠µ2(或µd≠0)

µ1<µ2(µd

<0)2、检验水准α,它作为假设检验时预先确定的判断小概率事件的水准,以便由P值和α的关系决定是拒绝H0还是不拒绝H0作为判断小概率的标准,α常取0.05或0.01。二、计算相应的检验统计量根据设计的类型、资料的类型和分布情况、统计推断目的以及n的大小选用不同的检验方法,计算相应的检验统计量。如完全随机设计实验中,两样本均数比较可计算统计量t值(即作t检验)。三、确定P值,作出推断结论:

P值是指在H0所规定的总体(例如µ1=µ2)中作随机抽样,获得等于及大于(或等于及小于)现有样本统计量(如t值)的概率;亦即这种样本差异()来自抽样误差的概率。

推断结论:统计结论:1对H0如何推断?

2对H1如何推断?

3对差异如何推断?专业结论1正确

2明确

3符合医学逻辑第七章两样本均数比较的假设检验第一节单样本均数t检验

(样本均数与总体均数比较)总体均数:理论值、标准值或经大量观测所得的稳定值。前提条件:正态分布或大样本。分析目的:推断样本所代表的未知总体均数

与已知的总体均数

0是否相等(

=0

)。1、资料类型:(1)给定一个已知的总体均数和一个随机抽取的样本,(2)该随机样本服从正态分布(若原数据是非正态分布,要通过数据变换使之服从正态分布)2、计算统计量t值:通过以往大量资料得知某地20岁男子平均身高为168㎝,现随机测量当地16名20岁男子,其身高均数为172㎝,标准差为14㎝。问当地现在20岁男子的平均身高是否比以往高?一H0:µ=µ0H1:µ﹥µ0

ɑ=0.05二t=1.143

三查t界值表(tɑ、V)t0.05

15=1.753

P﹥0.05接受H0,拒绝H1,差异无统计学意义(差异无显著意义)。现在当地20岁男子平均身高与以往相同。

第二节成对资料均数的t检验成对(配对)比较的t检验适用于下列情况:自身配对:

1同一受试对象处理前后的比较

2同一受试对象接受两种不同处理异体配对:

3将两个受试者配成对子,施予两种不同处理要求:1配对资料(差值d符合正态分布)2假设成对资料差数的总体均数为0(

d=0

),检验样本差数的均数与0之间差别有无显著性例7-2某医院用A、B两种血红蛋白测定仪检测16名健康男青年的血红蛋白含量(g/L),问两种血红蛋白测量仪的检测结果是否有差别?表7-1两种血红蛋白测量仪的检测结果(g/L)=8.125≠01处理因素(不同仪器)2抽样误差(个体差异)一H0:µd=0

H1:µ≠0ɑ=0.05二t=2.366三查t界值表(tɑ、V)t0.05

15=1.753

P﹤0.05拒绝H0,接受H1,差异有统计学意义(差异有显著意义)。仪器B检测的血红蛋白值高于仪器A

为研究三棱莪术液的抑瘤效果,将20只小白鼠按体重配成10对,然后把每对中的2只动物随机分到实验组和对照组中。两组动物都接种肿瘤,实验组在接种肿瘤3天后注射30%的三棱

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论