版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于抽样误差与假设检验t检验第1页,共68页,2022年,5月20日,22点45分,星期四几个概念:计量资料:测定每个观察单位某项指标量的大小得到的数据(资料)。总体:研究对象(某项变量值)的全体。样本:总体中随机抽取的一部分研究对象的某项变量值。统计量:从样本计算出来的统计指标。参数:总体的统计指标叫总体参数。第2页,共68页,2022年,5月20日,22点45分,星期四统计推断:用样本信息推论总体特征的过程。包括:参数估计:
运用统计学原理,用从样本计算出来的统计指标量,对总体统计指标量进行估计。假设检验:又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出判断。方法:均数的参数估计、均数t检验第3页,共68页,2022年,5月20日,22点45分,星期四一、抽样误差与标准误(一)概念1、抽样误差:是伴随抽样所产生的样本统计量与参数之间的差别。2、标准误:符号,表示抽样误差大小的指标;也称为样本均数的标准差;反映了用样本均数代替总体均数的可靠性程度的大小,增加样本容量可以降低抽样误差。
抽样误差与抽样分布第4页,共68页,2022年,5月20日,22点45分,星期四(二)、表达式与计算
样本均数的标准差,也称为标准误,反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异。例4.1某市随机抽查12岁男孩100人,得身高均数139.6cm,标准差6.85cm,计算标准误。第5页,共68页,2022年,5月20日,22点45分,星期四标准差与标准误联系与区别标准差标准误含义测量值的离散程度样本均数的离散程度(统计量对参数的散度)计算大小大小用途描述测量值离散程度、计算cv、计算正常值范围、计算标准误参数可信区间的估计假设检验,表达误差的内涵联系都是离散程度的指标,标准误是通过标准差来计算第6页,共68页,2022年,5月20日,22点45分,星期四二、抽样分布从正态总体中抽样,样本均数()的抽样分布:1.n较大时(n>50),服从正态分布,经过标准化转换
服从标准正态分布即u分布2.n较小时(n<50),是非正态的单峰对称分布
就有小样本统计量()的转换值服从t分布(是一组曲线)。
第7页,共68页,2022年,5月20日,22点45分,星期四抽样分布第8页,共68页,2022年,5月20日,22点45分,星期四英国统计学家:哥塞德在1908年以笔名“student”提出了著名的t分布,故也称为studentt分布。t分布是描述小样本均值转换度的分布。1、从正态总体中抽样,大样本均数的转换值服从标准正太分布2、小样本均数的转换值服从t分布第9页,共68页,2022年,5月20日,22点45分,星期四(1)t→u(n→∞)(2)和N(0,1)一样都是单峰分布,以0为中心对称(3)越小,则越大,t值越分散,和N(0,1)相比,集中在这部分的比例越少,尾部翘得越高。2、t分布的特征第10页,共68页,2022年,5月20日,22点45分,星期四第11页,共68页,2022年,5月20日,22点45分,星期四t分布(与u分布比较的特点)第12页,共68页,2022年,5月20日,22点45分,星期四
横坐标为自由度,纵坐标为概率p,表中数字表示自由度为、p为、t的界值,记如单侧=0.05,=20可查得=1.725
表示p(t≥1.725)=0.05
由t分布的对称性p(t≤-1.725)=0.05tα,ν以外尾部面积的百分数是3、t界值表第13页,共68页,2022年,5月20日,22点45分,星期四
的界值第14页,共68页,2022年,5月20日,22点45分,星期四与u分布比较U的临界值小于t曲线相应的临界值的绝对值当n→∞时,临界值相近。自由度越小,t的临界点越偏离u的临界点。第15页,共68页,2022年,5月20日,22点45分,星期四总体均数的参数估计参数估计:是指由样本指标值(统计量)估计总体指标值(参数),即用样本均数估计总体均数,有两种估计方法:
(1)、点估计(近似值)
(2)、区间估计(近似范围)第16页,共68页,2022年,5月20日,22点45分,星期四一、点估计点估计:用样本均数直接作为总体均数的估计值,未考虑抽样误差。如用估计相应的μ当时,样本均值趋近于总体均值.
如果,则更可靠.第17页,共68页,2022年,5月20日,22点45分,星期四二、区间估计1、概念可信区间:也称为置信区间(confidenceinterval,CI),是按预先给定的概率估计未知总体均数的可能范围.
事先给定的概率1-α称为可信度,常取95%或99%总体均数的95%(或99%)可信区间:表示该区间包括总体均数μ的概率为95%(或99%).第18页,共68页,2022年,5月20日,22点45分,星期四根据总体标准差σ是否已知,以及样本含量n的大小而异。(1)t分布法(n<50)(2)u分布法(n>50)2、计算方法第19页,共68页,2022年,5月20日,22点45分,星期四(1)t分布法(σ未知,n<50)按t分布原理,可用以下公式进行区间估计:对上式进行变换,得置信度为1-α的总体均数可信区间的通式为:习惯将上式写成:第20页,共68页,2022年,5月20日,22点45分,星期四例某医师测得40名老年慢性支气管炎病人中17-酮类固醇排除量均数为15.9μmol/d,标准差为5.03μmol/d,试估计该种病人尿17-酮类固醇排除量总体均数的95%可信区间.本例中:n=40,=5.03,=n-1=39,α取0.05,查t值表
95%的可信区间第21页,共68页,2022年,5月20日,22点45分,星期四(2)U分布法(σ已知或未知,但n足够大n>50)总体均数的可信区间.σ已知:σ未知但n足够大:第22页,共68页,2022年,5月20日,22点45分,星期四uα可以查表某地12岁男孩身高均数的95%的可信区间.本例中:n=100,=139.6,s=6.85,u0.05=1.96该地12岁男孩身高均数的95%可信区间为:138.3(cm)~141.0(cm)
第23页,共68页,2022年,5月20日,22点45分,星期四注意(1)统计意义:从总体中作大数次随机抽样,有95%求得的可信区间包含总体均数。并不是做一次抽样求得可信区间包括μ的概率是0.95,对一次抽样而言只有两种可能,要么可信区间包含μ,要么不包含μ。(2)与医学正常值范围不同第24页,共68页,2022年,5月20日,22点45分,星期四正常值范围估计与可信区间估计正常值范围概念:绝大多数正常人的某指标范围。(95%,99%,指绝大多数正常人)计算公式:用途:判断观察对象的某项指标是否正常.可信区间概念:总体均数所在的数值范围(95%,99%指可信度)计算公式:用途:估计总体均数第25页,共68页,2022年,5月20日,22点45分,星期四假设检验的意义和步骤假设检验(hypothesistest)也称显著性检验(significancetest)。二十世纪二、三十年代Neyman和Pearson建立了统计假设检验问题的数学模型。假设检验:建立在统计抽样分布,小概率事件原理基础上的对差别性质进行风险推断的一种逻辑思维方法.第26页,共68页,2022年,5月20日,22点45分,星期四假设检验:1、原因2、目的3、原理4、过程(步骤)5、结果第27页,共68页,2022年,5月20日,22点45分,星期四1、假设检验的原因
由于个体差异的存在,即使从同一总体中严格的随机抽样,X1、X2、X3、X4、、、,不同。
因此,X1、X2不同有两种(而且只有两种)可能:(1)分别所代表的总体均数相同,由于抽样误差造成了样本均数的差别。差别无显著性。(2)分别所代表的总体均数不同。差别有显著性。第28页,共68页,2022年,5月20日,22点45分,星期四
根据大量调查,已知健康成年男子脉搏的均数为72次/分,某医生在一山区随机调查了30名健康成年男子,求得脉搏均数为74.2次/分,标准差为6.5次/分,能否据此认为该山区成年男子的脉搏均数高于一般人?第29页,共68页,2022年,5月20日,22点45分,星期四
我们当然不能强求脉搏均数恰为72次/分时,才认为山区成年男子的脉搏均数和一般人一样,因为即使一样由于抽样误差的存在,样本均数未必等于72,造成山区健康成年男子的脉搏样本均数与一般人不同的原因有:①抽样误差②环境因素的影响要回答这一问题就是假设检验问题第30页,共68页,2022年,5月20日,22点45分,星期四2、假设检验的目的
判断是由于何种原因造成的不同,以做出决策。(推断参数是否相等)无效假设备择假设第31页,共68页,2022年,5月20日,22点45分,星期四3、假设检验的原理/思想反证法:当一件事情的发生只有两种可能A和B,为了肯定其中的一种情况A,但又不能直接证实A,这时否定另一种可能B,则间接的肯定了A。小概率事件原理:
小概率事件在一次抽样中不可能发生.概率论:事件的发生不是绝对的,只是可能性大小而已。即,带有风险性的推断.第32页,共68页,2022年,5月20日,22点45分,星期四4、假设检验的一般步骤▲建立一对假设(注意单双侧)确定显著性水准():
无效假设(H0):两个总体均数相等;
备择假设(H1):与H0相反;
预先给定的概率值α(0.05或0.01),区分大小概率事件的标准.
如上例,H0:μ1=72
H1:μ1>72
α=0.05▲计算统计量:(选择不同的统计方法:u检验,t检验,F检验等)▲确定概率值p和做出统计推断结论:(p值实际得到犯一类错误的可能性,p<α,则统计推断为按α检验水准,拒绝H0,接受H1;p>α,则统计推断为按α检验水准,接受H0,
拒绝H1)第33页,共68页,2022年,5月20日,22点45分,星期四5、假设检验的结果接受无效假设拒绝无效假设正确理解结论的概率性(都隐含着犯错误的可能性)。第34页,共68页,2022年,5月20日,22点45分,星期四六、均数的假设检验t检验(ttest)也称studentt检验,是计量资料中最常用的假设检验方法,它以t分布为基础.本章将要介绍单个样本的t检验(样本均值与总体均值的比较)配对样本t检验两独立样本的t检验(两样本均值的比较,方差一致)第35页,共68页,2022年,5月20日,22点45分,星期四单个样本t检验单个样本t检验:是样本均数代表的总体均数和已知总体均数
的比较.▲适用条件:(1)已知一个总体均数;(2)可得到一个样本均数及该样本标准误;(3)样本量小于50;(4)样本来自正态或近似正态总体。第36页,共68页,2022年,5月20日,22点45分,星期四例:根据大量调查,已知健康成年男子的脉搏均数为72次/分.某医生在某山区随机调查30名健康男子,求得脉搏均数为74.2次/分,标准差为6.5次/分.能否认为该山区的成年男子的脉搏均数高于一般成年男子的脉搏均数?第37页,共68页,2022年,5月20日,22点45分,星期四因本例已知=72次/分,=74.2次/分,s=6.5次/分,n=30,由于已知,故选用单样本t检验1、建立检验假设,确定概率水准
山区成年男子平均脉搏数与一般成年男子相同。山区成年男子平均脉搏数与一般成年男子不同。2、计算检验统计量在μ=μ0成立的条件下,计算统计量为:第38页,共68页,2022年,5月20日,22点45分,星期四3、确定p值,做出推断结论查表2,可得t0.05/2(29)=2.045
今t<
t0.05/2(29)
故,p>0.05,无统计学意义,按α水准,不拒绝H0,尚不能认为该山区成年男子平均每分钟脉搏数高于一般成年男子。第39页,共68页,2022年,5月20日,22点45分,星期四配对样本t检验配对样本t检验实际上是配对设计的差值均数与总体均数0比较的t检验配对样本t检验的基本原理是假设两种处理的效应相同,即μ1=μ2,则μ1-μ2=0(即,已知总体均数μd=0),即检验差数的样本均数所代表的未知总体均数μd
与0的比较.第40页,共68页,2022年,5月20日,22点45分,星期四公式:自由度:对子数-1适用条件:两组配对计量资料。第41页,共68页,2022年,5月20日,22点45分,星期四(1)两种同质受试对象分别接受两种处理:
如:把同窝、同性别和体重相近的动物配成一对。(2)同一受试对象或同一样本的两个部分,分别接受两种不同处理:
如:把服用两种降糖药的病人配成对(3)同一受试对象处理(实验或治疗)前后的结果比较:如:对高血压患者治疗前后配对设计资料主要有三种类型:第42页,共68页,2022年,5月20日,22点45分,星期四患者编号(1)舒张压(Kpa)治疗前后差数d(4)=(2)-(3)d2(5)=(4)*(4)手术前(2)手术后(2)116.012.04.016.00212.013.3-1.31.69314.610.64.016.00413.312.01.31.69512.012.000612.010.61.41.96714.610.64.016.00814.614.600912.012.7-0.70.491013.313.300合计--=12.7=53.83第43页,共68页,2022年,5月20日,22点45分,星期四例15-11某医院在研究肾动脉成形术前后血液动力学的改变中,观察了10例病人手术前后的血压变化情况见表15-6,试问手术前后舒张压有无变化?1、建立检验假设,确定检验水准H0:μd=0,即假设手术前后舒张压无变化,样本是从差数均数为0的总体中抽得。H1:μd≠
0,即手术前后舒张压有变化。α=0.05第44页,共68页,2022年,5月20日,22点45分,星期四2、计算检验统计量先计算差值d及d2,得计算差值均数计算差值的标准差计算差值的标准误得第45页,共68页,2022年,5月20日,22点45分,星期四计算t值3、确定p值,作出推断结论自由度ν=n-1=10-1=9,t0.05(9)=2.262本例t<
t0.05(11),p>0.05,按α=0.05检验水准,不拒绝H0,即还不能认为手术前后的舒张压不同。第46页,共68页,2022年,5月20日,22点45分,星期四两独立样本的t检验目的:由两个样本均数的差别推断两样本所代表的总体均数间有无差别。
计算公式及意义:公式:
第47页,共68页,2022年,5月20日,22点45分,星期四应用条件:(1)已知/可计算两个样本均数及它们的标准差;(2)两个样本之一的例数少于50;(3)样本来自正态或近似正态总体;(4)方差齐。自由度:n1+n2–2
第48页,共68页,2022年,5月20日,22点45分,星期四两独立样本t检验——实例分析例5.325例糖尿病患者随机分成两组,甲组单纯用药物治疗,乙组采用药物治疗合并饮食疗法,二个月后测空腹血糖(mmol/L)如表5-2所示,问两种疗法治疗后患者血糖值是否相同?第49页,共68页,2022年,5月20日,22点45分,星期四第50页,共68页,2022年,5月20日,22点45分,星期四两独立样本t检验——检验步骤1、建立检验假设,确定检验水准H0:1=2,两种疗法治疗后患者血糖值的总体均数相同;H1:12,两种疗法治疗后患者血糖值的总体均数不同;0.05。2、计算检验统计量第51页,共68页,2022年,5月20日,22点45分,星期四两独立样本t检验——检验步骤代入公式,得:第52页,共68页,2022年,5月20日,22点45分,星期四两独立样本t检验——实例分析按公式计算,算得:3、确定P值,作出推断结论两独立样本t检验自由度为
=n1+n2-2
=12+13-2=23;查t界值表,t0.05(23)=2.069,t0.01(23)=2.807.第53页,共68页,2022年,5月20日,22点45分,星期四两独立样本t检验——实例分析由于
t0.01(23)>t
t0.05(23),0.01<P0.05,按0.05的水准拒绝H0,接受H1,差异有统计学意义。故可认为该地两种疗法治疗糖尿病患者二个月后测得的空腹血糖值的均数不同。几何均数资料t检验,服从对数正态分布,先作对数变换,再作t检验。第54页,共68页,2022年,5月20日,22点45分,星期四配对t检验与两样本的t检验的比较配对两样本随机分配多次对间随机完全随机计算方法误差内涵测量误差抽样误差误差大小小大效率高低第55页,共68页,2022年,5月20日,22点45分,星期四两样本含量较大时均数的比较当样本含量较大时,可用u检验法某医院对40~50岁年龄组的男、女不同性别的健康人群测定了脂蛋白有无差别?性别人数均值标准差男1933.971.04女1283.580.90第56页,共68页,2022年,5月20日,22点45分,星期四1、建立假设并确定检验水准H0:μ1=μ2,即不同性别健康人群脂蛋白无差别;H1:μ1≠μ2,即不同性别健康人群脂蛋白有差别;α=0.05第57页,共68页,2022年,5月20日,22点45分,星期四2、计算u值第58页,共68页,2022年,5月20日,22点45分,星期四3、确定P值
不必查表,双侧检验以u=1.96时、P=0.05,今u=3.75>1.96,故p<0.05。按α=0.05的水准,拒绝H0,接受H1。认为男性脂蛋白含量高于女性脂蛋白含量。第59页,共68页,2022年,5月20日,22点45分,星期四t检验中的注意事项1.要有严密的抽样研究计划要保证样本是从同质总体中随机抽取。除了对比的因素外,其它影响结果的因素应一致。2.选用的假设检验方法应符合其应用条件要了解变量的类型是计量的还是计数的,设计类型是配对设计还是成组设计,是大样本还是小样本。第60页,共68页,2022年,5月20日,22点45分,星期四假设检验的结论是根据概率推断的,所以不是绝对正确的:(1)当p<,拒绝H0,接受H1,按接受H1下结论,可能犯错误;(2)当p>,不能拒绝H0,不能接受H1,按不能接受H1下结论,也可能犯错误;3.正确理解假设检验的结论(概率性)第61页,共68页,2022年,5月20日,22点45分,星期四4.正确理解差别有无显著性的统计意义差别有显著性,或有统计意义,指我们有很大的把握认为原假设不正确,并非是说它们有较大的差别。差别无显著性,或无统计意义,我们只是认为以很大的把握拒绝原假设的理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教部编版四年级语文上册第23课《梅兰芳蓄须》精美课件
- 2024年青岛客运资格证仿真考试题
- 算法设计与分析 课件 5.6.2-动态规划应用-最长公共子序列-动态规划求解
- 2024年客运驾驶员考试题及答案大全
- 2024年天津驾驶员客运从业资格证模拟考试试题
- 2024年海南考客运资格证实操考的是什么内容
- 2024年武汉道路客运从业资格证考试
- 2024年深圳道路旅客运输驾驶员继续教育试题
- 2023年广东省公务员录用考试《行测》题(县级卷)【原卷版】
- 吉首大学《教育技术应用》2021-2022学年第一学期期末试卷
- 大学信息设备和存储设备保密管理办法
- 橡胶部分作业指导书
- (完整)仪表检修规程(DOC)
- 采用新技术、新工艺、新材料、新设备的安全管理措施
- 膈肌保护性通气策略专家共识
- 保健食品进销台帐、经营目录
- 运输公司货物托运单
- 气体吸收操作-吸收的基本原理认知(化工单元操作课件)
- 刑事案件聘请律师辩护风险告知书
- 车辆租赁合同纠纷民事起诉状
- GB 29743.1-2022机动车冷却液第1部分:燃油汽车发动机冷却液
评论
0/150
提交评论