版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章估计与假设检验第一页,共八十五页,2022年,8月28日2第一节统计推断一、统计推断统计推断包括参数估计和假设检验,即通过样本统计量来估计和检验总体的参数。统计推断的目的在于认识未知的总体参数及其分布特征。第二页,共八十五页,2022年,8月28日3总体选择个体样本观测样本样本观察值(数据)数据处理样本有关结论推断总体性质
统计量统计推断的一般步骤抽样分布是统计推断的理论基础第三页,共八十五页,2022年,8月28日4二、抽样分布区别以下分布:总体分布(populationdistribution):总体内个体数值的次数分布。样本分布(sampledistribution):样本内个体数值的次数分布。抽样分布(samplingdistribution):根据所有可能的样本观察值计算出来的某一种统计量的观察值的概率分布。第四页,共八十五页,2022年,8月28日5从总体分布到抽样分布总体X的概率分布这是一个均匀分布(uniformdistribution)总体住户第一户第二户第三户第四户第五户日支出(X)2025303540户数11111概率0.200.200.200.200.20第五页,共八十五页,2022年,8月28日6总体X的概率分布图第六页,共八十五页,2022年,8月28日7总体平均数和总体方差
第七页,共八十五页,2022年,8月28日8样本(n=2)的所有可能结果第一户第二户第三户第四户第五户第一户(20,20)M=20(25,20)M=22.5(30,20)M=25(35,20)M=27.5(40,20)M=30第二户(20,25)M=22.5(25,25)M=25(30,25)M=27.5(35,25)M=30(40,25)M=32.5第三户(20,30)M=25(25,30)M=27.5(30,30)M=30(35,30)M=32.5(40,30)M=35第四户(20,35)M=27.5(25,35)M=30(30,35)M=32.5(35,35)M=35(40,35)M=37.5第五户(20,40)M=30(25,40)M=32.5(30,40)M=35(35,40)M=37.5(40,40)M=40第八页,共八十五页,2022年,8月28日9样本(n=2)的平均数的抽样分布平均数2022.52527.53032.53537.540次数123454321概率.04.08.12.16.20.16.12.08.04第九页,共八十五页,2022年,8月28日10样本(n=2)的平均数的抽样分布图第十页,共八十五页,2022年,8月28日11抽样分布:从一个给定的总体中抽取(不论是否有放回)容量(或大小)为n的所有可能的样本,对于每一个样本,计算出某个统计量(如样本均值或标准差)的值,不同的样本得到的该统计量的值是不一样的,由此得到这个统计量的分布,称之为抽样分布。例如:如果特指的统计量是样本均值,则此分布为均值的抽样分布。类似的有标准差、方差、中位数、比例的抽样分布。第十一页,共八十五页,2022年,8月28日12抽样误差:某个样本的统计量和总体参数之间的差异抽样误差的性质:通常用抽样分布的标准差表示,标准差越小,抽样分布越集中,样本代表总体的可靠性就越大第十二页,共八十五页,2022年,8月28日不同总体情况下平均数的抽样分布示意图第十三页,共八十五页,2022年,8月28日14三、抽样分布原理基本符号:总体A={a1,a2,…,aN},|A|=N从总体中抽取n个对象构成样本,共有k个样本,设样本的符号为
A1,A2,…,Ak,(有放回),|Ai|=n,i=1,2,…,k每一个样本Ai的分布平均数是,标准差是si这些平均数构成总体A的一个平均数抽样分布。用表示它的平均数,是标准差——抽样平均数的平均误差。第十四页,共八十五页,2022年,8月28日15(一)被抽样的总体服从正态分布,样本的抽样分布具有下列性质:1、从正态分布的总体中抽样,其分布依然是正态分布;2、从正态分布的总体中抽样,样本平均数的平均数等于总体平均数μ;3、从正态分布的总体中抽样,抽样分布的标准差小于总体的标准差;样本容量越大,平均误差越小。抽样分布的原理第十五页,共八十五页,2022年,8月28日16样本平均数(均值)的标准差的计算公式当总体为有限总体无放回抽样时,其样本均值标准差为:如果总体为无限总体的或抽取是有放回的,其样本均值标准差为:为有限总体修正系数可省略修正系数第十六页,共八十五页,2022年,8月28日17(二)被抽样的总体不服从正态分布,非正态总体样本平均数的分布又如何1、中心极限定理可以解决上述问题:一个具有任意函数形式的总体,其样本平均值μ和方差有限。在对该总体进行抽样时,随着样本容量n的增大,由这些平均样本算出的平均数的抽样分布将近似服从平均数为μ和方差为的正态分布。第十七页,共八十五页,2022年,8月28日182、样本容量究竟该多大才能使抽样分布逼近于正态分布?中心极限定理说明了不仅从正态总体抽取样本时,样本平均数这一统计量要服从正态分布,即使是从非正态总体进行抽样,只要是大样本(容量n≥30),样本平均数也趋向于正态分布。第十八页,共八十五页,2022年,8月28日19第二节点估计一、点估计估计某一个总体参数的具体值X1,…,Xn未知参数样本统计量对一次具体的抽样=d(X1,…,Xn)第十九页,共八十五页,2022年,8月28日20二、点估计量优劣的判别标准衡量一个估计量好坏的标准通常有以下3个:(1)无偏性(2)一致性(3)有效性(4)充分性第二十页,共八十五页,2022年,8月28日214.几种总体参数的点估计量第二十一页,共八十五页,2022年,8月28日22第三节区间估计某种意义上说:点估计称:“池中有XXX条鱼”,几乎没法评价,又几乎非错不可,换一个人再估计也未必能准确。换一种提法区间估计:指出未知参数在一定概率(可靠程度)下,可能在的范围。第二十二页,共八十五页,2022年,8月28日23一、置信区间与置信度则称1为置信度(或置信水平);第二十三页,共八十五页,2022年,8月28日上级的问题工作人员的回答置信度置信区间调查能在半年内完成吗?没有问题,肯定能做好98%以上6个月调查能在5个月内完成吗?抓抓紧,可以完成90%5个月调查能在4个月内完成吗?找个人帮忙,也许能行62%4个月调查能在3个月内完成吗?想想办法,试试看,说不定行30%3个月调查能在1个月内完成吗?几乎不可能1.5%1个月置信度与置信区间的关系当完成任务的期限比较宽松时,能完成任务的把握就越大;反之,完成任务的期限就很紧,在限期内完成任务的承诺也变得不那么可靠第二十四页,共八十五页,2022年,8月28日25
置信度越大,则置信区间越长,反之亦然。若要同时使置信度尽可能的大和置信区间尽可能的小,只有提高样本容量n。置信度与置信区间的关系:n'1nn'>n第二十五页,共八十五页,2022年,8月28日26太大、太小的置信区间都是不可取的20世纪30年代美籍波兰统计学家J奈曼提出处理置信区间和置信度之间关系的原则:在保证可靠性的基础上尽量提高精确度。第二十六页,共八十五页,2022年,8月28日27第四节假设检验一、hypothesistest的意义、基本假设又称statistictest,显著性检验等先假设总体具有某些统计特性,再根据样本的统计特性,验证总体是否具有这些特征第二十七页,共八十五页,2022年,8月28日28例1:根据2009年的统计资料,某地女性新生儿的平均体重为3190克。为判断该地2010年的女性新生儿体重与2009年相比有无显著差异,从该地2010年的女性新生儿中随机抽取30人,测得其平均体重为3210克。从样本数据看,2010年女新生儿体重比2009年略高,但这种差异可能是由于抽样的随机性带来的,也许这两年新生儿的体重有着显著差异。究竟是否存在显著差异?可以先假设这两年新生儿的体重没有显著差异,然后利用样本信息检验这个假设能否成立。这是一个关于总体均值的假设检验问题。第二十八页,共八十五页,2022年,8月28日29例2:某公司进口一批钢筋,根据要求,钢筋的平均拉力强度不能低于2000克,而供货商强调其产品的平均拉力强度已达到了这一要求,这时需要进口商对供货商的说法是否真实作出判断。进口商可以先假设该批钢筋的平均拉力强度不低于2000克,然后用样本的平均拉力强度来检验假设是否正确。这也是一个关于总体均值的假设检验问题。第二十九页,共八十五页,2022年,8月28日30实际中的假设检验问题1.产品自动生产线工作是否正常;2.某种新生产方法是否会降低产品成本;3.治疗某疾病的新药是否比旧药疗效更高;4.厂商声称产品质量符合标准,是否可信;5.学生考试成绩是否服从正态分布…
※假设检验——事先作出关于总体参数、分布形式、相互关系等的命题(假设),然后通过样本信息来判断该命题是否成立(检验)。第三十页,共八十五页,2022年,8月28日31原假设H0备择假设H1μ=kμ≠k,μ>k,μ<kμ≥kμ<kμ>kμ≤kμ≤kμ>kμ<kμ≥k原假设与备择假设的组合情况第三十一页,共八十五页,2022年,8月28日32例:以下问题均适用假设检验方法(1)某社区下岗居民的平均年龄是38.7岁(2)某法院审结案件中,提出上诉的比例是23.5%(3)截至2002年4月底,某市应届大学毕业生的签约率低于40%解:(1)原假设H0:μ0=38.7,某社区下岗居民的平均年龄是38.7;备择假设H1:μ0≠38.7,某社区下岗居民的平均年龄不是38.7。(2)……原假设Ho:μ0=23.5%;备择假设H1:μ0≠23.5%(3)……原假设Ho:μ0<40%;备择假设H1:μ0≥40%第三十二页,共八十五页,2022年,8月28日33二、显著水平1、假设检验的基本原理
经过抽样分析,如果小概率事件发生,原假设检验的假设的正确性将受到怀疑2、显著水平significancelevel
α是一个很小的值,是检验者判断小概率事件是否发生的标准3、假设检验的三种情况双侧检验和两种单侧检验第三十三页,共八十五页,2022年,8月28日34/21z/2z/2/2f(Z)z拒绝域接受域拒绝域双侧检验的情形
H0:μ=kH1:μ≠k第三十四页,共八十五页,2022年,8月28日351z也有单侧情形:H0:kH1:
>k或H0:kH1:
<k1z第三十五页,共八十五页,2022年,8月28日36三、假设检验的步骤1、提出假设H0和H1是两个相反的假设,包括原假设H0和备择假设H1。其所有可能的结果都应包含在这两个假设的范围内,它们的提出确定了所要检验的对象。第三十六页,共八十五页,2022年,8月28日372、建立统计量Z
构造一个检验统计量,要求这个统计量包含着待检验的参数,除此之外,其余的参数(检验统计量所包含的参数)必须是已知的。3、确定(显著性水平)下的拒绝域
根据是双侧检验还是单侧检验,确定取还是/2;在单侧检验时注意应用于左侧还是右侧。第三十七页,共八十五页,2022年,8月28日384、计算置信区间的上下限
在决定是否拒绝H0时,我们自然希望作出的决策是正确的,尽量减少犯错误的概率,在选定水平后,如果检验统计量的值落入拒绝域内,我们就拒绝原假设,即因为H0不成立,否则就不拒绝H0
。5、判断,作出决策(结论)并加以解释第三十八页,共八十五页,2022年,8月28日39例:设总体服从标准差为50的正态分布,从该总体抽出某容量为25的随机样本,得出样本平均值为70,试以=0.05的显著水平检验原假设0=90。解:由题意,已知n=25,=50,0=90H0:
=90H1:90检验统计量:计算第三十九页,共八十五页,2022年,8月28日40查表得拒绝域为:计算结果为:拒绝H0,也就是说有95%的把握否定原假定。<=-1.962z=第四十页,共八十五页,2022年,8月28日41
ANOVA由英国统计学家首创,为纪念Fisher,以F命名,故方差分析又称F检验(Ftest)。用于推断多个总体均数有无差异
第五节方差分析第四十一页,共八十五页,2022年,8月28日42实例一消费者与供应厂商间经常出现纠纷。纠纷发生后,消费者经常会向消费者协会投诉。消协对以下几个行业分别抽取几家企业,统计最近一年中投诉次数,以确定这几个行业的服务质量是否有显著的差异。结果如下表:第四十二页,共八十五页,2022年,8月28日43观测值行业因素零售业旅游业航空业家电制造业15768314426639495134929216544045347753456405865351744行业平均49483559总平均47.9第四十三页,共八十五页,2022年,8月28日44实例二不同品牌的彩电在各地区的销售量数据
品牌因素地区因素地区1地区2地区3地区4地区5品牌1品牌2品牌3品牌4365345358288350368323280343363353298340330343260323333308298有四个品牌的彩电在五个地区销售,为分析彩电的品牌(品牌因素)和销售地区(地区因素)对销售量是否有影响,对每个品牌在各地区的销售量取得以下数据。试分析品牌和销售地区对彩电的销售量是否有显著影响?(=0.05)第四十四页,共八十五页,2022年,8月28日45一、方差分析原理1、概念
方差是描述变异的一种指标
方差分析是一种假设检验的方法。方差分析也就是对变异的分析。推断两个或两个以上的样本是否取自同一个总体。2、前提:正态分布;相同的方差σ23、基本原理
组内变异组间变异总变异第四十五页,共八十五页,2022年,8月28日46观测值行业零售业旅游业航空业家电制造业15768314426639495134929216544045347753456405865351744行业平均49483559总平均47.9第四十六页,共八十五页,2022年,8月28日47列举存在的变异及意义1、全部的23个数据之间大小不等,与总体均数也不同,这种变异称为总变异。2、四个组均数不等,与总体均数也不相同,存在变异:反映不同行业的效果和随机误差。3、四个组内个体间数据不同,与所在组的均数也不相同:反映了观察值的随机误差。组内变异组间变异总变异第四十七页,共八十五页,2022年,8月28日48(二)相关概念:方差分析简称ANOV(AnalysisofVariance),该统计分析方法能一次性地检验多个总体均值是否存在显著差异。H0:H1:不全等。第四十八页,共八十五页,2022年,8月28日491、因素
因素又称因子,是在实验中或在抽样时发生变化的“量”,通常用A、B、C、…表示。方差分析的目的就是分析因子对实验或抽样的结果有无显著影响。如果在实验中变化的因素只有一个,这时的方差分析称为单因素方差分析;在实验中变化的因素不只一个时,就称多因素方差分析。双因素方差分析是多因素方差分析的最简单情形。
第四十九页,共八十五页,2022年,8月28日502、水平因子在实验中的不同状态称作水平。如果因子A有r个不同状态,就称它有r个水平,可用Ar表示。我们可以针对该因素的不同水平,进行实验或抽取样本,以便了解因子的影响。第五十页,共八十五页,2022年,8月28日513、交互影响当方差分析的影响因子不唯一时,必须注意这些因子间的相互影响。如果因子间存在相互影响,我们称之为“交互影响”;如果因子间是相互独立的,则称为无交互影响。交互影响有时也称为交互作用,是对实验结果产生作用的一个新因素,分析过程中,有必要将它的影响作用也单独分离开来。第五十一页,共八十五页,2022年,8月28日52(三)方差分析的原理1、方差的分解。样本数据波动就有两个来源:一个是因子影响,一个是随机波动。样本数据的波动,可通过离差平方和来反映,这个离差平方和可分解为组间方差与组内方差两部分。组间方差反映出不同的因子对样本波动的影响;组内方差则是不考虑组间方差的纯随机影响。第五十二页,共八十五页,2022年,8月28日53离差平方和的分解是我们进入方差分析的“切入点”,这种方差的构成形式为我们分析现象变化提供了重要的信息。如果组间方差明显高于组内方差,说明样本数据波动的主要来源是组间方差,因子是引起波动的主要原因,可以认为因子对实验的结果存在显著的影响;反之,如果波动的主要部分来自组内方差,则因子的影响就不明显,没有充足理由认为因子对实验或抽样结果有显著作用。第五十三页,共八十五页,2022年,8月28日542、均方差与自由度因素或因素间“交互作用”对观测结果的影响是否显著,关键要看组间方差与组内方差的比较结果。当然,产生方差的独立变量的个数对方差大小也有影响,独立变量个数越多,方差就有可能越大;独立变量个数越少,方差就有可能越小。为了消除独立变量个数对方差大小的影响,我们用方差除以独立变量个数,得到“均方差(MeanSquare)”,作为不同来源方差比较的基础。引起方差的独立变量的个数,称作“自由度”。
第五十四页,共八十五页,2022年,8月28日55检验因子影响是否显著的统计量是一个F统计量:
F统计量越大,越说明组间方差是主要方差来源,因子影响越显著;F越小,越说明随机方差是主要的方差来源,因子的影响越不显著。第五十五页,共八十五页,2022年,8月28日观测值行业零售业旅游业航空业家电制造业15768314426639495134929216544045347753456405865351744行业平均49483559总平均47.9二、单因素方差分析试以α=0.05的显著水平检验不同行业最近一年接受投诉次数的是否相等?第五十六页,共八十五页,2022年,8月28日57二、单因素方差分析(一)数据结构如下:第五十七页,共八十五页,2022年,8月28日58总离差平方和SST=SSA+SSE第五十八页,共八十五页,2022年,8月28日(二)因素作用显著性的检验自由度的确定:SST是由于样本的波动引起的方差,但是,这里所有的nr个变量并不独立,它们满足一个约束条件,真正独立的变量只有nr-1个,自由度是nr-1。SSA是因子在不同水平上的均值变化而产生的方差。但是,r个均值并不是独立的,它们满足一个约束条件,因此也丢失一个自由度,它的自由度是r-1。SSE是由所有的样本在各因素水平上围绕均值波动产生,它们满足的约束条件一共nr个,失去了r个自由度,所以SSE的自由度是nr-r。SST、SSA和SSE的自由度满足如下关系:nr-1=(r-1)+(nr-r)第五十九页,共八十五页,2022年,8月28日60检验统计量是:式中:第六十页,共八十五页,2022年,8月28日61F值越大,越说明在总的方差波动中,组间方差是主要部分,有利于拒绝原假设接受备选假设;反之,F值越小,越说明随机方差是主要的方差来源,有利于接受原假设,有充分证据说明待检验的因素对总体波动有显著影响。因此,检验的拒绝域安排在右侧。第六十一页,共八十五页,2022年,8月28日62α接受域
拒绝域1-aH0:H1:不全等。第六十二页,共八十五页,2022年,8月28日观测值行业零售业旅游业航空业家电制造业15768314426639495134929216544045347753456405865351744行业平均49483559总平均47.9消协对不同行业最近一年接受投诉次数的统计表第六十三页,共八十五页,2022年,8月28日64投诉问题的解第六十四页,共八十五页,2022年,8月28日65α接受域
拒绝域1-a结论:拒绝原假设HO第六十五页,共八十五页,2022年,8月28日66三、双因素方差分析不同品牌的彩电在各地区的销售量数据
品牌因素地区因素地区1地区2地区3地区4地区5品牌1品牌2品牌3品牌4365345358288350368323280343363353298340330343260323333308298有四个品牌的彩电在五个地区销售,为分析彩电的品牌(品牌因素)和销售地区(地区因素)对销售量是否有影响,对每个品牌在各地区的销售量取得以下数据。试分析品牌和销售地区对彩电的销售量是否有显著影响?(=0.05)第六十六页,共八十五页,2022年,8月28日三、双因素方差分析(一)无交互影响的数据结构:第六十七页,共八十五页,2022年,8月28日68数据的离差平方和分解形式为:SST=SSA+SSB+SSE第六十八页,共八十五页,2022年,8月28日69SSA表示的是因素A的组间方差总和,SSB是因素B的组间方差总和,都是各因素在不同水平下各自均值差异引起的;SSE仍是组内方差部分,由随机误差产生。各个方差的自由度是:SST的自由度为nr-1,SSA的自由度为r-1,SSB的自由度为n-1,SSE的自由度为nr-r-n+1=(r-1)(n-1)。第六十九页,共八十五页,2022年,8月28日70各个方差对应的均方差是:对因素A而言:对因素B而言:
对随机误差项而言:第七十页,共八十五页,2022年,8月28日71我们得到检验因素A与B影响是否显著的统计量分别是:第七十一页,共八十五页,2022年,8月28日72实例不同品牌的彩电在各地区的销售量数据
品牌因素地区因素地区1地区2地区3地区4地区5品牌1品牌2品牌3品牌4365345358288350368323280343363353298340330343260323333308298有四个品牌的彩电在五个地区销售,为分析彩电的品牌(品牌因素)和销售地区(地区因素)对销售量是否有影响,对每个品牌在各地区的销售量取得以下数据。试分析品牌和销售地区对彩电的销售量是否有显著影响?(=0.05)第七十二页,共八十五页,2022年,8月28日73双因素方差分析
(例题分析)提出假设对品牌因素提出的假设为H0:μ1=μ2=μ3=μ4(品牌对销售量没有影响)H1:μi
(i=1,2,…,4)不全相等(品牌对销售量有影响)对地区因素提出的假设为H0:v1=v2=v3=v4=v5(地区对销售量没有影响)H1:vj
(j=1,2,…,5)不全相等(地区对销售量有影响)第七十三页,共八十五页,2022年,8月28日74双因素方差分析
结论:
FR=18.10777>F=3.4903,拒绝原假设H0,说明彩电的品牌对销售量有显著影响
FC=2.100846<F=3.2592,不拒绝原假设H0,不能认为销售地区对彩电的销售量有显著影响第七十四页,共八十五页,2022年,8月28日(二)有交互影响的数据结构:第七十五页,共八十五页,2022年,8月28日76离差平方和分解形式:
SST=SSA+SSB+SSAB+SSE第七十六页,共八十五页,2022年,8月28日77上式中rn-r-n+1=(r-1)(n-1)rmn-rn=rn(m-1)第七十七页,共八十五页,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 墙板钉项目可行性研究报告
- 高分培优讲座 雪线和林线 高考第一轮地理复习课件
- 小班数学教案:抓老鼠
- 大数据在智慧医疗
- 2023-2024学年广东省深圳市盐田区六年级上学期期末英语试卷
- 一年级上册数学教案-第六单元第2课时 11~20各数的认识(2) 人教版
- 脚手架坍塌防范措施
- 急救药品、物品管理制度
- 第五单元《透镜及其应用》3.透镜的应用(分层训练)(解析版)
- 2.2享受学习-课时检测设计
- 第2课+互联网应用新特征+课件++2024-2025学年人教版(2024)初中信息技术七年级全一册
- 《密封知识培训》课件
- 硬件测试岗位招聘笔试题及解答(某大型央企)2024年
- 2024年中国光学太阳镜片市场调查研究报告
- 2023-2024学年广东省广州市白云区九年级(上)期末英语试卷
- 2024-2030年中国体外培育牛黄行业市场竞争格局及投资价值分析报告
- 2024年全国企业员工全面质量管理知识竞赛活动题库(完整)
- 2023年四川农信(农商行)招聘考试真题
- 专题02 标点、病句、排序 练习题 七年级语文上册人教统编版2024
- 中医诊所药品名录表
- 2023-2024学年天津市西青区八年级(上)期末物理试卷
评论
0/150
提交评论