现代统计学预备知识讲义_第1页
现代统计学预备知识讲义_第2页
现代统计学预备知识讲义_第3页
现代统计学预备知识讲义_第4页
现代统计学预备知识讲义_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本资料来源1统计学预备知识:回顾1概率2概率分布(正态分布等)3两类错误4假设检验5置信区间、置信水平和显著性水平6统计检验的功效2事件的概率

(probability)定义:事件A的概率是对事件A在试验中出现的可能性大小的一种度量表示事件A出现可能性大小的数值(介于0和1之间)事件A的概率表示为P(A)概率的定义有:古典定义、统计定义和主观概率3古典概率(先验概率)如果某一随机试验的结果有限,而且各个结果在每次试验中出现的可能性相同,则事件A发生的概率为该事件所包含的基本事件个数m

与样本空间中所包含的基本事件个数n的比值,记为4古典概率特点样本空间的基本事件只有有限个;每个基本事件发生的可能性相等。例:一批产品共100件,其中有6件不合格品,随机抽取一件不合格品的概率是:5概率的统计定义在相同条件下重复进行n次随机试验,事件A出现m次,则比值m/n

称为事件A发生的频率。随着n的增大,该频率围绕某一常数P上下摆动,且波动的幅度逐渐减小,趋于稳定,这个频率的稳定值即为事件A的概率,记为优点:不受古典概率的两个特点的限制,容易理解。缺点:试验不能无限制的进行下去。6主观概率主观概率:是指对一些无法重复的试验,确定其结果的概率只能根据以往的经验,人为确定这个事件的概率。主观概率是一个决策者对某个事件是否发生,根据个人掌握的信息对该事件发生可能性的判断例如,企业投资新项目的成功和失败的概率。例如天下雨的可能性多大?一种新产品畅销的可能性多大?由于仅仅是经验的主观判断,因此可靠性就值得怀疑,不宜滥用。7概率的性质非负性对任意事件A,有0P(A)1规范性必然事件的概率为1;不可能事件的概率为0。即P()=1;P()=0可加性若A与B互斥,则P(A∪B)=P(A)+P(B)推广到多个两两互斥事件A1,A2,…,An,有

P

(A1∪A2

∪…∪An)=P(A1

)+P(A2

)+…+P(An

)8参数估计的方法矩估计法最小二乘法最大似然法顺序统计量法估计方法点估计区间估计9点估计

(pointestimate)用样本的估计量的某个取值直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计;无法给出估计值接近总体参数程度的信息虽然在重复抽样条件下,点估计的均值可望等于总体真值,但由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量10点估计(pointestimate)点估计11区间估计的提提出12区间估计(intervalestimate)在点估计的基基础上,给出出总体参数估估计的一个区区间范围,该该区间由样本本统计量加减减估计误差而而得到根据样本统计计量的抽样分分布能够对样样本统计量与与总体参数的的接近程度给给出一个概率率度量比如,某班级级平均分数在在75~85之间,置信水水平是95%样本统计量

(点估计)置信区间置信下限置信上限13回顾:中心极限定定理(centrallimittheorem)中心极限定理理:设从均值为,方差为2的一个任意总总体中抽取容容量为n的样本,当n充分大时,样本均值值的抽样分布布近似服从均值为μ、方差为σ2/n的正态分布1415进一步解释16置信区间((confidenceinterval))17置信区间((confidenceinterval))181920置信水平:将构造置信信区间的步骤骤重复很多次次,置信区间间包含总体参参数真值的次次数所占的比比例称为置信信水平置信水平表示示为(1-,为是总体参参数未在区间内的比例例,称为显著性水平。。常用的置信水水平值有99%,95%,90%相应的为0.01,,0.05,,0.10显著性水平越小越好置信水平2122置信区间与置置信水平均值的抽样分布(1-)区间包含了的区间未包含1–a

a/2a/223对置信区间的的几点理解24总体均值的区区间估计对总体均值进进行区间估计计时,需要考考虑几种情形形:1、总体是否否为正态分布布?2、总体方差差是否已知??3、用于构造造估计量的样样本是大样本本(n>30)?还是小样本((n<30))呢?252627282930总体均值的区区间估计(大样本)1. 假定条条件总体服从正态态分布,且方差(2)已知如果不是正态态分布,可由由正态分布来来近似(n30)使用正态分布布统计量z总体均值在1-置信水平下的的置信区间为3132总体均值的区区间估计(小样本)1. 假定条条件总体服从正态态分布,但方差(2)未知小样本(n<30)使用t分布统计量总体均值在1-置信水平下的的置信区间为33t分布t分布是类似正正态分布的一一种对称分布布,它通常要要比正态分布布平坦和分散散。一个特定定的分布依赖赖于称之为自自由度的参数数。随着自由由度的增大,,分布也逐渐渐趋于正态分分布xt

分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)z3435不同情形下总体均值的区间估计

总体分布样本量正态分布非正态分布36待估参数:总体均值大样本小样本分布正态总体正态总体37假设检验:先对总体的参参数(或分布布形式)提出出某种假设,,然后利用样样本信息判断断假设是否成成立的过程对总体参数(或分布形式式)提出假设假设检验抽取样本,构构造检验统计计量决策过程:根根据某种规则则判断假设是是否成立38假设检验和区区间估计的区区别区间估计:用用给定的大概概率推断出总总体参数所在的范围。假设检验:是是以小概率为为标准,对总总体的状况(总体参数或或总体分布))所做出的假设进行判断断。注:假设检验验与区间估计计结合起来,,构成完整的的统计推断内内容。39区间估计与假假设检验的转转换区间估计问题题:在一定的概概率(置信水水平)下,利利用样本信息息来估计总体体的不合格率率假设检验问题题:以一定的概概率水平(显显著水平性)),通过样本本资料来判断断该批产品是是否合格或合合格的程度注:对于同一一个实例,用用的是同一个个样本,同一一个样本统计计量,同一个个分布,因此此区间估计与与假设检验可可以相互转换换。40置信区间是在在一定的概率率(置信水平平)保证程度度下利用样本本数据计算得得到的关于总总体参数可能能所在的范围围。而进行假假设检验时,,我们事先对对总体参数的的假设值有可可能会落在这这个置信区间间外,这时我我们判定为具具有显著性差差异,拒绝假假设;假设值值也可能会落落在置信区间间内,不能拒拒绝。假设检验:我我们关心的是是检验总体参参数值有无变变化(即是否否存在显著性性差异),而而检验过程就就是利用样本本信息判断差差异是否显著著。区间估计:目目的在于通过过样本资料推推断总体参数数在一定的概概率水平下可可能的取值范范围估计与检验的的联系41提出假设构造适当的检检验统计量,,并利用样本本信息计算检检验统计量的的值规定显著性水水平,确定临界界值作出统计决策策:拒绝假设还是是接受假设假设检验的步步骤42原假设与备择择假设原假设(nullhypothesis):研究者想收集证证据予以反对的假设,待检检验的假设。。表示为H0H0:=,或某一数值备择假设(alternativehypothesis):与原假设对立立,研究者想收集证据据予以支持的假设。表示示为H1H1:≠,或某一数值43原假设和备择择假设是一个个完备事件组,而且相互对立排斥在一项假设检检验中,原假假设和备择假假设必有一个个成立,而且且只有一个成成立接受原假设,,意味着拒绝绝备择假设;;拒绝原假设,,意味着接受受备择假设;;先确定备择假假设,再确定定原假设等号“=”一般都是放放在原假设上因研究目的不不同,对同一一问题可能提提出不同的假假设(也可能能得出不同的的结论)(归纳与建议议)提出原假设与与备择假设44假设检验中的的两类错误1. 第Ⅰ类类错误(弃真真错误)原假设为真时时我们拒绝原原假设第Ⅰ类错误的的概率记为被称为显著性性水平2. 第Ⅱ类类错误(取伪伪错误)原假设为假时时我们没有拒拒绝原假设第Ⅱ类错误的的概率记为(Beta)45两类错误的进进一步解释错误:错误46两类错误的进进一步解释原假设没有拒绝H0拒绝H0H0为真1-(正确决策)H0为伪(取伪错误)1-(正确决策)47错误和错误的关系和的关系就像翘翘翘板,小就大,大就小你要同时减少少两类错误的的惟一办法是是增加样本容容量!48检验功效(testpower)拒绝一个错误误的原假设的的能力根据的定义,是指没有拒绝绝一个错误的的原假设的概概率。这也就就是说,1-则是指拒绝一一个错误的原原假设的概率率,这个概率率被称为检验验能力,也被被称为检验的势或检检验的功效(power)可解释为正确地拒绝一个错误的原假设设的概率49在犯第一类错错误()概率得到控控制的条件下下,犯取伪错错误的概率(()也要尽可能能地小,或者者说,不取伪伪的概率1-应尽可能增大大。1-越大,意味着着当原假设不不真实时,检检验判断出原原假设不真实实的概率越大大,检验的判判别能力就越越好;1-越小,意味着着当原假设不不真实时,检检验结论判断断出原假设不不真实的概率率越小,检验验的判别能力力就越差。可可见1-是反映统计检检验判别能力力大小的重要要标志,我们们称之为检验验功效或检验验势。检验功效(poweroftest)50根据样本观测测数据计算得得到的,并据据以对原假设设和备择假设设作出决策的的某个样本统统计量对样本估计量量的标准化结结果原假设H0为真点估计量的抽抽样分布检验统计量(teststatistic)标准化的检验统计量51选择检验统计计量时需要考考虑的要素检验的样本容容量:大样本本还是小样本本?总体方差是否否已知?原因:因为总体方差差是否已知以以及检验的样样本大小决定定了抽样分布布,也就决定定了检验统计计量的选择与与构造。52显著性水平和和拒绝域(双侧检验示示意图)抽样分布0临界值临界值a/2a/2

样本统计量拒绝H0拒绝H01-置信水平53显著性水平(significantlevel)1.原假设为真时时,拒绝原假假设的概率被称为抽样分分布的拒绝域域2.它是是事先指定的的犯第Ⅰ类错误概率的最大允许值值3. 常用的的值有0.01,0.05,0.104. 由研究究者事先确定定,也称名义显著性水水平5.拒拒绝原假设设,则表明检检验的结果是是显著的不拒绝原假设设,表明检验验的结果是不不显著的54对显著性水平平的几点说明明提前选择一个个显著性水平平,可以根据据分布表查出出在该显著性性水平下的临临界值,进而而将计算的检检验统计值与与临界值做一一个比较,于于是在给定的的显著性水平平下,原假设设要么被拒绝绝,要么未被被拒绝。不同的研究者者根据特定的的应用,会偏偏好不同的显显著性水平,,具有任意性性。不存在一个““正确的”显显著性水平。。55假设检验的决决策规则给定显著性水水平,查表得出相相应的临界值z或z/2,t或t/2将由样本计算算得出的检验验统计量的值值与水平下的临界界值进行比较较作出决策双侧检验:│统计量│>│临界值│,拒绝H0│统计量│<│临界值│,接受H0左侧检验:统统计量<临临界值,拒拒绝H0右侧检验:统统计量>临临界值,拒拒绝H056显著性水平和和拒绝域(双侧检验)0临界值临界值a/2

a/2

样本统计量拒绝H0拒绝H0抽样分布1-置信水平57显著性水平和和拒绝域(双侧检验)0临界值临界值

a/2a/2

样本统计量拒绝H0拒绝H0抽样分布1-置信水平58显著性水平和和拒绝域(双侧检验)0临界值临界值a/2

a/2

样本统计量拒绝H0拒绝H0抽样分布1-置信水平59利用P值进行决策策60什么是P值?(P-value)P值是一个概率率值,0<p<1在原假设为真的的条件下,检验验统计量大于于、小于或等等于其计算值值的概率双侧检验为抽抽样分布中两两侧面积的总总和反映映实实际际观观测测到到的的数数据据与与原原假假设设H0之间间不不一一致致的的程程度度,,被称称为为观观察察到到的的(或或实实测测的的)精精确确的的显显著著性性水水平平,,而是事事先先选选定定的的显显著著性性水水平平决策策规规则则::若p值<,拒拒绝绝H061P值的的进进一一步步阐阐述述我们们用用Z统统计计量量来来进进行行假假设设检检验验62P值的的计计算算63P值应应用用的的归归纳纳小小结结64双侧侧检检验验的的P值/

2

/

2

Z拒绝H0拒绝H00-1.96计算的-2.5计算的2.51.961/2P值1/2P值65假设设检检验验结结论论的的表表述述(““显显著著””与与““不不显显著著””)当拒拒绝绝原原假假设设时时,,我我们们称称样样本本结结果果是是统计计上上显显著著的的拒绝绝原原假假设设时时结结论论是是清清楚楚的的当不不拒拒绝绝原原假假设设时时,,我我们们称称样样本本结结果果是是统计计上上不不显显著著的的不拒拒绝绝原原假假设设时时,,并并未未给给出出明明确确的的结结论论,,不不能能说说原原假假设设是是正正确确的的,,也也不不能能说说它它不不是是正正确确的的66假设设检检验验结结论论的的表表述述(““接接受受””与与““不不拒拒绝绝””)假设设检检验验的的目目的的在在于于试试图图找找到到证证据据拒拒绝绝原原假假设设,,而而不不在在于于证证明明什什么么是是正正确确的的当没没有有足足够够证证据据拒拒绝绝原原假假设设时时,,不不采采用用““接受受原原假假设设”的的表表述述,,而而采采用用““不拒拒绝绝原原假假设设”的的表表述述。。““不不拒拒绝绝””的的表表述述实实际际上上意意味味着着并并未未给给出出明明确确的的结结论论,,我我们们没没有有说说原原假假设设正正确确,,也也没没有有说说它它不不正正确确“接接受受””的的说说法法有有时时会会产产生生误误导导,,因因为为这这种种说说法法似似乎乎暗暗示示着着原原假假设设已已经经被被证证明明是是正正确确的的了了。。但但事事实实上上,,H0的真真实实值值我我们们永永远远也也无无法法知知道道,,H0只是是对对总总体体真真实实值值的的一一个个假假定定值值,,由由样样本本提提供供的的信信息息也也就就自自然然无无法法证证明明它它是是否否正正确确67假设设检检验验步步骤骤的的总总结结根据据研研究究目目的的建建立立原原假假设设和和备备择择假假设设确定定一一个个适适当当的的检检验验统统计计量量,,并并利利用用样样本本数数据据计计算算出出检检验验统统计计量量的的具具体体数数值值。。确定定一一个个适适当当的的显显著著性性水水平平,,并并查查出出其其临临界界值值,,指指定定拒拒绝绝域域。。将检检验验统统计计量量的的实实际际值值与与临临界界值值进进行行比比较较,,作作出出拒拒绝绝或或不不拒拒绝绝原原假假设设的的决决策策统计计量量的的值值落落在在拒拒绝绝域域,,拒拒绝绝H0,否否则则不不拒拒绝绝H0也可可以以直直接接利利用用P值作作出出决决策策::68备择择假设设没有有特特定定的方方向向性性,,并并含含有有符符号号““”的的假假设设检检验验,,称称为为双侧侧检检验验或或双双尾尾检检验验(two-tailedtest)备择择假设设具有有特特定定的方方向向性性,,并并含含有有符符号号““>”或或““<”的的假假设设检检验验,,称称为为单侧侧检检验验或或单单尾尾检检验验(one-tailedtest)备择择假假设设的的方方向向为为““<”,,称称为为左侧侧检检验验备择择假假设设的的方方向向为为““>”,,称称为为右侧侧检检验验双侧侧检检验验与与单单侧侧检检验验69双侧侧检检验验与与单单侧侧检检验验(假假设设的的形形式式)假设双侧检验单侧检验左侧(下限)检验右侧(上限)检验原假设H0:m

=m0H0:m

m0H0:m

m0备择假设H1:m

≠m0H1:m

<

m0H1:m

>

m070双侧侧检检验验::假假设设的的建建立立所关关心心的的是是检检验验样样本本均均值值与与总总体体均均值值有没没有有明明显显差差异异,而而不不管管差差异异的的方方向向是是正正还还是是负负,,应应该该用用双侧侧检检验验。71左侧侧检检验验::假假设设的的建建立立所关关心心的的是是总总体体均均值值是否否低低于于某个个标标准准,,则则应应该该用用左侧侧检检验验72右侧侧检检验验::假假设设的的建建立立所关关心心的的是是总总体体均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论