总体分布样本分布_第1页
总体分布样本分布_第2页
总体分布样本分布_第3页
总体分布样本分布_第4页
总体分布样本分布_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于总体分布样本分布第1页,共91页,2023年,2月20日,星期四提示如何依据样本的信息推断总体的特征——参数估计问题样本总体样本统计量例如:样本均值、比例、方差总体均值、比例、方差等第2页,共91页,2023年,2月20日,星期四有关概率概念的回顾通俗地说:概率是衡量某一特定事件的机会或可能性的数值度量。它可以用来度量如下一些问题中的可能性如果提高产品的价格,则销售下降的“机会”有多少?某种新的装配作业方法会在多大“可能性”上提高生产率?某项工程按期完成的“可能性”有多大?新投资赢利的“机会”有多大?概率在决策过程中起着重要作用,它提供了一种机制来衡量、表达和分析与未来事件相联系的不确定性。第3页,共91页,2023年,2月20日,星期四一些相关概念随机实验至少有两个或两个以上的结果但事先不知道会发生哪个结果的过程。随机事件(简称为事件)一个随机实验的可能结果称为基本事件。所有基本事件的集合称为总体(样本空间)。总体的子集称为随机事件。概率的定义(见教材p2)。任何满足定义中三个条件的函数P(A)都可以作为一种合适的概率分配方式。常用的概率分配方式有:古典法(抛掷硬币)、相对频数法(产品销路调查)和主观法(体育比赛结果预测)。第4页,共91页,2023年,2月20日,星期四5.1总体分布与样本分布本章的总体(PopulationorUniverse)是指研究对象的全体。并且先研究只有一个特征(指标或变量)的总体。这样表述总体特征的变量可以看成一个一维随机变量。例如我们在某个研究中关注广州市的某区居民的某年经济收入情况,我们在这个问题中的总体就是广州市某区居民的全体,但我们实际上关注的是该区居民该年的经济收入这样一个特征,我们可以用一个变量X来表征我们任意选取的一个该区居民该年的收入。则X是一个一维随机变量,而我们研究的总体实际上是这一随机变量取值的全体。因此,总体也可理解为一个随机变量取的值全体。第5页,共91页,2023年,2月20日,星期四5.1.1总体与总体分布更准确地说,一维随机变量是指反映某总体特征取值,且具有如下特点的变量X:(1)在同一条件下可以无限次重复取值;(2)取值的结果可能有多个,但不确定;(3)事先不知道取值结果(Outcome)。由此可知,随机变量可以理解为“随机实验(随机地抽取一个个体)”结果的数值性描述。第6页,共91页,2023年,2月20日,星期四随机变量取值的概率分布,就称为总体分布。一个随机变量取给定值或属于一给定值集合的概率所确定的函数称为该随机变量的概率分布。概率分布反映的是随机变量所有可能取值的概率的分配方式。一旦与所有可能结果相联系的概率被确定,则概率分布完全确定。X

x1

x2…

xn

…P(X)p1

p2…

pn

…无论是理论研究还是解决实际问题,知道一个随机变量取各种可能值的概率情况(概率分布)都是十分重要的。第7页,共91页,2023年,2月20日,星期四离散随机变量的概率分布。设X为取相异值x1,

x2,

xn,…的离散随机变量,则函数称为X的概率分布或概率分布函数(probabilitydistributionfunction,PDF),其中P(X=xi)为离散随机变量X取xi值的概率。(1)离散随机变量的概率分布第8页,共91页,2023年,2月20日,星期四(2)连续随机变量的概率密度函数设X是连续随机变量,x是X取的值,若函数f(x)满足下列条件:则称f(x)为X的概率密度函数(probabilitydensityfunction,PDF),其中P(a<xb)表示X在区间(a,b]取值的概率。第9页,共91页,2023年,2月20日,星期四有时也称下式定义的函数为X的概率分布函数:连续型随机变量取给定值的概率为零。f(x)xab第10页,共91页,2023年,2月20日,星期四5.1.2随机样本与样本观察值从重复抽样的角度看“每次从总体中随机抽取个体”可理解为一个随机实验。随机样本:表征n次抽取个体的随机抽样的一组随机变量X1,X2,…,Xn.样本观察值(样本数据):n次随机抽样的结果:x1,x2,…,xn(称为随机变量X1,X2,…,Xn的样本观察值)。n称为样本容量。注:x1,x2,…,xn也可以看成随机变量X的n次重复抽样的结果。第11页,共91页,2023年,2月20日,星期四大写的英文字母:随机变量小写的英文字母:随机变量的观察值例抛掷一个均匀的骰子,假设骰子的六个面分别标有数字1,2,3,4,5,6。用X标识骰子落地后朝上一面的数字。则X是离散随机变量。对该随机变量进行一次抽样,其实就是掷该骰子一次。第i次抽样,就是第i次掷骰子,其结果的表示:事前事后Xixi易见,Xi其实就是X第12页,共91页,2023年,2月20日,星期四5.1.3样本分布函数设x1,x2,…,xn是随机变量X的样本观察值,将它们按大小顺序排列,排序后为x1x2…

xn,ki为小于xi+1的样本值出现的累积频次,n仍为样本容量,则可得到样本累积频率分布函数如下样本累积频率分布函数又简称为样本(累积)分布函数,它是总体(累积)分布函数的近似,n越大,就越接近总体分布,如图。第13页,共91页,2023年,2月20日,星期四对于有限总体,其累积概率分布函数不连续,是阶跃式的。样本的累积分布函数也是阶跃式的。如图所示。样本(累积)分布函数是总体(累积)分布函数的近似,n越大,就越接近总体分布第14页,共91页,2023年,2月20日,星期四1991年美国一般社会调查(1991U.S.GeneralSocialSurvey)数据中被调查对象”接受学校教育的最高年限”的样本累积分布图第15页,共91页,2023年,2月20日,星期四5.1.4格利文科(Glivenko)定理(样本分布与总体分布的关系)格利文科定理:当n趋于无穷大时,Fn(x)依概率1(关于x)均匀地收敛于总体分布F(x).格利文科定理的数学表达如下:格利文科定理是用样本特征推断总体特征的依据。这表明当n充分大时,样本分布Fn(x)是总体分布F(x)的一个良好近似。第16页,共91页,2023年,2月20日,星期四例如,利用格利文科定理可以证明:即样本均值依概率收敛于总体均值。即样本方差依概率收敛于总体方差。第17页,共91页,2023年,2月20日,星期四5.1.5随机样本的均值函数对于随机样本X1,X2,…,Xn,定义样本的均值函数(简称为样本均值)为由于式中Xi是随机样本(随机变量),因此作为随机样本函数的是随机变量比较样本数据的均值它可以看成是的观察值第18页,共91页,2023年,2月20日,星期四5.1.6随机样本的方差函数对于随机样本X1,X2,…,Xn,定义样本的方差函数(简称为样本方差)为由于式中Xi是随机样本(随机变量),因此作为随机样本函数的S2是随机变量比较样本数据的方差它是S2的观察值第19页,共91页,2023年,2月20日,星期四5.2统计量与统计量的分布5.2.1统计量的定义统计量是不含未知参数的、随机样本X1,X2,…,Xn的函数注意统计量是随机样本X1,X2,…,Xn的函数,因而也是随机变量在上面定义的函数中将每个随机样本Xi用其观察值xi代替,计算的结果f(x1,x2,…,xn)称为统计量的值。也可以直接将f(x1,x2,…,xn)看成统计量的观察值。第20页,共91页,2023年,2月20日,星期四例子例如一项关于浙江省白领(收入为4000元-10000元)的职员的调查认为有60%白领患失眠症。样本1样本2样本3如果在这个调查中样本容量为100,则

=(样本中失眠的人数)/(样本容量)是一个统计量。第21页,共91页,2023年,2月20日,星期四是某一样本统计量的全部可能取值的概率分布。现实中不可能抽出所有样本,因此统计量的抽样分布实际是一种理论概率分布。统计推断中,常用的理论概率分布:正态分布、2分布、t分布和F分布。提供了样本统计量稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据。样本分布(samplingdistribution)第22页,共91页,2023年,2月20日,星期四5.2.2由标准正态分布的随机样本所引出的几个重要统计量的分布1.正态分布与标准正态分布设X服从均值为μ,方差为σ2正态分布,即X~N(μ,σ2),则其分布密度函数为特别地,当μ=0,σ2=1

时正态分布称为标准正态分布。第23页,共91页,2023年,2月20日,星期四任何一个正态分布X~N(μ,σ2),作变换就可化成标准正态分布,即Z~N(0,1)。正态分布有许多特点:例如它是对称的。正态变量大约有68%的可能性在离均值一个标准差的范围内取值;大约有95%的可能性在离均值1.96倍标准差的范围内取值。几乎不在离均值3倍标准差以外的地方取值。68%95%99.7%第24页,共91页,2023年,2月20日,星期四例如设X~N(54,0.852),要计算P(X≤52)。则可以这样计算:

第25页,共91页,2023年,2月20日,星期四x0.000.010.020.030.040.050.060.070.080.090.00.10.20.30.4

0.50.60.70.80.9

1.01.11.21.31.4

1.51.61.71.81.9

2.02.12.22.32.4

2.52.62.72.82.90.50000.53980.57930.61790.6554

0.69150.72570.75800.78810.8159

0.84130.86430.88490.90320.9192

0.93320.94520.95540.96410.9713

0.97720.98210.98610.98930.9918

0.99380.99530.99650.99740.99810.50400.54380.58320.62170.6591

0.69500.72910.76110.79100.8186

0.84380.86650.88690.90490.9207

0.93450.94630.95640.96480.9719

0.97780.98260.98640.98960.9920

0.99400.99550.99660.99750.99820.50800.54780.58710.62550.6628

0.69850.73240.76420.79390.8212

0.84610.86860.88880.90660.9222

0.93570.94740.95730.96560.9726

0.97830.98300.98680.98980.9922

0.99410.99560.99670.99760.99820.51200.55170.59100.62930.6664

0.70190.73570.76730.79670.8238

0.84850.87080.89070.90820.9236

0.93700.94840.95820.96640.9732

0.97880.98340.98710.99010.9925

0.99430.99570.99680.99770.99830.51600.55570.59480.63310.6700

0.70540.73890.77030.79950.8264

0.85080.87290.89250.90990.9251

0.93820.94950.95910.96710.9738

0.97930.98380.98740.99040.9927

0.99450.99590.99690.99770.99840.51990.55960.59870.63680.6736

0.70880.74220.77340.80230.8289

0.85310.87490.89440.91150.9265

0.93940.95050.95990.96780.9744

0.97980.98420.98780.99060.9929

0.99460.99600.99700.99780.99840.52390.56360.60260.64060.6772

0.71230.74540.77640.80510.8315

0.85540.87700.89620.91310.9278

0.94060.95150.96080.96860.9750

0.98030.98460.98810.99090.9931

0.99480.99610.99710.99790.99850.52790.56750.60640.64430.6808

0.71570.74860.77940.80780.8340

0.85770.87900.89800.91470.9292

0.94180.95250.96160.96930.9756

0.98080.98500.98840.99110.9932

0.99490.99620.99720.99790.99850.53190.57140.61030.64800.6844

0.71900.75170.78230.81060.8365

0.85990.88100.89970.91620.9306

0.94300.95350.96250.97000.9762

0.98120.98540.98870.99130.9934

0.99510.99630.99730.99800.99860.53590.57530.61410.65170.6879

0.72240.75490.78520.81330.8389

0.86210.88300.90150.91770.9319

0.94410.95450.96330.97060.9767

0.98170.98570.98900.99160.9936

0.99520.99640.99740.99810.9986第26页,共91页,2023年,2月20日,星期四2.

2(n)分布的构成设X~N(0,1),X1,X2,…,Xn是X的随机样本,则这些随机样本的平方和服从自由度为n的

2分布,即

2~

2(n)这是一种常用的分布。例如对服从正态分布的变量的随机样本,其方差函数S2就满足:第27页,共91页,2023年,2月20日,星期四2(n)一个非对称分布,其均值为n,方差为2n,其中n为自由度(df)。第28页,共91页,2023年,2月20日,星期四3.t分布自由度为n的t分布,记为t(n),

是由标准正态分布N(0,1)和2(n)分布组成,其表达式为其中X~N(0,1),Y~2(n),且X与Y相互独立。第29页,共91页,2023年,2月20日,星期四t分布的均值为0,方差为n/(n-2)。并且当n充分大时,它就近似于标准正态分布。第30页,共91页,2023年,2月20日,星期四4.F分布F分布是由两个2之比组成的:记为F~F(n,m),其中U~2(n),V~2(m).对于F(n,m),n称为第一自由度(分子自由度),m称为第二自由度(分母自由度)。第31页,共91页,2023年,2月20日,星期四第32页,共91页,2023年,2月20日,星期四5.2.3由一般正态分布的随机样本所构成的若干重要统计量的分布

抽样分布:样本统计量所有可能值的概率分布。样本统计量总体未知参数样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量分布的形状及接近总体参数的程度第33页,共91页,2023年,2月20日,星期四样本统计量:平均数比率(成数)方差第34页,共91页,2023年,2月20日,星期四设随机变量X~N(μ,σ2),X1,X2,…,Xn是X的随机样本,则(1)(2)(3)常使用的几个样本统计量及其分布第35页,共91页,2023年,2月20日,星期四(4)(5)其中是容量为n1的随机变量的样本方差;是容量为n2的随机变量的样本方差。第36页,共91页,2023年,2月20日,星期四5.2.4任意分布的随机样本均值函数的均值和方差设随机变量X的均值为μ,方差为σ2,而分布形式任意,X1,X2,…,Xn是X的随机样本,则(1)(2)也就是任意随机变量的样本均值就等于总体均值;样本方差等于总体方差与样本容量的商第37页,共91页,2023年,2月20日,星期四5.2.5大样本均值的分布:中心极限定理设随机变量X服从均值为μ,方差为σ2

的分布,X1,X2,…,Xn是X的随机样本,则有如下的中心极限定理。中心极限定理(CentralLimitTheorem):当n充分大时,近似地有一般地,当n30时,就可应用中心极限定理了。或者近似地有或者近似地有第38页,共91页,2023年,2月20日,星期四样本容量样本容量:一个样本中包含的样本单位数。通常用n来表示。大样本:n≥30小样本:n<30第39页,共91页,2023年,2月20日,星期四学生ABCDEFG成绩30405060708090按随机原则抽选出4名学生,并计算平均分数。平均数的抽样分布样本均值样本均值样本均值ABCDABCEABCFABCGABDEABDFABDGABEFABEGABFGACDEACDF4547.55052.55052.5555557.56052.555ACDGACEFACEGACFGADEFADEGADFGAEFGBCDEBCDFBCDGBCEF57.557.56062.56062.56567.55557.56060BCEGBCFGBDEFBDEGBDFGBEFGCDEFCDEGCDFGCEFGDEFG62.56562.56567.5706567.57072.575样本均值4547.55052.55557.560出现次数1123445样本均值62.56567.57072.575出现次数443211二者均值相等第40页,共91页,2023年,2月20日,星期四第41页,共91页,2023年,2月20日,星期四则容易得到利用上述结果与5.2.2的结果只要能够证明第42页,共91页,2023年,2月20日,星期四例一汽车蓄电池商声称其生产的电池具有均值为54个月、标准差为6个月的寿命分布。现假设某消费者团体决定检验该厂的说法是否准确,为此购买了50个该厂的电池进行检验。1)假定厂商的声称是正确的,试描述这50个电池平均寿命的抽样分布。2)假定厂商声称正确,则50个样品组成的样本的平均寿命不超过52个月的寿命的概率是多少?解1)由中心极限定理,样本均值近似服从正态分布而并且故第43页,共91页,2023年,2月20日,星期四2)按照上面得到的结果来计算这50个电池平均寿命不超过52个月的概率这表明这50个电池平均寿命不超过52个月的概率非常小。因此这种情况应该不太可能出现。如果出现该情况意味着什么?第44页,共91页,2023年,2月20日,星期四5.3点估计在解决实际问题时,常常需要用样本来推断总体分布的某些参数值,这就是所谓的参数估计。参数估计又分为点估计与区间估计。总体参数(parameter)为描述一个总体的数字,它往往刻画了总体某一方面的特征。总体参数是一个特定值(fixednumber常数),但在现实中常常无法知道其确切的数值,例如总体的均值、方差,总体中某一类特定对象占的比例等。第45页,共91页,2023年,2月20日,星期四一般地,估计量(统计量)是指的随机样本的一个函数。所以粗略地讲,点估计就是用样本的某一函数值,来估计总体分布中的未知参数。而区间估计就是(以一定概率)把总体分布的参数确定在由样本决定的某个区间内。一个样本统计量(如样本均值)是样本的函数Population

总体参数x4x49x103x354x41x4x42909x1005x31x411第46页,共91页,2023年,2月20日,星期四5.3.1点估计的概念设θ是总体分布中一个需要估计的参数。现在从总体中得到一个随机样本X1,X2,…,Xn

,我们的目的是通过这一随机样本来估计参数θ

。θ的估计量通常是随机样本X1,X2,…,Xn的一个函数,记为简记为若能够得到一组样本观察值x1,x2,…,xn,则将它们代入上述函数,可以计算出θ的估计值θ的估计值也简记为。θ的点估计就是求θ的估计值第47页,共91页,2023年,2月20日,星期四5.3.2矩估计法对总体而言,矩是指:——k阶原点矩——k阶中心矩(中心为μ)对样本而言——一阶原点矩——二阶中心矩矩估计法就是用样本矩来估计相应的总体矩。第48页,共91页,2023年,2月20日,星期四例如通常用来估计用来估计并且称这样得到的估计量为矩估计量。第49页,共91页,2023年,2月20日,星期四5.3.3极大似然估计法引例设甲乙两个盒子外形完全相同,甲盒中装有90个白球10个黑球,乙盒中装有90个黑球10个白球。今随机地抽取一个盒子并从中抽取一球,结果抽到白球,问这球是从哪个盒子中抽取的?从甲盒中抽取一球是白球的概率p1=9/10从乙盒中抽取一球是白球的概率p2=1/10p1远大于p2,因此我们推断这球是从甲盒中取出。这个推断我们依据的是所谓极大似然原理:如果进行一次随机实验,结果是若干个可能后果中的某一个出现了,则可以认为实验的条件有利于该后果的出现,即该后果出现的概率最大。第50页,共91页,2023年,2月20日,星期四更一般地,如果用一个参数θ来表示不同的盒子,即现在随机抽取一个盒子,然后随机独立有放回地抽取5次,每次抽取一个球。如果结果是黑、白、白、白、黑。问θ等于0还是等于1?对于甲盒,得到这样结果的概率对于乙盒,得到这样结果的概率由于p1大于p2,因此我们推断θ=0。也就是,θ是使联合概率达到最大的数。第51页,共91页,2023年,2月20日,星期四将上述问题抽象化。设X是一个随机变量,其概率密度函数为。又设X1,X2,…,Xn是X的随机样本,则记联合密度函数为称为θ的极大似然函数。若得到一组样本观察值x1,x2,…,xn

,则代入L后得到一个关于θ的函数。如果存在

使函数L取最大值。则称该为θ的极大似然估计值。而称为θ的极大似然估计量。第52页,共91页,2023年,2月20日,星期四5.3.4示例例5.3.1设随机变量X服从均值为μ,方差为σ2

的正态分布,X1,X2,…,Xn是X的随机样本,求μ和σ2的极大似然估计量。首先由前面的讨论可知极大似然函数为第53页,共91页,2023年,2月20日,星期四对L取极大值等价于对L的对数取极大值。因此在L取对数后,再分别计算关于μ和σ2的偏导数,并令偏导数为零,解得μ和σ2的估计量分别为σ2的极大似然估计量要小于其矩估计量第54页,共91页,2023年,2月20日,星期四例:英语六级未通过率假设某财经大学的学生在毕业时尚未通过六级的比率为p,现从中随机抽取100人调查其档案,发现其中有10人六级没过,试用极大似然法估计总体参数——未通过六级的比例p。解用X表示任意抽取的一个毕业生六级通过的情况:X=1,若该生通过了六级0,若该生未通过六级则X~B(1,p).于是对于x=0,1,有P(X=x)=px(1–p)1–x

第55页,共91页,2023年,2月20日,星期四英语六级未通过率<续>

对于来自于总体X的100个样本观测值x1,x2,…,x100,其中恰好有10个取值为1,其他为零。样本观察值的联合分布密度(似然函数)为两边取对数得对数似然函数为:上式关于p求导数并令导数为0,解得:其中q=1–p.注:用矩估计法可得到同样结果第56页,共91页,2023年,2月20日,星期四5.4判断点估计量的优劣标准问题:第一,我们为什么以这一个而不是那一个统计量来估计某个总体参数?第二,如果有两个以上的统计量可以用来估计某个总体参数,其估计结果是否一致?是否一个统计量要优于另一个?估计值的优良标准:无偏性、有效性、一致性第57页,共91页,2023年,2月20日,星期四5.4.1无偏估计量设为θ的估计量。如果则称为θ的无偏估计量。第58页,共91页,2023年,2月20日,星期四对于正态总体,可以证明总体均值的样本矩估计量(同时也是极大似然估计量)是无偏的。总体方差的样本矩估计量S2是无偏的,但是极大似然估计量是有偏的。第59页,共91页,2023年,2月20日,星期四5.4.2最小方差性在一个参数的众多估计量中,人们偏好于那些具有较小方差的估计量。因为由它给出的估计值可能与真实值有更小的误差。

的分布函数的分布函数第60页,共91页,2023年,2月20日,星期四若总体参数为θ

,θ的估计量的方差小于等于其他所有对θ估计量的方差,也就是总是成立,那么称θ的估计量具有最小方差性。第61页,共91页,2023年,2月20日,星期四5.4.3有效估计量在用估计量来估计总体的某个参数时,如果(1)估计量无偏的;(2)在的所有估计量中估计量的方差最小。那么,这个估计量就是总体参数的有效估计量。

第62页,共91页,2023年,2月20日,星期四5.4.4渐近无偏估计量渐近无偏估计量是指满足如下条件的估计量:其中n为样本容量。第63页,共91页,2023年,2月20日,星期四5.4.5一致估计量第64页,共91页,2023年,2月20日,星期四一致估计量的另一种等价的定义是:(1)是渐近无偏的;(2)其中(2)中的极限为所谓的渐近方差而普通方差为第65页,共91页,2023年,2月20日,星期四通常判别点估计量优劣的准则小样本准则无偏性有效性大样本准则一致性第66页,共91页,2023年,2月20日,星期四可以证明下列估计量是具有较好统计性质的估计量总体均值的矩估计量总体方差的矩估计量总体方差的极大似然估计量总体比例p的估计量样本比例第67页,共91页,2023年,2月20日,星期四总体构成比例的估计常常可能会关注总体中某一类特定对象占的比例p。对于这样的问题,可以采用如下的方式处理。在总体中任取一个个体,用一个变量X来描述所抽取的对象是否属于所关注的对象这一事件,即X=1,若抽得的是所关注的对象0,若抽得的不是所关注的对象于是,该总体可以用服从0-1分布的随机变量X~B(1,p)描述,其中p表示所关注的对象在总体中占的比例。对于0-1分布B(1,p),其数学期望值与方差分别为:p,p(1–p)第68页,共91页,2023年,2月20日,星期四设X1,X2,…,Xn是来自于总体X的一个随机样本,并且在这一样本中我们所关注的对象恰好出现了n1次。那么即样本的均值恰好等于样本的比例。由此可见,可用样本比例π来估计总体比例p。此外,由中心极限定理,当样本容量充分大时,样本的均值函数近似地服从正态分布,也就是近似地有:第69页,共91页,2023年,2月20日,星期四点估计的最大好处:给出确定的估计值点估计的最大问题:无法控制误差及判断可靠程度在实际应用中,我们通常只取一个样本,因此我们无法知道通过这个样本对总体参数的估计是否精确。但样本容量大的随机样本通常总是给出更接近总体参数的估计值。第70页,共91页,2023年,2月20日,星期四5.5区间估计在用样本均值估计总体均值时,总有人会问:“这一估计有多好?”这意味着人们不但关注你给出的估计值是多少,还关注你给出的估计有多大的误差和可靠程度。例如一家商店调查顾客的满意度,随机抽取了由100个顾客组成的样本,然后请这些顾客回答对商店服务的满意度得分,最低(最不满意)0分,最高100分。调查结果,这100个顾客给出的满意度平均分80分。问题“这一估计有多好?”具体来说就是,这是否体现了所有顾客对商店满意的平均程度,有多大误差,样本数量是否足够等。第71页,共91页,2023年,2月20日,星期四5.5.1置信区间若总体分布含一个未知参数β,如果找出了2个依赖样本X1,X2,…,Xn的估计量:使得其中0<α<1,则称随机区间为β的(1–α)(或100(1–α)%)的置信区间;(1–α)(或百分数100(1–α)%)称为置信度或置信水平;α

称为显著性水平,通常取为0.05,0.10或0.01。参数的区间估计就是求参数的置信区间。第72页,共91页,2023年,2月20日,星期四5.5.2已知总体方差求总体均值的置信区间

设总体X服从N(μ,0.09),抽取了4个样本观察值x1,x2,x3,x4,求总体均值μ的95%的置信区间。首先因此注意到N(0,1)是一个对称分布。给定概率值0.95,现在来确定常数k,使得2.5%的面积95%的面积k第73页,共91页,2023年,2月20日,星期四利用书末的附表一,可以查得k=z0.025=1.96。于是下面的不等式成立的概率为0.95这等价于将z0.025=1.96代入上式,即得到所需要的置信区间极限误差平均误差记作一般地,已知总体方差时均值置信区间的表达式第74页,共91页,2023年,2月20日,星期四计算样本统计量计算抽样平均误差计算抽样极限误差确定置信区间区间估计步骤(以估计为例):第75页,共91页,2023年,2月20日,星期四由532名《商业周刊》订阅者组成的样本表明,其每周使用因特网的平均时间为6.7小时。如果总体标准差为5.8小时,求该周刊订阅者总体每周平均花费在因特网上时间的95%置信区间。均值的区间估计则:该置信区间为:第76页,共91页,2023年,2月20日,星期四5.5.3未知总体方差求总体均值的置信区间设,抽取了一组样本观察值x1,x2,…xn,求总体均值μ的1-α置信区间。这里总体的方差σ2是未知的。首先由5.2.4有记是t分布对应着显著性水平α的临界值。则α/2的面积1-α的面积tc第77页,共91页,2023年,2月20日,星期四从而可得置信区间为其中常称为标准误差(standarderror)。第78页,共91页,2023年,2月20日,星期四均值的区间估计某证券市场由10只股票组成的一个样本其市盈率分别为:

5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论