第六章 样本及抽样分布_第1页
第六章 样本及抽样分布_第2页
第六章 样本及抽样分布_第3页
第六章 样本及抽样分布_第4页
第六章 样本及抽样分布_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

什么是统计学?统计学是一门关于数据资料的收集、整理、分析和推断的科学。但人们常常将统计这一概念误解为大量数据资料的收集以及对这些数据作一些简单的运算(如求和、求平均值、求百分比等)或用图表、表格等形式把它们表示出来;其实这些工作仅是统计学工作的非主要部分。统计学还包括怎样设计试验、采集数据以及怎样对获得的数据进行分析推断等其它许多工作。随着研究随机现象规律性的科学——概率论的发展,应用概率论的结果更深入地分析研究统计资料,通过对某些现象的频率的观察来发现该现象的内在规律性,并作出一定精确程度的判断和预测;将这些研究的某些结果加以归纳整理,逐渐形成一定的数学概型,这些组成了数理统计的内容。数理统计的方法及考虑的问题不同于一般的资料统计,它更侧重于应用随机现象本身的规律性来考虑资料的收集整理和分析,从而找出相应的随机变量的分布律或它的数字特征。由于大量的随机试验能呈现出它的规律性,因而从理论上讲,只要对随机现象进行足够多次观察,被研究的随机现象的规律性一定能清楚地呈现出来,但是实际上所允许的观察永远只能是有限的,有时甚至是少量的。因此我们所关心的问题是怎样有效地利用有限的资料,便能去掉那些由于资料不足所引起的随机干扰,而把那些实质性的东西找出来。一个好的统计方法就在于能有效地利用所获得的资料,尽可能作出精确而可靠的结论。在数理统计里,不是对所研究的全部对象进行观察,而是抽取其中的部分进行观察、获得数据(即采样),并通过这些数据来对所研究的全体进行推断。由于推断是基于采样数据,而采样数据又不能包含研究对象的全部信息,因此由此所获得的结论必然会包含不定性,概率是这种不定性的度量。造成不定性的原因可分为两类:(1)由于采样数据的随机性所引起的不定性;(2)由于我们对系统真实状态的“无知”造成的不定性。数理统计工作者的任务就是要分辨这两种不定性。下面举一例来说明。某元件厂生产了一批三极管,共一百万只,每十只装成一盒,共得十万盒。现有某仪器厂需向该元件厂购买此三极管一百盒,准备安装在某种仪表上。每台仪表需用此三极管十只,恰好是一台仪表需一盒三极管,一百盒可供装一百台,但是该仪表对三极管有一定的质量要求,要求十只中至少有八只是—级品,其余的可以是二级品,否则仪表不能稳定工作。此时仪表厂对这批三极管就面临两种不定性需要分辨:(1)元件厂生产的十万盒三极管,对仪器厂来说是满意的(即一盒中至少有八只是一级品)盒子所占比例p是多少?(2)由于有十万盒三极管,现在仅购买其中的一百盒,因而就面临着另一种不定性。即假使已知此十万盒中,满意的盒子所占的比例为p,又怎样能确定买来的一百盒中,满意的占多少比例呢?例如p=0.99,即十万盒中大约有九万九千盒是满意的,这个比例对仪器厂来说应该是很好了,但也有可能发生这样的意外,即仪器厂所购买的一百盒全部落在不满意的大约一千盒之中。第一种不定性是不知道p,是我们对系统真实状态的“无知”;而后一种不定性是由于所谓“随机性”造成的。为了改善这不定性,仪器厂可要求元件厂对这批三极管的质量进行测试,也就是要求抽取部分三极管进行测试,通过这部分中一级晶所占的比例(频率)来对p的真实值进行推断,当然我们不能完全精确地决定p,但是我们可以希望获得一个(在某种意义下)比较好的判断,这就涉及到怎样设计试验,决定观察的数目.和怎样利用试验观察的结果作出一个好的“推断”等,这些都是数理统计所要研究的问题。至于在已知p的条件下,第二种不定性的程度已在概率论基础部分作过讨论。数理统计研究的内容随着科学技术和生产的不断发展而逐步扩大。但概括地说可以分为两大类:(1)试验的设计和研究,即研究如何更合理更有效地获得观察资料的方法;(2)统计推断,即研究如何利用一定的资料对所关心的问题作出尽可能精确、可靠的结论。本课程只讨论统计推断。概率论的基本概念数理统计的基本概念抽样分布返回退出本章小结习题数理统计的基本概念总体和样本统计量顺序统计量和经验分布函数返回继续我们今后所讨论的统计问题主要属于下面这种类型:从一个集合中选取一部分元素,对这部分元素的某些数量指标进行测量,根据测量获得的这些数据来推断这集合中全部元素的这些数量指标的分布情况。在统计学中,我们把所研究的全部元素组成的集合称为母体,或总体。而把组成母体的每个元素称为个体,例如在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了母体,而其中每个灯泡就是个体。但是在统计里,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项或某几项数量指标X和该数量指标X在总体中的分布情况。在上述例子中X是表示灯泡的寿命,就此数量指标X而言,每个个体所总体、个体、样本、样本容量、样本值取的值是不同的。在试验中,抽取了若干个个体就观察到了x的这样或那样的数值,因而这个数量指标X是一个随机变量,而X的分布就完全描写了总体中我们所关心的那个数量指标的分布状况。由于我们关心的正是这个数量指标,因此我们以后就把总体和数量指标X可能取值的全体组成的集合等同起来,所谓总体的分布也就是指数量指标x的分布。为了对总体的分布律进行各种研究,就必须对总体进行抽样观察,一般说来,我们还不止进行一次抽样观察,而是进行几次观察。通过观察就得到总体指标X的一组数值(x1,x2,…,xn),其中每个xi是一次抽样观察的结果。即某一个被观察总体、个体、样本、样本容量、样本值的个体的X指标值,(x1,x2,…,xn)称为容量为n的样本的观察值。由于我们是利用样本观察来对总体的分布进行推断,因而从总体中抽取样本进行观察时必须是随机的。所以对于随机抽样来说,对其某一次观察结果而论,是完全确定的一组值,但它又是随每次抽样观察而改变的,由于我们要依据这一观察结果进行分析推断,并研究比较各种推断方法的好坏,因而一般考虑问题时,就不能把看为确定的数值,而应该看作为随机向量X=(X1,X2,…,Xn),称它为容量是n的样本,因而对样本也有分布可言。总体、个体、样本、样本容量、样本值我们抽取样本的目的是为了对总体的分布律进行各种分析推断,因而要求抽取的样本能很好地反映总体的特性,这就必须对随机抽样的方法提出一定的要求。通常提出下面两点:①代表性:要求样本的每个分量Xi与所观察的总体X具有相同的分布F(x);②独立性:X1,X2,…,Xn为相互独立的随机变量,也就是说,每个观察结果既不影响其他观察结果,也不受其它观察结果的影响。满足上述两点性质的样本称为简单随机子样。在今后如不作特殊声明,所说的样本将理解为简单随机样本,对于简单随机样本X=(X1,X2,…,Xn),其分布可以由总体X的分布函数F(x)简单随机样本(或概率密度f(x))完全决定,X的分布函数为简单随机样本在数理统计中,研究对象的全体称为总体;组成总体的每个元素称为个体。从总体中抽取的一部分个体,称为总体的一个样本;样本中个体的个数称为样本的容量。从分布函数为F(x)的随机变量X中随机地抽取的相互独立的n个随机变量,具有与总体相同的分布,则X1,X2,…,Xn称为从总体X得到的容量为n的随机样本,简称样本。一次具体的抽取记录x1,x2,…,xn是随机变量X1,X2,…,Xn的一个观察值。总体与样本例1A厂生产的某种电器的使用寿命服从指数分布,参数为未知,为此抽查了n件电器,测量其实际寿命。是确定本问题的总体,样本及样本的分布。样本本是是总总体体的的代代表表和和反反映映,,但但在在我我们们抽抽取取样样本本之之后后,,并并不不直直接接利利用用样样本本进进行行推推断断,,而而需需要要对对样样本本进进行行一一番番““加加工工””和和““提提炼炼””,,把把样样本本所所包包含含的的关关于于我我们们所所关关心心的的事事物物的的信信息息集集中中起起来来,,这这便便是是针针对对不不同同的的问问题题构构造造出出样样本本的的某某种种函函数数,,这这种种函函数数在在统统计计学学中中称称为为统统计计量量。。引进进统统计计量量的的目目的的是是为为了了将将杂杂乱乱无无序序的的样样本本值值归归结结为为一一个个便便于于进进行行统统计计推推断断和和研研究究分分析析的的形形式式,,集集中中样样本本所所含含信信息息,,使使之之更更易易揭揭示示问问题题实实质质,,从从而而解解决决问问题题。。统统计计量量中中应应该该不不含含有有未未知知参参数数,,如如果果统统计计量量中中仍仍含含有有未未知知参参数数,,就就无无法法依依靠靠样样本本观观测测值值求求出出未未知知参参数数的的估估计计值值,,因因而而失失去去利利用用统统计计量量估估计计未未知知参参数数的的意意义义,,这这是是违违背背我我们们引引进进统统计计量量的的初初衷衷的的。。统计量概概念的引引入来自总体体X的样样本X1,X2,…,Xn的函数g(X1,X2,…,Xn),若若是连续续的且不不含任何何未知参参数,则则称为一一个统计计量。统计量常用的统统计量常用的统统计量常用统计计量的性性质常用统计计量的性性质定理1的的证明定理2的的证明定理2的的证明定理2的的证明定理3的的证明例2设设有一一容量n=8的的样本观观察值为为(8,6,7,5,7,8,9,6),,求样本本均值及及样本方方差的观观察值。。例3已已知某某种纱的的强力服服从N(1.56,0.222)(单位位:千克克)今抽抽取容量量为n=50的的样本,,求样本本均值小小于1.45千千克的概概率。设x1,x2,…,xn为总体X的一组组观察值值,将它它们按有有小到大大的顺序序排列,,得到x1*≤x2*≤……xn*称它为顺顺序统计计量。则则称它为经经验分布布。顺序统计计量和经经验分布布顺序统计计量和经经验分布布抽样分布布正态总体体样本的的线性函函数的分分布X2-分布t-分布F-分布布正态母体体子样均均值和方方差的分分布返回继续统计量是是我们对对母体的的分布律律或数字字特征进进行推断断的基础础,因此此求统计计量的分分布是数数理统计计的基本本问题之之一。我们所感感到兴趣趣的是下下面两类类问题..第一类类问题是是:对于于任意一一个自然然数n,,要找出出给定的的统计量量Un=f(X1,X2,…,Xn)的分布布,这分分布称为为这统计计量的精精确分布布。求统统计量的的精确分分布对于于数理统统计中的的所谓小小样问题题(即子子样容量量比较小小时的统统计问题题)的研研究是非非常有用用的。第二类问问题是::不对任任何个别别的n求求出统计计量Un的分布,,而只求求出当n∞时,统计计量Un的极限分分布,这这极限分分布对于于数理统统计中的的所谓大大样抽样分布布问题(即即子样容容量较大大时的统统计问题题)的研研究很有有用处。。一般说来来,要确确定一个个统计量量的精确确分布是是非常复复杂的,,可是对对于一些些重要的的特殊情情形,如如正态母母体,这这个问题题有较简简单的解解法。在今后各各章中将将会看到到,正态态母体的的研究处处于特别别显著的的地位,,这一方方面是由由于其统统计量的的精确分分布的数数学分析析比较容容易;另另一重要要原因是是:在许许多领域域的统计计研究中中所遇到到的母体体,正态态分布是是它的一一个很好好的近似

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论