学习数理统计5_第1页
学习数理统计5_第2页
学习数理统计5_第3页
学习数理统计5_第4页
学习数理统计5_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2022/8/14 9:28/ 491 电话:2580718黄荣坦数 理 统 计2022/8/14 9:28/ 492第五章 统计量及其分布5.1 总体与样本5.2 样本数据的整理与显示5.3 统计量及其分布5.4 三大抽样分布5.5 充分统计量2022/8/14 9:28/ 4935.1 总体与样本5.1.1 统计学(数理统计)的定义5.1.2 总体和总体分布5.1.3 样本和样本分布5.1.4 统计模型及其意义5.1.5 统计学的研究内容5.1.6 统计推断与概率论和数学的区别5.1.7 统计软件2022/8/14 9:28/ 4945.1.1 统计学(数理统计)的定义统计学研究如何用有效

2、的方法收集、概括和分析数据,以便从数据中获取有用信息来帮助人们进行预测和决策。数据:描述研究对象特征的变量的观测值。例如,要了解全班同学的身高情况,先要测量并记录班上每个同学的身高,然后用记录下来的身高数据计算全班同学的平均身高。这里的第一步就是搜集数据,第二步就是对所搜集到的数据进行概括,以获取班级身高状况的信息。平均身高是描述班级身高状况的重要信息。2022/8/14 9:28/ 495统计学(数理统计)的定义(续) 当然统计学研究的问题要比这个例子复杂得多。现代统计学所提供的各种统计方法,作为在不确定情况下进行预测和决策的重要辅助工具,被广泛地应用于所有出现定量数据且需要对它们进行分析和

3、解释的问题中(称这类问题为统计问题)。在对什么是统计问题做详细解释之前,我们先考查一些需要应用统计方法的问题,从这些问题中我们能领悟出统计问题的基本要素。2022/8/14 9:28/ 496例5.1.1 产品的抽样检查1为检验某灯泡厂生产的产品的质量,从该厂库存的一批灯泡中随机地抽取10个,检验其寿命(单位h)。假定测得寿命为1980,2800,3060,4500,2760,3270,1560,0,3200,1940。用这10个样品的寿命数据,推测该厂库存的一批灯泡的质量,进而推测该厂生产的灯泡的质量。2022/8/14 9:28/ 497例 5.1.2 产品的抽样检查2假设按照某种规定的标

4、准,灯泡的寿命在3000h以上为正品,而在3000h以下为次品,同样是例5.1.1中的10个样品,其正品和次品的记录为次品,次品,正品,正品,次品,正品,次品,次品,正品,次品。用这10个样品的次品率,推测该厂库存的一批灯泡的次品率,进而推测该厂生产的灯泡的次品率。2022/8/14 9:28/ 498例 5.1.3 抽样调查 从某个城市的居民中随机地选取500人,调查他们的年龄、职业、受教育程度及年收入。由于数据量很大,不可能将这些数据全列出来,只列出前5个人的调查结果于表5.1.1中。表5.1.1 城市居民调查表用500人的年龄、职业、教育程度及年收入的数据推测该城市居民的年龄、职业、教育

5、程度及年收入的状况。2022/8/14 9:28/ 499例 5.1.4 为研究甲醛与尿素的反应时间对所生成树脂强度的影响,在三个反应时间:80min,100min,120min分别做三次试验,记录下试验结果,列于表5.1.2中。表5.1.2 树脂强度试验结果如果假定树脂强度是反应时间的未知函数,由于在工业试验中,各种条件(例如试验温度、原料纯度、原料混合的均匀程度等)很难控制得十分稳定。因此在相同设计条件(反应时间)下所得到的结果具有随机误差。用这些带随机误差的试验结果推测树脂强度和反应时间之间的未知函数关系。2022/8/14 9:28/ 4910统计学(数理统计)的定义(续) 以上几个例

6、子中,都需要在不确定情况下对总体状态进行预测或决策。之所以产生不确定性,是因为我们无法拥有进行预测或决策所需的全部信息(总体数据)。在使用不完全信息(样本数据,或随机数据)进行预测和决策时,必须借助于一种叫做统计推断的统计方法。通过上面的例子大家对统计问题应该有了初步的了解。下面我们将介绍上面例子中涉及到的几个统计学的基本概念,这些概念是对统计学的本质和特征的概括和反映,是统计思维网络上的结点。掌握了这些基本概念后,大家对统计问题会有更深刻的认识和理解。2022/8/14 9:28/ 49115.1.2 总体与总体分布总体和个体检验一批灯泡的质量城市居民调查从前面的几个例子中,我们可以看出统计

7、问题是探讨研究对象全体的集体性质。统计学中称与研究问题有关的所有研究对象全体组成的集合为总体(或母体) ,称构成总体的每个成员为个体。事实上,统计问题就是研究总体的数量特征。2022/8/14 9:28/ 4912有限总体和无限总体统计学中构成总体的个体不仅可以是人、物、组织单位等实体,也可以是现象、事件、活动过程等非实体。但在个体是非实体时,总体通常不是有形的,而是概念性的。如例5.1.4中,个体是每一次的试验,这种个体显然是个活动过程,总体是所有可能的试验全体,这个总体显然是概念性的总体。 总体中所包含的个体的个数称为总体的容量。容量为有限的总体称为有限总体,容量为无限的总体称为无限总体。

8、一般来说,由非实体组成的总体都是无限总体。2022/8/14 9:28/ 4913总体数量特征的特点统计中总体的数量特征具有如下两个特点:第一,总体数量特征同构成总体的每个个体的一个或多个特征的取值都有关系,由于构成总体的个体数目一般都非常之多,因而就单个个体而言它对总体数量特征的影响又很小;第二,构成总体的各个个体的特征的取值不是完全相同的,即个体特征具有变异性。如果构成总体的每个个体的特征的取值都完全一模一样,那么这个总体的数量特征除了总体总数外均等同于单个个体的特征,因而只要对其中的任一个个体进行研究就可以了,不需要什么统计方法。因此要完全了解总体数量特征,必须了解总体中每个个体的相关特

9、征。通常一个总体有很多不同的数量特征,选择什么样的数量特征来研究完全取决于研究的目的。2022/8/14 9:28/ 4914总体的抽象定义该批灯泡寿命的全体就是总体灯泡的寿命所有城市居民的年龄、职业、教育程度和年收入的全体就是总体从以上总体数量特征的特点可知,我们感兴趣的总体的数量特征实际上就是构成总体的每个个体的一项(或几项)相关特征的取值全体的集体性质。因此,我们也称这些特征的取值全体为总体;称单个个体所对应的特征的取值为个体。2022/8/14 9:28/ 4915总体变量与我们感兴趣的总体数量特征相关的个体特征的取值全体实际上就是定义在总体上的函数。一方面由于函数值随着个体的不同而变

10、化,另一方面由于我们感兴趣的不是函数的对应关系,而是所有个体所对应的函数值全体,因此我们将这种函数称为变量。又因变量是定义在总体上的,我们称之为总体变量。2022/8/14 9:28/ 4916总体变量(续)例5.1.1中的总体变量是灯泡寿命,它是一个定量变量,定量变量用于描述个体的数量特征。相应的数据称为定量数据。例5.1.2中的总体变量是由灯泡的寿命所定义的定性变量。定性变量用于描述个体所属类别或等级。相应的数据称为定性数据。定性数据可以通过用数字表示不同类别或等级来进行数量化。比如本例中可用0表示正品,用1表示次品实现数量化。2022/8/14 9:28/ 4917例5.1.3中的总体变

11、量是年龄、职业、教育程度和年收入。例5.1.4中的总体变量是树脂强度。总体变量(续)当个体是非实体时,把总体抽象为总体变量将更加方便。总体变量是统计学真正研究的对象,今后用X来表示。例5.1.4中的总体是某次试验的树脂强度。2022/8/14 9:28/ 4918总体中的个体在总体变量的值域上所形成的分布就叫总体分布。总体分布包含了总体数量特征的全部信息。只要知道了总体分布,总体数量特征就完全清楚了。但要完全知道总体分布,就必须知道构成总体的每个个体所对应的变量值。统计推断就是在无法获得构成总体的全部变量值的情况下,如何用获得的部分变量值(有限个)来推断未知的总体分布。有了总体分布的概念,我们

12、可将总体变量当作随机变量,那么总体分布就是这个随机变量的分布。总体分布2022/8/14 9:28/ 4919在很多情况下,特别是在个体是非实体的情况下,所研究的总体变量本身就是随机变量,总体分布就是这个随机变量的分布。如果所研究的总体变量不是随机变量,那么可通过设计一个随机试验(如随机抽样),使所研究的总体变量成为一个随机变量。因此我们可以把所研究的总体变量看作一个随机变量(或随机向量),相应的总体分布就是这个随机变量(或随机向量)的分布。我们感兴趣的总体数量特征就是这个随机变量(或随机向量)的分布及其数字特征。因此,我们也可以称随机变量(或随机向量)为总体,而总体分布就是这个随机变量(或随

13、机向量)的分布。统计推断就是利用这个随机变量(或随机向量)的有限个观察值来推断其未知的分布或其数字特征。总体分布(续)2022/8/14 9:28/ 4920在实际问题中,我们可以依据经验和问题的背景理论,设定总体分布的类型(如正态分布、伯努利分布、泊松分布等),我们称所设定的总体分布的类型为理论模型。如果所设定的总体分布的类型是由有限个未知参数决定的,我们就称之为参数模型。如果所设定的总体分布的类型不能由有限个未知参数决定的,我们就称之为非参数模型。理论模型2022/8/14 9:28/ 4921在例5.1.1中,虽然灯泡寿命是有限的,但我们可假定总体变量取值于0,+),这一方面是因为我们无

14、法确定灯泡寿命的上限,另一方面是因为对一个随机变量扩大其取值范围,从数学角度看不仅没有问题而且还会带来一些方便。我们可设定总体分布为均值的指数分布。在例5.1.2中,通过数量化后,可设定总体分布为参数p的伯努利分布,其中p为次品率。在例5.1.3中,总体变量X= (X1,X2,X3,X4)分别代表年龄、收入、职业和教育程度。在例5.1.4中,总体变量X的分布与反应时间有关。2022/8/14 9:28/ 4922某人群由 N 个男生组成,记 N 个男生的身高数据为x1,x2,xN 。用随机方法从人群中抽取一个人,记X为其身高的测量值,则X是个随机变量,其分布为即为:例5.1. 5一万个身高数据

15、的直方图近似于一条光滑的概率密度曲线总体x1,x2,xN的分组频率分布就是对总体分布的近似。从分组频率分布的直方图可直观地看出,在N时,可以取每组的组距d0,因而直方图就收敛于一条光滑的密度曲线。由于这个概率密度曲线与正态分布的概率密度曲线非常接近,因此可用正态分布作为身高这个数量指标的理论模型。2022/8/14 9:28/ 4923某人群由 N 个人组成,其中有 N1个男性,记 p=N1/N为人群中男性所占比例。从这个人群中随机抽出一个人,记 X 为被抽到的人的性别,并用 X=1 表示男性,X=0 表示女性。则数量化后的性别指标 X 就变成一个随机变量,这个随机变量就是总体,其分布(理论模

16、型)为:例5.1.6显然这个分布即为性别的频率分布,p 则为描述总体性别特征的一个参数。对这个总体,显然有=E(X)=p。即总体性别特征可用总体均值来描述。 X 0p12022/8/14 9:28/ 4924例5.1.7要判断一枚硬币是否均匀,先对这枚硬币进行100次投掷试验,然后根据这100次投掷试验的结果做出这枚硬币是否均匀的结论。记 X 为投掷试验的结果,并用 X=1 表示国微向上,X=0 表示文字向上。则数量化后的指标 X 就变成一个随机变量,用这个随机变量表示总体,显然比用全体投掷试验或全体投掷试验结果表示总体都来得方便。显然总体分布(理论模型)为:其中 p 为投掷这枚硬币时,出现国

17、微向上这种结果的概率。 X 0p552441223113100只电子元件的寿命2022/8/14 9:28/ 4932在相同条件下对总体X进行n次重复的、独立的观察,将n次观察结果按试验的次序记为x1,x2,xn 。由于x1,x2,xn是对随机变量X观察的结果,且各次观察是在相同的条件下独立进行的,所以有理由认为(x1,x2,xn)是 n 个独立同分布(IID),共同分布就是总体分布的随机变量组成的 n 维随机向量(X1,X2,Xn)的一次实现。称这种n 维随机向量( X1,X2,Xn ) 为简单样本(或IID样本)。随机性和独立性是简单随机样本的两个基本要求。简单样本2022/8/14 9:

18、28/ 4933对于有限总体,采用有放回抽样就能得到简单样本,但有放回抽样使用起来不方便,当总体中的个体总数N比要抽取的样本容量大得多时,在实际中可将不放回抽样近似地当作放回抽样来处理。至于无限总体,由于抽取一个个体不影响它的分布,所以总是用不放回抽样。在生产过程中,每隔一定时间抽取一个个体,抽取n个就得到一个简单样本。实验室中的记录,试制新产品得到的样品质量指标,也常被认为是简单样本。简单样本(续)由于本课程的大部分内容是讨论简单样本,今后在不引起混淆时将简单样本简称为样本。2022/8/14 9:28/ 4934设有一批产品共有N件,需要进行抽样检验以了解其不合格品率p,现抽取n件逐一检查

19、它们是否是不合格品。如果记合格品为0,不合格品为1,则样本x1, x2 , xn不具有独立性,因而不是简单随机样本。例5.1.112022/8/14 9:28/ 4935简单样本的样本分布2022/8/14 9:28/ 4936正态总体的样本分布2022/8/14 9:28/ 4937伯努利总体的样本分布2022/8/14 9:28/ 4938泊松总体 的样本分布2022/8/14 9:28/ 4939事实上我们抽样后得到的数据都是具体的、确定的样本值(随机数据)。如我们从全班同学中抽取2人测量身高,得到2个数,它们是样本值而不是样本。我们只能观察到随机变量的取值而见不到随机变量。总体、样本、

20、样本值的关系2022/8/14 9:28/ 4940总体(理论分布) ? 样本 样本值统计是从手中已有的数据-样本值,去推断总体的情况-总体分布F(x)的特征。总体分布决定了样本取值的概率规律,也就是从样本取到样本值的规律,因而可以由样本值去推断总体。样本是联系样本值和总体分布的桥梁总体、样本、样本值的关系(续)2022/8/14 9:28/ 49415.1.4 统计学的研究内容研究如何用有效的方法收集的抽样调查、试验设计和概括数据的描述性统计;研究如何用有效的方法对所得的数据进行分析、研究,从而对所研究的对象的性质 、特点作出推断的统计推断(“样本”推断“总体”)。依据推断形式不同,统计推断

21、可分为估计和假设检验两种,它们构成了统计学的基础 。依据不同的理论模型,统计推断可分为许多不同的分支学科。比如,参数和非参数、线性和非线性、方差分析、回归分析、时间序列分析、多元统计分析等等。依据对概率的不同解释,统计推断可分为频率统计和贝叶斯统计。频率的稳定值对某件事情发生机会的信念2022/8/14 9:28/ 49425.1.5 统计推断与概率论的区别在概率论中,我们研究的随机变量的分布都是假设已知的,在这一前题下去研究它的性质、特点和规律性。例如求出它的数字特征,讨论随机变量函数的分布,介绍常用的各种分布等。统计推断以概率论为理论基础,根据试验或观察得到的数据,来研究随机现象,对研究对

22、象的客观规律性作出种种合理的估计和判断。在统计推断中,我们研究的随机变量的分布是未知的,或者是不完全知道的,人们是通过对研究的随机变量进行重复独立的观察,得到许多观察值,对这些数据进行分析,从而对所研究的随机变量的分布作出种种推断。2022/8/14 9:28/ 49435.1.6 统计学与数学的区别由于统计需要大量的数学,而且现代统计的基础也是数学家所奠定的,因此统计也被人认为是数学的一个分支。但是统计和数学有很大的区别。数学的思维是以演绎为主(从一些假设、命题、已知的事实等出发,按一定的逻辑推理去得出结论);而统计的思维是以归纳为主(从所观察到的大量个别情况中“归纳”起来得出结论),兼有演

23、绎。例如,在几何学中要证明“等腰三角形底角相等”只须从“等腰”这个前提出发,运用几何公理,一步一步推出这个结论。而一个习惯于统计思维的人,就可能想出这样的方法:做很多大小形状不一的等腰三角形,实地测量其底角,看差距如何,根据所得资料看看可否作出“底角相等”的结论,这样做就是归纳推理的方法。2022/8/14 9:28/ 4944在数学中,是非是明确的;但统计从来不绝对地说“是”或者“不是”,只说可能,而且提供可能发生的概率。统计只说可能性是现实世界的真实体现,真实世界充满了不确定性。从某种意义来说,生活中唯一确定的事情就是其不确定性。和音乐类似,数学圈内的人士可以欣赏数学本身的美妙的境界。数学

24、的很多内容可以和真实世界没有任何关系。而旨在为各个领域服务的统计如果满足于欣赏自己的“魅力”,那统计就没有存在的必要了。学习数学的关键在公式和定理的推导和证明;但对初学者来讲,学习统计的关键在理解隐藏在公式和定理背后的统计思想。而对公式和定理的推导和证明则是其次。统计学与数学的区别(续)2022/8/14 9:28/ 49455.1.7 统计软件由于统计和数据打交道,没有计算机的发展统计就没有前途,计算机和统计的发展相辅相成。统计软件的发展,使得统计从统计学家的圈内游戏变成了大众的游戏。只要你输入你的数据,点几下鼠标,做一些选项,马上就得到令人惊叹的漂亮结果了。你可能会问,是否傻瓜式的统计软件使用可以代替统计课程了?当然不是。数据的整理和识别,方法的选用,计算机输出结果的理解都不象使用傻瓜相机那样简单可靠。2022/8/14 9:28/ 4946有些诸如法律和医学方面的软件都有不少警告,不时提醒你去咨询专家。但统计软件则不那么负责。只要数据格式无误、方法不矛盾而且不用零作为除数就一定给你结果,而且没有任何警告。另外,统计软件输出的结果太多;即使是同样的方法,不同软件输出的内容还不一样;有时同样的内容名称也不一样。这就使得使用者大伤脑筋。即使是统计学家也不一定能解释所有的输出。因此,就应该特别留神,明白自己是在干什么。不要在得到一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论