数理统计学的基本思想是用样本估计总体_第1页
数理统计学的基本思想是用样本估计总体_第2页
数理统计学的基本思想是用样本估计总体_第3页
数理统计学的基本思想是用样本估计总体_第4页
数理统计学的基本思想是用样本估计总体_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数理统计学的基本思想是用样本估计总体,它主要研究两个基本问题:一是如何从总体 中抽取样本,二是如何通过对所抽取的样本进行计算和分析,从而对总体的相应情况作出推 断。本章是在初中“统计和概率初步”的基础上学习的,其内容可看成是以上内容的深入和 扩展,但总的来说,所介绍的仍属于统计中一些极其初步的知识。 基础知识 随机抽样用样本估计总体 变量间的相关关系 随机抽样 从总体中抽取样本的方法叫抽样方法,统计中涉及的抽样方法很多,如果按照抽取时总 体中的每个个体被抽取的概率是否相等来进行分类,可分为等概率抽样和不等概率抽样,等 概率抽样又可分为不放回抽样和放回抽样。在抽样中,如果每次抽出个体后不再将它放

2、回总 体,称这样的抽样为不放回抽样; 如果每次抽出个体后再将它放回总体,称这样的抽样为放 回抽样. 常见的抽样方法主要有简单随机抽样、系统抽样、分层抽样三种,它们的共同特点是在 抽样过程中每个个体被抽取的概率相等,这体现了这些抽样方法的客观性和公平性。 1简单随机抽样 若一个总体的个体数有限,如果通过逐个抽取的方法从中不放回地抽取一个样本,且每 次抽取时,各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样。 (1) 根据简单随机抽样的定义,可以看到它有以下特点: 它要求被抽取样本的个体数有限,以便于对其中各个个体被抽取的概率进行分析。 它是从总体中逐个地进行抽取,这样便于在抽样实践中进行操

3、作。 它是一种不放回抽样,因而具有较广泛的实用性,也便于相关的分析和计算。 它是一种等概率抽样,不论是每次从总体中抽取一个个体,还是在整个抽样过程当中, 每个个体被抽取的概率相等,从而保证了这种抽样方法的公平性。 值得注意的是,进行简单随机抽样时,“每次抽到一个个体时任一个体被抽到的概率” 与“在整个抽样过程中某个体被抽到的概率”是不同的,关于这一点,我们可结合实例,利 用初中学过的概率初步知识加以体会。 (2) 实施简单随机抽样,主要有两种方法:抽签法(抓阄法)和随机数表法。 抽签法(抓阄法)就是在总体中个体数不多时, 将总体中的N个个体编号,把号码写在号 签上,再将号签放在一个容器中搅拌均

4、匀后,每次从中抽取一个号签,连续抽取n次,就得 到一个容量为n的样本。 随机数表中的十个数字是用计算机生成的随机数,它们在每个位置上等概率地出现。用 随机数表进行抽样的步骤是: 将总体中的个体编号; 选定开始的数字;获取样本号码。 2. 系统抽样 当总体中的个体数目较多时, 可将总体分成均衡的几个部分, 然后按照事先定出的规则, 从每一部分抽取一定数目的个体,得到所需要的样本,这种抽样叫做系统抽样。 (1) 系统抽样的操作步骤为:将个体编号;分段;确定起始的个体号;抽取 样本。 (2) 关于系统抽样,我们指出以几点 系统抽样适用于总体中的个体数较多的情况,因为这时采用简单随机抽样就显得不很 方

5、便; 将总体中的个体均分后的每一段进行抽样时,采用的是简单随机抽样; 与简单随机抽样一样,系统抽样也属于等概率抽样。 O特别提示 当总体中的个体数不能被样本容量整除时,可先用简单随机抽样从总体中剔除几个个 体,使剩下的个体数能被样本容量整除,然后再按系统抽样进行, 这时在整个抽样过程中每 个个体被抽取的概率仍然是相等的。 3. 分层抽样 当已知总体由差异明显的几部分组成时, 为了使样本更充分地反映总体的这种情况, 常 将总体分成几部分,然后按照各部分所占的比进行抽样, 这种抽样方法叫做分层抽样, 其中 所分成的各部分叫做层。 (1) 分层抽样的步骤是:分层;按比例确定各层抽取对象;各层抽样;综

6、合各 层,组成样本。 (2) 分层抽样的特点是: 分层抽样适用于总体由差异明显的几个部分组成的情况; 在每一层进行抽样时,采用简单随机抽样或系统抽样; 分层抽样也是等概率抽样。 O特别提示 简单随机抽样、系统抽样、分层抽样这三种抽样方法的联系与适用范围见下表: 类别 共同点 各自特点 相互联系 适用范围 简单随机 抽样 都是不放回抽 样,抽样过程 中,每个个体被 抽到的机会(概 率)相等 从总体中逐个 抽取 总体中的个体 数较少 系统抽样 将总体均分成 几部分,按事先 确定的规则,在 各部分抽取 在起始部分抽 样时,采用简单 随机抽样 总体中的个体 数较多 分层抽样 将总体分成几 层,分层进行

7、抽 取 各层抽样时,采 用简单随机抽 样或系统抽样 总体由差异明 显的几部分组 成 用样本估计总体 总体取值的概率分布规律通常称为总体分布。为了考察一个总体的情况,在统计中通常 是从总体中抽取一个样本,用样本的有关情况去估计总体的相应情况。这种估计大体分为两 类: 1. 用样本的频率分布去估计总体分布 样本频率是指样本在某一范围内的个数m (频数)与样本总体 N的比值m,样本的 N 频率分布常用频率分布表、频率分布直方图、频率分布折线图、总体密度曲线、茎叶图等来 表示。 (1)频率分布表、频率分布直方图:是指在用样本估计总体时,通过各个小组数据在 样本容量中所占比例大小的角度来表示频率分布的规

8、律,它可以使我们看到整个样本数据的 频率分布。其具体操作步骤是: 求极差,即求出一组数据中最大值与最小值的差; 决定组距与组数,组数应力求合适,一般分成10组左右; 将数据分组; 列频率分布表,将上述分组、频数累计、频数、频率列成表格; 画频率分布直方图,图中各小长方形的面积等于相应各组的频率,这个图形的面积 的形式反映了数据落在各个小组的频率的大小,且图中各小矩形的面积的和等于1. 需要指出的是: 在反映样本的频率分布方面, 频率分布表在数量表示上比较确切,而频率分布直方图 及初中学过的频率分布条形图则比较直观, 解得更加清楚. 当总体中的个体取不同数值很少时, 率来表示,其几何表示就是相应

9、的条形图; 两者相互补充,使我们对数据的频率分布情况了 其频率分布表由所取样本不同数值及其相应的频 当总体中的个体取不同数值较多甚至无限时,对 其频率分布的研究要用到初中学过的整理样本数据的知识,将样本数据恰当地分组, 用各组 的频率来描绘总体的分布,其几何表示就是相应的直方图。 频率分布条形图和直方图的不同之处在于:前者用其高度来表示取各个值的频率,而 后者是用图形面积的大小来表示在各个区间内取值的频率。 就得到频率 (2)频率分布折线图:顺次连接频率分布直方图中各小长方形上端的中点, 分布折线图。 (3 )总体密度曲线:样本容量越大, 各组取值的概率.设想样本容量无限增大, 率分布折线图就

10、会无限接近于一条光滑曲线 所分组数越多,各组的频率就越接近于总体在相应 分组的组距无限缩小,那么频率分布直方图和频 ,这条曲线叫做总体密度曲线. 频率/组距总体密度曲线 (5)茎叶图:与前面提到的图、表类似,茎叶图也可以用来表示样本数据的分布情况,“茎” 是指中间的一列数,“叶”就是从“茎”的旁边生长出来的数。 用茎叶图表示有两个突出的优点,其一,从统计图上没有信息的损失,所有的信息都可 以从茎叶图中得到;其二,茎叶图可以随时记录与表示。但茎叶图一般只能表示两位的整数。 2 用样本的数字特征估计总体的数字特征 样本的数字特征有平均数、众数、中位数、标准差、方差等。平均数、中位数、众数都 是描述

11、数据集中趋势的重要特征数,它们既有联系又有区别, 应用时可根据具体情况进行选 择。 (1)平均数:就是一组数据的平均值。 (2 )众数:就是一组数据中出现次数最多的那个数据。 (3) 中位数:就是一组数据按从小到大(或从大到小)的次序排列后,位于中间的那个数据(当 数据个数为奇数个),或者是位于中间的两个数的平均数(当数据个数为偶数个)。 O特别提示 平均数虽然常可帮助我们了解一组数据的平均水平,但有时因受到该组数据中特别大或 特别小数据的影响,不容易把数据的集中趋势与特征表示出来, 所以有时我们用中位数或众 数来代替平均数比较合理。 (4) 总体方差与总体标准差是描述一个总体的波动大小的特征

12、量,可以通过计算样本 方差与标准差对总体方差与标准差进行估计。 样本方差公式是 s2 = 1(x X)2 (x2 -X)2(Xn -X)2; n 样本标准差公式是 . _、2 (X2 -x) (Xn - X)2 】; 其中XA,X2, - ,Xn分别是样本中个体的取值,X是样本的平均数。 O特别提示 (1) 由于方差和标准差的计算量一般较大,所以通常需要借助科学计算器; (2) 方差和标准差的大小反映了总体或者样本的波动程度,可以对诸如均衡性、稳定性、 差异性等作出描述; 在分别利用方差和标准差对不同总体和样本进行比较时,其效果是等价的。 变量间的相关关系 变量之间存在着两类关系: 一类是函数

13、关系,这是一种确定的关系,另一类是相关关系, 这是一种非确定关系,这两类关系在一定条件下可以相互转化。 1 变量间的相关关系 当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系。 (1) 相关关系是非随机变量与随机变量之间的关系,函数关系是两个非随机变量之间的 关系,是一种因果关系,而相关关系不一定是因果关系,所以相关关系与函数关系不同,其 变量具有随机性,因此相关关系是一种非确定性关系,既有因果关系,也有伴随关系。 (2) 相关关系与函数关系的异同点是: 相同点:均是指两个变量的关系; 不同点:函数关系是一种确定的关系,而相关关系是一种非确定关系;函数关系是 自变量

14、与因变量之间的关系, 这种关系是两个非随机变量的关系;而相关关系是非随机变量 与随机变量的关系. 2. 两个变量的线性相关 (1) 回归分析:两个变量的相关关系有正相关、负相关,对具有相关关系的两个变量进行 统计分析的方法叫做回归分析。 通俗地讲,回归分析是寻找相关关系中非确定性关系的某种 确定性。 (2) 一元线性回归分析:如果因变量仅与一个自变量有关,且因变量与自变量的关系是线 性的,这样的回归分析叫一元线性回归分析,它是回归分析中最基本的一种类型。 (3) 散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图,散点图形象地 反映了各对数据的密切程度。 (4 )线性相关与回归直线:

15、如果散点图中点的分布从整体上看大致在一条直线附近,就称 这两个变量之间具有线性相关关系,这条直线叫做回归直线。 (5) 回归直线方程:设 x与y是具有相关关系的两个变量,且相应于n组观测值的n个点 (Xi,yj(i =1,2,,n)大致分布在一条直线附近,则由 (Xi -X)(yi -y) i 4 n 二(xi - x) i 4 n Xiyi - nXy i 4 n 2 2 , Xi -nx i A XXi,yyi n yn y a = y -bX b是回归方程的斜率, a是截距,相应的 所得到的直线方程 ? =bx a叫做回归直线方程, a,b使得误差yi - ?的平方和 直线叫做回归直线,

16、而对这两个变量所进行的统计分析就是线性回归分析。 利用计算器或计算机的 Excel软件,可以方便地求出回归直线方程。 (6 )最小二乘法:在求回归直线时,上述公式中选取的 n Q =為(yi -bXi -a)2最小,也就是使得样本数据的点到它的距离的平方和最小,这一方 i 4 法称为最小二乘法。 值得指出的是,讨论变量是否线性相关, 应先进行相关性检验,在确认线性相关后,再 求回归直线。相关性检验的有关概念、方法和步骤,本章不作学习要求。 基本技能 随机抽样的基本技能 变用样本估计总体的基本技能变量间相关关系的基本技能 现代社会是信息化的社会, 人们常常需要收集数据, 根据所获得的数据提取有价

17、值的信 息,作出合理的决策。统计是研究如何合理收集、整理、分析数据的学科,它可以为人们制 定决策提供依据。随机现象在日常生活中随处可见,下一章即将学习的概率则是研究随机现 象规律的学科,它为人们认识客观世界提供了重要的思维模式和解决问题的方法,同时为统 计学的发展提供了理论基础。因此,统计与概率的基本技能已经成为一个未来公民的必备常 识。 随机抽样的基本技能 随机抽样是运用统计方法解决问题的第一步,简单随机抽样是随机抽样中最简单的一种 模型,它是分层抽样、系统抽样以及其它更复杂抽样方法的基础,“随机抽样”与“简单随 机抽样”是两个不同的概念。这一内容的基本技能主要表现在对三种常用抽样方法的理解

18、、 选择并正确运用,体会统计的作用和基本思想,用统计的思想去分析、解决实际问题。 1 能从现实生活或其他学科中提出具有一定价值的统计问题。 2结合具体的实际问题情境,理解随机抽样的必要性和重要性。 3会对三种抽样方法进行比较和判断。 在参与解决统计问题的过程中,学会用简单随机抽样方法 (抽签法、随机数表法) 从 总体中抽取样本;通过对实例的分析,了解分层抽样和系统抽样方法。 4. 能通过试验、查阅资料、设计调查问卷等方法收集数据。 用样本估计总体的基本技能 用样本估计总体涉及两方面的问题。一是如何用样本的频率分布去估计总体分布,二是 如何用样本的某种数字特征去估计总体的相应特征数。这一内容的基

19、本技能主要表现在能结 合具体问题对统计中的概念进行描述性说明,学会从数据中提取信息, 深入体会统计结果的 随机性,培养基本计算、 抽象概括、综合分析问题的能力,而不是简单地把统计处理成数字 运算和画图表。 1 通过实例体会分布的意义和作用。 在表示样本数据的过程中,能用多种方法绘制统计表和统计图,学会列频率分布表、 画频率分布直方图、频率分布折线图、茎叶图,体会它们各自的特点。 2 通过实例理解样本数据标准差的意义和作用。 会利用计算器计算平均数、标准差、方差,会判断众数、中位数。 3能根据实际问题的需求合理地选取样本。 从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释。

20、4在解决统计问题的过程中,进一步体会用样本估计总体的思想。 会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特 征;体会样本频率分布和数字特征的随机性。 5会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的实际问题。 能通过对数据的分析为合理的决策提供一些依据,认识统计的作用。 6 体会统计思维与确定性思维的差异。 通过解决实际问题, 较为系统地经历数据收集与处理的全过程,形成对数据处理过程进 行初步评价的意识。 变量间相关关系的基本技能 两个变量间的关系,除了函数关系这种确定性关系以外,还大量存在因变量的取值带有 一定随机性的相关关系, 一元线性相关关系是其中最简单的一种。这一内容的基本技能主要 表现在:探索用多种方法确定线性回归直线,体会最小二乘法的思想,根据给出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论