版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第5章统计量及其分布【考试要求】5.1总体与样本
总体样本
5.2样本的分布与数值特征
样本数据的整理与显示样本的数值特征
5.3统计量与抽样分布
统计量的概念抽样分布与正态总体有关的抽样分布
【要点详解】
§5.1总体与样本1.总体
总体:在数理统计中研究对象的全体。
个体:构成总体的每一个成员。
注:由于每一项统计研究通常关心的是总体和个体的某个(或多个)特定的数量指标,所以,在具体的研究案例中通常用对应的数量指标表示总体和个体。数理统计的研究目的就是想了解总体X的分布特征和统计规律。
【例题5.1】要了解某市工业企业生产设备情况,则总体是()。A.该市全部工业企业B.该市重点工业企业C.该市重点工业企业的每一台设备D.该市工业企业的全部生产设备E.该市工业企业的每一台设备的运转情况
【答案】D
【解析】在数理统计中将研究对象的全体称为总体,构成总体的每一个成员称为个体。要了解某市工业企业生产设备情况,则统计总体应该为该市工业企业的全部生产设备。
2.样本
样本:从总体中抽取部分个体组成的集合。
样品:样本中所含的个体。
样本容量:样本中样品的个数。获取样本的方法可以分为两大类:概率抽样和非概率抽样。
概率抽样(简单随机抽样)的特征
①独立性
样本中每一个样品的取值不受其他样品取值的影响,即X1,X2,…,Xn相互独立。②同分布
每一个个体入选样本的机会等于它在总体中出现的概率,即每一个样本Xi与总体X具有相同的分布。根据这两个特征,概率抽样所获得的样本也称为独立同分布样本。简记为:其中:F(x)为总体分布,X1,X2,…,Xn为样本容量为n的随机样本,i.i.d.表示独立同分布。在一次抽样中具体抽到的观察值,通常记作:
x1,x2,…,xnx1,x2,…,xn称为X1,X2,…,Xn的观察值,或简称为样本观察值。
【例题5.2】对某家公司进行审计,该公司年度内的所有发票是55400张,审计人员从中随机抽查了100张发票进行审查,发现有2张发票有差错,则样本容量是()。A.2B.98C.100D.55400E.55300
【答案】C
【解析】该题中总体是55400张发票,样本是100张发票。样本容量是100。
§5.2样本的分布与数值特征1.样本数据的整理与显示
(1)频数统计与频率分布①离散随机变量频数:如果总体X是离散随机变量,其可能的取值为a1,a2,…,ak,统计样本观察值x1,x2,…,xn中取到ai的个数,记作ni,i=1,2,…,k。
频率:ai的频数ni除以样本容量n,记作fi根据频数统计表或频率分布表做条形图。条形图的横轴为样本数据的取值,纵轴为该取值的频数或频率。
②连续随机变量
如果总体X是连续随机变量,其可能的取值不可能一一列举,这时数据整理的一般方法是进行分组统计,将其可能取值分成k个小区间:[a0,a1),[a1,a2),…,[ak-1,ak),统计样本观察值x1,x2,…,xn落在每一个小区间的频数ni,并计算相应频率fi,i=1,2,…,k
根据频率分布表可以做直方图。直方图的横轴为样本数据的取值,纵轴为该取值的频数或频率。和条形图不同的是,直方图条块之间没有空隙,它是以直方的面积表示取值概率,而条形图只是以直方的高度表示取值概率。样本直方图近似反映了总体的概率分布情况。(2)样本经验分布函数经验分布函数:设总体X的分布函数为F(x),从中获得的样本观察值为x1,x2,…,xn,将样本观察值从小到大排列,构成次序观察值x(1),x(2),…,x(n),令则称Fn(x)为该样本的经验分布函数。
2.样本的数值特征
常用的样本数值特征可以分为三大类:①分布的集中趋势测量值,反映各数据向中心值靠拢或聚集的程度;②分布的离散程度测量值,反映各数据远离其中心值的趋势;③分布的形状测量值,反映数据分布的偏斜和耸立程度。(1)反映中心趋势的样本特征值
集中趋势:一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。常用的中心趋势特征值有三个:样本均值、样本中位数和样本众数。①样本均值
样本均值:一组数据加权平均的结果,通常记作。
☞简单平均数
如果样本数据为点数据x1,x2,…,xn,则均值为简单平均数
☞加权平均值
如果样本数据为区间数据,假设各区间的组中值为xi,各组频数为ni,i=1,2,…,k,则均值为加权平均值均值是实际中应用最广泛的一种度量数据中心趋势的特征值。它的缺点是易受极端值的影响。②样本中位数
样本中位数:一组数据排序后处于中间位置上的特征值,通常记作Me。设样本数据从小到大排序后为x(1),x(2),…,x(n),则样本中位数为:
☞优缺点
样本中位数是一组数据中间位置上的代表值,它不易受极端值的影响,对中心位置的度量相对稳定,但缺点是它只用到样本数据的排序信息,相对均值而言,有信息的浪费。③样本众数
样本众数:一组数据中出现次数最多的特征值,通记作M0。
☞优缺点样本众数不易受极端值的影响,但是有些数据可能会不存在众数,而有些数据可能会存在多个样本众数。
【例题5.3】某班共有60名学生,在期末的统计学考试中,男生的平均考试成绩为75分,标准差为6分;女生的平均考试成绩为80分,标准差为6分。如果该班的男女学生各占一半,则全班的平均考试成绩为()。A.75B.76C.77.5D.78E.80
【答案】C
【解析】设男生成绩为x,女生成绩为y,男女各30人,故全班的平均考试成绩为:
【例题5.4】下列关于样本众数的叙述,不正确的是()。A.一组数据可能存在多个众数B.众数是一组数据中出现次数最多的值C.一组数据的众数是惟一的D.众数不受极端值的影响E.众数是一个位置代表值
【答案】C
【解析】样本众数是一组数据中出现次数最多的特征值,通常记作M0。一组数据的顶峰所对应的数值即为样本众数。样本众数不易受极端值的影响,但是有些数据可能会不存在众数,而有些数据可能会存在多个众数。(2)反映离散程度的样本特征值
数据的离散程度:反映的数据偏离中心值的程度。数据的离散程度越大,中心特征值对数据的代表性就越差,反之就越好。反映数据离散程度的特征值主要有样本方差(或样本标准差),极差,四分位差。①样本方差和标准差
样本方差:各变量值与其平均数离差平方的平均数,通常记作s2。样本方差开方后即得样本标准差,样本标准差通常记作s。
☞计算公式
如果样本数据为点数据x1,x2,…,xn,则样本方差和样本标准差分别为:如果样本数据为区间数据,假设各区间的组中值为xi,各组频数为ni,i=1,2,…,k,则样本方差和样本标准差分别为:②样本极差
样本极差:一组数据的最大值与最小值之差,通常记作R。
☞优缺点
样本极差直观地反映了数据最大的离散程度,但缺点是只利用了一组数据两端的信息,极易受特征值的影响,而且也不能反映中间数据的离散程度。③样本四分位差
四分位差:将样本数据排序,位于25%分位点的样本值称为四分位点,记作Q1,位于75%分位点的样本值称为四分之三分位点,记作Q3。Q3与Q1之差记作Qd。
Qd=Q3—Q1
☞含义:样本四分位差反映了中心位置附近,聚集程度最高的数据的离散程度。四分位差越小,说明中间数据越集中,反之数据的离散程度越大。
【例题5.5】假定一个样本由5个数据组成:3,7,8,9,13。该样本的方差为()。A.8B.9.7C.10.4D.13E.15
【答案】D
【解析】5个数据的均值为:根据未分组数据的样本方差公式可得:
【例题5.6】计算样本方差时,如果从每个数据中减去常数a,则计算结果与原方差相比()。A.变大B.不变C.变小D.减少了aE.无法确定
【答案】B【解析】设原始数据为x1,x2,…,xn,均值为,则该组数据的方差为。若令=x1-a,=x2-a,…,=xn-a,则新数据组的均值,所以新数据组的方差为:(3)反映形状特点的样本特征值
数据的形状特征主要是考察数据的分布是否对称,峰形是高耸还是扁平。这涉及两个特征值:偏态和峰态。①偏态
偏态:对数据分布对称性的度量,偏态系数通常简记为SK。如果样本数据为点数据x1,x2,…,xn,则样本偏态系数为:如果样本数据为区间数据,假设各区间的组中值为xi,各组频数为ni,i=1,2,…,k,则样本偏态系数为:其中:s为样本标准差。
☞结果解释
如果数据呈现对称分布特征,则SK趋向于0。在对称分布场合,有均值=中位数=众数的优良属性,统计上称为“三线合一”。如果SK>0,称为正偏分布,正偏分布意味着取值小的数据发生概率大。在正偏分布场合,通常是众数<中位数<均值。如果SK<0,称为负偏分布,负偏分布意味着取值大的数据发生概率大。在负偏分布场合,通常是均值<中位数<众数(图5-1)。图5-1不同偏态分布的特征
②峰态
峰态:对数据分布高耸或扁平程度的度量,峰态系数通常简记为K。如果样本数据为点数据x1,x2,…,xn,则样本峰态系数为:如果样本数据为区间数据,假设各区间的组中值为xi,各组频数为ni,i=1,2,…,k,则样本峰态系数为:其中:s为样本标准差。
☞结果解释
峰态系数实际上是以标准正态分布的峰形作为参考,标准正态分布的K=0。比标准正态分布的峰形高耸,称为尖峰分布,尖峰分布的K>0。比标准正态分布的峰形扁平,称为平峰分布,平峰分布的K<0。在其他统计属性近似时,平峰分布的数据比尖峰分布的数据更加分散。
【例题5.7】如果峰态系数K>0,表明该组数据是()。A.尖峰分布B.平峰分布C.左偏分布D.右偏分布E.对称分布
【答案】A
【解析】峰态是数据分布高耸或扁平程度的度量,峰态系数用K表示。峰态通常是与标准正态分布相比较而言的。如果一组数据服从标准正态分布,则峰态系数的值等于0;若峰态系数的值明显不等于0,则表明分布比正态分布更平或更尖,通常称为平峰分布或尖峰分布。平峰分布的K<0,尖峰分布的K>0。
【例题5.8】随机抽取25个网络用户,得到他们的年龄数据,如表5-1所示。表5-1则偏态系数和峰态系数分别为()。A.1.08,0.77B.1.05,0.72C.1.00,0.77D.0.77,1.08E.0.29,1.02
【答案】A【解析】均值由均值可得:偏态系数:峰态系数:
§5.3统计量与抽样分布1.统计量的概念
定义:设总体X的分布函数为F(x,θ),其中θ为未知参数,从总体中随机抽取样本容量为n的一个样本X1,X2,…,Xn,称不含未知参数θ的样本实值函数T为统计量,记T为T=T(X1,X2,…,Xn)。统计量的两个特别重要特征:①统计量中不能含有未知参数;②统计量是样本的函数。
【例题5.9】设是来自两点分布的一个样本,其中0<p<1,p未知,下列样本的函数不是统计量的是()。A.B.C.D.E.【答案】D【解析】统计量是用来描述样本特征的概括性数字度量,不含有未知参数。D项中含有未知参数EX1=p。
2.抽样分布
抽样分布:统计量是随机变量的函数,统计量的分布称为抽样分布。
☞寻找抽样分布的方法①精确方法当总体分布己知,通过总体分布的属性推导出统计量分布的显式表达。②大样本方法渐近分布:随着样本容量n的无限递增,统计量通常逼近于一个稳定的极限的分布。
大样本方法:将上面的渐近分布作为抽样分布在大样本场合的一种近似分布。
3.与正态总体有关的抽样分布
(1)三大检验分布①分布
☞定义
设随机变量X1,X2,…,Xn独立同分布于标准正态分布则它们的平方和服从自由度为n的分布,记作Y~。
☞密度函数
(n)分布的密度函数为:
☞均值和方差
(n)均值和方差分别为:E(X)=n,Var(X)=2n。
☞可加性
相互独立的分布之和仍然服从分布。
②t分布
☞定义
设X~N(0,1),Y~(n),且X与Y相互独立,则服从自由度为n的t分布,记作T~t(n)。
☞密度函数
t(n)分布的密度函数为:
☞均值和方差
其均值和方差分别为:
☞收敛性
当n→+∞时,t(n)分布收敛到N(0,1)分布。③F分布
☞定义
设X~(n),Y~(m),且X与Y相互独立,则服从自由度为n和m的F分布,记作F~F(n,m)。
☞密度函数
F(n,m)分布的密度函数为:其中n,m为正整数。
☞均值和方差
其均值和方差分别为:
【例题5.10】设总体X服从正态分布,总体Y服从正态分布,且X与Y相互独立。是来自总体X的简单随机样本,是来自总体Y的简单随机样本,令其中a+b=1,若要使Z的方差最小,则a的取值为()。[2008年春季真题]
A.1/2B.C.D.E.
【答案】E
【解析】因,则,故,同理,,故
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- lng应急处置措施
- 《全国建设工程土建》课件
- 《各国汽车特点》课件
- 安全标准化培训
- 《光谱分析技术》课件
- 住院患者心脏骤停应急预案
- 头痛治疗与用药指导
- 《天然产物化学》课件
- 用品销售项目二
- 微课管理实践中常见的问题财经管理人力资源管理系副
- 八年级下册 第六单元 23《马说》公开课一等奖创新教学设计
- 理智与情感:爱情的心理文化之旅智慧树知到期末考试答案章节答案2024年昆明理工大学
- 期末模拟考试03-【中职专用】《心理健康与职业生涯》(高教版2023·基础模块)(含答案)
- GB 20052-2024电力变压器能效限定值及能效等级
- 陶行知与乡村教育智慧树知到期末考试答案章节答案2024年丽水学院
- 人民调解卷宗规范化制作说明
- 手术切口感染PDCA案例
- 依托国家中小学智慧教育平台开展有效教学的研究课题申报评审书
- 烟雾病与麻醉
- 学生会团总支学期工作总结
- (2024年)食源性疾病监测培训课件
评论
0/150
提交评论