变量分布特征的描述续+抽样分布9_第1页
变量分布特征的描述续+抽样分布9_第2页
变量分布特征的描述续+抽样分布9_第3页
变量分布特征的描述续+抽样分布9_第4页
变量分布特征的描述续+抽样分布9_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本科课程陈宜治系列课件统计学课件制作:陈宜治作业订正3、1)平均每个企业利润额=203.70(万元);(2)全公司平均资金利润率=13.08%。4、(1)全厂总合格率、平均合格率和平均废品率分别是92.17%、97.32%和2.68%;(采用几何平均法)(2)全厂总合格率、平均合格率和平均废品率分别是97.31%、97.31%和2.69%;(采用调和平均法)(3)全厂总合格率、平均合格率和平均废品率分别是97.38%、97.38%和2.62%。(采用算术平均法)3.方差、标准差的性质(1)常数的方差为0(2)若为常数,则(3)标准差是计算标准化值的依据

标准得分,标准统计值反应灵敏,随任何一个数据的变化而变化;一组数据的方差和标准差有确定的值;适合代数计算,不仅求方差和标准差的过程中可以进行代数运算,而且可以将几个方差和标准差综合成一个总的方差和标准差;用样本数据推断总体差异量时,方差和标准差是最好的估计量。4.方差、标准差的特点优点受数据量纲的约束,当数据间量纲不统一时,无法直接比较;受数据自身水平的影响较大,当数据水平存在差异时,无法直接比较;缺点(六)离散系数(CoefficientofVariation)

1.定义:离散系数也称为标准差系数,它是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标。

2.计算公式Vσ和Vs分别表示总体离散系数和样本离散系数。离散系数用于对不同组别数据的离散程度进行比较时,离散系数大的说明该组数据的离散程度也就大,离散系数小的说明该组数据的离散程度也就小。相对标准差城市人均年收入(元)收入标准差(元)标准差系数甲城市60001502.5乙城市120001801.5例3.25:甲乙两个城市的居民年收入情况如表所示,试比较两城市居民收入分配的均衡性。从表中前三栏数据来看,乙城市不仅人均年收入两倍于甲城市,而且收入的差距也似乎显著于甲城市。但通过计算标准差系数,乙城市的实际收入差距相对于它的平均收入来说,比甲城市要低的多。或者说,以居民对收入收入差距所承受的压力而言,甲城市要比乙城市高得多。根据例3.24数据,算得姚明、戴维斯、保罗的离散系数分别为:因此,姚明的发挥更稳定,如果你是理智的教练,应该选择姚明!第三节分布形状的描述偏度系数峰度系数一、分布形状和形状指标变量分布的偏斜程度和尖陡程度

分布形状形状指标反映变量分布具体形状,即左右是否对称、偏斜程度与陡峭程度的指标对称性陡峭性(一)利用算术平均数与众数或中位数的离差求偏度系数二、偏度系数

1.偏度系数的变动范围为(-3,3)2.当﹥0时,为正值,变量分布属于正偏当﹤0时,为负值,变量分布属于负偏当=0时,变量分布属于对称分布3.的绝对值越接近于3,表明变量分布的偏斜程度越严重;的绝对值越接近于0,表明变量分布的偏斜程度越轻微(二)利用四分位数求偏度系数

2.的绝对值越接近于1,表明变量分布的偏斜程度越严重;的绝对值越接近于0,表明变量分布的偏斜程度越轻微1.的变动范围为(-1,1)

(三)利用动差法求偏度系数t阶动差=

t阶动差=

动差法偏度系数是以变量数列的三阶中心动差()作为度量偏度的基本依据。

1.原理2.动差当a=0时,t阶动差称为t阶原点动差,用Mi表示当a=时,t阶动差称为阶中心动差,用mi表示

3.计算公式若>0,表示变量分布正偏;若<0,表示变量分布负偏;若=0,表示变量分布两边对称,无偏。的绝对值越接近0,变量分布的偏度越轻微;的绝对值越大于0,变量分布的偏度越严重;三、峰度系数标准正态峰度尖顶峰度平顶峰度1.概念由统计学家皮尔逊于1905年提出,是对变量分布扁平性或尖陡性的测度,通常是指钟型分布的顶峰与标准正态分布相比偏扁平或偏尖陡的程度。2.分类3.计算方法峰度系数的计算主要采用动差法,是4阶中心动差与标准差4次方相比的结果(1)当k=3时,变量分布的峰度为标准正态峰度(2)当k<3时,变量分布的峰度为平顶峰度(3)当k>3时,变量分布的峰度为尖顶峰度(4)当k接近于1.8时,变量分布曲线就趋向于一条水平线(5)当k小于1.8时,则变量分布曲线为“U”型曲线例3.26:某企业职工月收入情况如表所示,求职工月收入分布的动差法偏度系数和峰度系数。职工月收入(元)职工人数(人)900以下900~10001000~11001100~12001200~13001300~14001400~15001500以上2448601052721123合计300职工月收入(元)900以下900~10001000~11001100~12001200~13001300~14001400~15001500以上85095010501150125013501450155024486010527211232040045600630001207503375028350174004650-263-163-63+37+137+237+337+43769169265693969136918769561691135691909691660056127531223814014374550676311795491362828572907-436594728-207875856-15002820531856569426531279553113459273036250360359合计3003339006939300404458200=(元)

该企业职工月收入的分布为正偏分布,但偏度不大。该企业职工月收入分布的峰度为轻微的尖顶峰度。

统计的基本任务:由部分来推断总体,或者由过去来推断未来.这样就涉及到两个问题:1)如何选取部分?2)如何利用部分?第四章抽样估计由于抽取的部分具有一定的随机性,因此据此得出的推论多多少少的总含有一定程度的不确定性.因此,我们必须对试验所提供的信息进行“合理”的加工和处理,以使做出错误推断的概率尽可能的小.一般地,在数理统计中所做出的许多推断我们都用一定的概率来表明推断的可靠或可信程度.这种伴随着一定概率的推断就称为统计推断.第一节抽样分布(一)总体分布及其特征

总体分布:是指总体中所有个体关于某个变量(标志)的取值所形成的分布。

总体参数:反映总体分布特征的指标一、抽样分布的基本问题三个概念:总体分布,样本分布,抽样分布指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会抽样估计按照随机原则

从调查对象中抽取一部分单位进行调查,并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法统计推断全及总体指标:参数(未知量)样本总体指标:统计量(已知量)抽样估计不可能进行全面调查时

例如对破坏性的产品质量检查

不必要进行全面调查时产品质量的检查与控制

来不及进行全面调查时

教育部本科教学工作水平评估

对全面调查资料进行补充修正时抽样估计的应用设计抽样方案抽取样本单位收集样本数据计算样本统计量推断总体参数抽样估计的一般步骤也称母体,就是客观存在的,具有某种共同性质的许多单位所组成的整体。总体也叫样本或子样,是从全及总体中随机抽取出来,代表全及总体的那部分单位的集合体抽样总体通常总体的单位数用“N”通常样本的单位数(样本容量)用“n”常用的总体参数有两个:总体均值(包括是非变量的均值);总体方差或标准差(包括是非变量的方差或标准差)。链接:我调查了500个样本来研究大学生的婚恋观。设有限总体容量为N,各单位某项标志的值分别为;若为是非标志则设具有某种属性的有个单位,不具有某种属性的有个单位,则⒈总体均值(总体平均数):2、总体方差:3、总体成数(总体比例)5、总体是非标志的方差4、总体是非标志的均值(二)样本分布及其特征样本分布:样本中所有个体关于某个变量(标志)的取值所形成的分布。当样本容量很大,或者是当逐渐增大时,样本分布会接近总体分布。如果样本容量很小,样本分布就有可能与总体分布相差很大,抽样估计的结果就会很差。样本统计量:反映样本分特征的指标,

T样本统计量是随机变量,它的取值随样本的不同而发生变化。样本统计值:是样本统计量的值,由样本单位的标志值计算而来,用来估计总体参数。样本的函数且不含任何未知参数,统计量是例:我们选择奥运板块的个股作为样本。则样本分布为该板块60只股票在4月23日的涨跌情况样本统计量xii=1……60样本是随机产生的,为了提高样本的代表性,可以选择合适的抽样组织方式来产生样本抽样估计就是以可知但非唯一的样本统计量的值来估计未知但唯一的总体参数的值。★与总体参数相对应,常用的样本统计量有

样本均值(或样本成数)、样本方差(或样本标准差)。⒈样本均值:设样本中n个样本单位某项标志的标志值分别为,若为是非标志则设具有和不具有某种属性的样本单位数目分别为和个,则2.样本方差:3.样本成数(样本比例):4.样本是非标志的均值:5.样本是非标志的方差:(三)抽样分布及其特征1、抽样分布的概念抽样分布,是样本统计量的概率分布,由样本统计量的所有可能取值和与之相应的概率组成。假设从容量为N的总体中抽取容量为n的样本最多可抽取m套不同的样本,则m个样本统计值的频率分布,即为抽样分布。实际的抽样分布形成取决于以下五个因素:总体分布(越集中,抽样分布越集中)样本容量(最关键因素,容量越大抽样分布越集中)抽样方法(采用重复或不重复方法,抽样分布不同)抽样组织形式(不同形式下的样本个数及结构不同,抽样分布也不同)估计量构造(样本估计量不同,抽样分布不同)大样本小样本乘法公式:设完成一件事需分两步,第一步有n1种方法,第二步有n2种方法,则完成这件事共有n1n2种方法加法公式:设完成一件事可有两种途径,第一种途径有n1种方法,第二种途径有n2种方法,则完成这件事共有n1+n2种方法。有重复排列:从含有N个元素的集合中随机抽取n次,每次取一个,记录其结果后放回,将记录结果排成一列,NnNN共有Nn种排列方式.无重复排列:从含有N个元素的集合中随机抽取n次,每次取一个,取后不放回,将所取元素排成一列,共有PNn=N(N-1)…(N-n+1)种排列方式.NN-1N-2N-N+1组合(无重复):从含有N个元素的集合中随机抽取n个,共有种取法.组合(有重复):从含有n个元素的集合中随机抽取k个,共有最基本的抽样分布:样本均值的抽样分布,样本成数的抽样分布2、抽样分布形式设从容量为N的有限总体中抽取容量为n的样本,最多可抽取m套不同样本,计算得m个样本统计值设m个样本统计值经单项式分组可分为k组,则抽样分布的表现形式为:样本均值的抽样分布形式样本成数的抽样分布形式例:某车间班组5个工人日工资为34,38,42,46,50元,则总体日平均工资总体日工资方差不同抽样方法下样本平均数的抽样分布(1)用重复抽样方法(考虑顺序)从5个工人(日工资为34,38,42,46,50元)中随机抽取2人构成样本,共52=25个样本所有可能样本及其平均数:样本变量3438424650343842465034363840423638404244384042444640424446484244464850第一单位第二单位样本均值整理出样本平均数的频率分布如下:频率343638404244464850合计4%8%12%16%20%16%12%8%4%100%样本均值的抽样分布样本均值的抽样分布图(2)用不重复抽样方法从5个工人(日工资为34,38,42,46,50元)中随机抽取2人构成样本(考虑顺序),共5×4=20个样本。所有可能样本及其平均数:样本变量3438424650343842465034363840423638404244384042444640424446484244464850第一单位第二单位样本均值整理出样本平均数的频率分布如下:频率36384042444648合计10%10%20%20%20%10%10%100%样本均值的抽样分布图样本均值的抽样分布设某总体由10个球组成,其中红球6个,现从总体中随机抽取4个球,那么在重复抽样和不重复抽样下红球比重(样本成数)的抽样分布分别如何?重复抽样下红球比重的抽样分布00.250.50.7510.02560.15360.34560.34560.1296总体成数为总体方差为在重复抽样下,样本中红球的比重服从二项分布

00.250.50.751不重复抽样下红球比重的抽样分布3、抽样分布特征指样本统计量的数学期望和方差。样本统计量的数学期望:即所有样本统计值的平均数样本统计量的方差:即所有样本统计值关于数学期望的方差在前面的例题中,重复抽样的抽样分布如下:频率343638404244464850合计4%8%12%16%20%16%12%8%4%100%样本平均数的期望与方差:不重复抽样的抽样分布如下:频率36384042444648

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论