用样本估计总体_第1页
用样本估计总体_第2页
用样本估计总体_第3页
用样本估计总体_第4页
用样本估计总体_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

§2.2用样本估计总体当前1页,总共36页。复习回顾前面我们研究了通过抽样来收集数据的方法,了解了提高样本代表性的一些具体方法,数据被收集后,必须从中寻找所包含的讯息,以便我们能通过样本来估计总体样本的特征直接反映了总体的特征,我们通常用样本来频率和素质特征来评估总体的特征当前2页,总共36页。联合国报告曾经预言,21世纪淡水将成为全世界最紧张的自然资源。我国是一个水资源相对匮乏的国家,同时由于经济发展所带来的水污染和用水需矛盾的突显,水危机已成为最严峻的现实问题,极大地阻碍了经济的发展。据统计,由于供水不足,城市工业每年损失达到1200亿元人民币;由于城市水污染造成的经济损失估计相当于国家当年财政收入的6%;另一方面,饮用水的短缺和水污染也已危及居民的生活和健康,影响到社会的安定。因此,解决水危机已被政府提上日程,水价改革成为解决这一问题的手段之一2.2.1用样本的频率分布估计总体分布当前3页,总共36页。当前4页,总共36页。黄河断流落后的洗车方式“滴水”成灾当前5页,总共36页。2005年9月,广州市市政园林局有关负责人在向省政协“创建节水型城市”视察团汇报时表示,为实现居民生活用水阶梯式计量水价管理,有关部门已编制了《广州市居民自来水计量系统改造实施方案》和《阶梯式计量水价实施方案》,明年开始对符合条件的居民实施阶梯水价,5年内全部实施。同时,为了改变广州节水型用水器具使用率偏低的状况,市节水办计划明年实施用水器具改造。阶梯水价是指用水单位超出用水计划或定额部分的水量,除按实用水量向城市供水企业缴纳水费外,超计划用水部分,按以下标准另行向城市供水行政主管部门交纳加价水费:(一)超计划百分之二十以内(含百分之二十,下同)水量,超用水量按现行水价加价两倍收费。(二)超计划百分之二十以上百分之四十以内水量,超用水量按现行水价加价四倍收费。(三)超计划百分之四十以上的,超用水量按现行水价加价五倍收费当前6页,总共36页。广州2006年1月1日广州市物价局1日公布,广州市政府已批准新水价从1日起正式实施。居民生活用水由原来的0.9元/立方米提升到1.32元/立方米,工业用水和经营服务用水也分别由每立方米1.25元和1.85元涨至1.83元和2.71元,综合水价达到1.69元/立方米,但暂时不实行阶梯水价当前7页,总共36页。针对这一情况,确定配额水量a为多少时比较合理?你认为为了较为合理的确定这一标准,你认为需要做哪些工作?水价太高,影响居民日常生活,水价太低,不利于节约用水.为了确定这一配额a,必须首先了解全市日常用水量的分布情况当前8页,总共36页。由于城市住户较多,因此我们采用抽查的方式进行,下面是对100户进行抽查的结果:样本容量可以根据实际情况适当选择,并不一定越大越好.这100户用水量在0.2~4.3之间,除此之外,我们很难得到其他信息,一次我们必须对数据的潜在信息进行分析当前9页,总共36页。在初中,我们学习了哪些分析数据的方法?人类辨识影像的能力要优於辨识文字与数字的能力,因此我们采用图形的方式来展现数据时,常常不我们直接观察数据要来的快。一幅好的图胜过一千个字当前10页,总共36页。下面我们将要学习到的是频率分布表和频率分布图从比例的角度来分析数据频率分布(frequencydistribution)的基本步骤是:1.求极差:最大数与最小数的差,反映了数据的变化范围4.3-0.2=4.12.决定组距和组数组距和组数没有固定的标准,常常需要尝试和选择的过程,一般数据较少(100以内)时,分成5~12组当前11页,总共36页。3.数据分组:数据的分组也不是越多越好,为了方便,我们力求“取整”因此,分成9组较合适以0.5为组距分组时。可以分成9组:[0,0.5),[0.5,1.0),…,[4,4.5)当样本容量n很大时,分组数k应该在(1+3.3lgn)附近当前12页,总共36页。4.列频率分布表利用计算出各组数据的频率(可以利用EXCEL来完成作图)当前13页,总共36页。5.作频率分布直方图因此所有小长方形的面积和为1当前14页,总共36页。说明:1.随机性:频率分布直方图是由样本决定,它会随着样本的改变而变化2.规律性:根据频率与概率的关系,若固定分组数,随着样本用量的增加,各个频率段会稳定在总体的相应频率段上3.特别的,若按9组分组,则频率直方图稳定于总体密度函数,我们可以用频率分布折线图来表示当前15页,总共36页。一般的,随着样本容量的增加,作图时组数也相应的变大,相应的频率分布折线图会越来越接近一条光滑曲线——总体密度曲线总体密度曲线反映了总体在各个范围内取值的百分比,它比频率分布直方图提供更加精细的信息当前16页,总共36页。例如图中阴影部分的面积就表示总体在[a,b]内的百分比当前17页,总共36页。思考:1.任何一个总体,它的密度曲线是否一定存在?3.任何一个总体的密度曲线是否可以被非常精确的表示出来?2.任何一个总体的密度曲线,是否都可以利用函数来刻画?实施上,任何一个总体的密度曲线虽然客观存在,但是很难想函数图像一样被精确的画出来,我们只能用样本的频率分布对它进行估计;一般来说,样本的容量,估计就越精确.当前18页,总共36页。除了上面的几种处理方式外,我们还有一种用来表示数据的图——茎叶图(stem-and-leapdisplay)例某赛季甲、乙两名篮球运动员每场比赛得分情况如下。甲的得分:12,15,24,25,31,31,36,36,37,39,44,49,50。乙的得分:8,13,14,16,23,26,28,33,38,39,51。上述的数据可以用下图来表示,中间数字表示得分的十位数,两边数字分别表示两个人各场比赛得分的个位数当前19页,总共36页。从这个茎叶图上可以看出,甲运动员的得分情况是大致对称的,中位数是36;乙运动员的得分情况除一个特殊得分外,也大致对称,中位数是26。因此甲运动员发挥比较稳定,总体得分情况比乙好十位数个位数个位数当前20页,总共36页。用茎叶图表示有两个突出的优点:但茎叶图只能表示两位的整数,虽然可以表示两个人的比赛结果(或两个以上的记录),但没有直方图那么直观、清晰。2.茎叶图可以在比赛时随时记录,方便记录与表示1.从统计图上没有信息的损失,所有的信息都可以从这个茎叶图中得到当前21页,总共36页。美容业作为一个新型的行业,正在迅速的崛起,尤其受到女性的喜爱,请你设计一个方案调查女性美容的目的,作出频率分布直方图和折线图,汇总并与同学们交流练习当前22页,总共36页。2.2.2用样本数字特征估计总体数字特征频率分布直方图和频率分布折线图虽然能够很好的反映总体的分布情况,但为了更好的把握总体,我们还需要通过样本的数据对总体的数字特征进行研究我们通常用集中趋势和离散程度来表示当前23页,总共36页。①众数:就是一组数据中出现次数最多的数.集中趋势用什么表示比较好?离散程度呢?1°集中趋势我们可以用众数、中位数、平均数或加权平均数来反映由图可以看出月均用水在2.25t(最高的矩形中点)的用户最多,但它没有告诉我们多多少.当前24页,总共36页。②中位数:就是一组数据按照从小到大或从大到小的顺序进行排列时,处于中间位置的数.奇数个数时,中位数有1个偶数个数时,中位数有2个13579的中位数是5268459的中位数是5和6中位数不受个别极端数据的影响,在某种情况下,这是一个优点,但它对极值的不敏感有时也会成为缺点,你能举例说明吗?当前25页,总共36页。③平均数:就是一组数据的平均,设有n个数据,x1,x2,…,xn,这组数据的平均数为:特别地,如果上面n个数据中不同数据x1,x2,…,xn的个数分别为k1,k2,…,kn,那么它们的平均数为当前26页,总共36页。④加权平均数:就是一组数据的加权平均.设有n个数据x1,x2,…,xn,它们的权分别为l1,l2,…,ln,这组数据的加权平均数为:加权是一组数据中某一个数的频数由此可以看出,平均数是加权平均数的一个特例,也就是说,它们的权都是1/n平均数受每个数据的影响,尤其是极端数据对平均数影响较大,因此在实际操作时,常常想方设法较少误差,你能举出具体的例子吗?当前27页,总共36页。某公司员工的月工资情况如表:职员c工程师应聘者职员D我的工资是2000我的工资是1500我的工资是4000我的可以拿到???实例分析如果你是应聘者,你如何看待这些数据?当前28页,总共36页。月工资/元80005000400020001000800700600500员工数/人12461282052(1)分别计算该公司员工月工资的平均数、中位数和众数。(2)公司经理会选取上面哪个来代表该公司员工的月工资情况,税务官呢?工会领导呢?分析:1.根据平均数、中位数的计算公式,可以算出平均数为:1373元,中位数为:800元,众数为:700元2.不同身份的人代表不同阶层人的利益,对公司领导平均数好,对税务官中位数比较好,对工会领导众数即使他的选择当前29页,总共36页。①极差:就是一组数据中最大数与最小数之间的差.居民用水的极差就是:4.3-0.2=4.12°离散程度用极差和标准差或方差来反映②方差:就是一组数据中所有数与平均数的差的平方和的平均数.设有n个数据x1,x2,…,xn,这组数据的方差为:当前30页,总共36页。③标准差:样本数据到平均数的一种平均距离,一般用s来表示.当前31页,总共36页。例画出下列样本的直方图,说明它们的异同点(1)5,5,5,5,5,5,5,5,5(2)4,4,4,5,5,5,6,6,6(3)3,3,4,4,5,6,6,7,7(4)2,2,2,2,5,8,8,8,8解四组样本的直方图为:当前32页,总共36页。说明:1.平均数都是:2.标准差分别为:0.00,0.82,1.49,2.8353.平均数是总体的重心所在,标均差表明总体的离散程度,其他的信息就丢失了,因此不能完全刻画总体的全貌.当前33页,总共36页。总体说明1.样本众数通常用来表示分类变量的中心,容易计算,但反映总体的信息较少2.中位数仅利用了中间数据的性质,当样本数据质量较差时,应该用抗极端数据强的数据表示中心值.(例如利用计算机模拟样本)3.平均数比中位数和众数反映了更多的信息,但“极端数据”可能使它产生较大的误差4.如果样本平均数大于样本中位数,则表示数据中存在较多较大的极端数,反之,存在较多较小的极端数,它们

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论