用样本的数字特征估计总体的数字特征_第1页
用样本的数字特征估计总体的数字特征_第2页
用样本的数字特征估计总体的数字特征_第3页
用样本的数字特征估计总体的数字特征_第4页
用样本的数字特征估计总体的数字特征_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2.2.2 用样本的数字特征估计总体的数字特征,一 、复习众数、中位数、平均数的概念,2、中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,1、众数:在一组数据中,出现次数最多的数据叫做这组数据的众数,众数、中位数、平均数都是描述一组数据的集中趋势的特征数,只是描述的角度不同,其中以平均数的应用最为广泛,3、平均数: 一般地,如果n个数 ,那 么, 叫做这n个数的平均数,1、求下列各组数据的众数,1)、1 ,2,3,3,3,5,5,8,8,8,9,9,众数是:3和8,2)、1 ,2,3,3,3,5,5,8,8,9,9,众数是:3,2、

2、求下列各组数据的中位数,1)、1 ,2,3,3,3,4,6,8,8,8,9,9,2)1 ,2,3,3,3,4,8,8,8,9,9,中位数是:5,中位数是:4,3、在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如下表所示,分别求这些运动员成绩的众数,中位数与平均数,解:在17个数据中,1.75出现了4次,出现的次数最多,即这组数据的众数是1.75 上面表里的17个数据可看成是按从小到大的顺序排列的,其中第9个数据1.70是最中间的一个数据,即这组数据的中位数是1.70,答:17名运动员成绩的众数、中位数、平均数依次是1.75(米)、1.70(米)、1.69(米,这组数据的平均数是,二

3、 、怎么由频率分布直方图求众数,中位数和平均数,例如,在上一节抽样调查的100位居民的月均用水量的数据中,我们得知这一组样本数据的 ,并画出过这组数据的频率分布直方图,众数 =2.3(t) 中位数=2.0(t) 平均数=2.0(t,现在,观察这组数据的频率分布直方图,能否得出这组数据的众数、中位数和平均数,众数、中位数和平均数,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率 组距,归纳总结得: 因为在频率分布直方图中,各小长方形的面积表示相应各组的频率,也显示出样本数据落在各小组的比例的大小,所以从图中可以看到,在区间2,2.5)的小长方形的面积最大,即这组的频率是最大的,也就是

4、说月均用水量在区间2,2.5)内的居民最多,即众数就是在区间2,2.5)内。 众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率 组距,2.25,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率 组距,0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02,提示:中位数左边的数据个数与右边的数据个数是相等的,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率 组距,0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02,前四个小矩形的

5、面积和=0.49,后四个小矩形的面积和=0.26,2.02,归纳总结得: 在样本中,有50的个体小于或等于中位数,也有50的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。在这个频率分布直方图中,左边的直方图的面积代表50个单位,右边的直方图也是代表50个单位,它们的分界线与x轴交点的横坐标就是中位数。 中位数在样本数据的频率分布直方图中,就是把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标,思考讨论以下问题: 1、2.02这个中位数的估计值,与样本的中位数值2.0不一样,你能解释其中原因吗,答:2.02这个中位数的

6、估计值,与样本的中位数值2.0不一样,这是因为样本数据的频率分布直方图,只是直观地表明分布的形状,但是从直方图本身得不出原始的数据内容,直方图已经损失一些样本信息。所以由频率分布直方图得到的中位数估计值往往与样本的实际中位数值不一致,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率 组距,0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02,提示:在频率分布直方图中,各个组的平均数如何找,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率 组距,0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02,0

7、.75,1.75,2.25,2.75,3.25,3.75,4.25,1.25,0.5,提示:与小长方形面积的比例有关吗,0.5,2.5,2,1.5,1,4,3.5,3,4.5,频率 组距,0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02,2.02,0.75,1.75,2.25,2.75,3.25,3.75,4.25,1.25,0.5,总结归纳得: 平均数是频率分布直方图的“重心”,是直方图的平衡点。 先找出每个小长方形的“重心”,即每小组的平均数,再按比例算出直方图的平均数。 平均数在样本数据的频率分布直方图中,等于频率分布图中每个小长方形面积乘以小矩形

8、底边中点的横坐标之和,总结,众数:最高矩形的中点的横坐标,中位数:在频率分布直方图中,中位数的左右两边的直方图的面积相等,都为0.5,平均数:每个小矩形的面积乘以中点的横坐标之和,三 、三种数字特征的优缺点,1、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征,2、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点,3、平均数与每一个样本的数据有关,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,而且越极端,对平均数的影响就越大。当样

9、本数据质量较差时,用平均数来估计,可靠性不高,可能会与实际情况产生较大的误差,四、思考讨论以下问题: 1、样本中位数不受少数极端值的影响,这在某些情况下是一个优点,但它对极端值的不敏感有时也会成为缺点。你能举例说明吗,答:优点:对极端数据不敏感的方法能够有效地预防错误数据的影响。 对极端值不敏感有利的例子:例如当样本数据质量比较差,即存在一些错误数据(如数据录入错误、测量错误等)时,用抗极端数据强的中位数表示数据的中心值更准确,缺点:(1)出现错误的数据也不知道;(2)对极端值不敏感有弊的例子:某人具有初级计算机专业技术水平,想找一份收入好的工作。这时如果采用各个公司计算机专业技术人员收入的中

10、位数作为选择工作的参考指标就会冒这样的风险,很可能所选择公司的初级计算机专业技术水平人员的收入很低,其原因是中位数对极小的数据不敏感。这里更好的方法是同时用平均工资和中位数作为参考指标,选择平均工资较高且中位数较大的公司就业,思考讨论以下问题: 3、“用数据说话”,这是我们经常听到的一句话。但是,数据有时也会被利用,从而产生误导。例如,一个企业中,绝大多数人是一线工人,他们的年收入可能是一万元左右,另有一些经理层次的人,年收入过到几十万元。这时年收入的平均数比中位数大得多。尽管这时的中位数比平均数更合理些,但是这个企业的老板到人力市场去招聘工人时,也许更可能用平均数来回答有关工次待遇的指问。

11、你认为“我们单位的收入水平比别的单位高”这句话应当怎么解释,答: 我认为这句话是这样解释的:这个企业的老板以员工平均工资收入水平去描述他们单位的收入情况。我觉得这是不合理的,因为这些员工当中,少数经理层次的收入与大多数一般员工收入的差别比较大,所以平均数不能反映该单位员工的收入水平。这个老板的话有误导与蒙骗行为,课后练习 假设你是一名交通部门的工作人员,你打算向市长报告国家对本市26个公路项目投资的平均资金数额,其中一条新公路的建设投资为2000万元人民币,另外25个项目的投资是20100万元。中位数是25万元,平均数是100万元,众数是20万元。你会选择哪一种数据特征来表示国家对每一个项目投资的平均金额?你选择这种数字特征的缺点是什么,答: 这里

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论