统计学全套课件_第1页
统计学全套课件_第2页
统计学全套课件_第3页
统计学全套课件_第4页
统计学全套课件_第5页
已阅读5页,还剩931页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024/3/131-1统计学

2024/3/131-2第1章绪论1.1统计数据与统计学1.2统计学的历史1.3统计学的分类1.4统计学基本概念1.5常用分布1.6正态总体的抽样分布2024/3/131-3【引例1.0】统计数据统计数据,往往是一个“出新闻”的地方。2010年1月19日,在国家统计局的网站首页的头条,人们看见了“期待已久”的“2009年全国房地产市场运行情况”统计报告。按照统计局公布的这份报告:2009年12月份,全国70个大中城市房屋销售价格仅仅只同比上涨了7.8%。特别是城市居民最关心的新建住房销售价格,同比上涨(也就是一年的涨幅)一成都不到,只有9.1%(仅仅比国家统计局公布的2008年涨幅高了2个百分点);二手住房的销售价格,更是只比上年同期“慢慢涨了”6.8%。就连一些一线大城市,国家统计局的公布的2009年一年的房价涨幅,同样也“适度而温和”,绝不“吓人”:房价“最热”的北京,它的房屋销售价格,一年也就上涨了9.2%,天津为8.7%,上海、广州和深圳,分别也就7.4%、8.7%和18.9%。按照这份“官方的权威统计”,在这全国70个大中城市中,房价涨幅一年超过10%的,仅仅只有六七个城市左右,很多城市的房价涨幅连5%都不到。2024/3/131-4【引例1.0】统计数据但是作为全国最大房地产专业门户网站之一的搜房网,2009年曾发布了一个号称“老百姓自己的房价榜”。他们通过对南京市的楼盘和各区域房价的全面统计和加权分析,得出2009年10月份该市商品房住宅价格比2010年年初的1月份上涨34.18%,环比也较上月全市上涨6.34%。而与此同时,国家统计局网站上公布的同比涨幅仅为4.3%,环比也只有2.4%。另外,据国务院发展研究中心宏观经济研究部的一次报告计算,2009年全国住宅销售的房价涨幅已经高达27.28%,整整超过了国家统计局公布的“新建住房销售价格”涨幅的两倍。各种房价涨幅数据再一次“打架”引发了“强烈的热议”。那么,如何判断现实中的诸多统计数据的合理性,要求我们对统计数据和统计学的基本原理具有一定的认识。

2024/3/131-51.1统计数据与统计学1.1.1

统计数据在日生活中(新闻、消息和报道中)我们会碰到各式各样的统计数据,只有正确理解这些统计数据,才能真正读懂这些新闻、消息和报道。统计数据与我们的日常生活息息相关2024/3/131-6【例1.1】据中国国家统计局网公布的消息,2010年2月份,居民消费价格同比上涨2.7%,涨幅比上月扩大1.2个百分点。其中,城市同比上涨2.6%,农村上涨2.9%;食品价格上涨6.2%,非食品价格上涨1.0%;消费品价格上涨3.0%,服务项目价格上涨1.7%。2024/3/131-7问题“居民消费价格同比上涨2.7%”确切的含义是什么?2024/3/131-8【例1.2】中国网()2009年10月28日消息,国家统计局上海调查总队近期对1000户城市居民家庭开展了一项有关消费意向和消费观念的专题调查。调查结果显示,以下领域存在较大消费潜力:首先是住房消费。调查中,在问及购房意向时,有2.9%的家庭表示年内打算购房,另有9.6%表示在三年内有购房意向。而抽样调查显示,2008年只有1.1%的城市居民家庭实际购房。在有购房意向的被访家庭中,有46.4%表示是结婚用房,49.6%表示为改善居住条件。作为投资或其他用途的比重很小,只占4%。可见,对房价的稳定预期和刚性需求的持续增长,仍将有力支撑上海房地产市场的需求量。2024/3/131-9问题“有2.9%的家庭表示年内打算购房,另有9.6%表示在三年内有购房意向”这两个数字的可靠性怎样?2024/3/131-10【例1.3】北京日报2009年1月12日报道,《2008年中国民生问题调查:食品安全状况最令人担忧》,调查中对城乡居民询问了人身、个人和家庭财产、个人信息隐私、交通、劳动、医疗、食品等7个方面的安全感,结果发现在上述7个方面平均有74.6%的人表示“很安全”或“比较安全”。其中人身方面的安全感最高(很安全和比较安全合计83.2%),而食品和交通方面的安全感最低,分别只有65.3%和65.7%,认为不安全的人达30%以上。特别值得提及的是,在2006年和2008年的两次调查中,食品安全状况都在各类安全感中排在倒数第一,这说明公众对食品卫生和安全有着长期的担忧。调查的时间:2008年5月至9月,

调查样本:此项全国抽样调查覆盖全国28个省市区的134个县(市、区)、251个乡(镇、街道)和523个村(居委会),共成功入户访问了7139位年龄在18至69岁的居民,调查误差小于2%,符合统计推论的科学要求。2024/3/131-11问题“共成功入户访问了7139位年龄在18至69岁的居民,调查误差小于2%,符合统计推论的科学要求。”这里“调查误差小于2%”是什么意思?2024/3/131-12【例1.4】2008年美国发表的两项大型临床试验结果显示,维生素及其它抗氧化剂丝毫无助于预防前列腺癌。《美国医学会杂志》在网络版上公布了这一结果:第一项研究是迄今进行过的规模最大的癌症预防对照试验之一,有3.55万名中年男性参加,服用维生素E、硒或安慰剂的时间超过5年。第二项试验历时8年,观察了维生素C和E对近1.5万名男性的影响。两项研究均显示,无论是对前列腺癌,还是所有种类的癌症,这些补充剂都没有预防效果。2024/3/131-13问题“维生素及其它抗氧化剂丝毫无助于预防前列腺癌。”这个结论是如何得到的?这个结论可靠吗?2024/3/131-141.1.2

统计学什么是统计学?一般的教科书:统计学是研究如何有效地收集数据、整理数据、分析数据,并根据数据作出推断的一门方法论科学。《不列颠百科全书》的定义:统计是“收集和分析数据的科学(science)和艺术(art)”。2024/3/131-15回顾问题例1.1中“居民消费价格同比上涨2.7%”确切的含义是什么?

第9章例1.2中“有2.9%的家庭表示年内打算购房,另有9.6%表示在三年内有购房意向”这两个数字的可靠性怎样?

第3章例1.3中“调查误差小于2%”是如何估算出来的?

第8章例1.4“维生素及其它抗氧化剂丝毫无助于预防前列腺癌。”这个结论是如何得到的?

第4章2024/3/131-161.2统计学的历史统计活动的历史非常悠久统计学的历史却不算很长统计学两个主要来源:17世纪德国的国势学和17世纪英国的政治算术。2024/3/131-17国势学以国家政治社会情况作为研究对象,运用对比的方法来研究各国实力的强弱。国势学派的主要代表人物:康令(H.Conring)和阿亨瓦尔(G.Achenwall)2024/3/131-18政治算术创始人:英国的配第(W.Petty)他在1690年出版的《政治算术》一书中以数字资料为基础,采用数量分析方法研究政治问题,第一次提出统计方法并利用统计方法分析数字资料。2024/3/131-19统计学与概率论结合从18世纪开始统计学与概率论结合,概率论为统计学的进一步发展奠定了坚实的数理基础,促进了统计学理论和实践的繁荣昌盛。到19世纪末已经形成了古典统计学(描述统计学)的主要框架。2024/3/131-20统计学发展迅速20世纪:统计学渗透到社会学、生物学、经济学等领域。哥塞特(W.S.Gosset)1908年以Student为笔名在《生物计量学》杂志上发表论文《均值的或然误差》,提出了著名的t统计量,开创了小样本理论先河;费雪(R.A.Fisher)对t分布、分布和F分布加以综合研究,提出了方差分析方法和最大似然估计方法,大大促进了推断统计学的发展;2024/3/131-21统计学发展迅速奈曼(J.Neyman)和皮尔逊(E.S.Pearson)提出了系统的统计假设检验理论,并对区间估计做出了系统发展,瓦尔德(A.Wald)提出序贯分析法和统计决策函数理论,进一步丰富了现代统计学的理论,形成了现代统计学,即推断统计学的框架。2024/3/131-221.3统计学的分类从统计学的研究内容和方法上分类描述统计(descriptivestatistics):用数字和图表等方法对数据进行总结和展示,揭示数据的基本特征,为进一步的统计推断作准备。推断统计(inferentialstatistics):根据样本数据对总体进行估计、预测和推断,这是现代统计学的核心内容。2024/3/131-23【例1.5】中国经济增长2008-20092024/3/131-24【例1.6】“三驾马车”【根据国家统计局最新的数据显示,在拉动2009年GDP增长的“三驾马车”中,最终消费对经济增长的贡献率为52.5%,拉动GDP增长4.6个百分点,投资对经济增长的贡献率为92.3%,拉动GDP增长8个百分点。而国外需求,即“净出口”,对经济增长的贡献率为负44.8%,下拉GDP增长负3.9个百分点。2024/3/131-25【例1.7】《全球最佳CEO》《全球最佳CEO》中介绍道,如果根据全球各顶尖首席执行官整个任期内的股东投资回报率和市值变化来排序,那么分析1995年至2009年间1109位首席执行官后可以发现,拥有MBA学位的平均表现要好于那些没有的。2024/3/131-26【例1.8】零点研究咨询集团零点研究咨询集团、北汽福田汽车股份有限公司、新浪汽车联合发布的《2009福田指数中国居民生活机动性指数研究报告》指出:在参与调查的7个城市中,北京居民上下班或上下学拥堵经济成本为335.6元/月,处在各城市之首。其次是广州和上海,拥堵经济成本分别为265.9元/月和253.6元/月,低于北京。同时,北京居民上下班时间花费也居高位,道路畅通时平均花费时间40.1分钟,而道路拥堵时则达到62.3分钟。2024/3/131-271.4统计学基本概念四个最基本的概念:随机变量、总体、样本和统计量。2024/3/131-281.4.1随机变量及其分布随机变量(randomvariable)是定义在样本空间上的实值函数X=X(ω),它随样本点ω的变化而变化,它用来描述随机试验的结果。如果一个随机变量只能取有限个或可列个值,则称它为离散型随机变量(discreterandomvariable);如果一个随机变量的可能取值充满数轴上的一个区间,则称它为连续型随机变量(continuousrandomvariable)。2024/3/131-29几个例子【例1.9】抛一颗六面均匀的骰子,观察出现的点数,则出现的点数X是一个随机变量。【例1.10】调查100个顾客,考察顾客对某个品牌笔记本电脑的偏好,记录喜欢这个品牌笔记本电脑的人数X,则X是一个随机变量。【例1.11】为了检验某电子产品的质量,检测它的使用寿命(以分钟记),则产品的使用寿命X是一个随机变量。【例1.12】从一大批产品中随机抽取若干个产品,考察次品率X,则X是一个随机变量。2024/3/131-30分布函数描述随机变量分布的重要工具,可以用来描述离散型和连续型随机变量。定义1.1设X是一个随机变量,对任意实数x,称

F(x)=P(X≤x)(1.1)为随机变量X的分布函数(distributionfunction),称X服从F(x),简记为X~F(x)。2024/3/131-31概率密度函数定义1.2设随机变量X的分布函数是F(x),如果存在一个非负函数f(x),使得对任意实数x,有(1.2)则称f(x)是连续型随机变量X的概率密度函数(probabilitydensityfunction),简称为密度函数。2024/3/131-321.4.2总体和总体分布什么是总体?研究对象的全体就称为总体(population)或母体,总体中的元素称为个体。如果总体包含的个体的数目是有限的,则称之为有限总体;如果总体包含的个体的数目是无限的,就称之为无限总体。2024/3/131-33总体是随机变量【例1.13】一批电子元件共10万个,研究这批电子元件的平均使用寿命,则该批电子元件的全部使用寿命就构成一个总体,而每个电子元件的使用寿命就是个体。【例1.14】考察某大学一年级新生的身高情况,则全体新生的身高就构成一个总体,而其中每个学生的身高就是个体。2024/3/131-341.4.3样本和样本分布样本:从总体中取出的部分个体构成的集合.样本容量:样本中的个体数目。抽样(sampling):取得样本的过程。常用抽样方法:简单随机抽样、分层抽样、整群抽样、等距抽样等

第8章。2024/3/131-35简单随机样本我们讨论的样本都是指简单随机抽样得到的简单随机样本(simplerandomsample),简称为样本(sample)。记(x1,…,xn)为样本容量为n的样本,其中x1,…,xn

是相互独立的与总体X同分布的n个随机变量;(x1,…,xn)的观测值称为样本值,仍记作(x1,…,xn)。2024/3/131-36样本联合分布函数对于简单随机样本,若总体X的分布函数为F(x),则样本(x1,…,xn)的联合分布函数为2024/3/131-37样本联合概率密度函数若总体X的概率密度函数为f(x),则样本(x1,…,xn)的联合概率密度函数为2024/3/131-38样本联合概率函数若总体X是离散型随机变量,其概率函数为p(x)=P(X=x),则样本(x1,…,xn)的联合概率函数为2024/3/131-391.4.4统计量抽样获得样本后,根据样本信息推断总体时,通常需要对样本信息进行加工整理,针对不同的问题构造适当的样本函数,这种用来推断总体的样本函数称为统计量(statistic)。统计量是用作统计推断的量,所以统计量不能含有未知参数。2024/3/131-401.样本均值称为样本均值(samplemean);它是总体期望μ的无偏估计。2024/3/131-412.样本方差称为样本方差(samplevariance),其算术平方根称为样本标准差(samplestandarddevication)。2024/3/131-42修正样本方差称为修正样本方差。因为修正样本方差是总体方差的无偏估计,在实际中,修正样本方差比样本方差更常用,今后提到样本方差通常是指修正样本方差。2024/3/131-433.样本矩称为样本k阶原点矩和样本k阶中心矩;样本矩可以用来估计总体矩,从而获得相应的矩估计。2024/3/131-444.次序统计量将样本按由小到大排列得到的有序样本(x(1),…,x(n))称为样本的次序统计量(orderstatistic),其中,x(i)为样本的第i个次序统计量;x(1)称为样本的最小次序统计量,x(n)称为样本的最大次序统计量。2024/3/131-455.样本中位数和样本极差设(x(1),…,x(n))为有序样本,则样本中位数Me(median)定义为2024/3/131-46样本极差样本极差(range)定义为:R=x(n)-x(1)

它是反映样本值分散程度的量,可以用于推断总体的标准差。2024/3/131-476.经验分布函数设(x(1),…,x(n))为来自于总体的有序样本,对任意实数x,称(1.8)是经验分布函数2024/3/131-481.5常用分布统计量的概率分布称为抽样分布(samplingdistribution),经典的统计推断大多是基于正态分布以及正态变量构造的三个著名分布(分布、t分布和F分布)下面介绍这四分布和两个离散型分布(二项分布和泊松分布)的定义及主要性质。2024/3/131-491.5.1正态分布定义1.3如果随机变量X的密度函数为则称X服从参数为μ和σ2的正态分布(normaldistribution),记为X~N(μ,σ2),其中μ和σ(σ>0)都是常数。2024/3/131-50图1.1正态分布密度函数的曲线2024/3/131-51图1.2正态分布N(μ,1),

N(μ,22)和N(μ,32)的密度曲线2024/3/131-52图1.3标准正态分布的密度曲线2024/3/131-53正态分布的性质性质1.1若X~N(μ,σ2),则E(X)=μ,Var(X)=σ2,性质1.2若X~N(μ,σ2),则即任何一个一般的正态分布都可以经过简单的线性变换转化为标准正态分布。2024/3/131-54标准正态分布的分位数对于标准正态分布随机变量X,对给定α,称满足P(X>Zα)=α的是标准正态分布的分位数。分位数可以从附表1里查到,比如=0.025,查附表1可得Zα=1.96。2024/3/131-551.5.2分布2024/3/131-56卡方分布的性质2024/3/131-57图1.4卡方分布的密度函数2024/3/131-581.5.3t分布2024/3/131-59t分布的性质2024/3/131-60图1.5t(n)分布与

标准正态N(0,1)的密度函数2024/3/131-611.5.4F分布2024/3/131-62F分布的性质2024/3/131-63图1.6F(m,n)分布的密度函数2024/3/131-641.5.5二项分布2024/3/131-651.5.6泊松分布2024/3/131-661.6正态总体的抽样分布2024/3/131-672024/3/131-682024/3/131-692024/3/131-701.7统计软件SPSS简介常用统计软件SAS,S-Plus,Minitab,R等。Eviews,MATLAB,Excel也可以完成很多统计计算和分析。“师傅领进门,修行靠个人”2024/3/131-71本章小结本章介绍了统计学的定义和分类,回顾了统计学的发展历史,介绍了随机变量、总体、样本和统计量这四个基本概念,介绍了统计学中使用广泛的六个分布:正态分布、卡方分布、t分布、F分布、二项分布和泊松分布,给出了正态总体下的抽样分布,最后介绍了统计软件SPSS的特点。统计学是一门研究如何有效地收集数据、整理数据、分析数据,并根据数据作出推断的方法论科学,分为描述统计学和推断统计学两个部分,其中推断统计是现代统计的核心内容;正态分布、分布、t分布、F分布、二项分布和泊松分布是统计学中六个重要分布,利用样本信息(统计量)推断总体时经常会用到这六个分布。

2024/3/131-72本章小结正态分布是钟形对称的分布,它的中心取决于参数μ,而分布的离散程度取决于参数σ的大小;

t分布的形状很像正态分布,但“尾部”比正态分布更厚一些;卡方分布和F分布都是只取非负值的偏态分布;二项分布和泊松分布是应用广泛的两个离散型分布。SPSS是一种常见的功能齐全、操作简单的统计软件,本书采用SPSS16.0完成相应的统计计算。2024/3/131-73案例:新型农村养老保险问题零点研究咨询集团2009年发布的《2009年零点中国公共服务公众评价指数报告》中关于新型农村养老保险的调查,针对广大农村居民对新农保的认知度、参保意愿、评价程度等问题进行了分析。2024/3/131-74资料来源:零点咨询研究集团

《2009年秋季三期居民生活调查报告》2024/3/131-75资料来源:零点咨询研究集团

《2009年零点中国公共服务公众评价指数报告》2024/3/132-762.1

数据的计量与分类

数据的计量尺度数据的类型2024/3/132-77按照对现象计量程度的不同,可以将数据计量尺度分为四种,即:定类尺度、定序尺度、定距尺度、定比尺度。定类尺度(nominalscale)也称类别尺度或列名尺度,它是把事物按属性或类别分组。其计量的结果只是表现为某种类别,而对各类间的其它差别却无法测度。例如:人口按性别分为男、女两组。数据的计量尺度

2024/3/132-78定序尺度定序尺度(ordinalscale)

也叫顺序尺度,它是对事物之间等级差或顺序差别的测度,具有定类尺度的所有性能。例如:学生的考试成绩分为优、良、中、及格、不及格五组。2024/3/132-79定距尺度(intervalscale)(也叫间隔尺度),是对事物间的类别或次序间的间距的测度,其计量结果表现为数值。

例如:三名学生考试成绩分别为60分、80分、90分。定距尺度2024/3/132-80定比尺度定比尺度(ratioscale)(也叫比率尺度),它与定距尺度属于同一层次,其计量结果也表现为数值。

例如:3个工人的月收入分别为2000元、3000元、4000元。2024/3/132-81四种尺度计量结果,形成三种数据:分类数据、顺序数据和数值型数据。分类数据(categoricaldata)——是定类尺度对现象计量的结果。例如人口按性别分类,则“男”、“女”即为分类数据。数据的类型2024/3/132-82顺序数据顺序数据(rankdata)——是定序尺度对现象计量的结果。例如:人口按受教育程度分为“小学”、“初中”、“高中”、“大学及以上”组,则这里的“小学”、“初中”、“高中”、“大学及以上”即为顺序数据。分类数据和顺序数据合称为定性数据。2024/3/132-83数值型数据数值型数据(metricdata)——是定距尺度和定比尺度对现象计量结果。例如学生的考试成绩70分、工人的月收入2000元均为数值型数据。数值型数据通常称为定量数据。2024/3/132-84问题讨论前面例子中涉及的“性别”、“经济类型”、“受教育水平”、“考试成绩”、“月收入”能看作数据吗?如果它们不能看作数据,那么应该怎样正确理解这些概念?2024/3/132-852.2

数据的收集2.2.1数据的间接来源2.2.2数据的直接来源2024/3/132-862.2.1数据的间接来源间接来源的数据我们称之为第二手数据。可从各种公开出版物(如统计年鉴等)、报纸、杂志、图书、网络、新闻媒体等获取。2024/3/132-872.2.2数据的直接来源直接来源的数据我们称为第一手数据,主要依赖统计调查得到。2024/3/132-88统计调查的分类统计调查按调查对象所包括的范围不同,分为全面调查与非全面调查。统计调查按登记事物的连续性不同,分为经常性调查和一次性调查。统计调查还可按组织方式不同分为统计报表和专门调查(专门包括普查、抽样调查、重点调查、典型调查)2024/3/132-89常用的统计调查方式统计报表(statisticalreportforms)是按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供基本统计数据的一种调查方式。统计报表目前是一种搜集数据的重要方式,但已不是主要方式。2024/3/132-90普查普查(census):是为特定目的而专门组织的一次性全面调查。普查所搜集的是那种经常的、定期的统计报表所不能提供的更为详细的资料,主要是表明现象在某一时点上的情况,时间性要求很强。2024/3/132-91普查的特点(1)需要规定统一的标准时间(资料所属时间),以避免调查数据的重复或遗漏;(2)通常是一次性或周期性的;(3)普查的数据一般较为准确,规范化程度较高;(4)普查适用的对象比较狭窄,只能调查一些最基本、最一般及特定的现象。2024/3/132-92抽样调查抽样调查(samplingsurvey):是从研究对象的总体中随机抽取一部分个体作为样本进行调查,并根据调查结果来推断总体数量特征的一种非全面调查方法。抽样调查的特点:经济性好、实效性强、适应面广、准确性高。2024/3/132-932.3数据的整理2.3.1分类数据和顺序数据的整理2.3.2数值型数据的整理2024/3/132-942.3.1分类数据和顺序数据的整理对分类数据和顺序数据,我们可以计算出每一类别出现的频数或频率,通过频数分布表和图形来展示。2024/3/132-951.用频数分布表展示分类数据

和顺序数据用表格的形式将分类数据或顺序数据各分组极其相应的频(次)数全部罗列出来,就是频数分布表(或次数分布表)。分布在各组的单位数称为频数(frequency),也叫次数,各组次数与总次数之比称为频率,也叫比重(例)(proportion)。一组资料中,各组频率之和等于100%(或1)。2024/3/132-96【例2.1】

——频数分布表的编制(数据文件为example2.1)对某高校经济系30名教师性别及职称登记结果,如表2.1所示,试用SPSS分别编制教师性别及职称的频数分布表。2024/3/132-97【例2.1】

——频数分布表的编制表2.1某高校30名教师性别及职称情况统计表序号性别职称序号性别职称序号性别职称1男讲师11男教授21男副教授2女助教12女副教授22女副教授3女副教授13女副教授23男讲师4女副教授14男讲师24女助教5男助教15男讲师25男副教授6男教授16男副教授26男讲师7女教授17女讲师27女教授8男讲师18男助教28男讲师9女副教授19女副教授29男副教授10男教授20女副教授30女教授原始数据:2024/3/132-98【例2.1】

——频数分布表的编制解:首先将教师性别用代码0、1表示;将教师职称用代码2、3、4、5表示,然后在数据文件的VaribleView窗口Values栏定义变量值标签:

0表示女性,1表示男性;2表示助教,3表示讲师,4表示副教授,5表示教授。2024/3/132-99【例2.1】

——频数分布表的编制SPSS操作步骤:File→open→Data→example2.1→Analyze→DescriptiveStatistics→Frequencies→将“性别”选入Variable框→OK。输出结果如表2.2及表2.3所示:表2.2某高校30名教师性别分组频数分布表

FrequencyPercentValidPercentCumulativePercentValid0女1446.746.746.7

1男1653.353.3100.0

Total30100.0100.0

2024/3/132-100表2.3某高校30名教师职称分组频数分布表

FrequencyPercentValidPercentCumulativePercentValid2助教413.313.313.3

3讲师826.726.740.0

4副教授1240.040.080.0

5教授620.020.0100.0

Total30100.0100.0

表2.2及表2.3中,Frequency为频数,Percent为各组频数占总数的百分比,ValidPercent为各组频数占总数的有效百分比,CumulativePercent为各组频数占总数的累积百分比。

【例2.1】

——频数分布表的编制2024/3/132-1012.用图形展示分类数据

和顺序数据适合分类数据和顺序数据的图形有条形图、饼图等。条形图:是用条形高度来表示数据多少的图形。饼图:又称圆图,它是以整个圆代表总体,按总体各部分占总体比重的大小将圆面积分割成若干扇形,从而用圆内扇形面积来直观反映各部分在总体中的比例。2024/3/132-102【例2.2】

——条形图的绘制(数据文件为example2.2)根据表2.3资料,用SPSS绘制条形图。解:SPSS操作步骤:File→open→Data→example2.2→Graphs→Bar→选中Simple,选中Summariesforgroupsofcases→单击Define→选中OtherSummaryfunction→将“人数”选入Variable(纵轴),将“职称分类”选入CategoryAxis(横轴)→OK。输出结果如图2.1所示:2024/3/132-103【例2.2】

——条形图的绘制输出结果:图2.130名教师职称分布条形图2024/3/132-104【例2.3】

——饼图的绘制(数据文件为example2.2)根据表2.3资料,用SPSS绘制饼图。解:SPSS操作步骤:File→open→Data→example2.2→Graphs→Pie→选中Valuesofindividualcases→单击Define→将“人数”选入SlicesRepresent栏,将“职称分类”选入Variable栏→OK。输出结果如图2.2所示:

2024/3/132-105【例2.3】

——饼图的绘制

输出结果:图2.230名教师职称分布饼图2024/3/132-1062.3.2数值型数据的整理用频数分布表(变量数列)展示数值型数据用图示展示数值型数据频数分布的类型2024/3/132-1071.用频数分布表(变量数列)展示

数值型数据将数值型数据进行统计分组,就可以形成频数分布表(变量数列)。制作频数分布表时可用单变量值分组,也可用组距分组。单变量值分组通常适用于离散变量,且变量值变动幅度不大时;组距分组通常适用于变量值较多、且变动范围较大的离散型或连续型变量。2024/3/132-108【例2.4】

——单变量值分组

某班学生按年龄(周岁)分组的结果如表2.4所示:

表2.4某班学生按年龄(周岁)分组情况表按年龄分组(周岁)学生人数(人)比重(%)181920212236127210.0020.0040.0023.336.67合计30100.002024/3/132-109组距分组中的几个基本概念组限:每个组两端的数值。分为上限和下限。组距:一个组的上限与下限两端的距离。全距:所有变量值中最大值与最小值之差。组中值:每个组的上限与下限的中点值。2024/3/132-110组距分组的步骤第一,确定组数。

可以按斯特格斯的经验公式确定组数:

第二,确定各组的组距。

实际中先确定组数或先确定组距均可:

第三,整理成频数分布表。2024/3/132-111【例2.5】

——组距分组

2009年7月9日随机抽查了某大学50名任课教师的年龄,原始数据(周岁)如下:

3339452724353044524745424046684847463960464751295947295043293530293433456446446730272944533155414347

试对数据进行组距分组。

2024/3/132-112【例2.5】

——组距分组解:此处采用先确定组距的方式。根据本例的数据水平及全距大小,组距拟定为10。确定组数:组数=全距/组距

=(68-24)÷10=4.4

5(组)对原始数据分组,整理成频数分布表如表2.5所示:2024/3/132-113【例2.5】

——组距分组分组结果:表2.550名教师年龄分组频数分布表按年龄分组(周岁)人数(人)比重(%)20~3030~4040~5050~6060~708112164162242128合计501002024/3/132-114【例2.5】

——组距分组本例还可采用间断式组距形式分组,如表2.6所示:表2.650名教师年龄分组频数分布表按年龄分组(周岁)人数(人)比重(%)20~2930~3940~4950~5960~698112164162242128合计501002024/3/132-115【例2.5】

——组距分组本例还可采用开口组形式分组,如表2.7所示:表2.750名教师年龄分组频数分布表按年龄分组(周岁)人数(人)比重(%)30以下30~4040~5050~6060以上8112164162242128合计501002024/3/132-116累计次数与累计频率有时为了研究次数分布的状况,需要计算累计次数或累计频率,方法有两种:向上累计(积),也称较小制累计(积)或以下累计(积),即把各组次数或频率由变量值小的组向变量值大的组顺序逐组累计(积),截至各组的累计(积)次数或累计(积)频率表示小于该组变量值上限的次数或频率合计有多少。2024/3/132-117累计次数与累计频率向下累计(积),也称较大制累计(积)或以上累计(积),即把各组次数或频率由变量值大的组向变量值小的组顺序逐组累计(积),截至各组的累计(积)次数或累计(积)频率表示大于该组变量值下限的次数或频率合计有多少。2024/3/132-118累计次数与累计频率如对表2.5计算累计次数或累计频率,可得累计频数(频率)分布表如表2.8所示:表2.850名教师年龄分组累计频数(频率)分布表按年龄分组(周岁)频数(人)频率(%)向上累计向下累计频数(人)频率(%)频数(人)频率(%)20~3030~4040~5050~6060~708112164162242128819404650163880921005042311041008462208合计50100————2024/3/132-119【例2.6】

——SPSS制作频数分布表(数据文件为example2.3)

2007年我国各地区农村居民家庭人均纯收入资料如表2.9所示,试用SPSS制作频数分布表。2024/3/132-120【例2.6】

——SPSS制作频数分布表原始数据:表2.92007年我国各地区农村居民家庭人均纯收入地区人均纯收入(元)地区人均纯收入(元)北京9439.63湖北3997.48天津7010.06湖南3904.20河北4293.43广东5624.04山西3665.66广西3224.05内蒙古3953.10海南3791.37辽宁4773.43重庆3509.29吉林4191.34四川3546.69黑龙江4132.29贵州2373.99上海10144.62云南2634.09江苏6561.01西藏2788.20浙江8265.15陕西2644.69安徽3556.27甘肃2328.92福建5467.08青海2683.78江西4044.70宁夏3180.84山东4985.34新疆3182.97河南3851.60——2024/3/132-121【例2.6】

——SPSS制作频数分布表解:首先将农村居民家庭人均纯收入用代码1、2、3、4、5表示,然后在数据文件的VaribleView窗口Values栏定义变量值标签。操作步骤:File→open→Data→example2.3→Analyze→DescriptiveStatistics→Frequencies→将“人均纯收入”选入Variable框→OK。输出结果如表2.10所示:2024/3/132-122【例2.6】

——SPSS制作频数分布表输出结果:表2.102007年我国各地区农村居民家庭人均纯收入的频数分布表

FrequencyPercentValidPercentCumulativePercentValid3000元以下(含3000)618.819.419.4

3000元-4000元(含4000元)1237.538.758.1

4000元-5000元(含5000元)618.819.477.4

5000元-6000元(含6000元)26.36.583.9

6000元以上515.616.1100.0

Total3196.9100.0

Total32100.0

2024/3/132-1232.用图形展示数值型数据适合数值型数据的图形有:直方图(histogram)箱线图(boxplots)

线图(linecharts)茎叶图(stem-and-leafdisplay)

…………2024/3/132-124直方图直方图(histogram)是用矩形的宽度和高度来表示频数分布的图形。若是等距数列,一般用横坐标表示数据分组,而纵坐标表示次数或频数;若是不等距数列,则应按频数密度绘制直方图。2024/3/132-125【例2.7】

——直方图沿用【例2.5】教师年龄原始数据,用SPSS绘制的直方图如下:图2.3某大学50名教师年龄直方图2024/3/132-126箱线图箱线图(boxplots)是用一组数据的五个特征值即最大值、最小值、中位数、上四分位数、下四分位数来表示频数分布状况的图形,它由一个箱子和两条线段组成。每个箱子的中间横线是数据的中位数。根据不同资料,可绘制简单箱线图或多批箱线图。2024/3/132-127【例2.8】

——简单箱线图沿用【例2.5】教师年龄原始数据,用SPSS绘制的简单箱线图如下:图2.550位教师年龄箱线图2024/3/132-128【例2.9】

——多批箱线图现有某大学9名大一新生英语、语文、数学的考试成绩如表2.11所示,试绘制多批箱线图,比较9名学生的各科成绩。表2.119名大一新生英语、语文、数学考试成绩学生编号考试成绩(分)英语语文数学123456789706589346678809356568033698587625078675498787080698575合计———2024/3/132-129解:用SPSS16.0绘制的多批箱线图如图2.6所示:

图2.69名学生各科成绩的箱线图2024/3/132-130线图线图(linecharts)是用线条的延伸和波动来表明现象变动情况的图形,它主要用于表示现象在不同时间上的变化趋势。2024/3/132-131【例2.10】

——线图

1998~2008年我国农村居民人均纯收入及城镇居民人均可支配收入资料如表2.12所示,试用SPSS绘制线图。表2.121998~2008年我国农村居民人均纯收入及城镇居民人均可支配收入时间(年)农村居民人均纯收入(元)城镇居民人均可支配收入(元)1998199920002001200220032004200520062007200821602210225323662476262229363255358741404761542558546280686077038472942210493117591378615781合计2024/3/132-132解:用SPSS16.0绘制的线图如图2.7所示:图2.71998~2008年我国农村居民人均纯收入及城镇居民人均可支配收入线图2024/3/132-133茎叶图茎叶图(stem-and-leafdisplay)又称“枝叶图”,它是将数组中变化不大的高位数作为一个主干(茎),将变化大的低位数作为分枝(叶),列在主干的后面,来表示频数分布的。茎叶图与直方图相类似,但又与直方图不同。茎叶图保留了原始资料的信息,而直方图则无原始资料的信息。2024/3/132-134【例2.11】

——茎叶图根据【例2.5】某大学50名教师年龄原始数据绘制的茎叶图如图2.8所示:树茎树叶数据个数23456477999990001334559901233444555666677777801235904788112164图2.8某大学50名教师年龄茎叶图2024/3/132-135如果茎叶图显得过于拥挤,还可以把它扩展,将每个数茎分成两段,尾数0~4的在数茎后以“*”表示;尾数5~9的在数茎后以“·”表示。如将图2.8扩展后,便形成如图2.9所示的扩展的茎叶图:图2.9某大学50名教师年龄扩展的茎叶图树茎树叶数据个数2*2·3*3·4*4·5*5·6*6·47799999000133455990123344455566667777780123590478177481342222024/3/132-136若用SPSS16.0绘制茎叶图,则如图2.10所示:图2.10某大学50名教师年龄的茎叶图教师年龄Stem-and-LeafPlotFrequencyStem&Leaf1.002.47.002.77999997.003.00013344.003.55998.004.0123344413.004.55566667777784.005.01232.005.592.006.041.006.71.00Extremes(>=68)Stemwidth:10Eachleaf:1case(s)2024/3/132-1373.频数分布的类型常见的频数分布类型主要有钟形分布、J形分布和U形分布,如图2.11所示:

图2.11几种常见的频数分布(a)正态分布(b)右偏分布(c)左偏分布(d)正J形分布(e)反J形分布(f)U形分布2024/3/132-138钟形分布钟形分布的特点是靠近中间的变量值分布的次数多,靠近两端的变量值分布的次数少,即“两头小、中间大”。钟形分布又分正态分布、右偏分布和左偏分布,如图2.12所示:图2.12钟形分布(a)正态分布(b)右偏分布(c)左偏分布2024/3/132-139J形分布及U形分布J形分布其分布图象像英文字母“J”字,包括正J形分布和反J形分布两种类型。U形分布的特点是靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,即“两头大、中间小”。(d)正J形分布(e)反J形分布(f)U形分布图2.13J形分布与U形分布2024/3/132-1402.4集中趋势的度量2.4.1均值2.4.2几何平均数2.4.3调和平均数2.4.4众数2.4.5中位数2.4.6四分位数2.4.7众数、中位数和均值的比较2024/3/132-1412.4.1

均值均值(mean)是全部数据的算术平均,也称算术平均数。均值在统计分析中具有重要的地位,是集中趋势的最主要测度值。根据掌握的资料不同,均值有简单均值与加权均值两种计算形式。

2024/3/132-142简单均值适用于未分组数据。计算公式:2024/3/132-143【例2.12】

——简单均值沿用【例2.5】中某大学50名任课教师年龄的原始数据(周岁):

3339452724353044524745424046684847463960464751295947295043293530293433456446446730272944533155414347

则教师的平均年龄为:2024/3/132-144加权均值适用于分组数据。计算公式:2024/3/132-145【例2.13】

——加权均值沿用“表2.5”教师年龄分组后的频数分布表资料,求教师的平均年龄。解:首先列计算表如表2.13所示:按年龄分(周岁)组中值人数(人)比重(%)组中值×人数20~3030~4040~5050~6060~7025354555658112164162242128200385945330260合计—501002120表2.1350名教师的平均年龄计算表2024/3/132-146【例2.13】

——加权均值表2.13中的数据代入公式,计算得教师的平均年龄为:2024/3/132-147问题讨论【例2.12】及【例2.13】的计算结果出现了偏差,哪一例计算结果是教师的实际平均年龄?加权均值大小受什么因素影响?加权均值中权数的实质内容是什么?2024/3/132-148关于权数的进一步讨论加权均值中的权数还可以表现为相对数的形式,从而均值计算公式可变形为:以表2.11资料为例,教师的平均年龄为:2024/3/132-149均值的数学性质各变量值与均值的离差之和等于零各变量值与均值的离差平方和最小2024/3/132-1502.4.2

几何平均数几何平均数(geometricmean)是个变量值乘积的次方根,记作。适用范围:变量值本身是比率(速度),而且各比率(速度)的乘积等于总的比率(速度),需计算平均比率或平均速度时使用。根据资料不同,几何平均数有简单几何平均数与加权几何平均数两种计算形式。2024/3/132-151几何平均数计算公式简单几何平均数加权几何平均数式中:2024/3/132-152【例2.14】

——简单几何平均数某企业某种产品须经过4个车间的流水作业才能完成,如果第一车间的产品合格率为90%,第二车间的产品合格率为97%,第三车间的产品合格率为95%,第四车间的产品合格率为98%。求平均合格率。解:各车间平均合格率为:2024/3/132-153【例2.15】

——加权几何平均数某种产品的生产须经过10道工序的流水作业才能完成,有2道工序的合格率都为90%,有3道工序的合格率都为92%,有4道工序的合格率都为94%,有1道工序的合格率为98%。求平均合格率。解:各工序平均合格率为:

2024/3/132-154【例2.16】

——加权几何平均数某笔投资的年利率资料如表2.14所示:表2.14某笔投资的年利率资料年利率(%)年数2457813642已知年利率按复利计算。要求:求该笔投资的平均年利率。2024/3/132-155【例2.16】

——加权几何平均数解:平均年利率=平均年本利率-12024/3/132-1562.4.3

调和平均数调和平均数也称“倒数平均数”,它是对变量值的倒数求算术平均,然后再取倒数而得的平均数,记作。根据资料不同,分为简单调和平均与加加权调和平均两种计算形式。

2024/3/132-157简单调和平均数计算公式:式中:2024/3/132-158加权调和平均数计算公式式中:2024/3/132-159【例2.17】

——简单调和平均数菜场上有一种蔬菜,价格分别为:早市2.5元/公斤;午市2元/公斤;晚市1元/公斤。若早、中、晚各花1元钱买蔬菜,则一天中买到蔬菜的平均价格为:2024/3/132-160【例2.18】

——加权调和平均数沿用【例2.17】资料,若早、中、晚分别花7.5元、4元和1元钱买蔬菜,则一天中买到蔬菜的平均价格为:2024/3/132-161问题讨论简单调和平均数是否有独立应用的意义?加权调和平均数与加权算术平均数之间有何联系?2024/3/132-1622.4.4

众数众数(mode)是指一组数据中出现次数最多的那个变量值。记为。对于未分组数据或单变量值分组数据,可直接寻找众数。对于组距分组数据,则需推算众数的近似值。2024/3/132-163未分组数据求众数例如数据集2,5,4,5,5,6,5,7,8,5

中,众数为5,5大体上可代表这组数据的平均水平。2024/3/132-164组距数列求众数对于组距分组数据,可用比例插值法推算众数的近似值:

式中:2024/3/132-165【例2.19】

——组距数列求众数沿用表2.5教师年龄的分组资料,求教师年龄的众数。解:教师年龄的众数为:或:2024/3/132-166众数小结众数是一个位置平均数。众数的优点是计算简便、意义明显,不受极端值的影响。众数的缺点:未使用所有变量值计算,因而灵敏度比较低。众数通常只适宜于变量数列的分布次数比较多,而且具有明显集中趋势的总体。2024/3/132-1672.4.5

中位数中位数(median)是将数据从小到大顺序排列后,处在最中间位置的那个数值,记为。中位数把全部数据分成两半,一半数据的值比中位数大,一半数据的值比中位数小,因此中位数也可以反映数据的平均水平。未分组数据和分组数据均可计算中位数。2024/3/132-168未分组数据求中位数在资料未分组的情况下,中位数的位置可由(n+1)/2来确定。例如有5个数值:4,6,9,10,13,则中位数的位置=(n+1/2=(5+1)/2=3,即为第3个数值,。若增加一个数值,变为4,6,9,10,13,16,则中位数的位置=(n+1)/2=(6+1)/2=3.5,即为第3个数值与第4个数值中间,。2024/3/132-169组距数列求中位数在组距数列中求中位数时,先根据N/2确定中位数的位置,找出中位数所在组,然后用比例插值法计算中位数的近似值。计算公式:

2024/3/132-170【例2.20】

——组距数列求中位数沿用表2.5教师年龄的分组资料,求教师年龄的中位数。解:教师年龄的中位数为:2024/3/132-171中位数小结中位数的优点也是计算简便、意义明显,当数据的分布为偏态时,中位数不受极端值的影响,它是一个位置代表值(位置平均数),具有较高的稳健性。局限性主要是中位数不是根据所有变量值计算出来的,因此它作为一般水平的代表值灵敏度也较差。2024/3/132-1722.4.6

四分位数四分位数(quartile):将一组数据由小到大(或由大到小)排序后,用三个点将全部数据分为四等分,每份有25%的数据,每个点上的数值称为四分位数。处于第50%位置的数值就是中位数,处于第25%位置的数值称为下四分位数,记为,处于第75%位置的数值称为上四分位数,记为。未分组数据和分组数据均可计算四分位数。2024/3/132-173未分组数据求四分位数在资料未分组的情况下,下四分位数的位置可由(n+1)/4来确定,上四分位数的位置可由3(n+1)/4来确定。数据个数为奇数或偶数两种情况下均可计算四分位数。2024/3/132-174【例2.21】

——未分组资料求四分位数有9个家庭的人均月收入分别为950、1080、1120、1350、1500、1550、1690、1830、2000元,则可求得下四分位数的位置在第2个与第3个数值之间,于是下四分位数为:上四分位数的位置在第7个与第8个数值之间,于是上四分位数为:

2024/3/132-175【例2.22】

——未分组资料求四分位数有10个家庭的人均月收入分别为875、950、1080、1120、1350、1500、1550、1690、1830、2000元,则下四分位数的位置为:(10+1)/4=2.75,偏向第三个数值,这时下四分位数为:上四分位数的位置为:3(10+1)/4=8.25,偏向第八个数值,这时上四分位数为:

2024/3/132-176组距数列求四分位数在组距数列中求四分位数时,可用以下公式求近似值:2024/3/132-1772.4.7

众数、中位数和均值的比较(1)众数、中位数和均值的关系如果数据具有单一众数,且分布是对称的,则众数、中位数和均值三者必定相等,三者之间的关系:2024/3/132-178众数、中位数和均值的关系

如果数据是左偏分布,说明数据存在极端小值,使均值偏低,三者之间的关系:如果数据是右偏分布,说明数据存在极端大值,使均值偏高,三者之间的关系:需注意的是,如果数据具有双众数或多众数,上述关系不一定成立。2024/3/132-179(2)众数、中位数和均值的特点和应用场合均值由全部变量值计算而来,因此易受极端值的影响,数据出现偏态时,均值代表性差;众数、中位数则不受极端值的影响。当数据呈对称分布或接近对称分布时,选择用均值比较好;当数据为偏态分布时,特别是当偏斜的程度较大时,应选择众数或中位数;当数据为定距尺度时,如商品(服装、鞋类)等的规格,用众数是较好的选择。2024/3/132-1802.5

离散程度的度量2.5.1极差2.5.2四分位差2.5.3方差和标准差2.5.4变异系数2024/3/132-1812.5.1极差极差(rang)又称极值或全距,它是一组数据中最大值减去最小值之差,反映数据的最大变动范围。记为R。

极差的优点是计算简单,易于理解。极差的缺点是指标很粗略,未考虑数据分布,易受极端值的影响。2024/3/132-1822.5.2四分位差

四分位差(inter-quartilerang):指一组数据中上四分位数与下四分位数之差,。计算公式:它反映了中间50%数据的离散程度。同时也可反映中位数对一组数据的代表性大小。2024/3/132-183四分位差在【例2.21】中:

四分位差=1760-1100=660(元),表明有一半家庭的人均月收入在1100~1760之间,它们之间的最大差距为660元。2024/3/132-1842.5.3方差和标准差方差(variance)和标准差(standarddeviation)是用于描述数值是如何在平均值周围波动的。一个数据集的方差是用诸观察值与它们平均值之间的偏差有多大来确定的,方差的平方根即是标准差。方差和标准差均可由总体数据或样本数据求得。2024/3/132-185样本方差样本方差计算公式未分组数据:

分组数据:

式中:2024/3/132-186样本标准差样本标准差计算公式未分组数据:

分组数据:

式中:2024/3/132-187【例2.23】

——未分组数据求方差求样本测量值3,7,2,1,8的方差。解:首先求出样本均值:然后计算方差如下:2024/3/132-188【例2.24】

——未分组数据求标准差试对例2.23中的数据求标准差。解:标准差标准差等于3.11,表明数据集中的每个数值与它们的均值4.2相比,平均相差3.11。2024/3/132-189【例2.25】

——由分组数据求方差及标准差沿用表2.5教师年龄资料,求教师年龄的方差和标准差。解:首先列计算表如表2.15所示:表2.1550位教师年龄的方差和标准差计算表按年龄分组(周岁)组中值人数(人)20~3030~4040~5050~6060~7025354555658112164302.7654.766.76158.76510.762422.08602.36141.96952.562043.04合计—50—6162.002024/3/132-190【例2.25】

——由分组数据求方差及标准差解:根据表2.15资料,教师年龄的方差和标准差计算如下:结果表明,每个教师的年龄与他们的平均年龄相比,平均相差11.21岁。2024/3/132-191总体方差总体方差计算公式未分组数据:

分组数据:

式中:2024/3/132-192总体标准差总体标准差计算公式未分组数据:

分组数据:

式中:2024/3/132-193变异系数变异系数(coeffici

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论