单变量统计描述分析_第1页
单变量统计描述分析_第2页
单变量统计描述分析_第3页
单变量统计描述分析_第4页
单变量统计描述分析_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

单变量统计描述分析第一页,共一百零六页,编辑于2023年,星期五统计资料的分类

第一节统计调查所谓原始资料,是指由调查者直接搜集的、未经加工整理而保持其原本状态的资料。原始资料又称第一手资料或初级资料。所谓次级资料,是指经他人加工整理,可以在一定程度上被引用来说明总体特征的资料。

如果考虑到资料的时间过程,凡某一特定时刻的资料称为静态资料;凡某时期内变动累计的资料称为动态资料。

第二页,共一百零六页,编辑于2023年,星期五

普遍主义

公有性

无私利性

有条理的怀疑主义

特殊情况下的禁止性功能

诚实性第一类规范

普适的禁止性功能

科学的规范结构

第二类规范

普适的倡导性功能

控制越轨行为

第三页,共一百零六页,编辑于2023年,星期五普查、重点调查、典型调查

统计调查的组织形式

1.普查普查即全面调查,顾名思义,就是对研究对象的全体作无一遗漏的逐个调查。

2.重点调查重点调查就是在研究现象的总体中.选取其中的重点单位进行调查。

3.典型调查典型调查就是根据调查的目的和要求,在对所研究对象进行初步全面分析的基础上,从中选择有代表性的单位,做周密细致的调查。第四页,共一百零六页,编辑于2023年,星期五抽样调查

随机抽样

非随机抽样

抽样调查是在社会学研究中最常用的调查组织方式,它属于非全面调查的范畴。抽样调查是按照科学的原理和计算,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,然后用所得到的调查结果来推断总体。

定额抽样

偶遇抽样

等距抽样

分层抽样随机抽样简单整群抽样

“滚雪球”抽样

第五页,共一百零六页,编辑于2023年,星期五概念的操作化概念的操作化与测量

要展开社会研究,一个必要的步骤就是要把理论层次上的抽象定义,变为经验层次上的可操作定义。概念的操作化就是指这一过程。

出身、地位、关系等(A’)理论层次贡献(A)承认(B)…………经验层次成果(X)奖励(Y)第六页,共一百零六页,编辑于2023年,星期五测量的水平

在任何一门科学中,最基本和最简单的操作是分类(或组)。只要类别是可穷尽的,且总体单位对分类而言是互斥的,那么便可以使用定类尺度来进行测量。

如果我们不仅可以测量被研究对象的类别和顺序,而且还可以获得有关它们之间差值的信息,那么测量便提高到了定距尺度。

在社会调查和社会统计中,测量被分为四个水平:①定类尺度;②定序尺度;②定距尺度;①定比尺度。

如果我们不仅可以区分出类,而且可以排列出各类的顺序,那么测量便提高到定序尺度。

如果我们在定距尺度上可以确定一个绝对的或非任意性的零点,那么测量便提高到了定比尺度。

第七页,共一百零六页,编辑于2023年,星期五

所谓统计误差,是指在调查和统计过程中所得数据(或指标)与实际值之间存在的差别。登记性误差

代表性误差

抽样误差是在遵守随机原则的条件下,用样本指标代表总体指标不可避免存在的误差,它表示抽样估计的精度。一般抽样误差越小,抽样估计的精度就越高,反之就越低。由于抽样误差是概率抽样固有的、不可避免的误差,它本身又是随机变量,所以可以按数理统计的方法计算,确定其数量界限(如用抽样平均误差表示)并加以一定控制。

统计误差抽样误差第八页,共一百零六页,编辑于2023年,星期五一、社会学定量研究的基本逻辑第九页,共一百零六页,编辑于2023年,星期五主要内容第二节社会统计资料的整理

原始资料杂乱无章,需加整理,才能为人所用。统计资料的整理,其基础是统计分组。所谓统计分组.就是按统计研究的目的和要求,将总体单位或全部调查数据按一定的标志划分成若干组,使组内差异尽量小,而组与组之间则有明显差异,从而使原本杂乱无章的资料有序化,以便为在统计分析中提炼各种有用信息打下基础。

统计表变量数列的编制统计图

统计分组的原则与标准

第十页,共一百零六页,编辑于2023年,星期五统计分组的原则统计分组的原则与标准

1.分组应使各类别构成之和等于总体“穷举”“互斥”

2.分组设计应能反映统计总体的分布规律性

统计分组主要是为了能很好地反映统计总体的构成状况,即反映总体中各单位的分布特征。分组设计要适应这一要求,必须在分组后使总体单位总数在各组的分配情况能够反映总体的分布规律性。

第十一页,共一百零六页,编辑于2023年,星期五某社团成员的构成

性别

人数

男女28

22

人数

年龄

3712181055--6535--45

45--5525--3515--25频数分布数列

在统计资料搜集的基础上,按分组原则,将总体中所有单位依一定顺序归类整理,即可得到能够表明总体单位总数在各组分配情况的频数(或次数)分布数列,简称数列。频数分布数列是统计分组工作的产物。品质数列

变量数列

第十二页,共一百零六页,编辑于2023年,星期五

100名男性青年的身高表

单位:厘米统计表

166181173171168164178167156194169175183168165180170172167175173169174172171169173184173169170181185168174187167174169165167172174173155179164158165162157175182168176161171163176159171178172169158163166168160178170164160170166178171167162169165171165168176174163177164170161179177162149169166153177164

统计调查搜集来的资料往往是没有次序的原始资料(参见右表),使原始资料有序化,列表和作图是两种基本方法,得到的分别就是统计表和统计图。第十三页,共一百零六页,编辑于2023年,星期五2002年我国城乡人口情况

按城乡分

比重(%)

人口数(万人)

12845339.0960.917824150212统计表1.格式统计表是表示统计资料的表格,在由横行、纵栏交叉结合而成的表格上,它能系统地组织和合理地安排大量数字资料。

总标题

乡村

城镇100.00合计

纵栏标题

统计数值

横行标题

第十四页,共一百零六页,编辑于2023年,星期五表3.4离婚案件构成草率型外遇型猜疑型虐待型再婚型家务型生理型分居型其他型合计离婚案件(件)比重(%)851479136410447447188314671425996231002.内容主词——统计表所要说明的对象。宾词——用来说明主词的标志和标志值。如需要,主宾词可互换。第十五页,共一百零六页,编辑于2023年,星期五●简单表我国城市居民家庭基本情况(2002年)主要指标单位数值平均每户家庭人口平均每户就业人口平均每个就业者负担数平均每人全部年收入平均每人可支配收入平均每人消费性支出人人人元元元3.041.581.928177.407702.806029.88

3.统计表按主词是否分组以及分组的程度可分为简单分组表复合分组表简单表简单设计复合设计第十六页,共一百零六页,编辑于2023年,星期五中国人口年龄结构状况单位:%年龄组1953年1964年1982年1990年2000年0―14岁15―64岁65岁以上36.359.34.440.755.73.633.661.54.927.766.75.622.970.17.0

资料来源|:《2003中国统计年鉴》第99页。●

简单分组表第十七页,共一百零六页,编辑于2023年,星期五●复合分组表我国社会福利主要费用情况单位:亿元项目1998199920002001(一)优抚对象补助金额国家支出集体供给(二)农村传统救济金额国家支出集体供给(三)城乡各种福利院支出国家支出集体供给68.032.435.629.87.022.820.210.39.991.451.140.328.57.920.623.113.79.4

107.660.746.931.78.323.428.719.09.7

108.169.538.6

29.512.117.440.526.414.1合计118.0143.0168.0178.1

资料来源|:《2003中国统计年鉴》第838页。第十八页,共一百零六页,编辑于2023年,星期五标题部分

1、标题置于表格正上方

2、总标题所示要点与表中项目一致,在需要时还应表明资料所属的时间和地区

3、表次:左;单位:右

4、对分页的同一表格,在每页上端都要写标题,加(续一)、(续二)栏目部分

1、先局部后整体

2、若栏目较多,可加以编号;统计数字间有计算关系的,可用计算式表达。统计表的制作规则第十九页,共一百零六页,编辑于2023年,星期五线格部分

1、统计表上下两端线应以粗线或双细线标划,表的左右两侧开口。

2、各栏间用直线标划,大项目间线条较粗,小栏目线条较细;各行间不必划线条。数字部分

1、表中数字要对准位数。

2、不存在某数字时,用“——”表示;缺少某项数字时,用“……”表示。

3、数字较大时,加分位点。其他规则

1、资料来源写在表格下方。

2、有说明解释需要时,在表下方注释。

3、单位有数种时而不能在表右上角划一标注时,分两种情况处理。第二十页,共一百零六页,编辑于2023年,星期五变量数列的构成要素

变量数列的编制

在社会统计学中,总体中各单位的分布特征首先是用统计表来表示的。能够表示变量分布及其特征的统计表,即变量数列。它有两个构成要素:

变量值

Xi频数fi相对频数Pi第二十一页,共一百零六页,编辑于2023年,星期五离散变量数列

离散变量所描述的对象的数量特征,可以按一定次序列出它的整数值,相邻两变量值不会出现小数,因而能编制出单项式和组距式两种变量数列。

单项数列

组距数列

组距(hi)=上限(ui)―下限(li)组中值(mi)=或组中值(mi)=第二十二页,共一百零六页,编辑于2023年,星期五

1.单项式变量数列——数列中每一组的变量值只有一个。单项数列用于离散变量整数值变动幅度较小时。某社区各户人口数统计表人口数(X)户数(f)频率(P)23456785816106410.100.160.320.200.120.080.02合计501.00●离散变量单项数列第二十三页,共一百零六页,编辑于2023年,星期五组中值(间距组中值()学校数()8―1415―2122―2829―3536―421118253239251084合计

——29●离散变量组距数列某地区小学班级数2.组距式变量数列——离散变量的整数值如果变动幅度较大,而且总体单位数N又很大,则要编制组距数列。

第二十四页,共一百零六页,编辑于2023年,星期五连续变量数列

连续变量因其数学特征,在一个区间可以有无限多数值,无法按顺序一一列举,所以只能编制组距数列。与离散变量组距数列不同之处在于,根据连续变量的特征,此时组距数列中相邻两组的上限和下限共有一个组限,即相邻两组交界处的组限重合。至于恰等于某一组限的数据(如下表中身高164厘米)归于哪一组,应该按照“上限不包括在内”的原则处理。这就是说,164应归于“164—168”这一组,而不应归于“160—l64”这一组。有了这一规定,就不会在编制连续变量的数列时,发生违背“穷举”与“互斥”这两个基本原则的情况了。第二十五页,共一百零六页,编辑于2023年,星期五

男青年身高按4厘米的间距分组时的频数分布身高间距(厘米)组中值(Xi)频数(fi)频率(Pi)148―152152―156156―160160―164164―168168―172172―176176―180180―184184―188188―192192―196150154158162166170174178182186190194125101925171253010.010.020.050.100.190.250.170.120.050.030.000.01合计

——100——●连续变量数列第二十六页,共一百零六页,编辑于2023年,星期五

对于等距分组且为闭口组的情况,确定组距已有某些数学公式可供参考

但最佳决定还是依据常识和数列使用的目的而定。一般地说,组距应不小于可以忽略的数值之差。

注意,在资料被整理成数列时,全距可适当放大(但不能缩小),以便组数(或组距)取整数值。确定组距和组数第二十七页,共一百零六页,编辑于2023年,星期五异距分组

异距分组主要在变量变动并不是均匀的、有急剧上升或突然下降之类情况发生时考虑。

标准组距频数的换算方法:(1)选定某一合适的组距为标准组距;(2)用标准组距除以各组组距,得到折合系数;(3)将各组的折合系数乘以各组的频数。第二十八页,共一百零六页,编辑于2023年,星期五

频数密度和标准组距频数计算表男青年按身高分组(厘米)频数组距频数密度折合系数(取标准组距4)标准组距频数148―156156―164164―168168―172172―176176―180180―188188―1963151925171281884444883/815/819/425/417/412/48/81/81/21/211111/21/21.57.519.025.017.012.04.00.5合计100——

——

————第二十九页,共一百零六页,编辑于2023年,星期五累计频数(F)向上累计——以变量数列首组的频数为始点,逐个累计各组的频数,展示小于该组上限的频数和。向下累计——以变量数列末组的频数为始点,逐个累计各组的频数,展示大于该组下限的频数和。第三十页,共一百零六页,编辑于2023年,星期五频数分布不但可以用统计表的形式表现,也可以用统计图的形式表现。用统计图表示频数分布,较之用统计表,要直观便捷得多。但缺点是不及统计表精确。统计图的种类很多,本节仅就与频数分布数列相衔接的统计图加以介绍。根据编制好的频数分布数列,可以绘制出相应的统计图,最常用的有频数分布直方图、折线图、曲线图以及累计频数分布曲线。具体方法是:先画直角坐标系,横轴代表分组或各组组限,纵轴代表各组频数或频率,然后再根据相应的分配数列作图。统计图第三十一页,共一百零六页,编辑于2023年,星期五条件下,很显然各矩形的面积与其高度成正比。因此,各矩形的面积同样可以用来表示各组的频数或频率,而且看起来更形象直观。如果取各矩形的总面积为1,各矩形的面积必定等于各组的相对频数。

直方图(Histograms)直方图是用矩形(或长条)的高度来表示数列各组的频数或频率。对于定类变量和定序变量的分组,矩形(或长条)的宽度是没有意义的,各矩形之间要留出一定的空隙;对于定距变量(和定比变量)的分组,矩形的宽度表示各组组距,各矩形之间一般不留空隙。在等距分组的第三十二页,共一百零六页,编辑于2023年,星期五其实,在频数分布图中,用面积来理解频数分布状况更合适。比如直方图,当处理异距分组时应该用矩形面积而不是用矩形高度来显示频数分布。下面是根据表3.15绘制出的两个直方图。左图用矩形高度来表示各组频数就会产生错觉。右图是按照标准组距频数作出来的,用矩形面积来表示各组频数就避免了不必要的错觉。以后当我们接触正态曲线等曲线后,将进一步体会到用面积来表示频数分布的好处。第三十三页,共一百零六页,编辑于2023年,星期五

折线图(Polygon)表示频数分布的另一种图形是频数多边形图,简称折线图。直接把直方图各矩形顶部的中点用直线连接起来,并把原来的矩形抹掉,就得到频数多边形图。

第三十四页,共一百零六页,编辑于2023年,星期五当变量数列中的组数愈加增多,变量值也非常多时,折线图会逐步过渡到平滑曲线。频数分布曲线图实质上是对应于连续变量的频数分布的函数关系图。

曲线图第三十五页,共一百零六页,编辑于2023年,星期五下表是诺贝尔获奖者的年龄分布表。(1)请根据数据制作直方图和折线图;(2)将折线图修匀为一条曲线图,并描述该曲线的特点。年龄获奖人数25岁以下25~3030~3535~4040~4545~5050岁以上15347068533728合计305第三十六页,共一百零六页,编辑于2023年,星期五常见曲线图类型●钟形曲线:“中间大,两头小”对称分布:正态分布非对称分布:偏态分布——右偏、左偏以横轴为渐近线,与横轴所围的面积为1,代表变量X全部可能取值的概率婚龄、学生身高——近似正态分布收入分配、资源配置——偏态分布第三十七页,共一百零六页,编辑于2023年,星期五第三十八页,共一百零六页,编辑于2023年,星期五●

U形曲线:中间小,两头大●J形曲线:正J分布,反J分布●逻辑斯蒂曲线:变量值分布的次数随变量值增大而增多或相反,但有上限。第三十九页,共一百零六页,编辑于2023年,星期五●累计频数分布曲线显然,累计频数分布曲线只有两种形状:或持续增长的或持续减少的。这分别取决于向上累计或向下累计。累计频数分布曲线一般都呈逻辑斯谛曲线形,其斜率最大的地方对应于频数最大的组,其水平的地方对应于空组。

第四十页,共一百零六页,编辑于2023年,星期五

洛仑兹曲线和基尼系数●洛仑兹(Lorenz)曲线乃反映社会收入分配平均程度的一种累计百分数曲线,其特点是在纵轴和横轴上都进行累计。(下凹程度愈大,收入分配愈不平均)

第四十一页,共一百零六页,编辑于2023年,星期五基尼系数的计算公式,可以根据定义,用求三角形和梯形面积的方法,很简单地推导出来,即●基尼系数

意大利经济学家基尼(Gini)根据洛仑兹曲线提出了判断收入分配平均程度的指标。合理界限0.2~0.3;警戒线0.4;红线0.6。(中国,2003,0.46)第四十二页,共一百零六页,编辑于2023年,星期五1984年我国农民家庭人口及收入构成累计

单位:%农民家庭收入按收入多少的人口序列在全部收入中所占百分比累积的人口百分比累积的收入百分比绝对平均绝对不平均实际情况最低的20%第二个20%第三个20%第四个20%第五个20%10.1214.0717.8221.9936.002040608010020406080100000010010.1224.1942.0164.00100.00

资料来源:《统计研究》1986年第1期。第四十三页,共一百零六页,编辑于2023年,星期五中国居民收入GINI系数

(1979-2007)第四十四页,共一百零六页,编辑于2023年,星期五第三节集中趋势测量法主要内容算术平均数中位数众数几何平均数和调和平均数第四十五页,共一百零六页,编辑于2023年,星期五统计分析首先要解决的问题,就是寻求一个简单数值以代表搜集所得的资料。平均指标就是表明同质总体在一定条件下某一数量标志所达到的一般水平。平均指标把总体各单位之间的差异加以抽象概括,其中个别标志值的偶然性被相互抵消,从而反映出总体分布的集中趋势。第四十六页,共一百零六页,编辑于2023年,星期五下面是一个小故事:一个人到某公司求职,经过调查,得出关于该公司工资的一些数据,如果是你,应该如何选择?第四十七页,共一百零六页,编辑于2023年,星期五挠头的数值公司员工的月薪如下:员工经理副经理职员A职员B职员C职员D职员E职员F职员G月薪(元)60004000170013001200110011001100500第四十八页,共一百零六页,编辑于2023年,星期五我们有三种方法选择集中趋势:(1)根据频数:哪个变量值出现次数越多,就选择哪个变量值,比如民主决策的表决机制。(2)根据居中:比如一个城镇居民的生活水平,居中的是小康家庭,那么就用小康家庭来代表该城镇的生活水平。(3)根据平均:用平均数来代表变量的平均水平。第四十九页,共一百零六页,编辑于2023年,星期五关于集中趋势的一个故事吉斯莫先生有一个小工厂,生产超级小玩意儿。

管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。工作人员由5个领工和10个工人组成。工厂经营得很顺利,现在需要一个新工人。现在吉斯莫先生正在接见萨姆,谈工作问题。第五十页,共一百零六页,编辑于2023年,星期五吉斯莫:我们这里报酬不错。平均薪金是每周300美元。你在学徒期间每周得75美元,不过很快就可以加工资。萨姆工作了几天之后,要求见厂长。萨姆;你欺骗我!我已经找其他工人核对过了,没有一个人的工资超过每周100元。平均工资怎么可能是一周300元呢?吉斯莫:啊,萨姆,不要激动。平均工资是300元。我要向你证明这一点。第五十一页,共一百零六页,编辑于2023年,星期五吉斯莫:这是我每周付出的酬金。我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。总共是每周6900元,付给23个人,对吧?萨姆:对,对,对!你是对的,平均工资是每周300元。可你还是蒙骗了我。吉斯莫;我不同意!你实在是不明白。我已经把工资列了个表,并告诉了你,工资的中位数是200元,可这不是平均工资,而是中等工资。第五十二页,共一百零六页,编辑于2023年,星期五萨姆:每周100元又是怎么回事呢?吉斯莫:那称为众数,是大多数人挣的工资。吉斯莫:老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。萨姆:好,现在我可懂了。我……我辞职!第五十三页,共一百零六页,编辑于2023年,星期五1.算术平均数(MEAN)

用总体标志总量除以总体单位数即得算术平均数(Arithematicmean)。

算术平均数是反映集中趋势最常用、最基本的平均指标,也被称为均值。它只适用于定距以上的变量。第五十四页,共一百零六页,编辑于2023年,星期五例:某小区350户家庭共有居民1190人。在这个例子中,家庭总数350户是总体单位数,居民总数1190人是该总体的标志总量。根据算术平均数的定义

户均人口==3.4(人)

第五十五页,共一百零六页,编辑于2023年,星期五

1.对于未分组资料

注意:对求和符号,此时流动脚标的变动范围是1,2,3,…,N,N是总体单位数。

[例]求74、85、69、9l、87、74、69这些数字的算术平均数。

[解]

==78.4

第五十六页,共一百零六页,编辑于2023年,星期五

2.对于分组资料

注意:对求和符号,此时流动脚标的变动范围是1,2,3…,n,n是组数,而不是总体单位数。很显然,算术平均数不仅受各变量值(X)大小的影响,而且受各组单位数(频数)的影响。由于对于总体的影响要由频数(f)大小所决定,所以f也被称为权数。值得注意的是,在统计计算中,权数不仅用来衡量总体中各标志值在总体中作用,同时反映了指标的结构,所以它有两种表现形式:绝对数(频数)和相对数(频率)。这样一来,在统计学中,凡对应于分组资料的计算式,都被称为加权式。第五十七页,共一百零六页,编辑于2023年,星期五

[例]求下表(单项数列)所示数据的算术平均数。人口数(X)户数(f)频率(P)23456785816106410.100.160.320.200.120.080.02合计501.00第五十八页,共一百零六页,编辑于2023年,星期五对于组距数列,要用每一组的组中值权充该组统一的变量值。

[例]求下表所示数据的的算术平均数间距频数(f)组中值(X)148―152152―156156―160160―164164―168168―172172―176176―180180―184184―188188―192192―19612510192517125301150154158162166170174178182186190194合计100

——第五十九页,共一百零六页,编辑于2023年,星期五3.算术平均数的性质各变量值与算术平均数的离差之和等于0。各变量值对算术平均数的平方和,小于它们对任何他数偏差的平方和算术平均数受抽样变动影响较小。分组资料如遇有开放组距时,不经特殊处理不能进行算术平均数的计算。受极端值影响较大。第六十页,共一百零六页,编辑于2023年,星期五2.中位数(Median)把总体单位某一数量标志的各个数值按大小顺序排列,位于正中处的变量值,即为中位数,用Md表示。Md可用于定序、定距、定比资料。第六十一页,共一百零六页,编辑于2023年,星期五1.对未分组资料

(1)、先把所有数据按大小顺序排列,如果总体单位数为奇数,则取第(N+1)/2位上的变量值为中位数;(2)、如果总体单位数为偶数。因为居中的数值不存在,按惯例,取第N/2位和第(N+1)/2位上的两个变量值的平均作为中位数。第六十二页,共一百零六页,编辑于2023年,星期五例求54,65,78,66,43这些数字的中位数。例、求54,65,78,66,43,38这些数字的中位数。你会吗?第六十三页,共一百零六页,编辑于2023年,星期五

2.对于分组资料(1)单项数列根据N/2在累计频数分布中找到中位数所在组,该组变量值就是Md

。中位数第六十四页,共一百零六页,编辑于2023年,星期五(2)组距数列

按中位数所在组的下限:

按中位数所在组的上限:

当根据组距数列求中位数时,要采用所谓的比例插值法:先根据N/2在累计频数分布中找到中位数所在组,然后假定该组中各变量值是均匀分布的,再用以下任何一种方法求出中位数(注意:此处用的是向上累计)。第六十五页,共一百零六页,编辑于2023年,星期五

[例]某年级学生身高如下,求中位数第六十六页,共一百零六页,编辑于2023年,星期五

[解]第一种方法

=168+×6

=171.12(厘米)请你用第二种方法来做一下第六十七页,共一百零六页,编辑于2023年,星期五3.中位数的性质(1)各变量值对中位数之差的绝对值总和,小于它们对任何其他数的绝对值总和。(2)中位数不受极端值的影响。(3)分组资料有不确定组距时,仍可求得中位数。(4)中位数受抽样变动的影响较算术平均数略大。第六十八页,共一百零六页,编辑于2023年,星期五

4.四分位数

中位数所有单位被等分为两部分,因而被称为二分位数。类似于求中位数,我们还可求出四分位数、十分位数、百分位数。将总体中的各单位分割成相等的四部分,则这三个分割的变量值就是四分位数。若以Q1、Q2、Q3分别代表第一、第二、第三四分位数。Q2

即中位数,Q1、Q3的算法分别是第六十九页,共一百零六页,编辑于2023年,星期五请从下表中指出第一四分位数和第三四分位数第七十页,共一百零六页,编辑于2023年,星期五求出下表中的第一四分位数和第三四分数第七十一页,共一百零六页,编辑于2023年,星期五3、众数(Mode)

众数是在一组资料中,出现次数(或频数)呈现出“峰”值的那些变量值,用Mo表示。

众数只与次数有关,可以用于定类、定序、定距、定比资料。第七十二页,共一百零六页,编辑于2023年,星期五

1.对于未分组资料

直接观察首先,将所有数据顺序排列;然后,只要观察到某些变量值(与相邻变量值相比较)出现的次数(或频数)呈现“峰”值,这些变量值就是众数。第七十三页,共一百零六页,编辑于2023年,星期五

2.对于分组资料

单项式:观察频数分布(或频率分布)

组距式:Lo为众数组下限;Δ1为众数组频数与前一组频数之差;Δ2为众数组频数与后一组频数之差;

ho为众数组组距。第七十四页,共一百零六页,编辑于2023年,星期五人口数(X)户数(f)频率(P)23456785816106410.100.160.320.200.120.080.02合计501.00求下表中的众数众数第七十五页,共一百零六页,编辑于2023年,星期五求下表中的众数第七十六页,共一百零六页,编辑于2023年,星期五

(1)众数仅受上下相邻两组频数大小的影响,不受极端值影响,对开口组仍可计算众数;

(2)受抽样变动影响大;

(3)众数不唯一确定。

(4)众数标示为其峰值所对应的变量值,能很容易区分出单峰、多峰。因而具有明显偏态集中趋势的频数分布,用众数最合适。3.众数的性质第七十七页,共一百零六页,编辑于2023年,星期五4、几何平均数、调和平均数(了解)

1.

几何平均数Mg

(geometricmean

N个变量值连乘积的N次方根。(不能有变量值为0)。适用于:(1)计算某种比率的平均数;(2)计算大致具有几何级数关系的一组数字的平均数,如经济指标的平均发展速度。

(1)简单几何平均数对数式:第七十八页,共一百零六页,编辑于2023年,星期五(2)加权几何平均数

对数式:

应该指出,用以计算几何平均数的各项数值必须大于0,否则就不能计算几何平均数或计算结果无实际意义。

第七十九页,共一百零六页,编辑于2023年,星期五

[例]求3,9,27,81,243这些数字的几何平均数。

[解]

(1)(2)第八十页,共一百零六页,编辑于2023年,星期五

2.调和平均数Mh

(harmonicmean)N个变量值倒数算术平均数的倒数,也称倒数平均数。适用于:掌握的情况是总体标志总量而缺少总体单位数的资料时。简单调和平均数加权调和平均数第八十一页,共一百零六页,编辑于2023年,星期五3.各种平均数的关系(1)当总体呈正态分布时:(2)当总体呈偏态分布时:中位数总在均数和众数之间正偏:负偏:(注:和合称位置平均数)(3)皮尔逊发现,在钟形分布的偏态不大显著时,、、三者大致构成一个比较固定的关系:(4)、和合称数值平均数第八十二页,共一百零六页,编辑于2023年,星期五第八十三页,共一百零六页,编辑于2023年,星期五第四节离散趋势测量法

主要内容:(1)变异指标;(2)全距和四分位差;(3)平均差、标准差和标准分;(4)绝对离势和相对离势;(5)偏度(及峰度)。

第八十四页,共一百零六页,编辑于2023年,星期五所谓离散趋势,是指数列中各变量值之间的差距和离散程度。离势小,平均数的代表性高;离势大,平均数代表性低。

例如有A、B、C、D四组学生各5人的成绩如下:

A组:60,60,60,60,60

B组:58,59,60,61,62

C组:40,50,60,70,80

D组:80,80,80,80,80

数据显示,平均数相同,离势可能不同;平均数不同,离势可能相同。第八十五页,共一百零六页,编辑于2023年,星期五变异指标如按数量关系来分有以下两类;凡用绝对数来表达的变异指标,统称绝对离势;凡用相对数来表达的变异指标,统称相对离势;主要有极差、平均差、四分位差、标准差等。主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。

变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。

第八十六页,共一百零六页,编辑于2023年,星期五1、全距与四分位差1.全距(Range)

R=Xmax–Xmin

[例]求74,84,69,91,87,74,69这些数字的全距。

[解]把数字按顺序重新排列:69,69,74,74,84,87,91,显然有

R=Xmax–Xmin

=91—69=22全距(R):最大值和最小值之差。也叫极差。全距越大,表示变动越大。第八十七页,共一百零六页,编辑于2023年,星期五运用上述方法计算左边数列的全距对分组资料,不能确知最大值和最小值,求全距:(1)用组值最大组的组中值减去最小组的组中值(2)用组值最大组的上限减去最小组的下限(3)用组值最大组的组中值减去最小组的下限;或最大组的上限减去最小组的组中值第八十八页,共一百零六页,编辑于2023年,星期五优点:缺点:计算简单、直观。(1)受极端值影响大;(2)没有量度中间各个单位间的差异性,数据利用率低,信息丧失严重;(3)受抽样变动影响大,大样本全距比小样本全距大。第八十九页,共一百零六页,编辑于2023年,星期五2.四分位差(Quartiledeviation)

第三四分位数和第一四分位数的半距。避免全距受极端值影响大的缺点。求下列两组成绩的四分位差:A:788082858987908679888481B:5568788899100989085838481请大家计算一下,看能否算对第九十页,共一百零六页,编辑于2023年,星期五2、平均差(Meanabsolutedeviation)

要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。平均差是离差绝对值的算术平均数。

1.对于未分组资料

2.对于分组资料

3.平均差的性质

在受抽样变动、极端值影响,处理不确定组距方面均同于算术平均数;不适于代数运算,其理论意义不易阐述。第九十一页,共一百零六页,编辑于2023年,星期五

[例1]试分别以算术平均数为基准,求85,69,69,74,87,91,74这些数字的平均差。

[例2]试以算术平均数为基准,求下表所示数据的平均差。

计算左边数列的平均差第九十二页,共一百零六页,编辑于2023年,星期五3、标准差(standarddeviation)

各变量值对其算术平均数的离差平方的算术平均数的平方根,均方差,又称用S表示。

即克服平均差带有绝对值的缺点,又保留其综合平均的优点。1.对于未分组资科

第九十三页,共一百零六页,编辑于2023年,星期五

求72、81、86、69、57这些数字的标准差。第九十四页,共一百零六页,编辑于2023年,星期五2.对于分组资料

计算左边数列的标准差第九十五页,共一百零六页,编辑于2023年,星期五

计算左边数列的标准差

[例]调查大一男生60人的身高情况如下表所示,求他们身高的标准差。第九十六页,共一百零六页,编辑于2023年,星期五

[解]因为是分组资料,计算标准差运用加权式,并参见下表第九十七页,共一百零六页,编辑于2023年,星期五

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论