第二章统计资料收集_第1页
第二章统计资料收集_第2页
第二章统计资料收集_第3页
第二章统计资料收集_第4页
第二章统计资料收集_第5页
已阅读5页,还剩114页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用统计学第二章

统计数据的收集、整理与描述第二章(一)

第一节数据的计量尺度与问卷设计

重点掌握一、不同类研究变量的测量方法二、调查问卷结构与设计方法一、数据的计量尺度数据定义:数据是用一定的方法所测得的量化反映客观事物属性的信息。收集反映客观事物属性信息(数据)的第一步工作就是确定测量方法。测量方法分类:依据客观事物属性不同特点,测量方法分为:列名尺度(定类尺度)顺序尺度(定序尺度)间隔尺度(定距尺度)比例尺度(定比尺度)1、列名尺度nominalscale(1)定义:按事物的某种属性对事物进行平行分类或分组。划分的各类别之间无大小或优劣之分,且次序可以改变。(2)适用:取值只能大体进行平行分类的品质型标志(变量)。(3)记录方式:变量名称:类别名罗列或用无意义数字表示。

例:性别:男/女性别:(1)男(2)女2、顺序尺度ordinalscale(1)定义:按事物的某种属性对事物进行分类或分组基础上,再将类别等级由大到小或由小到大排序。(2)适用:取值可以进行分类且各类别具有等级差异的品质型标志(变量)。(3)记录方式:品质变量名:类别名序号由大到小或由小到大排列。例:文化程度(1)文盲(2)小学(3)初中(4)高中以上3、间隔尺度intervalscale(1)定义:选定一个测量单位,对数值变量在分类排序基础上测量其间距(差距)。测量出的数值有加、减意义,无乘除意义。(2)适用:可用数值记录其值而无比率意义的数值型标志。(3)记录形式:数值变量名:________

例:语文成绩:________**表述语:甲(60分)比乙(30分)高30分4、比例尺度ratioscale(1)定义:选定一个测量单位,对数值型标志(变量)在测量间距基础上,测量其比率。(2)适用:可用数值记录其值且有比率意义的数值型变量。(3)记录形式:数值变量名:_______

例:家庭人口数:_______**表述语:甲家庭(6人)比乙家庭(3人)多3人,甲家庭人口与乙家庭人口之比为2:1综合例题分析:企业状况调查企业类型:(1)民营;(2)合资企业;(3)国有企业。企业文化环境:(1)优(2)良好(3)一般(4)较差(5)差工人平均工资:_______工人对企业管理的满意度:1—2—3—4—5—6—7—8—9—10

二、调查问卷设计

问卷结构:表头、表体和表外附加3部分。(一)表头:调查表名称。(二)表体:说明词和调查项目。1、说明词:包括问候语、调查目的说明、填表说明和问卷编号等。2、调查项目:分为品质型变量与数值变量。(三)表外附加:包括调查人签名、调查日期、被调查人合作程度等。实例练习

某家电企业想通过市场调查了解以下问题:(1)企业产品的知名度(2)产品的市场占有率(3)用户对产品质量的评价及满意程度

试设计一份调查问卷第二章(二)

第二节统计数据的来源

统计调查——社会经济类研究问题直接来源数据来源科学实验——自然科学类研究问题间接来源:图书、期刊、网络查询等本节主要讲授统计调查,重点掌握一、不同类统计调查方法适用的研究问题二、抽样调查的基本方法一、统计调查的类型(一)普查1、定义:对总体中所有单位都实施的调查。**人口普查、农业普查、库存物资清查。调查结果直接给出了总体的准确情况。2、适用的研究问题:国家或部门需要准确掌握国情、国力及资源状况时实施普查法。3、方法:确定标准调查时点后对该时点内的所有单位都实施调查。

(二)重点调查1、定义:在调查对象中选择若干个在总体中占绝大比重的单位进行的调查。例:(1)对全国2005年钢铁生产状况调查。调查鞍钢、上纲、武钢、太钢、宝钢五大钢铁生产巨头(2)陕西师范类院校生源状况调查。调查陕师大、咸阳师范学院、渭南师范等招生量大的院校2、适用的研究问题:调查目的只要求掌握总体的大体状况,而总体中明显存在若干能集中反映总体状况的单位。

(三)抽样调查1、定义:根据随机原则从调查总体中抽取一定数量的单位进行调查,然后由样本信息推断总体。例:中国西部地区成人受教育状况调查普查、重点调查是否适用?2、适用的研究问题:调查目的只要求掌握总体的大体状况,而在总体中不存在或不明显存在若干个能集中反映总体状况的单位。(四)典型调查1、定义:对调查对象进行全面分析基础上,有意识选择部分典型单位进行的调查。例:交通事故调查中,对某一重大事故的调查。2、适用的研究问题:对特殊事件或典型事例的分析。具体调查实例分析

1、2000年人口普查2、我国农村社会经济状况调查3、2008年1月南方地区受灾情况调查4、2008年1月28日秦岭218国道客车事故原因调查5、中国0-14岁儿童智力状况调查二、基本抽样方法(一)简单随机抽样法1、定义:对总体单位不进行分类或排序,完全按随机法抽样。2、适用研究问题:总体各单位特征差异较小,不存在类别差异。3、基本方法:(1)抽签法:用简单签条进行抽样,抽出的样本误较大。(2)随机数字表法:用“随机数字表”进行抽样,抽出的样本误较小。(3)计算机随机抽样法:在EXCEL软件中用RAND()函数抽样,抽出的样本误最小。**三种方法如何选择?课堂演示:随机数字表法**从50位同学中抽出10位同学进行身高测量第一步,给50位同学进行编号010203040506……50第二步,在随机数字表中随机确定一个查号起点第三步,从起点开始两两读取数字,与编号相同的同学被抽中↗474373860136614698637162……抽中:4743013646……

(二)分层抽样1、定义:按影响调查结果的某一标志对总体进行分层(类),在各层中进行随机抽样。2、适用研究问题:总体各类别中存在有较大的特征差异。3、方法:(1)按影响调查结果的某一标志对总体进行分层,或按空间方位进行分层。(2)确定总样本量n(3)确定各层的抽样数目n1

有两种分配方法:等额分配法——ni=n/k

等比例分配法——ni=Ni/N*n(4)按简单随机法在各层进行抽样。

n=Σni分层抽样方法实例分析***企业技术工人素质现状调查,要求总样本量为1500人1、按“企业类型”(国营、合资、民营)分为3类(层)2、确定各类的抽样数目n1

按等额分配法——ni=n/k=1500/3=500人

等比例分配法——ni=Ni/N*n??3、按简单随机法在三类企业中各抽500名技术工人进行调查

思考与讨论企业某产品全国市场销售状况调查,要求样本量为1000个销售点。按什么分层?如何抽样?(三)等距抽样法1、定义:对总体单位进行排序后,再每隔一定的间距进行抽取样本单位。2、适用研究问题:(1)总体各单位数值存在由大到小的顺序差异。如:工资调查(2)总体各单位的位置自然处于排序状态如:居民门牌号、企业自动生产线上的产品。3、方法(1)无关标志排队等距抽样法:指排队标志与调查内容无关。例:对身高调查时,按学号顺序过程:A、按无关标志对各单位进行排队;

B、计算抽样间距K=N/nN—总体单位数,n–样本数C、按间距K进行抽样(2)有关标志排队等距抽样:指排队标志与调查内容有关。(1)半距起点法:优点是较简单,但仅能抽到一个样本。

|——O——|——O——|——O——|——O——|——O——|——O——|

(2)对称等距抽样|—O———|———O—|—O———|———O—|—O———|———O—|等距抽样实例分析**某小区共有1500户居民,从中抽取300户进行家庭状况调查。第一步,确定以“居民门牌号”为排对标志第二步,计算抽样间距

K=N/n=1500/300=5(户)第三步,在第1间距内任意取1户为起点(如第3户)进行调查,再每隔5户调查1户(9、15、21……)。(四)整群抽样法1、定义:将总体按某指标分为若干部分(群),然后以“群”为单位进行抽样,对抽到“群”中的所有个体都进行调查。如:以“班”为单位的抽样调查2、适用研究问题:总体各单位自然成“群”。整群抽样实例分析***“秦巴山区示范区儿童MR患病状况调查”某乡共有6个自然村,0-14岁儿童人数分别为190、134、116、106、144、175。要求该乡抽取一半的村(3个村),共抽取430名儿童进行调查。**练习用抽签法或随机数字表法进行抽样上机实践操作2:

EXCEL软件介绍EXCEL软件抽样法作业1:用EXCEL软件从50个数字中随机抽取15个数字.第二章(三)

第三节数据统计汇总

指在分组基础上,对数据分布情况用表(频数分布表)或图(统计图)进行描述。本节重点掌握一、频数分布表的编制方法二、直方图制作方法一、频数分布表(一)定义:指在统计分组基础上,对附合各组特征的单位进行分类汇总,形成总体各单位在各组中的分布,又称分布数列。(二)一般形式:由三列组成

(三)类型1、单项数列(简单频数分布表):一个变量值就是一组。适用于:品质变量或离散型数值变量,数据类型较少时的数据

2、组距数列:按数值区间分组后形成的频数分布表。适用于:离散型数值变量,数据类型较多的数据;

连续型数值变量。

1、简单频数分布表员工对主管尽职情况的评定人数比例%①非常不尽职②不尽职③不置可否④尽职⑤非常尽职911.253037.501012.502531.2567.50总计80100表3-180名员工对部门主管尽职程度调查结果2、组距式频数分布表成绩组中值频数累积频数95~97.52290~92.52485~87.53780~82.551275~77.582070~72.5113165~67.594060~62.554555~57.544950~52.525145~47.5152合计5252表3-2某班52名学生数学成绩次数分布表组距式频数分布表相关概念组上限—每组最大值组下限—每组最小值组距=组上限-下限组中值=(组上限+下限)/2缺下限组组中值=上限-邻组组距/2

例:60以下缺上限组组中值=下限+邻组组距/2例:90以上组上限——每组最大值组下限——每组最小值组距——组上限-下限(四)频数分布表编制1、单项数列表编制用计算机自动完成SPSS——》analysis——》descriptivestatistic——》frequency

2、组距数列表编制

(1)确定组数A、经验法或行业约定法。例:对年龄的分组按人群特点分为婴幼儿(0-6岁)、少年儿童(7-17岁)中青年(18-59岁)、老年(60岁以上)。B、正态分布数据:斯特吉斯经验公式法(Sturges’rule)。K=1+3.322log10nK——组数n—数据个数(2)计算组距等距数列d=(数据极大值-数据极小值)/K(3)确定各组上、下限第一组:下限=总体数据极小值-组距/2

上限=总体数据极小值+组距/2

其它组顺延。(4)计算各组频数、频率、累积频数、累积频率、组中值频数、频率:按上限组不在内原则进行汇总。累积频数、累积频率:P24表2.10向下累积值意义——指达到本组上限以下的人数或比例。向上累积值意义——指达到本组下限以上的人数或比例。

组距数列表编制实例分析***50名工人,最少日加工零件数为107件,最多为139件,编制组距式频数分布表(1)计算组数:(2)计算组距d=(139-107)/7=5(3)确定第一组上、下限下限=107-5/2≌105上限=107+5/2≌110其它组顺延。

二、频数分布图在编制频数分布表的基础上,可以绘制频数分布图,使一组数据特征更加直观和概括,而且还可以对数据的分布情况和变动趋势作粗略的分析。绘制频数分布图可以用计算机程序,如EXCEL,也可以用专门的统计程序。1、频数分布直方图直方图(histogram)又称为等距直方图,是以矩形的面积表示连续性随机变量频数分布的图形。一般用纵轴表示数据的频数,用横轴表示数据的等距分组点,即各分组区间的上下限。直方图是统计学中常用而且又有特殊意义的一种统计图,有着重要的应用价值。例:根据52个学生的数学成绩所作直方图图3-152名学生数学成绩分布的频数直方图4550556065707580859095100还可以做成下面这种形式图3-252名学生数学成绩频数分布直方图2、频数分布多边图(折线图)频数分布多边形图(frequencypolygon)是一种表示连续性随机变量次数分布的线形图(折线图)。绘制方法:以各分组区间的组中值为横坐标,以各组的频数为纵坐标,描点;将各点以直线连接即构成多边图形。当N为无穷大时,形成光滑线,即得分布曲线。**P26图2.3正态、偏态分布(左、右偏的特点)

图3-352名学生数学成绩分布图人数图3-452名学生数学成绩分布图人数成绩利用频数分布多边图(折线图)还可以把几组资料放在一起进行比较。但需要注意的是,这时必须把数据的次数换算成百分比。图3-52组数据的次数分布图3、累积频数分布图根据累积频数,可以绘制累积频数分布图。累积频数分布曲线当数据的总数较多时,将累积频数分布图中的横坐标以每一分组区间的精确上限或精确下限表示,纵坐标以累积频数表示,则可绘制累积频数分布曲线,即累积曲线。图3-8累积频数分布曲线累积曲线可用于判断一组数据的大致分布形态。图3-9正态分布数据的累积曲线图3-10正偏态数据累积曲线图3-11负偏态数据累积曲线上机操作3某大学四年级80名学生的毕业成绩如下:

56837668809269816278578171705966667561488450938272704984696693747069567468855397615258507393527465816853549568729482696066859057677582554668478957677551836855501、用SPSS编制单项数列表2、编制一个组距式频数分布表,并用SPSS进行频数统计。第二章(四)

第四节统计图制作

数据显示包括了统计表与统计图两种主要形式,本节主要讲述图与表的配合使用及其制作。本节重点掌握:一、常用统计图及其适用的数据类型二、不同类统计图的计算机制作方法一、条形图(barcharts)1、图例:以各组代表值为X轴,以测量值为Y轴(柱状图);或以各组代表值为Y轴,以测量值为X轴(条形图);2、适用资料类型:(1)同一总体,不同测量指标值(标准分数)的比较;例:同班同学不同课程考试成绩比较。(2)不同总体,同质性测量指标值间的比较。例:不同班级同一门课程考试成绩的比较。

二、饼图(pie)1、图例:以各组数据值构成饼图各扇形面积,总面积之和为100%。

2、适用资料类型:(1)同一总体,不同部分所占比例的比较,用饼图;(2)不同总体,同质性部分所占比例的比较,用环形图。例:两个调查小组抽样学生所占比例的相互比较。

三、线图(line)1、图例:以时间段为X轴,以测量值为Y轴。2、适用资料类型:随时间变化的数据,发展趋势分析。

四、散点图(scatterplots)1、图例:以第一变量为X轴,第二变量为Y轴。2、适用资料类型:两个变量相关关系趋势分析。

上机实践操作4:统计图制作1、条形图制作。用P59第1题制作2、饼图制作用P61第6题数据制作。

第二章(五)

第五节数据分布集中趋势测量

*意义:指计算一组数据的一般水平或中心值。*常用指标:包括算术平均数、中位数、众数、加权平均数、调和平均数、几何平均数等等。本节重点掌握一、不同类数据集中趋势测量所使用的方法二、计算机常用集中趋势测量操作方法一、算术平均数算术平均数(arithmeticaverage

)一般简称为平均数(average)或均数、均值(mean)。一般用M,或者用表示。算术平均数是最常用平均指标1.算术平均数的计算公式原始数据计算公式(计算机编程公式)

(P322.3)Xi——每个样本单位的原始测量值n——样本量例:10位同学英语考试分数为89、90、67、80、75、89、99、88、45、68则平均成绩=(89+90+67+80+75+89+99+88+45+68)/10次数分布表计算公式(二手资料)(P322.4)Xi—每组的组中值f—每组的频数用于从网上或期刊上查询到的二手分组资料,无法得到原始数据的情况。表152名学生数学成绩平均数计算表成绩(1)Xif(2)f*Xi计算95-97.5219590-92.5218585-87.53262.580-82.55412.575-77.5862070-72.511797.565-67.59607.560-62.55312.555-57.5423050-52.5210545-47.5147.5合计523775.02、算术平均数的意义算术平均数是应用最普遍的一种平均指标。它是“真值”(truescore)的最佳估计值。真值是反映某种现象的真实水平的分数。由于测量过程中的各种偶然因素的影响,真值往往很难得到。在实际测量中,往往采用“多次测量,取平均数”的方法,用平均数去估计真值。3、算术平均数的优缺点

算术平均数具备一个良好的平均指标所应具备的一些特点:反应灵敏、有公式严密确定、简明易懂、适合代数运算等等。主要不足:容易受两极端数值的影响;一组数据中有模糊不清的数值时无法计算。4、计算和应用算术平均数的原则(1)同质性原则:算术平均数只能用于表示同类数据的集中趋势。(2)平均数与个体数值相结合的原则:在解释个体特征时,既要看平均数,也要结合个体的数据。(3)平均数与标准差、方差相结合原则:描述一组数据时既要分析其集中趋势,也要分析离散程度。(4)一般用于表示正态分布数据的集中趋势。二、中位数中位数(median)又称为中数,是按顺序排列的一组数据中位于中间位置的数。一般用Md或Mdn、Me表示。1、中位数的计算方法原始数据计算法(计算机编程公式)首先将一组数据按顺序排列

(5个数据的算例)原始数据:

2422212620排序: 2021222426位置:123 45中位数

22位置N+125+123

(6个数据的算例)原始数据:105 91268排序: 56891012位置: 123

456位置N+126+123.5中位数8+928.5次数分布表计算法(二手资料)由次数分布表计算中位数需要用到累积次数分布表。当表中数据的累积方向不同时,计算公式也不同。由最低组至最高组(向下)累积频数计算公式公式中:L为中位数所在组的下限

Sm-1为小于中位数所在组下限各组的累积频数

n为数据总和

fm为中位数所在组的频数

i为中位数组的组距中位数组:指由最低组向最高组累积,达到次数半值的组

(P312.2)表230名工人日加工零件中位数计算表组别f向下累积频数80~3390~710100~1323110~528120~230

合计30计算表示:30名工人中,中等水平工人日加工零件数约为104件表352名学生数学成绩中位数计算表成绩频数f累积频数计算95~25290~25085~34880~54575~84070~113265~92160~51255~4750~2345~11合计522.中位数的特点及应用中位数不受两端极端数据的影响。一般用于下列情况:(1)数值数据型数据的有极端数据时,即数据明显为偏态分布,极差较大(偏峰分布);(2)一组数据中有个别数据不确切、不清楚时;(3)用定序尺度测量的组距式数据,即资料属于等级性质时。例:家庭人月均收入:(1)200-400;(2)400-600;(3)600-800;(4)800以上计算:当地中等水平家庭的人均月收入水平

三.众数众数(mode)用Mo表示,有两种定义:理论众数是指与频数分布曲线最高点相对应的横坐标上的一点;粗略众数是一组数据中出现次数最多的那个数。众数也是一种平均指标,也可用来表示一组数据的集中趋势。1.众数的计算方法

(1)观察法寻找粗略众数未分组数据:出现次数最多的数即为众数。已分组(次数分布表)数据:频数最多那一组数据的组中值,即为众数。(2)用次数分布数据精确计算众数由最低组至最高组(向下)累积频数计算公式

d1Mo=L+————×i(P292.1)d1+d2公式中:L—众数组下限d1—众数组频数与其下限相邻一组频数之差d2-众数组频数与其上限相邻一组频数之差i—众数组组距众数组:指频数最大的组表430名工人日加工零件众数计算表组别f向下累积频数80~3390~710100~1323110~528120~230

合计30计算粗略法:Mo=105精确法:d1Mo=L+————×id1+d213-7=100+————————×10

(13-7)+(13-5)

=104.29表示:30名工人中,大多数工人日加工零件数约为104件.表652名学生数学成绩中位数计算表成绩频数f9529028538057587011659605554502451合计52粗略法:Mo=72.5精确法:d1Mo=L+————×id1+d211-9=70+————————×5

(11-9)+(11-8)

=72

(众数的不唯一性)无众数

原始数据:10591268一个众数

原始数据:6

598

55多于一个众数

原始数据:

25

282836

42422.众数的应用(1)数值型数据,数据明显为偏态分布,极差较小(尖峰分布);(2)社会经济现象中不宜用均值作为一般水平的现象。如:车辆调度、服装加工等

(3)用定序尺度测量的组距式数据例:家庭人月均收入:(1)200-400;(2)400-600;(3)600-800;4)800以上计算:当地大多数家庭的人月均收入水平

3众数、中位数和均值的关系及应用对称分布

均值=中位数=众数(负)左偏分布均值

中位数

众数(正)右偏分布众数

中位数

均值正态分布数据——一般选用均值作为平均指标,表示平均水平偏态分布数据——极差太大时,选用中位数作为平均指标,表示中等水平偏态分布数据——极差较小时,选用众数作为平均指标,表示大多数个体的水平综合练习:2004年,对某市500户居民家庭月收入抽样调查数据见下表。求:(1)本市居民家庭平均月收入(2)本市大多数居民家庭月收入(3)本市中等水平居民家庭月收入四、其它平均指标(了解)除了算术平均数、中位数和众数以外,在应用中还有一些其它平均指标。这些统计指标可以从其它角度描述一组数据的集中趋势。1.加权平均数加权平均数是不同比重数据(或平均数)的平均数,一般用表示。计算公式:

***用于计算某单位由不同权重的项目分组成的总项目得分。

**用于计算由不同调查小组调查的平均成绩计算总体平均成绩。

2.几何平均数几何平均数(geometricmean)是n个数值连乘积的n次方根,用或表示。计算公式为用于社会现象中求平均发展速度P35(2.6)几何平均数的变式两边取对数,得注意:几何平均数计算的是平均的变化情况,如果要计算平均增长率,需要从几何平均数中减去基数1。第二章(五)

第五节数据离散趋势测量

*意义:离散趋势测量是描述一组数据中,每个观察值偏离平均值的状况,即数据的变异性。*常用指标:包括极差、方差、标准差、离散系数等。特殊指标有百分位差、四分位差、平均差等本节重点掌握不同类数据离散趋势测量所使用的方法计算机常用离散趋势测量操作方法一、极差(Rang)是一组数据中最大值与最小值之差,又称全距。用R表示。(一)计算原始数据:

R=max(xi)-min(xi)(P392.8)频数分布数据:最高组与最低组组中值之差,或者最高组上限与最低组下限之差。(二)适用资料用于表示偏态分布数据的离散状况。

二、方差和标准差

方差(Variance):是指离差平方的算术平均数,即一组数据中每个数据与该组平均数之差,平方之,再求和,再除以数据的个数,总体用σ2

表示,样本用S2

表示。

离均差平方和样本总数标准差(Standarddeviation

):是指离差平方和平均后的方根。即方差的平方根。用总体σ表示,样本用s(或SD)表示。

意义:标准差的值越大,表明这组数据的离散程度越大。(一)总体方差和标准差计算方法原始数据计算法频数分布表计算法注意比较(二)样本方差和标准差计算方法原始数据计算法(P402.102.12)频数分布表计算法(P412.112.13)注意比较分数组中值xffXfX245--47.5147.5147.521σ2=148506.3/37-(2290/37)2=183.078σ=13.53R=87.5-47.5=4050--52.5252.5252.52255--57.5057.5057.52060--62.5262.5262.52270--67.5367.5367.52375--77.5877.5877.52380--82.5782.5782.52785--87.5787.5787.527总和372290.0148506.3例:全班37个学生数学分数标准差、极差的计算表(三)标准差的特点及适用资料特点:(1)有单位,与测量指标单位相同。(2)有正、负,+说明高于均值,-表示低于均值适用资料:用于表示正态分布数据的离散程度。

三、离散系数(Coefficientofvariation)离散系数:是指标准差与算术平均数的百分比。它是没有单位的相对数。计算公式:或离散系数越大,表明离散程度越大。离散系数的用途1、比较不同单位资料的离散程度例:对全班同学体重测量得到的标准差为18kg,身高测量得到的标准差为0.18m,对二者的离散程度进行比较。能否直接比较?

2、对不同总体同一测量指标的离散程度进行比较。例:对全班同学体重测量,得到女生的标准差为6kg,男生测量得到的标准差为18kg,对二者的离散程度进行比较。能否直接比较?

四其它离散程度测量指标(了解)bi×f×NpLpp+=100Fb(一)百分位差含义:用两个百分位数之间的距离表示差异量。百分位数的计算:Pp所求的第P个百分位数Lb百分位数所在组的精确下限

f百分位数所在组的次数Fb小于Lb的各组的次数N总次数i组距例:某乡农户家庭收入调查结果

收入户数向下累计5000以下6000-70007000-80008000-90009000-1000010000以上合计15030060045020010018001504501050150017001800求P25P25的位置:N*25%=1800*25%=450第2组P25=6000+(450-150)*1000/300=7000元意义:表示当地村民中有25%的农户家庭收入在7000元以下(二)四分位差为了避免全距受两极端数值影响的缺点,则用按一定顺序排列的一组数据中间部位50%个频数距离的一半作为差异量指标,即四分位距。用Q表示。Q3:第三个四分位数Q1:第一个四分位数213QQQ-=四分差计算方法1(未分组资料)213QQQ-=Q1的位置:(N+1)/4Q3的位置:3(N+1)/4例:10名同学社会学考试成绩为

55、60、70、72、75、80、83、88、90、92求:四分位差

Q1的位置:(10+1)/4=2.75Q3的位置:3(10+1)/4=8.25Q1=X2+0.75(X3-X2)=60+0.75(70-60)=67.5Q3=X8+0.25(X9-X8)=88+0.25(90-88)=88.5Q=(88.5-67.5)/2=10.5分

四分差计算方法2:分组资料213QQQ-=1)4(xxQxQxfiFNLQ-+=例:某乡家户家庭收入调查结果

收入户数向下累计5000以下6000-70007000-80008000-90009000-1000010000以上合计15030060045020010018001504501050150017001800求四分位差Q1的位置:N/4=1800/4=450第2组Q3的位置:3N/4=1350第4组Q1=6000+(450-150)/300*1000=7000Q3=8000+(1350-1050)/450*1000=8666.7Q=(Q3-Q1)/2=833.35元(三)平均差是次数分布中所有原始数据与平均数绝对离差的平均值。

AD=nXX||-SnX|Xc|-Sf

AD=平均差的优点:表示每一个数据与平均数的偏离程度,较好的反映的数据分散程度。平均差的缺点:取绝对值,不利于进一步的计算,所以使用较少。

五、标准差的应用

(一)计算标准

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论