




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五讲:单变量描述统计
集中趋势测量
&离散趋势测量1四、单变量的描述统计离散趋势分析和集中趋势分析知识点:
两个维度——七个统计量数2四、单变量的描述统计离散趋势分析和集中趋势分析学习要求1、集中趋势各测量法的计算方法;2、集中趋势各测量法的特点和应用;3、离散程度各测量法的计算方法;4、离散程度各测量法的特点与应用;
3四、单变量的描述统计离散趋势分析和集中趋势分析单变量描述统计在统计分析中,是否可以找出一个有代表性的数值来说明变量的分布,反映资料的集中或差异情况?集中趋势测量,就是以一个数值来代表变量的资料分布,反映的是变量值向中心值聚集的程度,也就是说以这一个数值(或称典型值)来估计或预测每一个研究对象的数值时发生的错误总数在理论上是最小的。离散趋势测量(Measuresofdispersion)就是用一个值表示数据之间的差异情况。离散趋势测量法和集中趋势测量法具有互补作用。在进行统计分析时,既要测量变量的集中趋势,也要测量离散趋势。
4四、单变量的描述统计离散趋势分析和集中趋势分析集中趋势测量/分析集中趋势测量:用某一个典型的变量值或特征值来代表全体变量的问题,这个典型的变量值或特征值就称作集中值或集中趋势。★众值(Mode)——定类层次★中位值(Median)——定序层次★均值(Mean)——定距层次5四、单变量的描述统计离散趋势分析和集中趋势分析一、众数(mode)1、出现频次最多的变量值;2、众数的不唯一性;3、主要应用于定类变量,当然也可以应用于定序和定距变量6四、单变量的描述统计离散趋势分析和集中趋势分析
众数的特点:不唯一性原始数据:4、5、7、8、19(无众值)原始数据:4、5、7、5、5、16(一个众值)原始数据:4、4、5、7、7、9(两个众值)7四、单变量的描述统计离散趋势分析和集中趋势分析例1:非连续取值8四、单变量的描述统计离散趋势分析和集中趋势分析例2分组数据收入(元)fCf↑Cf↓500-6991010550700-8996575540900-10991262114751100-12991583693391300-14991415101811500-16994055040总数5509四、单变量的描述统计离散趋势分析和集中趋势分析从分布来看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值及为众数。10四、单变量的描述统计离散趋势分析和集中趋势分析二、中位值(Median)1、把一组数据按顺序排列,处于中间位置的那个数值就是中位值。2、主要应用于定序变量,也可用于定距变量,但不可用于定类变量。50%50%Md11四、单变量的描述统计离散趋势分析和集中趋势分析(1)未分组数据求中位数:
Md位置=
(2)中位数=中间位置的值注意:先找位置,再找中位数将各个个案由低至高排列起来,居序列中央位置的个案值就是中位值。12四、单变量的描述统计离散趋势分析和集中趋势分析(1)、个案数为奇数【例1】:甲地的5户人家的人数为:2,4,3,6,8,求中位值。
解:Md的位置===3排序2,3,4,6,8中位值Md=413四、单变量的描述统计离散趋势分析和集中趋势分析(2)个案数为偶数【例2】:乙地的6户人家的人数为:2,4,3,6,8,5求中位值。解:Md的位置===3.5排序2,3,4,5,6,8Md==4.514四、单变量的描述统计离散趋势分析和集中趋势分析(3)频数分布表【例3】根据下表求中位值。解:Md位置==
=250.5
中位值Md=乙15四、单变量的描述统计离散趋势分析和集中趋势分析2、分组数据根据统计表中的累积百分比,找出含有50%的区间找出含有50%区间的上界值U,下界值L,上界累计百分数U%,下界累计百分数L%以及组距等信息根据线段对应成比例的原理,计算出累计百分比为50%的变量值16四、单变量的描述统计离散趋势分析和集中趋势分析L:中位数组的下限f:中位数组的频数w:中位数组的组距(U-L)cf:低于中位数组下限的累加次数n:全部个案数Md位置=n/2(上下各50%的位置)17四、单变量的描述统计离散趋势分析和集中趋势分析例:分组数据:首先将各组的次数累加起来求中位数的位置:Md位置=n/2=212/2=106第106个位置在25-35之间18四、单变量的描述统计离散趋势分析和集中趋势分析分组变量看作是一组连续的数值259435124?10610301219四、单变量的描述统计离散趋势分析和集中趋势分析【例4】:根据下表数据求中位值。解:Md位置=50;从累积频数cf栏找到中位数位置所在组为“300-400”引入公式:=35020四、单变量的描述统计离散趋势分析和集中趋势分析三、均值1、均值的定义:总体各单位取值之和除以总体单位数目。2、仅适用于定距变量,不适用于定类和定序;21四、单变量的描述统计离散趋势分析和集中趋势分析1、未分组数据
(1)简单原始资料求均值22四、单变量的描述统计离散趋势分析和集中趋势分析均值的计算——未分组数据【例5】某班10名学生年龄分别为20、21、19、19、20、20、21、22、18、20岁,求他们的平均年龄。解:根据平均数的计算公式有:23四、单变量的描述统计离散趋势分析和集中趋势分析(2)、加权平均数某个变项值重复出现多次,可以先统计每个值(x)的次数(f),再求次数与相应变量值的乘积(fx),利用各乘积之和求出均值。(f也称为权数,f/n称为权重)公式:24四、单变量的描述统计离散趋势分析和集中趋势分析未分组数据加权平均数【例6】调查某年120名学生的年龄,结果如下表,求平均年龄。解:根据公式得=18.9岁25四、单变量的描述统计离散趋势分析和集中趋势分析2、分组资料求均值:根据组中值求均值先求出组中值组中值=(上限+下限)/2计算组中值的和计算分组数据的均值组中值26四、单变量的描述统计离散趋势分析和集中趋势分析众值、中位数和均值的比较1注:▲表示该数据类型最适合用的测度值27四、单变量的描述统计离散趋势分析和集中趋势分析众数、中位数和平均值的比较众数是一组数据中出现次数最多的数值。但在社会调查中众数的代表性较小28四、单变量的描述统计离散趋势分析和集中趋势分析中位数和平均数的比较计算平均数时用到数据中所有的数值,而求中位数时只用到数值的相对位置,平均数比中位数利用了更多的有关数据的信息平均数容易受到极端值的影响,而中位数则不会受这种影响。当样本中数据值的分布是高度倾斜的,中位数一般比平均数更适合一些如100,200,400,500,600,均值为360,中位数为400100,200,400,500,1000,均值为440,中位数为40029四、单变量的描述统计离散趋势分析和集中趋势分析对随机抽样调查来说,平均数比中位数更稳定,它随样本的变化比较小平均数比中位数更容易进行算术运算。30四、单变量的描述统计离散趋势分析和集中趋势分析众数、中位数、均值比较2但两种情况不宜用均值:(1)分组数据的极端组没有组限。(2)个别数值非常特殊。31四、单变量的描述统计离散趋势分析和集中趋势分析32四、单变量的描述统计离散趋势分析和集中趋势分析练习:
求下表(单项数列)所示数据的算术平均数。人口数(X)户数(f)频率(P)23456785816106410.100.160.320.200.120.080.02合计501.0033四、单变量的描述统计离散趋势分析和集中趋势分析
求下表所示数据的的算术平均数间距频数(f)组中值(X)148―152152―156156―160160―164164―168168―172172―176176―180180―184184―188188―192192―19612510192517125301150154158162166170174178182186190194合计100——34四、单变量的描述统计离散趋势分析和集中趋势分析
求54,65,78,66,43这些数字的中位数。求54,65,78,66,43,38这些数字的中位数。35四、单变量的描述统计离散趋势分析和集中趋势分析
某年级学生身高如下,求中位数36四、单变量的描述统计离散趋势分析和集中趋势分析人口数(X)户数(f)频率(P)23456785816106410.100.160.320.200.120.080.02合计501.00求下表中的众数37四、单变量的描述统计离散趋势分析和集中趋势分析求下表中的众数38四、单变量的描述统计离散趋势分析和集中趋势分析
城镇自杀率的分组次数分布
自杀率
次数真实组限组中值向上累积次数3-5126-8359-118112-145215-173018-20721-23924-263合计22939四、单变量的描述统计离散趋势分析和集中趋势分析第五讲
单变量的描述统计(2)
离散趋势测量40四、单变量的描述统计离散趋势分析和集中趋势分析离散趋势测量(Measuresofdispersion)反映的是各变量值偏离其中心值的程度,是个案与个案之间的差异情况。这种测量法,与前面所讲的集中趋势测量法具有相互补充的作用。集中趋势求出的是一个最能代表变量所有资料的值,但是集中趋势值代表性的高低还要看各个个案之间的差异情况。41四、单变量的描述统计离散趋势分析和集中趋势分析举例:某校3个系各选5名同学参加智力竞赛,他们的成绩如下:中文系:78,79,80,81,82(=80)数学系:65,72,80,88,95(=80)英语系:35,78,89,98,100(=80)如果仅从集中趋势测量(平均分数)来看,这三个系的成绩都一致,不存在什么差别。但从直观上可看出,三个系选手之间的差距程度(离散程度)很不一样……???42四、单变量的描述统计离散趋势分析和集中趋势分析
异众比率/离异比率(Variationratio)——定类层次四分位差(Interquartilerange)——定序层次方差(Variance)
标准差(Standarddeviation)——定距层次43四、单变量的描述统计离散趋势分析和集中趋势分析一、异众比率(Variationratio)1、异众比率(简写Vr):指非众值在总数中所占的比率。表示以众数来预测一组数据时,所犯错误的大小.即Vr值越大,则众值的代表性就越小.Vr值越小,则众值的代表性就越大.2、计算公式::众值的频次44四、单变量的描述统计离散趋势分析和集中趋势分析异众比率(先找出众值.找到众值的频次分布)【例1】:根据表1中的数据,计算众值和异众比率。解:众值Mo=“核心家庭”异众比率45四、单变量的描述统计离散趋势分析和集中趋势分析例2:众数和异众比率的比较表2甲乙两校学生的父亲职业甲乙两校学生的父亲职业的众数都为“农民”甲校乙校众数的代表性中甲校小于乙校,甲校中有47.6%非农民,乙校只有38.5%.46四、单变量的描述统计离散趋势分析和集中趋势分析异众比率&众值异众比率是众值的补充。取值范围是[0,1]。不属于众数的个案所占的比例愈大,就表示众数的代表性愈小,以之作估计或预测时所犯的错误也就愈大。当Vr
=0,说明变量只有一个值,那就是众值;当Vr0,说明资料比较集中,众值的代表性比较高;当Vr1,说明资料比较分散,众值的代表性低。47四、单变量的描述统计离散趋势分析和集中趋势分析二、四分位差(Interquartilerange)
将数据由低至高排列,然后分为四等分(即每个等分包括25%的数据),第一个四分位置的值(Q1
)与第三个四分位置的值(Q3)的差异,就是四分位差(简写为Q)。Q1Q2Q3Q425%25%25%25%48四、单变量的描述统计离散趋势分析和集中趋势分析1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差4.反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性49四、单变量的描述统计离散趋势分析和集中趋势分析基本公式求位置,找出4分位对应的数值Q1=
Q3=四分位差Q=Q3-Q1。50四、单变量的描述统计离散趋势分析和集中趋势分析1、根据原始未分组资料求四分位差解:
Q1
的位置==75.25Q3的位置==225.75那么Q1
=不满意;Q3
=一般Q=Q3-Q1
=一般-不满意结论,有一半的家庭对住房评价在不满意到一般之间。表甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数
非常不满意不满意一般满意非常满意2410894443024132226270300合计300—【例3】求下表的四分位差51四、单变量的描述统计离散趋势分析和集中趋势分析例4:调查甲乙两村的家庭人数其中甲村有11户人家,每户人数为
2,2,3,4,6,9,10,10,11,13,15乙村有8户人家,每户人口数为
2,3,4,7,9,10,12,12则甲村中:Q1
位置=(n+1)/4=(11+1)/4=3,Q1=3Q3位置=3(n+1)/4=9,Q3=11
Q=Q3-Q1=11-3=8则乙村中:
Q1
位置=(n+1)/4=2.25,Q1=3+0.25(4-3)=3.25Q3位置=3(n+1)/4=6.75,Q3=10+0.75(12-10)=11.5
Q=Q3-Q1=11.5-3.25=8.25甲的离散程度低于乙村,以中位置估计甲乙两村的人口数时,在甲村犯的错误小于乙村52四、单变量的描述统计离散趋势分析和集中趋势分析2、根据分组资料求四分位差有四步:计算向上累加次数求出Q1
和Q3的位置
Q1=Q3=参考累加次数分布,决定Q1和Q3属于哪一组从所属组中,计算Q1位置和Q3位置的数值。53四、单变量的描述统计离散趋势分析和集中趋势分析公式如下:L1=Q1属组之真实下限L3=Q3属组之真实下限f1=Q1属组之次数f3=Q3属组之次数cf1=低于Q1属组之累计次数cf3=低于Q3属组之累计次数w1=Q1属组之组距w3=Q3属组之组距n=全部个案数目54四、单变量的描述统计离散趋势分析和集中趋势分析四分位差&中位数四分位差反映的是中位数的代表性差距越大,中位数的代表性越小,用中位数估计变量时所犯的错误越大;反之,中位数的代表性越大,用中位数作估计犯的错误越小。55四、单变量的描述统计离散趋势分析和集中趋势分析三、方差和标准差1. 离散程度的测度值之一2. 最常用的测度值3. 反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4681012X=8.356四、单变量的描述统计离散趋势分析和集中趋势分析三、方差与标准差所谓方差(Variance),观察值与其均值之差的平方和除以全部观察总数N。方差的平方根就是标准差(Standarddeviation),用或S57四、单变量的描述统计离散趋势分析和集中趋势分析表示以均值作代表值时引起的偏差或错误,也就是说用均值来估计或预测各个个案的数值,所犯的错误()平均是σ标准差是用得最多,也是最重要的离散量数的统计量;方差是统计学上的一个重要概念,在以后的统计方法学习过程中会进一步了解;只适用于定距层次的变量;58四、单变量的描述统计离散趋势分析和集中趋势分析总体方差和标准差未分组数据:未分组数据:分组数据:方差的计算公式标准差的计算公式59四、单变量的描述统计离散趋势分析和集中趋势分析样本方差和标准差
分组数据:未分组数据:分组数据:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!未分组数据60四、单变量的描述统计离散趋势分析和集中趋势分析样本方差的
自由度(degreeoffreedom)一组数据中可以自由取值的数据的个数当样本数据的个数为
n时,若样本均值x
确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x
=5
确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年中国佛教协会和中国佛学院招聘笔试真题
- 包仓库合同范本
- 保温棉合同范本
- 2024年清远市英德市市区学校选调教师考试真题
- 乡下老宅转让合同范本
- 包山正规合同范本
- 《三、应用设计模板》教学设计 -2024-2025学年初中信息技术人教版七年级上册
- 三层楼房施工合同范本
- Unit 8 Lesson 46 教学设计 - 2024-2025学年冀教版英语八年级下册
- 第2单元 单元备课说明2024-2025学年新教材七年级语文上册同步教学设计(统编版2024)河北专版
- 湖南省普通高中毕业生登记表模板
- 人教版七年级上册数学试卷全册
- 中职-中国历史教案
- 六年级小升初语文试卷 [六年级下册语文小升初试卷
- 计量泵的维护和修理知识培训讲义
- 危险化学品从业单位安全生产标准化宣贯
- 幼儿园中班开学第一课
- 招商人员薪酬及提成
- 物业保洁员培训专业课件
- 人教版小学六年级数学下册教材研说
- PPT办公使用技巧培训笔记(共52张)
评论
0/150
提交评论