基础统计-第4章-数据分布特征的测度_第1页
基础统计-第4章-数据分布特征的测度_第2页
基础统计-第4章-数据分布特征的测度_第3页
基础统计-第4章-数据分布特征的测度_第4页
基础统计-第4章-数据分布特征的测度_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章数据分布特征的测度第一节集中趋势的测度第二节离散程度的测度第三节偏态与峰度的测度学习目标1.集中趋势各测度值的计算方法2.集中趋势不同测度值的特点和应用场合3.离散程度各测度值的计算方法4.离散程度不同测度值的特点和应用场合5.偏态与峰度测度方法6.用Excel计算描述统计量并进行分析数据分布的特征集中趋势(位置)离中趋势

(分散程度)偏态和峰度(形状)数据分布的特征和测度数据的特征和测度分布的形状集中趋势离散程度众数中位数均值离散系数方差和标准差峰度四分位差异众比率偏态第一节集中趋势的测度一.定类数据:众数二.定序数据:中位数和分位数三.定距和定比数据:均值四.众数、中位数和均值的比较集中趋势(Centraltendency)指一组数据向其中心值靠拢的倾向和程度。集中趋势测量法就是找出一个数值来代表变量的资料分布,即中心值或代表值,以反映资料的集结情况。可以根据这个代表值来估计或预测每个研究对象(即个案)的数值。不同类型的数据用不同的集中趋势测度值。低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据。定类数据:众数(概念要点)集中趋势的测度值之一;出现次数最多的变量值;对于定类变量,以众值作预测所犯的错误总数是最小的;不受极端值的影响;可能没有众数或有几个众数;主要用于定类数据,也可用于定序数据和数值型数据。众数(众数的不唯一性)无众数

原始数据:10591268一个众数

原始数据:65

9855多于一个众数

原始数据:252828

364242定类数据的众数(算例)表3-1某城市居民关注广告类型的频数分布

广告类型人数(人)比例频率(%)商品广告服务广告金融广告房地产广告招生招聘广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100【例】根据第三章表3-1中的数据,计算众数解:这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即

Mo=商品广告定序数据的众数(算例)【例】根据第三章表3-2中的数据,计算众数解:这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即

Mo=不满意表3-2甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)

非常不满意

不满意

一般

满意

非常满意24108934530836311510合计300100.0数值型分组数据的众数(要点及计算公式)1.众数的值与相邻两组频数的分布有关4.

该公式假定众数组的频数在众数组内均匀分布2.相邻两组的频数相等时,众数组的组中值即为众数Mo3.相邻两组的频数不相等时,众数采用下列近似公式计算MoMo数值型分组数据的众数

(算例)表3-5某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例4.1】根据第三章表3-5中的数据,计算50名工人日加工零件数的众数定序数据:中位数(概念要点)1.集中趋势的测度值之一;2.排序后处于中间位置上的值。Me50%50%不受极端值的影响;主要用于定序数据,也可用数值型数据,但不能用于定类数据;5.以中位值去估计定序变量的数值,所犯的错误总数是最小的。中位数(位置的确定)未分组数据:组距分组数据:未分组数据的中位数(计算公式)定序数据的中位数(算例)【例4.2】根据第三章表3-2中的数据,计算甲城市家庭对住房满意状况评价的中位数解:中位数的位置为:300/2=150从累计频数看,中位数的在“一般”这一组别中。因此

Me=一般表3-2甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—数值型未分组数据的中位数

(5个数据的算例)原始数据:

2422212620排序: 2021222426位置: 123 45中位数

22

数值型未分组数据的中位数

(6个数据的算例)原始数据:105 91268排序: 56891012位置: 123

4

56位置

N+126+123.5中位数

8+928.5

根据位置公式确定中位数所在的组采用下列近似公式计算:3.

该公式假定中位数组的频数在该组内均匀分布数值型分组数据的中位数

(要点及计算公式)数值型分组数据的中位数(算例)表3-5某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例4.3】根据第三章表3-5中的数据,计算50名工人日加工零件数的中位数四分位数(概念要点)1. 集中趋势的测度值之一2. 排序后处于25%和75%位置上的值3.不受极端值的影响4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据QLQMQU25%25%25%25%四分位数(位置的确定)未分组数据:组距分组数据:下四分位数(QL)位置=N+14上四分位数(QU)位置=3(N+1)4下四分位数(QL)位置=N4上四分位数(QL)位置=3N4定序数据的四分位数(算例)【例4.4】根据第三章表3-2中的数据,计算甲城市家庭对住房满意状况评价的四分位数解:

下四分位数(QL)的位置为:QL位置=(300)/4=75上四分位数(QL)的位置为:QU位置=(3×300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。因此

QL

=不满意

QU

=一般表3-2甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—数值型未分组数据的四分位数

(7个数据的算例)原始数据:

2321 3032 282526排序:21232526283032位置:1 23 4567N+1QL=237+1QL位置=4=4=2QU位置=3(N+1)43(7+1)4==6QU=30

数值型未分组数据的四分位数

(6个数据的算例)原始数据:

2321 30 282526排序:212325262830位置:1 2 3 4 56QL=21+0.75(23-21)=22.5QL位置=N+14=6+14=1.75QU位置=3(N+1)43(6+1)4==5.25QU=28+0.25(30-28)

=28.5

数值型分组数据的四分位数

(计算公式)上四分位数:

下四分位数:

数值型分组数据的四分位数(算例)QL位置=50/4=12.5QU位置=3×50/4=37.5表3-5某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例4.6】根据第三章表3-5中的数据,计算50名工人日加工零件数的四分位数定距和定比数据:均值(概念要点)集中趋势的测度值之一;最常用的测度值;一组数据的均衡点所在;易受极端值的影响;用于数值型数据,不能用于定类数据和定序数据;以均值估计数量型变量的资料,错误最小。均值(计算公式)设一组数据为:X1,X2,…,XN

简单均值的计算公式为设分组后的数据为:X1,X2,…,XK

相应的频数为:F1,F2,…,FK加权均值的计算公式为简单均值(算例)原始数据: 10 5 9 13 6 8加权均值(算例)表4-1某车间50名工人日加工零件均值计算表按零件数分组组中值(Xi)频数(Fi)XiFi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计—506160.0【例4.7】根据第三章表3-5中的数据,计算50名工人日加工零件数的均值加权均值(权数对均值的影响)

甲乙两组各有10名学生,他们的考试成绩及其分布数据如下

甲组:考试成绩(X): 020100

人数分布(F):118乙组:考试成绩(X): 020100

人数分布(F):811X甲0×1+20×1+100×8n

10i=1

Xi

82(分)X乙0×8+20×1+100×1n

10i=1

Xi

12(分)调和平均数(概念要点)1.集中趋势的测度值之一2.均值的另一种表现形式3.易受极端值的影响4.用于定比数据5.不能用于定类数据和定序数据6.计算公式为调和平均数(算例)表4-3某日三种蔬菜的批发成交数据蔬菜名称批发价格(元)

Xi成交额(元)XiFi成交量(公斤)Fi甲乙丙1.200.500.801800012500640015000250008000合计—3690048000【例4.8】某蔬菜批发市场三种蔬菜的日成交数据如表4-2,计算三种蔬菜该日的平均批发价格几何平均数(概念要点)1.集中趋势的测度值之一2.N个变量值乘积的N次方根3.适用于特殊的数据4.主要用于计算平均发展速度5.计算公式为6.可看作是均值的一种变形几何平均数(算例)

【例4.10】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。平均收益率=103.84%-1=3.84%众数、中位数和均值的关系对称分布

均值=中位数=众数左偏分布均值

中位数

众数右偏分布众数

中位数

均值数据类型与集中趋势测度值表4-4数据类型和所适用的集中趋势测度值数据类型定类数据定序数据定距数据定比数据适用的测度值※众数※中位数※均值※均值—四分位数众数调和平均数—众数中位数几何平均数——四分位数中位数———四分位数———众数第二节离散程度的测度一.定类数据:异众比率二.定序数据:四分位差三.定距和定比数据:方差及标准差四.相对离散程度:离散系数离中趋势数据分布的另一个重要特征;离中趋势或离散程度是对数据离散程度所作的描述;反映个案与个案之间的差异情况;它从另一个侧面说明了集中趋势测度值的代表程度;不同类型的数据有不同的离散程度测度值。定类数据:异众比率(概念要点)1.离散程度的测度值之一2.非众数组的频数占总频数的比率3.计算公式为

4.用于衡量众数的代表性异众比率(算例)表3-1某城市居民关注广告类型的频数分布

广告类型人数(人)频率(%)

商品广告服务广告金融广告房地产广告招生招聘广告其他广告112519161025

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论