数据的描述性分析_第1页
数据的描述性分析_第2页
数据的描述性分析_第3页
数据的描述性分析_第4页
数据的描述性分析_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据的描述性分析第1页,共67页,2023年,2月20日,星期五本章内容第一节集中趋势的描述第二节离散程度的描述第三节分布的偏态与峰度第2页,共67页,2023年,2月20日,星期五集中趋势集中趋势反映的是一组数据向某一中心值靠拢的倾向,在中心附近的数据数目较多,而远离中心的较少。对集中趋势进行描述就是寻找数据一般水平的中心值或代表值。第3页,共67页,2023年,2月20日,星期五第4页,共67页,2023年,2月20日,星期五1.数值平均数:是以统计数列的所有数据来计算的平均数.其特点是统计数列中任何一项数据的变动,都会在一定程度上影响数值平均数的计算结果.2.位置平均数:它不是对统计数列中所有数据进行计算所得的结果,而是根据数列中处于特殊位置上的个别单位或部分单位的标志值来确定的.第5页,共67页,2023年,2月20日,星期五数值平均数包括算术平均数、调和平均数和几何平均数.①.算术平均数(均值,ArithmeticMean)

总体均值常用或表示,样本均值常用表示,样本均值的计算公式:简单算术平均数:加权算术平均数:3.1.1数值平均数第6页,共67页,2023年,2月20日,星期五权数的意义和作用权数:各组次数(频数)的大小所对应的标志值对平均数的影响具有权衡轻重的作用.当各组的次数都相同时,即当时:

加权算术平均数就等于简单算术平均数. 第7页,共67页,2023年,2月20日,星期五例:计算某车间工人加工零件平均数(组距式数列)解:第8页,共67页,2023年,2月20日,星期五

关于计算结果的说明●根据原始数据和分组资料计算的结果一般不会完全相等,

根据分组数据只能得到近似结果.●只有各组数据在组内呈对称或均匀分布时,根据分组资料的计算结果才会与原始数据的计算结果一致.(1).各变量值与均值的离差之和等于零.(2).各变量值与均值的离差平方和最小.第9页,共67页,2023年,2月20日,星期五②.调和平均数(倒数平均数,HarmonicMean)调和平均数分为简单调和平均数和加权调和平均数.简单调和平均数标志值的倒数的算术平均数的倒数.第10页,共67页,2023年,2月20日,星期五(2)加权调和平均数

式中,m表示各单位或各组的标志值对应的标志总量.第11页,共67页,2023年,2月20日,星期五例.某蔬菜批发市场三种蔬菜日成交数据如下表,计算三种蔬菜该日的平均批发价格.第12页,共67页,2023年,2月20日,星期五③.几何平均数(GeometricMean)是另一种形式的平均数,是n个标志值乘积的n次方根.主要用于计算平均比率和平均速度.(1)简单几何平均数式中G表示几何平均数,表示各项标志值.可以看作均值的一种变形第13页,共67页,2023年,2月20日,星期五(2)加权几何平均数第14页,共67页,2023年,2月20日,星期五例3.1.1一位投资者持有一种股票,1997,1998,1999,2000年收益率分别为计算该投资者在这四年内的平均收益率.例3.1.2某企业四个车间流水作业生产某产品,一车间产品合格率99%,二车间为95%,三车间为92%,四车间为90%,计算该企业的平均产品合格率.第15页,共67页,2023年,2月20日,星期五练习:某管理局所属的15个企业,2000年按其生产某产品平均单位成本的高低分组资料如下,试计算平均单位成本.中国工商银行的某笔投资的年利率是按照复利计算的,25年利率分配(按时间数列):有一年是3%,有4年是4%,有8年是8%,有10年为10%,有2年为15%.求平均年利率.第16页,共67页,2023年,2月20日,星期五注:(1)(2)数值平均数主要适用于定量数据,而不适用于定性数据.(3)简单数值平均数适用于未分组的资料,加权数值平均数适用于分组的资料.第17页,共67页,2023年,2月20日,星期五①.众数(Mode)

一组数据中出现次数最多的变量值.

主要特点:

●不受极端值的影响.

●有的数据无众数或有多个众数.说明:如果所有数据出现的次数都一样,那么这组数据没有众数.3.1.2位置平均数第18页,共67页,2023年,2月20日,星期五众数主要用于分类数据,也可用于顺序数据和数值型数据,对于未分组数据和单项式分组数据,众数位置确定之后便找到了众数.适用范围第19页,共67页,2023年,2月20日,星期五第20页,共67页,2023年,2月20日,星期五例:分类数据的众数第21页,共67页,2023年,2月20日,星期五例:顺序数据的众数第22页,共67页,2023年,2月20日,星期五②.中位数(Median)中位数是一组数据按一定顺序排列后,处于中间位置上的变量第23页,共67页,2023年,2月20日,星期五第24页,共67页,2023年,2月20日,星期五第25页,共67页,2023年,2月20日,星期五负偏正偏注:(1)中位数总是介于众数和平均数之间.第26页,共67页,2023年,2月20日,星期五(2)皮尔逊经验法则分布在轻微偏斜的情况下,众数、中位数和算术平均数数量关系的经验公式为:第27页,共67页,2023年,2月20日,星期五众数、中位数、平均数的特点和应用众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用第28页,共67页,2023年,2月20日,星期五数值平均数与位置平均数的适用场合?第29页,共67页,2023年,2月20日,星期五60分以下260-70870-802280-901090分以上4案例1:甲班《统计学》考试情况如下表:第30页,共67页,2023年,2月20日,星期五案例2:乙班《统计学》考试情况如下表:60分以下260-703070-80880-90490分以上1第31页,共67页,2023年,2月20日,星期五案例3:丙班《统计学》考试情况如下表:60分以下260-70570-801280-902590分以上7第32页,共67页,2023年,2月20日,星期五问题1、计算甲、乙、丙三个班的平均成绩;该平均值是真实值还是近似值?如是近似值,什么情况下会是真实值?2、计算甲、乙、丙三个班的中位数、众数;3、如要选择从算术平均数、中位数和众数三个平均数中选择一个数来分别代表甲、乙、丙三个班的整体水平,请问你会选择哪个平均数?为什么?4、如要分别反映甲、乙、丙三个班的考试情况,你会选择用哪些指标来衡量?5、如要比较甲、乙、丙三个班的考试情况的优劣,你又会选择什么样的指标来衡量?6、甲乙丙三个班的考试成绩分别服从对称分布、左偏分布、右偏分布中的哪种分布?为什么?第33页,共67页,2023年,2月20日,星期五

先计算各组的累计次数,再按公式确定中位数的位置,并对照累计次数确定中位数。由组距数列确定中位数下限公式:第34页,共67页,2023年,2月20日,星期五为中位数组的下限;为总次数;为中位数组前一组的向上累计次数;为中位数组的次数;为中位数组的组距。第35页,共67页,2023年,2月20日,星期五组距式变量数列计算众数的公式:第36页,共67页,2023年,2月20日,星期五离散程度的描述●反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度.第37页,共67页,2023年,2月20日,星期五第38页,共67页,2023年,2月20日,星期五3.2.1离散程度的常用指标①异众比率式中,为变量值的总频数;为众数组的频数.异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差.第39页,共67页,2023年,2月20日,星期五②全距(极差)

极差(Range)也叫全距,是一组数据的最大值与最小值之差,即:

组距分组数据可用最高组上限-最低组下限计算.第40页,共67页,2023年,2月20日,星期五③四分位差四分位差(quartiledeviation)也称内距或四分间距(inter-quartilerange),是指第三四分位数和第一四分位数之差.四分位差的计算公式为:把所有数据由小到大排列并分成若干等份,处于分割点位置的数值就是分位数.第41页,共67页,2023年,2月20日,星期五把所有数据由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数.分位数可以反映数据分布的相对位置(而不单单是中心位置).常用的有四分位数、十分位数、百分位数.四分位数(Quartile):Q1,Q2,Q3;十分位数(Decile):D1,D2,...,D9;百分位数(Percentile):P1,P2,...,P99;第42页,共67页,2023年,2月20日,星期五四分位数的计算首先确定四分位数的位置,再找出对应位置的标志值即为四分位数.设样本容量为n,则如果各位置计算出来的结果恰好是整数,这时各位置上的标志值即为相应的四分位数;如果四分位数的位置不是整数,则四分位数为前后两个数的加权算术平均数.权数的大小取决于两个整数位置与四分位数位置距离的远近,距离越近,权数越大.在实际应用中,计算四分位数的方法并不统一(数据量大时这些方法差别不大),对于一组排序后的数据:第43页,共67页,2023年,2月20日,星期五

SPSS中四分位数的位置分别为

Excel中四分位数的位置分别为第44页,共67页,2023年,2月20日,星期五练习:已知9个家庭的人均月收入数据试求这组数据的第一和第三四分位数.四分位差反映了中间50%数据的离散程度,数值越小说明中间数据越集中.第45页,共67页,2023年,2月20日,星期五④平均差(Meandeviation)平均差也称平均绝对偏差,总体所有单位的标志值与其平均数的离差绝对值的算术平均数.通常用表示.未分组数据计算平均差的公式为:加权式(分组数据):平均差虽然能较好地区别出不同组数据的分散情况或程度,但它的缺点是绝对值不适合作进一步的数学分析.第46页,共67页,2023年,2月20日,星期五⑤标准差和方差(StandarddeviationandVariance)方差是一组数据中各数值与其算术平均数离差平方的平均数.标准差是方差中的平方根.第47页,共67页,2023年,2月20日,星期五

注:总体方差和样本方差的符号不同,计算公式也不一样.是反映定量数据离散程度的最常用的指标.第48页,共67页,2023年,2月20日,星期五例.在某地区抽取的120家企业按利润额进行分组,结果如表3.1所示.

表3.1某地区120家企业的利润额分组计算120家企业利润额的均值和标准差.第49页,共67页,2023年,2月20日,星期五第50页,共67页,2023年,2月20日,星期五⑥离散系数(Coefficientofvariation)离散系数也称变异系数,是各变异指标与其算术平均数的比值.例如,将极差与其平均数对比,得到极差系数;将标准差与其平均数对比,得到标准差系数.最常用的变异系数是标准差系数:标准差系数:标准差与其相应的均值之比,表示为百分数.第51页,共67页,2023年,2月20日,星期五特点:1、反映了相对于均值的相对离散程度;2、可用于比较计量单位不同的数据的离散程度;3、计量单位相同时,如果两组数据的均值相差悬殊,离散系数比标准差更有意义.第52页,共67页,2023年,2月20日,星期五例子.某管理局抽查了所属的8家企业,其产品销售数据如表3.2所示,试比较产品销售额和销售利润的离散程度.第53页,共67页,2023年,2月20日,星期五销售额销售利润结论:计算结果表明,说明产品销售额的离散程度小于销售利润的离散程度.第54页,共67页,2023年,2月20日,星期五3.2.2数据的标准化①定义标准化数值是变量值与其平均数的离差除以标准差后的值,也称为z分数或标准分数.设标准化数值为z,则有:

●对于来自不同均值和标准差的个体的数据,往往不能直接对比.这就需要将它们转化为同一规格、尺度的数据后再比较.

●标准分数是对某一个值在一组数据中相对位置的度量.第55页,共67页,2023年,2月20日,星期五例3.2.1

假定某班学生先后两次进行了难度不同的大学英语综合考试,第一次考试成绩的均值和标准差分别为80分和10分,而第二次考试成绩的均值和标准差分别为70分和7分.张三第一、二次考试的成绩分别为92分和80分,那么全班相比较而言,他哪一次考试的成绩更好呢?解:由于两次考试成绩的均值和标准差不同,每个学生两次考试的成绩不宜直接比较.利用标准分数进行对比,计算结果表明,第二次考试成绩更好些.第56页,共67页,2023年,2月20日,星期五②对称分布中的法则变量值落在范围以外的情况极为少见.因此通常将落在区间之外的数据称为离群点(或异常数据).第57页,共67页,2023年,2月20日,星期五分布形状的描述集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜程度以及分布的扁平程度等.偏态和峰度就是对这些分布特征的进一步描述.偏态和峰度是英国统计学家卡尔•皮尔逊首先提出的.第58页,共67页,2023年,2月20日,星期五3.3.1偏态(Skewness)及其测定如果次数分布是完全对称的,叫对称分布;如果次数分布不是完全对称的,就称为偏态分布.第59页,共67页,2023年,2月20日,星期五①所谓偏度,就是指次数分布的非对称程度,用偏态系数来表示.②计算公式式子中称为偏态系数.

偏态系数有多种计算方法,在Excel软件中通常采用以下公式:第60页,共67页,2023年,2月20日,星期五当时,左右完全对称,为正态分布;当时为正偏(或右偏);当时为负偏(或左偏).偏态系数的数值一般在0与±3之间,偏态系数越接近于0,分布的偏斜程度越小;偏态系数越接近于±3,分布的偏斜程度越大.第61页,共67页,2023年,2月20日,星期五3.3.2峰度(Kurtosis)及其测定①峰度是指变量的集中程度和次数分布曲线的陡峭(或平坦)的程度.在变量数列的分布特征中,常常以正态分布为标准,观察变量数列分布曲线顶峰的尖平程度,统计上称之为峰度.②计算公式式子中称为峰度系数.第62页,共67页,2023年,2月20日,星期五正态分布的峰度系数等于0,当时为尖峰分布,表示次数分布比正态分布更集中;当时为平峰分布,表示次数分布比正态分布更分散.第63页,共67页,2023年,2月20日,星期五数据的描述性分析讨论题1、任何平均数都

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论