




已阅读5页,还剩83页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章数据分布特征的度量,1,本章学习目标,1.领会数据分布的各种特征:集中趋势、离散趋势、偏斜程度和峰度。2.掌握数据分布特征各测定值的计算方法、特点及其应用场合。,2,海之滨每日营业收入的次数分配直方图,3,海之滨营业收入的次数分配图,4,夏季,春季,本章要点,5,集中趋势,众数中位数分位数平均数,6,众数(mode),一组数据中出现次数最多的变量值不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据,7,众数(不惟一性),8,无众数原始数据:10591268,一个众数原始数据:659855,多于一个众数原始数据:252828364242,分类数据的众数,9,解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值所调查的100人中,购买可口可乐的人数最多,为35人,占被调查总人数的35%,因此众数为“可口可乐”这一品牌,即Mo可口可乐,顺序数据的众数,10,解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo不满意,数值型数据的众数,由众数的定义可知,在单项数列的情形求众数,只需通过观察,找出频数最多的变量值,则该变量值即为众数。在组距数列的条件下,则要先确定众数所在组,然后按下面的近似公式计算。,11,数值型数据的众数,12,解:确定众数组。由于12001400组频数最多,故该组即为众数组。根据近似公式计算众数值。,集中趋势,众数中位数分位数平均数,13,中位数(median),按大小排序后处于中间位置上的值不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据,14,中位数(位置和数值的确定),15,位置确定,数值确定,顺序数据的中位数,16,解:中位数的位置为(300+1)/2150.5从累计频数看,中位数在“一般”这一组别中中位数为Me=一般,数值型数据的中位数,17,【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,中位数1080,数值型数据的中位数,18,【例】:10个家庭的人均月收入数据排序:66075078085096010801250150016302000位置:12345678910,数值型数据的中位数(分组数据),19,身高(cm),人数(人),解:确定中位数位次:确定中位数组:按人数向上累积(或向下累积)知,中位数在第三组。确定中位数:中位数组只有唯一的变量值170cm,故它就是所求的中位数。,数值型数据的中位数(组距数列),在组距数列的情况下,确定中位数组后,由于这时中位数组是一区间,可用下面的近似公式计算中位数:,20,数值型数据的中位数(分组数据),21,确定中位数位次。确定中位数组。从向上累积栏中,找出首个大于等于中位数位次60的组,该组即为中位数组,因此中位数组为12001400元。按近似公式计算中位数值。,集中趋势,众数中位数分位数平均数,22,四分位数(quartile),排序后处于25%和75%位置上的值不受极端值的影响主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,23,四分位数(位置的确定及计算),24,的位次=,的位次=,顺序数据的四分位数,25,解:Q1位置=(300)/4=75Q3位置=(3300)/4=225从累计频数看,Q1在“不满意”这一组别中;Q3在“一般”这一组别中四分位数为Q1=不满意Q3=一般,数值型数据的四分位数,26,【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,的位次=,的位次=,四分位数(位置的确定及计算),27,的位次=,先计算=n/4。若为整数,则取第个与第+1个数的平均值。若不是整数,则取小数进位为整数的那一个数值。,数值型数据的四分位数,28,【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,的位次=,的位次=,盒须图分析法,假设某公司经理想比较业务员小朱与小钟最近8个星期股票交易的手续费收入,看看哪一个表现较佳。已知两者的手续费如下:,29,两人的最小值、中位數、最大值、下四分位数、上四分位数,分别为多少?,小朱与小钟的业绩,小钟:最小值=30、中位数=80、最大值=270、下四分位数=64.5、上四分位数=101小朱:最小值=64、中位数=93、最大值=166、下四分位数=85、上四分位数=118,30,盒须图分析法(5数综合),四分位数(位置的确定及计算),32,的位次=,的位次=,第i个四分位数可按如下近似公式计算:,数值型数据的四分位数(分组数据),33,确定位次。确定组。从向上累积栏中,找出首个大于等于90的组,该组即为中位数组,因此为14001600元。按近似公式计算值。,集中趋势,众数中位数分位数平均数,34,数值型数据:平均数(简单平均数),35,设一组数据为:x1,x2,xn(总体数据xN),样本平均数,总体平均数,数值型数据:平均数(加权平均数),36,设各组的组中值为:x1,x2,xk相应的频数为:f1,f2,fk,样本加权平均,总体加权平均,加权平均数,37,加权平均数(权数对均值的影响),38,甲乙两组各有10名学生,考试成绩及其分布数据如下:甲组:考试成绩(x):020100人数分布(f):118乙组:考试成绩(x):020100人数分布(f):811,股票的报酬率,陈先生接到投资顾问公司业务员王先生的电话:”陈先生,去年我们亏损了50%,今年已经又赚回50%了”。”太好了!”陈先生这下可放下心中的大石头。可是当陈先生接到对账单一看,原来的100万元,现值只有75万元。“咦!不是说赚回50%了吗,怎么还是亏25万元?”这是怎么回事呢?,39,股票的报酬率,去年亏损50%,所以去年年底现值为今年赚回50%,因此今年年底现值为算术平均数,40,(万元),(万元),收益率=,收益率=,几何平均数(geometricmean),n个变量值乘积的n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为可看作是平均数的一种变形,41,几何平均数,42,【例】某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率,年平均增长率114.91%-1=14.91%,股票的报酬率,去年亏损50%,所以去年年底现值为今年赚回50%,因此今年年底现值为几何平均数:,43,(万元),(万元),收益率=,收益率=,众数、中位数和平均数的关系,44,众数、中位数、平均数的特点和应用,众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,45,数据类型与集中趋势测度值,46,本章要点,集中趋势离散趋势分类数据:异众比率顺序数据:极差與四分位差数值型数据:方差和标准差相对离散程度:离散系数,47,异众比率,对分类数据离散程度的测度非众数组的频数占总频数的比例计算公式为用于衡量众数的代表性,48,异众比率,49,解:在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好,本章要点,集中趋势离散趋势分类数据:异众比率顺序数据:极差與四分位差数值型数据:方差和标准差相对离散程度:离散系数,50,极差(range),一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布计算公式为,51,R=max(xi)-min(xi),极差(全距),52,全距相同但分散程度不同,四分位差(quartiledeviation),对顺序数据离散程度的测度也称为内距或四分间距上四分位数与下四分位数之差Qd=Q3Q1反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性,53,盒须图分析法(5数综合),四分位差,55,解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5。已知Q1=不满意=2Q3=一般=3四分位差为Qd=Q3-Q1=32=1,本章要点,集中趋势离散趋势分类数据:异众比率顺序数据:极差與四分位差数值型数据:方差和标准差相对离散程度:离散系数,56,平均差(meandeviation),各变量值与其平均数离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差,实际中应用较少计算公式为,57,未分组数据,组距分组数据,平均差,58,方差和标准差(varianceandstandarddeviation),数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差,记为2();根据样本数据计算的,称为样本方差或标准差,记为s2(s),59,总体方差和标准差,60,未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,样本方差和标准差,61,未分组数据,组距分组数据,未分组数据,组距分组据数,方差的计算公式,标准差的计算公式,注意:样本方差用自由度n-1去除!,自由度(degreeoffreedom),自由度是指附加给独立的观测值的约束或限制的个数从字面涵义来看,自由度是指一组数据中可以自由取值的个数,62,自由度(degreeoffreedom),样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值为什么样本方差的自由度是n-1呢?因为在计算离差平方和时,必须先求出样本均值x,而x则是附加给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差2时,它是2的无偏估计量,63,样本标准差,64,数据分布数量的估计(经验法则),65,Z值,若数据型态为钟形时,为了解观察值在数据中的位置,可计算Z值。样本值的Z值:母体值的Z值:,66,Z值,设A班学生的成绩平均为75分,标准偏差为10分,而A班同学甲的成绩为70分,则70分的Z值为:表示同学甲的成绩低于平均数0.5个标准偏差。,67,Z值,又如B班学生的平均成绩为65分,标准偏差为10,而B班学生乙的成绩为70分,则70分的Z值为:表示学生乙的成绩高于平均数0.5个标准偏差。,68,切比雪夫不等式(Chebyshevsinequality),适用任何分布形状的数据对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数,69,切比雪夫不等式(Chebyshevsinequality),对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内,70,切比雪夫不等式(Chebyshevsinequality),100個學生統計學平均成績為75分,標準差為5分:成績在7525=6585分的同學至少有75位成績在7535=6090分的同學至少有89位,71,本章要点,集中趋势离散趋势分类数据:异众比率顺序数据:极差與四分位差数值型数据:方差和标准差相对离散程度:离散系数,72,离散系数(coefficientofvariation),标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较计算公式为,73,离散系数,74,【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,离散系数,75,结论:计算结果表明,v10为右偏分布偏态系数0为左偏分布偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.51或-0.5-1之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低,80,峰度,81,峰度系数,峰度系数的计算公式:峰度的判别:按上面公式计算出来的峰度指标,可以用来判定分布的形态特征。,82,偏态系数和峰态系数(例题分析),83,偏态系数和峰态系数(例题分析),84,因,数值不是很大,说明分布略为右偏;,数值很小,说明比具有同方差的正态分布略为平坦。,用Excel计算描述统计量,MODE计算众数MEDIAN计算中位数QUARTILE计算四分位数AVERAGE计算平均数HARMEAN计算简单调和平均数GEOMEAN计算几何平均数AVEDEV计算平均差STDEV计算样本标准差STDEVP计算总体标准差SKEW计算偏态系数KURT计算峰态系数TRIMMEAN计算切
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国际合作项目实施协调措施
- 食品安全工程质量管理流程
- 2025年度风险管理总结及2025年工作计划
- 安全预警管理协议
- 餐饮服务人员技能提升培训措施
- 零售业销售团队劳动力计划
- 跨部门协作小组管理计划
- 股权质押协议范本下载
- 中小学2025年校园安全应急演练计划
- 自考00015英语二短文写作常见错误分析
- 2024水资源论证区域评估技术指南
- 土石方工程施工组织设计范文样本
- 文体中心项目策划方案
- 云南省普通高中学生综合素质评价-基本素质评价表
- 建筑工程制图复习题三及建筑工程制图与识图
- 中药饮片处方审核培训课件
- 2024年中国华电集团公司招聘笔试参考题库含答案解析
- 人物传记类文本阅读复习策略
- PVC检测报告(外发)
- 幼儿园大班音乐《建筑之歌》
- 阵发性睡眠性血红蛋白尿的护理
评论
0/150
提交评论