统计学综合培训资料_第1页
统计学综合培训资料_第2页
统计学综合培训资料_第3页
统计学综合培训资料_第4页
统计学综合培训资料_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学综合培训资料

Session2THEME:DescriptiveStatistics(一)数据的整理与显示2.1数据的预处理数据的审核与筛选数据的排序原始数据的完整性、准确性二手数据的适用性和及时性2.2品质数据的整理与显示(一)数据的整理与显示定类数据的整理与显示频数与频数分布1)频数:也称次数,是落在各类别中的数据个数;频数分布:用数据概括表的形式来列示若干个互不重叠分组中每组数据出现的次数2.2品质数据的整理与显示例:由购买50台计算机的样本数据得到的频数分布表:公司发生频数相对频数百分比频数苹果130.3626康柏120.3424盖特威-200050.1010IBM90.1818帕科特.贝尔110.2222合计501.001002.2品质数据的整理与显示2)比例(Proportion):总体中各个部分的数量占总体数量的比重,通常用于反映总体的构成或结构。又可以称为相对频数。N1N2N3N4………….,Nk比例:Ni/N。比例的性质含义。2.2品质数据的整理与显示3)百分比频数(Precentage):将比例乘以100,用%表示。4)比率(Ratio):各不同类别的数量的比值。比例与比率的区别。2.2品质数据的整理与显示公司发生频数相对频数百分比频数苹果130.3626康柏120.3424盖特威-200050.1010IBM90.1818帕科特.贝尔110.2222合计501.001002.2品质数据的整理与显示定类数据的图示1)条形图(Barchart)、柱形图2.2品质数据的整理与显示2)圆饼图(Piechart)2.2品质数据的整理与显示定类数据整理与显示知识点:条形图和圆饼图是描述频数或百分比分布已经经过汇总的定类数据的图形方法。组别同数据种类关系一致频数总和与数据集中项目总数相同:相对频数总和为1.00;百分比频数总和为100。条形图、柱形图的长度或高度代表频数,其宽度都相同。2.2品质数据的整理与显示2.定序数据的整理与显示累积频数和累积频率1)累积频数(Cumulativefrequencies):就是将各类别的频数逐级累加。向上累加:从类别顺序开始的一方向最后一方累加频数;向下累加:从类别顺序的最后一方向开始一方累加频数。2.2品质数据的整理与显示回答类别甲城市户数(户)百分比(%)向上累积向下累积户数百分比户数百分比非常不满意不满意一般满意非常满意24108934530836311510241322252703008447590100300276168753010092562510合计300100

甲城市家庭对住房状况的评价2.2品质数据的整理与显示2)累积频率或百分比(Cumulativepercentages):就是将各类别的百分比逐级累加起来。分向上和向下累积两种方法。定序数据的图示1)累积频数分布图。2)环形图。2.3数量数据的整理与显示1.数据的分组:将数据按某种标准化分成不同的组。再进行频数统计,形成频数分布表。单变量值分组:把每一个变量值作为一组。例:某企业10名工人日加工零件数(个)如下:117 122 107 117 130 115 122 114 118 122排序:107 114 115 117 117 118 122 122 122 130(一)频数分布2.3数量数据的整理与显示将上述数据采用单变量分组如下表:零件数(个) 频数(人) 零件数(个) 频数(人) 107 1114 1115 1117 2 118 1122 3130 1只适用于离散变量且变量值较少的情况。2.3数量数据的整理与显示组距分组:将全部变量值依次划分若干区间,并将这一区间的变量值作为一组。步骤如下:1)确定互不重叠分组的个数。2)确定每组的组距3)确定组限建议分组数目:5-20个。2.3数量数据的整理与显示例:年终审计时间用时(天)14 19 18 15 15 18 17 20 2722 23 22 21 33 28 14 18 16 13第一步:确定组数根据数据集大小确定。Sturgesdes的经验公式本例中N=20,可以取组数为5。2.3数量数据的整理与显示第二步:组距的确定。组距(Classwidth)是一个组上限与下限的差。近似组距=(数据最大值—数据最小值)/组数组限:下限——确定分配给该组可能的最小数据值;上限——确定分配给该组可能的最大数据值。2.3数量数据的整理与显示在本例中,每组的组距近似为:(33—12)/5=4.2采用5作为组宽因此,分组为:10-14,15-19,20-24,25-29,30-342.3数量数据的整理与显示分组中的其他问题:分组的不重不漏原则上组限不在内开口组等距分组和不等距分组频数密度=频数/组距组中值=(下限值+上限值)/2(均匀分布2.3数量数据的整理与显示审计时间数据频数分布审计时间(天) 频数10-14 415-19 820-24 525-29 229-34 1合计 202.3数量数据的整理与显示(二)相对频数分布和百分比频数分布每组相对频数=每组的频数/nn是数据的个数每组的百分比频数=相对频数*100审计时间(天)相对频数百分比频数10-14 0.20 2015-19 0.40 4020-24 0.25 2525-29 0.10 1030-34 0.05 5合计 1.00 1002.3数量数据的整理与显示点图直方图(注意区分直方图与条形图的区别)折线图累积分布2.3数量数据的整理与显示051015202530点图:横轴表示数据的值域,数据值打点表示2.3数量数据的整理与显示0 10 2030400.50.40.30.20.1注意:区分条形图与直方图2.3数量数据的整理与显示累积频数分布表格显示小于或等于每组上限的数值次数。2.4探索性数据的整理与显示探索性数据分析技术由简单运算和容易绘制的图形组成。常用技术——茎叶图例:678910118 92 3 3 5 6 60 1 1 2 3 4 5 61 2 2 2 4 5 5 60 0 2 4 6 612.4探索性数据的整理与显示交叉(分组)列表:一种同时概括两个变量数据的表格方法,将两个或两个以上具有有限类目数和确定值的变量按一定顺序对应排列在一张表中。分析手段:常常应用行、列的边际分布。2.5交叉分组列表和散点图300家饭店质量等级和餐价交叉列表分组表质量等级餐价/美元总计10-1920-2930-3940-49好42402084非常好3460466150极好214282266总计7811876283002.5交叉分组列表和散点图交叉分组列表的优点:提供了变量之间的关系广泛用于调查两个变量之间的问题交叉列表是统计调查报告最常见的形式之一。2.5交叉分组列表和散点图散点图:

1 2 502 5 573 1 414 3 545 4 546 1 387 5 638 3 48商店广告次数与销售额资料广告次数销售额2.5交叉分组列表和散点图散点图的类型练习

PMP考试要求在4小时内回答200个问题。现在将其中20人正确的答题数列在下表,绘制茎叶图并评估结果。

P61,36;P62,38;41。123 100 68 80 100 123 89 90100 132 116 117 120 115 87 96102Session2THEME:DescriptiveStatistics(一)数据的数值描述方法主要内容:集中趋势的测度离中趋势的测度探索性数据分析双变量相关关系测度分布集中趋势的测度值反映的是数据一般水平的代表值,或者是数据分布的中心值。从不同的角度考虑,集中趋势的测度值有多个,主要有:众数(mode)中位数(median)分位数(Quartile)均值(mean)集中趋势的测度集中趋势的测度众数(M0):出现频率最高的一个数据值例:当前手机市场分额:诺基亚摩托罗拉三星TCL波导

20.235.716.810.49.6单项式变量数列:找出出现次数最多的标志值就是众数

组距式变量数列:首先确定众数组,一般最大频数对应组就是众数组。其次求具体的众数值,通常用下面的近似公式计算:(3、1)式中表示众数,L表示众数所在组的下组限,表示众数组与前一组次数之差,表示众数组次数与后一组次数之差,i表示众数组的组距。众数是一种位置代表值。例如;在农贸市场上某种商品的价格常以众数值为代表。鞋子,帽子等物品的尺码。集中趋势的测度中位数:一组数据从小到大排序后,处于中间位置上的数据值,用Me表示。如果数据是奇数,中位数处于正中心的一项数据值;如果数据是偶数,中位数是正中心两项的平均值;计算公式:特点:应用场合。数据是已分组的资料此时原始数值已被隐去,不能直接对其排队求其准确的中位数数值,可用以下的近似公式计算:(3、2)式中表示中位数所在位置,L表示中位数所在组的下组限,表示中位数所在组以前各组的累积次数,表示中位数所在组的次数,i表示中位数所在组的组距。中位数有这样一个性质,就是数据值与中位数之差的绝对值最小,即表明数据值与中位数的距离最短,在工程设计中有应用价值。分位数中位数是将统计分布从中间分成相等的两部分,与中位数性质相似的还有四分位数(quartiles)、十分位数(decile)、和百分位数(percentile)。显然,四分位数就是将数据分布四等分的三个数值,其中中间的四分位数就是中位数。十分位数和百分位数分别是将数据分布是等分和一百等分的数值。以分位值作集中趋势分析,在西方统计学中讨论和运用较多,在中国较少用到。均值(mean)主要指算术平均数,是数据集中趋势的最主要测度值。任何统计推断和分析都离不开均值。从统计思想看,它反映了一组数据的中心点或代表值,是数据误差互相抵消后,客观事物必然性数量特征的一种反映。从数学公式看,均值有一些非常重要的性质:

1数据观察值与均值的离差之和为零,即2数据观察值与均值的离差平方和最小,3均值是统计分布的均衡点,不论统计分布是对称分布还是偏态分布,只有在均值点上才能支撑这一分布,使其保持平衡,这一均衡点在物理上称为重心。算术平均数它是最常用的集中趋势描述指标,其原因有二:一是因为它的计算方法,与许多客观现象中的个别现象与总体现象之间存在的数量关系相符合;二是算术平均值作为一种变量值的集中值,不仅考虑到变量值的次数,而且考虑到变量值的大小。变量数列中任何次数和变量值大小的变化都会引起算术平均值的改变。因此它是一个最灵敏的指标,也是对资料所提供信息运用最充分的指标。算术平均数的计算通式:由于所掌握资料条件不同,算术平均值有两种具体计算形式:简单算术平均值和加权算术平均值。简单算术平均数将被研究标志的各个数值相加,除以具有这个标志的单位数所得之商,就可求出简单算术平均数。即简单算术平均值的特点是每一变量值出现的次数都等于1。

加权算术平均数当变量数列各组次数不等时,计算算术平均值要用加权平均法。这里“权”,是指各组的次数或各组次数占总次数的比重。计算公式:

x:标志的个别数值

n:个别数值的项数f:各组次数各组次数占总次数比重实例(单项数列)有三个乡镇企业的工人数及每一企业的月平均工资资料,如何计算所有这些企业共同的月平均工资?表:1999年某地区三个乡镇企业工人工资企业名称工人数(人)月平均工资(元/人)工资总额(元)(甲)fxxf甲1500620310000甲2600625375000甲3900635571500合计2000628.71256500所有这三个企业的平均工资为:将计算出来的平均工资乘上工人实际人数,即可得到所有工人的全部实际工资总额。628.7元/人*2000人=1257400元实例(组距数列)表:某企业1999年工人按工资额分配情况月工资(元)各组平均工资(元/人)工人数(人)工资总额甲xfxf(元)600以下5504022000600-70065010065000700-800750200150000800-900850400340000900-10009504504275001000-120011002502750001200以计--/人调和平均数当算术平均数计算公式中的分母项“总体单位数”未知时,算术平均值无法直接算得,这时要用调和平均法计算,但当各变量值对平均数所起的作用不同时,计算式为:若设xf=M则:调和平均数各组变量值各组变量值重复出现的次数此计算式从形式上看,是以各变量值的倒数来计算的,故也称倒数平均数。例如有某采购站收购某种药材的资料:见表等级单价(元/斤)收购额(元)收购量(斤)符号xxf

一级1.22420二极1.03030三级0.7710合计---6160

已知资料计算栏(元/斤)简单调和平均数在所有权数相同或等于1时,按简单调和平均数计算。如将前式中的M(相同的权数)移到的前面,并将分数式化简,可得如下公式:n;个别标志值项数假设前表中,每种药材等级的收购额均为24元的话,这时求该药材平均价格的计算公式,就可采用简单调和平均法。即元/斤几何平均数(GeometricMean)这是与算术平均数不同的另一种平均数。在计算社会经济问题的平均发展速度等方面有很重要的应用。简单几何平均数:如果掌握的资料未分组,应采用简单几何平均法。其计算公式:各项变量值,为各期发展速度或各个比率

n变量值的次数=通常利用对数方法简化计算,将上式两边取对数即:实际资料:我国1979—1993年各年的社会总产值为:单位:亿元1979年1980年1981年1982年1983年764285319071996311052求出这几年间社会总产值的平均发展速度。先分别计算1980—1983年各年的发展速度,即1980年1981年1982年1983年111.63%106.33%109.83%110.93%代入公式:即由1979—1983年是社会总产值以平均每年109.86%的速度发展。加权几何平均法

如果掌握的资料已经分组,每个变量值出现的次数(或比重)不相同时,应采用加权几何法,其计算公式如下:次数总和切尾均值(trimmedmean)是切掉数据大小两端的若干数值后计算中间数据的均值。这种集中趋势测度方法在电视大奖赛、体育比赛及需要人们进行综合评价的竟赛项目中已得到广泛应用。我们在电视中熟悉的:“去掉一个最低分,去掉一个最高分,最后得分是---分”。就是利用切尾均值方法得到的结果。计算公式:式中,n表示观察值的个数;表示切尾系数,,到大形成的顺序统计值。数据两端切去几个数据,通过切尾系数决定。当系数取0和系数接近1/2时,切尾均值公式变成算术平均数和中位数的公式,这是公式的两种特例。是数据经过排队以后有小离中趋势测度

对统计分布或次数分配数据规律性的研究,集中趋势表示的是分布的中心位置或一般水平的代表值,离散程度反映的是离中趋势和差异程度。对统计数据的描述和分析正是利用这一对对立统一的代表值展开的。离中趋势测度全距;极差(range)内距(inter-quartilerange,IQR)平均绝对差(meanabsolutedeviation,MAD)方差(variance)标准差(StandardDeviation)离散系数极差系数平均绝对差系数标准差系数(coefficientofvariation)极差(Range)极差也称全距,是数据最大值减去最小值之差,它是数据离散或差异程度的最简单测度值,即

其中R为全距max()和min()分别表示数据中的最大值和最小值;和则是用顺序统计量表示的最大值和最小值。数据的分散程度越大,极差就越大;反之则小。极差的计算很简单,但它易受极端值的影响。内距(inter-quartilerange,IQR)是两个分位数之差,内距=上四分位数-下四分位数;IQR=它是与集中趋势代表值四分位数相对应的离散程度代表值。平均绝对差(meanabsolutedeviation,MAD)是数据值与均值之差绝对值的平均数,即简单式(样本未分组)加权式(样本已分组)

平均绝对差实际上是对数据与均值的离差进行平均。根据均值的数学性质,数据值与均值离差之和为0。为避免平均离差数值为0反映不出数据差异的大小,就对离差取了绝对值。平均绝对差越大,离差绝对值就越大。数据差异程度越也就越大。方差和标准差方差(variance)是离差平方的平均数。总体方差总体标准差样本方差样本标准差S离散系数、变异系数极差、内距、平均绝对差、方差和标准差,都是具有其所依据资料相同的计量单位的绝对数。用绝对数表示离中趋势,意义明显,易于理解。但当对两个或两个以上变量数列的均衡性和离散性比较时,如果绝对数变异指标的计量单位不同,或者各个变量数列的平均水平不同,这时就不能直接比较绝对数变异指标,而要采用相对数变异指标,叫离散系数或变异系数——它主要指绝对数变异指标与其算术平均数之间的比率。是一个反映总体某一数量标志变异相对程度的统计指标。极差系数设为极差系数则:例如有男青年和女青年两个抽样总体,各由125名20岁青年所组成,其平均体重和极差如下:平均体重(公斤)极差(公斤)男青年组55.5218女青年组48.5216单从极差来看:R(男)>R(女),但不能就此得出结论说男青年组平均体重的代表性小,需进一步计算极差系数:男青年组女青年组由于男青年组体重的极差系数小于女青年组体重的极差系数,因此,男青年组平均体重的代表性大.六集中趋势离

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论