统计学2-电子科大_第1页
统计学2-电子科大_第2页
统计学2-电子科大_第3页
统计学2-电子科大_第4页
统计学2-电子科大_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Session2THEME:DescriptiveStatistics〔一〕数据的整理与显示2.1数据的预处理数据的审核与筛选数据的排序原始数据的完整性、准确性二手数据的适用性和及时性2.2品质数据的整理与显示〔一〕数据的整理与显示定类数据的整理与显示频数与频数分布1〕频数:也称次数,是落在各类别中的数据个数;频数分布:用数据概括表的形式来列示假设干个互不重叠分组中每组数据出现的次数2.2品质数据的整理与显示例:由购置50台计算机的样本数据得到的频数分布表:公司发生频数相对频数百分比频数苹果130.3626康柏120.3424盖特威-200050.1010IBM90.1818帕科特.贝尔110.2222合计501.001002.2品质数据的整理与显示2〕比例〔Proportion〕:总体中各个局部的数量占总体数量的比重,通常用于反映总体的构成或结构。又可以称为相对频数。N1N2N3N4………….,Nk比例:Ni/N。比例的性质含义。2.2品质数据的整理与显示3〕百分比频数(Precentage):将比例乘以100,用%表示。4〕比率(Ratio):各不同类别的数量的比值。比例与比率的区别。2.2品质数据的整理与显示公司发生频数相对频数百分比频数苹果130.3626康柏120.3424盖特威-200050.1010IBM90.1818帕科特.贝尔110.2222合计501.001002.2品质数据的整理与显示定类数据的图示1〕条形图〔Barchart〕、柱形图2.2品质数据的整理与显示2〕圆饼图(Piechart)2.2品质数据的整理与显示定类数据整理与显示知识点:条形图和圆饼图是描述频数或百分比分布已经经过汇总的定类数据的图形方法。组别同数据种类关系一致频数总和与数据集中工程总数相同:相对频数总和为1.00;百分比频数总和为100。条形图、柱形图的长度或高度代表频数,其宽度都相同。2.2品质数据的整理与显示2.定序数据的整理与显示累积频数和累积频率1〕累积频数(Cumulativefrequencies):就是将各类别的频数逐级累加。向上累加:从类别顺序开始的一方向最后一方累加频数;向下累加:从类别顺序的最后一方向开始一方累加频数。2.2品质数据的整理与显示回答类别甲城市户数(户)百分比(%)向上累积向下累积户数百分比户数百分比非常不满意不满意一般满意非常满意24108934530836311510241322252703008447590100300276168753010092562510合计300100

甲城市家庭对住房状况的评价2.2品质数据的整理与显示2〕累积频率或百分比(Cumulativepercentages):就是将各类别的百分比逐级累加起来。分向上和向下累积两种方法。定序数据的图示1〕累积频数分布图。2〕环形图。2.3数量数据的整理与显示1.数据的分组:将数据按某种标准化分成不同的组。再进行频数统计,形成频数分布表。单变量值分组:把每一个变量值作为一组。例:某企业10名工人日加工零件数〔个〕如下:117 122 107 117 130 115 122 114 118 122排序:107 114 115 117 117 118 122 122 122 130〔一〕频数分布2.3数量数据的整理与显示将上述数据采用单变量分组如下表:零件数〔个〕 频数〔人〕 零件数〔个〕 频数〔人〕 107 1114 1115 1117 2 118 1122 3130 1只适用于离散变量且变量值较少的情况。2.3数量数据的整理与显示组距分组:将全部变量值依次划分假设干区间,并将这一区间的变量值作为一组。步骤如下:1〕确定互不重叠分组的个数。2〕确定每组的组距3〕确定组限建议分组数目:5-20个。2.3数量数据的整理与显示例:年终审计时间用时〔天〕14 19 18 15 15 18 17 20 2722 23 22 21 33 28 14 18 16 13第一步:确定组数根据数据集大小确定。Sturgesdes的经验公式本例中N=20,可以取组数为5。2.3数量数据的整理与显示第二步:组距确实定。组距〔Classwidth〕是一个组上限与下限的差。近似组距=〔数据最大值—数据最小值〕/组数组限:下限——确定分配给该组可能的最小数据值;上限——确定分配给该组可能的最大数据值。2.3数量数据的整理与显示在本例中,每组的组距近似为:〔33—12〕/5=4.2采用5作为组宽因此,分组为:10-14,15-19,20-24,25-29,30-342.3数量数据的整理与显示分组中的其他问题:分组的不重不漏原那么上组限不在内开口组等距分组和不等距分组频数密度=频数/组距组中值=〔下限值+上限值〕/2〔均匀分布2.3数量数据的整理与显示审计时间数据频数分布审计时间〔天〕 频数10-14 415-19 820-24 525-29 229-34 1合计 202.3数量数据的整理与显示〔二〕相对频数分布和百分比频数分布每组相对频数=每组的频数/nn是数据的个数每组的百分比频数=相对频数*100审计时间〔天〕相对频数百分比频数10-14 0.20 2015-19 0.40 4020-24 0.25 2525-29 0.10 1030-34 0.05 5合计 1.00 1002.3数量数据的整理与显示点图直方图〔注意区分直方图与条形图的区别〕折线图累积分布2.3数量数据的整理与显示051015202530点图:横轴表示数据的值域,数据值打点表示2.3数量数据的整理与显示0 10 2030400.50.40.30.20.1注意:区分条形图与直方图2.3数量数据的整理与显示累积频数分布表格显示小于或等于每组上限的数值次数。2.4探索性数据的整理与显示例:678910118 92 3 3 5 6 60 1 1 2 3 4 5 61 2 2 2 4 5 5 60 0 2 4 6 612.4探索性数据的整理与显示交叉〔分组〕列表:一种同时概括两个变量数据的表格方法,将两个或两个以上具有有限类目数和确定值的变量按一定顺序对应排列在一张表中。分析手段:常常应用行、列的边际分布。2.5交叉分组列表和散点图300家饭店质量等级和餐价交叉列表分组表质量等级餐价/美元总计10-1920-2930-3940-49好42402084非常好3460466150极好214282266总计7811876283002.5交叉分组列表和散点图交叉分组列表的优点:提供了变量之间的关系广泛用于调查两个变量之间的问题交叉列表是统计调查报告最常见的形式之一。2.5交叉分组列表和散点图散点图:

1 2 502 5 573 1 414 3 545 4 546 1 387 5 638 3 48商店广告次数与销售额资料广告次数销售额2.5交叉分组列表和散点图散点图的类型练习PMP考试要求在4小时内答复200个问题。现在将其中20人正确的答题数列在下表,绘制茎叶图并评估结果。P61,36;P62,38;41。123 100 68 80 100 123 89 90100 132 116 117 120 115 87 96102Session2THEME:DescriptiveStatistics〔一〕数据的数值描述方法主要内容:集中趋势的测度离中趋势的测度探索性数据分析双变量相关关系测度分布集中趋势的测度值反映的是数据一般水平的代表值,或者是数据分布的中心值。从不同的角度考虑,集中趋势的测度值有多个,主要有:众数〔mode)中位数(median)分位数〔Quartile〕均值〔mean)集中趋势的测度集中趋势的测度众数〔M0〕:出现频率最高的一个数据值例:当前市场分额:诺基亚摩托罗拉三星TCL波导

20.235.716.810.49.6单项式变量数列:找出出现次数最多的标志值就是众数

组距式变量数列:首先确定众数组,一般最大频数对应组就是众数组。其次求具体的众数值,通常用下面的近似公式计算:〔3、1〕式中表示众数,L表示众数所在组的下组限,表示众数组与前一组次数之差,表示众数组次数与后一组次数之差,i表示众数组的组距。众数是一种位置代表值。例如;在农贸市场上某种商品的价格常以众数值为代表。鞋子,帽子等物品的尺码。集中趋势的测度中位数:一组数据从小到大排序后,处于中间位置上的数据值,用Me表示。如果数据是奇数,中位数处于正中心的一项数据值;如果数据是偶数,中位数是正中心两项的平均值;计算公式:特点:应用场合。数据是已分组的资料此时原始数值已被隐去,不能直接对其排队求其准确的中位数数值,可用以下的近似公式计算:(3、2〕式中表示中位数所在位置,L表示中位数所在组的下组限,表示中位数所在组以前各组的累积次数,表示中位数所在组的次数,i表示中位数所在组的组距。中位数有这样一个性质,就是数据值与中位数之差的绝对值最小,即说明数据值与中位数的距离最短,在工程设计中有应用价值。分位数中位数是将统计分布从中间分成相等的两局部,与中位数性质相似的还有四分位数〔quartiles)、十分位数〔decile)、和百分位数〔percentile)。显然,四分位数就是将数据分布四等分的三个数值,其中中间的四分位数就是中位数。十分位数和百分位数分别是将数据分布是等分和一百等分的数值。以分位值作集中趋势分析,在西方统计学中讨论和运用较多,在中国较少用到。均值〔mean)2数据观察值与均值的离差平方和最小,3均值是统计分布的均衡点,不管统计分布是对称分布还是偏态分布,只有在均值点上才能支撑这一分布,使其保持平衡,这一均衡点在物理上称为重心。

x:标志的个别数值

n:个别数值的项数f:各组次数各组次数占总次数比重实例〔单项数列〕有三个乡镇企业的工人数及每一企业的月平均工资资料,如何计算所有这些企业共同的月平均工资?表:1999年某地区三个乡镇企业工人工资企业名称工人数〔人〕月平均工资〔元/人〕工资总额〔元〕〔甲〕fxxf甲1500620310000甲2600625375000甲3900635571500合计2000628.71256500所有这三个企业的平均工资为:将计算出来的平均工资乘上工人实际人数,即可得到所有工人的全部实际工资总额。628.7元/人*2000人=1257400元实例〔组距数列〕表:某企业1999年工人按工资额分配情况月工资〔元〕各组平均工资〔元/人〕工人数〔人〕工资总额甲xfxf(元〕600以下5504022000600-70065010065000700-800750200150000800-900850400340000900-10009504504275001000-120011002502750001200以计--/人调和平均数假设设xf=M那么:调和平均数各组变量值各组变量值重复出现的次数此计算式从形式上看,是以各变量值的倒数来计算的,故也称倒数平均数。例如有某采购站收购某种药材的资料:见表等级单价〔元/斤〕收购额〔元〕收购量〔斤〕符号xxf一级1.22420二极1.03030三级0.7710合计---6160

资料计算栏〔元/斤〕简单调和平均数在所有权数相同或等于1时,按简单调和平均数计算。如将前式中的M〔相同的权数〕移到的前面,并将分数式化简,可得如下公式:n;个别标志值项数假设前表中,每种药材等级的收购额均为24元的话,这时求该药材平均价格的计算公式,就可采用简单调和平均法。即元/斤几何平均数〔GeometricMean)各项变量值,为各期开展速度或各个比率n变量值的次数=通常利用对数方法简化计算,将上式两边取对数即:实际资料:我国1979—1993年各年的社会总产值为:单位:亿元1979年1980年1981年1982年1983年764285319071996311052求出这几年间社会总产值的平均开展速度。先分别计算1980—1983年各年的开展速度,即1980年1981年1982年1983年111.63%106.33%109.83%110.93%代入公式:即由1979—1983年是社会总产值以平均每年109.86%的速度开展。加权几何平均法

如果掌握的资料已经分组,每个变量值出现的次数〔或比重〕不相同时,应采用加权几何法,其计算公式如下:次数总和切尾均值〔trimmedmean)是切掉数据大小两端的假设干数值后计算中间数据的均值。这种集中趋势测度方法在电视大奖赛、体育比赛及需要人们进行综合评价的竟赛工程中已得到广泛应用。我们在电视中熟悉的:“去掉一个最低分,去掉一个最高分,最后得分是---分〞。就是利用切尾均值方法得到的结果。计算公式:是数据经过排队以后有小离中趋势测度

对统计分布或次数分配数据规律性的研究,集中趋势表示的是分布的中心位置或一般水平的代表值,离散程度反映的是离中趋势和差异程度。对统计数据的描述和分析正是利用这一对对立统一的代表值展开的。离中趋势测度全距;极差(range)内距(inter-quartilerange,IQR)平均绝对差(meanabsolutedeviation,MAD)方差(variance)标准差(StandardDeviation)离散系数极差系数平均绝对差系数标准差系数〔coefficientofvariation)极差〔Range)极差也称全距,是数据最大值减去最小值之差,它是数据离散或差异程度的最简单测度值,即其中R为全距max()和min()分别表示数据中的最大值和最小值;和那么是用顺序统计量表示的最大值和最小值。数据的分散程度越大,极差就越大;反之那么小。极差的计算很简单,但它易受极端值的影响。内距〔inter-quartilerange,IQR〕是两个分位数之差,内距=上四分位数-下四分位数;IQR=它是与集中趋势代表值四分位数相对应的离散程度代表值。平均绝对差〔meanabsolutedeviation,MAD)是数据值与均值之差绝对值的平均数,即简单式〔样本未分组〕加权式〔样本已分组〕

平均绝对差实际上是对数据与均值的离差进行平均。根据均值的数学性质,数据值与均值离差之和为0。为防止平均离差数值为0反映不出数据差异的大小,就对离差取了绝对值。平均绝对差越大,离差绝对值就越大。数据差异程度越也就越大。方差和标准差方差〔variance)是离差平方的平均数。总体方差总体标准差样本方差样本标准差S离散系数、变异系数极差系数设为极差系数那么:例如有男青年和女青年两个抽样总体,各由125名20岁青年所组成,其平均体重和极差如下:平均体重〔公斤〕极差〔公斤〕男青年组55.5218女青年组48.5216单从极差来看:R(男)>R(女),但不能就此得出结论说男青年组平均体重的代表性小,需进一步计算极差系数:男青年组女青年组由于男青年组体重的极差系数小于女青年组体重的极差系数,因此,男青年组平均体重的代表性大.六集中趋势离散趋势的应用——

资金风险价值的计算计算资金风险程度,一般计算期望报酬率、标准离差、标准离差率等指标。期望报酬率:是各种可能的报酬率按其概率进行加权平均得到的报酬率,表示在所有各种风险条件下,期望可能得到的平均报酬率,是反映集中趋势的一种量度。其计算公式为:式中,期望报酬率;第i种可能结果的报酬率;第i种可能结果的概率;

n可能结果的个数。

期望报酬率的标准差指各种可能的报酬率对期望报酬率的偏离程度。主要有各种可能值〔随机变量〕与期望值之间的差距所决定的。它们之间的差距越大,说明各种可能值〔随机变量〕与期望值的偏离程度越大,意味着风险越大;反之,说明各种可能值与期望值偏离程度越小,意味着风险越小。因此,标准离差的大小,是资金风险程度大小的具体标志,其计算公式:式中:期望报酬率的标准离差;期望报酬率;第i种可能结果的报酬率第i种结果的概率;n可能结果的个数。

标准离差率是标准离差与期望报酬率的比值。标准离差是一个绝对值,而不是一个相对量,只能用来比较期望报酬率相同的各

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论