浅析统计资料的综合_第1页
浅析统计资料的综合_第2页
浅析统计资料的综合_第3页
浅析统计资料的综合_第4页
浅析统计资料的综合_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章 统计资料的综合(Data Summarization) 通过统计表和统计图对统计资料进行分析,虽然有了一定的认识,但还是不能准确地掌握一组数据的特征。要想深刻地认识一组数据,还要掌握数据的数字特征(特征数)。首先给一个例子,看分析数据特征数的重要性。然后介绍累计求和运算规则,数据的数字特征。特征数分四类:(1)集中位置;(2)分散程度;(3)分布特征。2.1 实例(例7)当前活期储户的账面余额是多少?平均余额是多少?有些什么特征?这些信息是银行随时要掌握的。某分理处随机抽取了1000个活期储户的账面余额值,部分数据如下: 135.75,181.09,227.46,231.87,354.02,434.48,494.18,506.88,538.96,551.29,601.85,602.5,622.54,630.94,654.86,658.48,668.70,711.49,712.20,712.29,722.25,736.43,740.69,743.92,777.55,806.45,830.01,835.71,838.49,844.65,846.84,884.69,891.89,900.65,911.38,1013.86,1027.49,1029.32,1037.73,1057.03,1057.51,1072.03,1076.54,1080.39,1082.55,1091.71,1097.73,1112.2,1112.86,1121.89,1123.6,1124.67,1131.4,1137.52,1148.68,1155.39,1157.24,1183.82,1185.92,1188.09,1199.08,1221.5,1232.4,1277.3,1277.64,1283.67,1302.32,1313.67,1317.52,1319.89,1324.23,1324.35,1341.12,1341.00, 。整理后的分布图和相关信息如下。 2.2 累计求和运算规则。求和算子定义:对于T个观测值,x1, x2, , xT,求和可以简化地表示为x1 + x2 + + xT = 其中称作求和算子。求和算子的运算规则如下: 变量观测值倍数的和等于变量观测值和的倍数。 = k x1 + k x2 + + k xN = k (x1 + x2 + + xN ) = k 两个变量观测值和的总和等于它们分别求总和后再求和。= x1 + y1+ x2 + y2 + + xN + yN = (x1 + x2 + + xN) + ( y1+ y2 + + yN)= + T个常数求和等于该常数的T倍。 = k + k + k = kT 其中k是常数。 N个 定义双重求和为 = xi1 + xi 2 + + xiT) = (x11 + x12 + + x1T) + (x21 + x22 + + x2T) + + (xT1 + xT2 + + xTT) 两个变量和的双重求和等于它们各自双重求和的和。 = +2.3 描述数据集中位置的特征数。用频数分布表与统计图可以展示数据分布的大概特征。为更准确的描述数据的特征,有必要采用一些数值,称这些数值为特征数。 (1)算术平均数(属于描述集中位置的特征数) 算术平均数定义:一组数据,(x1, x2, , x n),容量为n,则算术平均数表示为= = (1)算术平均数描述一组数据的平均水平。例8:5个学生的英语考试分数是80, 70, 85, 90, 82。则平均考试分数= 81.4例9:1427天日元兑美元汇率值数据的平均数是112.93日元。前100个值如下表。1-5100.52101.4100.97101.37100.336-10100.499.9098.8098.7799.0011-1599.5599.4399.4099.7599.6416-2099.6099.3199.3598.4099.4321-2599.4099.599.7599.3099.4226-3098.9898.8598.8698.6698.6531-3598.5297.5597.4897.3097.0336-4096.8097.196.7596.6096.7541-4595.8194.492.6090.8591.2746-5090.5791.2390.5090.9789.4051-5590.3089.1989.4289.3888.9256-6088.3189.189.0789.2288.3161-6589.5386.8586.2586.3686.2566-7085.4784.3283.1083.8084.0071-7583.5983.3582.1081.4081.1276-8082.9582.9283.2681.9583.9881-8583.5884.0483.5383.6983.4586-9083.6284.0383.0082.9583.8791-9585.8087.0086.8686.2086.7396-10087.4386.7787.4787.3887.15为了彻底了解这组数据的特征,有两种方法。(1)画图。(2)计算特征数。算术平均数的性质:观测值的和等于其平均数与观测值个数的乘积。对(1)式两侧同乘n得,n= 说明有代表性。若不考虑xi的差异。用代替xi,并乘n,则总和相等。所以人们常用描述数据。如平均年龄,平均工资等。一组观测值与其平均数的离差和等于零。= 0 证: =-= - n= 0(利用性质)此性质以后常常用到。 (2)加权算术平均数(属于描述集中位置的特征数)例10:仍以例3为例,20瓶鲜橙多饮料,净重值如下表。组号组 限组中值组频数组频率1494496以下49510.052496498以下49750.253498500以下49980.404500502以下50140.205502504以下50320.10合计201.00 = 499.1克= 4950.05 + 4970.25 + 4990.4 + 5010.2 + 5030.1= 499.1克加权算术平均数定义: =(f1x1 + f2 x2 + + fk xk ) = x1 + x2 + +xk = w1x1 + w2 x2 + + wk xk = (2)其中:k为分组数;x i 为第i组的组中值;fi 为观测值落入第i组的频数;n 为观测值总个数,n = f1 + f2 + + fk。wi = fi / n, i =1, 2, , k是权数。 加权算术平均数描述一组数据的平均水平。注意:分组数据形式下求得的平均数,只是用原始数据计算的的近似值。只有当各个组中值与相应组内观测值的平均值全相等时,(1)、(2)式的计算结果才相等。因此,只要条件允许,应该用原始数据直接计算。当n很大时,由(2)式计算的的误差会减小。例11:中国1987年1%抽样调查全国人口,数据与分布图如下。年龄(岁)人数(万人)频率0-10以下 195.27810.182910-20以下 248.16110.232420-30以下 195.87800.183430-40以下 161.08040.150840-50以下 99.61830.093350-60以下 85.61920.080260-70以下 56.18770.052670-80以下 27.38030.025680-90以下 6.55840.006190-100以下 0.35930.0003100-110以下 0.00990.0000合 计1067.93071.0000用频数计算, (195.27815 +248.161115 + + 0.0099105) = 28.8用频率计算, (5 0.1829 +15 0.2324 + + 950.0003 + 0 ) = 28.8平均年龄是28.8岁。数据的特点是分布不均。青年人人数多,老年人人数少。(3)中位数(属于描述集中位置的特征数)。中位数定义(1):一组n个观测值,按数值大小排列如下。x1, x2, , xn,处于中央位置的数值称为中位数。用Md表示(Median) x(n+1)/2 n为奇数 Md = (3) xn / 2 + x(n / 2)+1 / 2 n为偶数例12:对5名学生的考试分数(n为奇数),中位数Md = 85,(比=70更有代表性)。 93,90,85,82,0 (因有5个数值,5为奇数。)例13:设有一组数据如下(n为偶数) x1, x2, x3, x4, x5, x6, (n = 6) 10 12 14 17 41 66则 Md =( x 6 / 2 + x (6 / 2) + 1) =( x3 + x4) = 15.5例14:一组数据是 3,9,6,1,5。哪个是中位数?按上述要求排序, x1, x2, x3, x4, x5, n = 5为奇数 1 3 5 6 9则 Md = x(5+1) / 2 = x3 = 5,即中位数是5。中位数定义(2):对于分组数据,Md的计算公式如下: Md = L + (4)其中:L为中位数所在组的下限值 n1为中位数所在组内,达到中位数所需频数。 n 2为中位数所在组内,观测值总个(频)数。 h为该中位数所在组组距。例15:仍以例3为例,20瓶鲜橙多饮料,净重值排序整理如下:494.8, 496.9, 497., 497.1, 497.7, 497.8, 498.4, 498.7, 498.9, 498.9, 498.9, 499.1,499.9, 499.9, 500.1, 500.6, 501.0, 501.6, 502.3, 503.9求: Md(中位数),解:1. 当数据不分组时,因为20是偶数,Md = (X20 / 2 + X(20 / 2) + 1)/2 = (X10 + X11) /2 = (498.9+ 498.9) / 2 = 498.92. 作频数分布表,把数据分成5组。20 / 2 = 10, 中位数在第3组,组频数= 8。组号组 限组频数组中值组频率1494496以下14950.052496498以下54970.253498500以下84990.404500502以下45010.205502504以下25030.10合计201.00Md = L+= 498+= 499例16:1987年1%抽样调查全国人口,数据与分布图如下(file: stat04)。年龄(岁)人数(万人)累计人数10-10以下 195.2781195.2781210-20以下 248.1611443.4329320-30以下 195.8780639.3172430-40以下 161.0804540-50以下 99.61830650-60以下 85.61920760-70以下 56.18770870-80以下 27.38030980-90以下 6.1090-100以下 0.11100-110下 0.合 计1067.9307数据的特点是分布不均。年轻人人数多,年老人人数少。平均年龄是28.8岁。显然这个特征数偏高,不能十分满意地反映数据的特征。计算中位数如下。Md落在第3组。Md = 第3组下限值+(组内达到中位数的频数/第3组频数)第3组距。=20 +10 = 20 +10 = 24.6(岁)比平均数28.8岁更有代表性。中位数性质:(1) 当观测值出现重复的现象不很多时,中位数意味着比它小的观测值个数有一半,比它大的有一半。若有2万农户的年家庭收入数值的中位数为2000元,则知有一万户收入低于2000元,有一万户收入高于2000元。 (2) 中位数不易受极端值影响。注意:(1) 中位数指的是数据值(在横轴上),而不是观测值的频数,也不是秩数。(2) 求中位数之前,应先将观测值按大小排列。(4)众数(属于描述集中位置的特征数)。众数定义:在一组数据中,对应频数最大的那个观测值叫众数(mode),用Mo表示。例17:某班40名学生的年龄统计如下(file:bank05): 年龄(岁)人数 1932024218225合计40因为变量值20所对应的频数最大,Mo = 20岁。对于分组数据,MO = L + (5)其中L是众数所在组下限值;D1是众数所在组频数与前一组频数差;D2是众数所在组频数与后一组频数差;h是组距。例18: 仍以例3为例,20瓶鲜橙多饮料,净重值排序整理如下:组号组 限组频数组中值组频率1494496以下14950.052496498以下54970.253498500以下84990.404500502以下45010.205502504以下25030.10合计201.00可见“众数”在第3组。有MO = 498 +2 = 498.86 注意:(1)众数指变量值,而不是频数。(2)若频数分布只有一个峰值,则分布是单峰的,若有两个,则分布是双峰的。4百分位数(Percentile):百分位数概念是中位数概念的推广。百分位数定义:一组n个观测值按数值的大小顺序排列(由小到大)如下, x1, x2, , xn处于第p%位置的观测值为第p百分位数。所以中位数是第50百分位数。第p百分位数的秩数是第n p %位数(如不是整数,取大于它的最小整数)。例19:以例3为例,20瓶鲜橙多饮料,净重值从小到大顺序排列如下:494.8, 496.9, 497.0, 497.1, 497.7, 497.8, 498.4, 498.7, 498.9, 498.9, 498.9, 499.1,499.9, 499.9, 500.1, 500.6, 501.0, 501.6, 502.3, 503.9求这组数据的第25百分位数。解:因为有20个观测值。这20个数值中的第25百分位数,即第20 25% = 5位的数值。497.7是第25百分位数。实际意义:设第p百分位数为xk则说明有p %的观测值小于xk。下图给出了标准正态分布的第5、25、50、75、95百分位数。注意:(1)25倍数的百分位数称为四分位数。(2)可用类似于求中位数的方法求分组数据的百分位数。例20:以例7为例,1000个活期储户的账面余额值数据的第5、25、50、75、95百分位数分别是2.4 描述数据分散程度的特征数。表示分散程度的特征数有全距(极差)、方差、标准差、变异系数等。对于一组数据,只用表示集中位置的特征数描述是不够的,先通过一个例子来说明。设有如下二组数据(8, 9, 10 ,11,12)(6, 8, 10 ,12,14)二组数据的算术平均数相等,但二组数据的分布却有很大差异,显然只用表示集中位置的特征数来描述数据是不够的,还应引入一些描述分散程度的特征数。(1)全距(极差,Range),(表示分散程度)。全距定义:设一组数据为(x1, , xn),则全距(用R表示) R = x max - x min (6)其中 x max , x min 分别表示该数据中的极大和极小值。极差表示取值范围。优点:极差计算简便。缺点:没有考虑到中间各值的分布情况。例21:以上面二组数据为例:R1 = 12 - 8 = 4, R2 = 14- 6 = 8,。第二组数据的离散程度要比第一组大。例22:以例2中1427天的汇率值数据为例,最大值是147.14日元,最小值是81.12日元。R = 147.14 - 81.12 = 66.02日元。例23:股市收市时所报的最高值和最低值。实际给出了极差值。极差的缺点是没有考虑到数据内部取值的情况。例如下面两组数据不同,但极差相同。所以还应寻找计算离散程度的更好方法。(2)方差。方差用 S 2 表示。对于不分组数据定义为: S 2 = (用于计算总体方差) (7) S 2 = (用于计算样本方差) (8)方差的意义是数据对平均数的平均离差平方和。显然一组数据越分散,即离平均值越远,则方差值越大;反之越小。例24:有下列一组数据,4, 4.2, 4.8, 5, 7, 求和S2。= = 5S2 = = (4-5) 2 + (4.2-5) 2 + (4.8-5) 2 + (5-5) 2 + (7-5) 2 = 1.42例25:以例2中1427天的汇率值数据为例, S 2 = 176.8 (日元2)对于分组数据,方差定义为:S 2 = (用于总体) (9)S 2 = (用于样本) (10)其中:fi 组频数,xi 组中值。例26:有分组数据如下。求, S2 。观测值组中值xi频数fifi xi0211243446536873合计n = 11= = (11+34+53+73)= 4.45 S2 = = 1 (1-4.45)2 + 4 (3 - 4.45)2 + 3 (5 - 4.45) 2 + 3 (7 - 4.45)2 = = 4.07例27:仍以例3为例,20瓶鲜橙多饮料净重值均值为499.1克。利用下表计算方差。组号组 限组中值(xi -)组频数f(xi -)2f1494496以下495-4.1116.812496498以下497-2.1522.053498500以下499-0.180.084500502以下5011.9414.445502504以下5033.9230.42合计2020解: 对于分组数据 S 2 = = 4.41克2检查对方差概念的理解:对于生产产品来说,希望产品指标方差大,还是方差小?仪仗队人员身高值,和某班学生的身高值,那个方差大?(3)标准差。样本标准差定义:S = (11)为什么还

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论