第三节数据集离散程度的测定_第1页
第三节数据集离散程度的测定_第2页
第三节数据集离散程度的测定_第3页
第三节数据集离散程度的测定_第4页
第三节数据集离散程度的测定_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三节 数据集的离散程度的测定一一. 标志变动度的概念标志变动度的概念二二. 全距全距三三. 平均差平均差 方差与标准差方差与标准差 数据的标准化数据的标准化4 标准差系数标准差系数一、标志变动度:离散趋势数据的特征和测度数据的特征和测度数据的特征和测度分布的形状分布的形状离散程度离散程度集中趋势集中趋势二、全距全距(概念要点及计算公式)1. 又称又称“极差极差”,一组数据的最大值与最小值,一组数据的最大值与最小值之差之差2. 离散程度的最简单测度值离散程度的最简单测度值3. 易受极端值影响易受极端值影响4. 未考虑数据的分布未考虑数据的分布全距特点 受极端值影响。受极端值影响。 不能计算开口

2、组的全距。不能计算开口组的全距。 与中间标志值无关,不能反映中间值的差与中间标志值无关,不能反映中间值的差异;异; 与分布频数无关,不能全面反映各单位的与分布频数无关,不能全面反映各单位的标志的变异程度。标志的变异程度。三、平均差平均差(概念要点及计算公式)1. 离散程度的测度值之一离散程度的测度值之一2. 各变量值与其均值离差绝对值的平均数各变量值与其均值离差绝对值的平均数3. 能全面反映一组数据的离散程度能全面反映一组数据的离散程度4. 数学性质较差,实际中应用较少数学性质较差,实际中应用较少Nii 1XXA.D.NKiii1Kii1XX FA.D.F平均差(计算过程及结果)某车间某车间5

3、0名工人日加工零件标准差计算表名工人日加工零件标准差计算表按零件数分组按零件数分组组中值组中值(Xi)频数频数(Fi)| Xi- X |Xi-X |Fi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.535814106415.710.75.70.74.39.314.347.153.545.69.843.055.857.2合计合计50312Kiii 1Kii 1XX F312A.D.6.2450F(个)平均差特点 考虑了全部标志值和分布频数,对离散趋势有较充分的代表性。 不便数学运算 实际中可

4、用中位数代替算术平均数Niei 1XMA.D.NKieii 1Kii 1XMFA.D.F四、方差和标准差方差和标准差(概念要点)1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布 反映了各变量值与均值的平均差异4.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差总体方差和标准差(计算公式)未分组数据:NXXNii122)(KiiKiiiFFXX1122)(NXXNii12)(KiiKiiiFFXX112)(总体标准差(计算过程及结果)某车间某车间50名工人日加工零件标准差计算表名工人日加工零件标准差计算表按零件数分组按零件数分组组中值组中值(Xi)

5、频数频数(Fi)(Xi- X )2(Xi- X )2Fi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计合计503100.5(个)87.7505 .3100)(112KiiKiiiFFXX样本方差和标准差(计算公式)未分组数据:1)(1221nxxSniinkiikiiinffxxS112211)(1)(121nxx

6、SniinkiikiiinffxxS11211)(样本方差自由度(degree of freedom)一组数据中可以自由取值的数据的个数当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量样本方差(算

7、例)原始数据: 10 5 9 13 6 83 . 816) 5 . 88 () 5 . 85 () 5 . 810(1)(2221221nxxSniin样本标准差(算例)样本标准差样本标准差88. 23 . 81)(121nxxSniin方差 (简化计算公式) 样本方差样本方差) 1(11)(21121221nnxnxnxxSniiniiniin 212122)(XNXNXXNiiNii方差、标准差(数学性质)各变量值对均值的方差最小各变量值对均值的方差最小设X0为不等于X 的任意数,D2为对X0的方差,则NN22i0i222i 1i 10( XX )( XX )DXXNN方差、标准差(数学性

8、质)222iiXX方差等于标志值平方的平均数减去标志值平均方差等于标志值平方的平均数减去标志值平均数的平方。数的平方。如果变量如果变量Y与变量与变量X之间的关系为之间的关系为YiabXi,其中其中a、b为常数,则为常数,则222YXb方差、标准差(数学性质)如果如果X 与与Y是两个相互独立的变量,当是两个相互独立的变量,当ZkaXi+bYj(i=1,2,3,n;j=1,2,3,m;k=1,2,3,mn),则有则有22222ZXYab五、数据的标准化标准分数(standard score)1. 也称标准化值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是否有离群点4.用于对变量的

9、标准化处理5. 计算公式为sxxzii标准分数(性质)均值等于02. 方差等于1001)(1snsxxnnzzii1)(1)0()(22222222sssxxnnznznzzsiiiz标准分数(性质) z分数只是将原始数据进行了线性变换,它并没有改变一个数据在改组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差为1。 标准化值 (例题分析)9个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表 家庭编号家庭编号人均月收入(元)人均月收入(元) 标准化值标准化值 z 123456789150075078010808509602000125016300.695

10、-1.042-0.973-0.278-0.811-0.5561.8530.1160.996经验法则经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内 切比雪夫不等式(Chebyshevs inequality )如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用切比雪夫不等式提供的是“下界”,也就是“所占比例至少有多少”对于任意分布形态的数据,根据切比雪夫不等式,至少有 的数据落在k个标准差之内。其中k是大于1的任意值

11、,但不一定是整数21 1 k切比雪夫不等式(Chebyshevs inequality )对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内六、标准差系数标准差系数(概念要点和计算公式)1.标准差与其相应的均值之比标准差与其相应的均值之比2.消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程度测度了数据的相对离散程度4.用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较5. 计算公式为计算公式为xS

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论