第3章数据特征描述_第1页
第3章数据特征描述_第2页
第3章数据特征描述_第3页
第3章数据特征描述_第4页
第3章数据特征描述_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、140 150210某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图190200180160 170220 230240频频数数(天天)25201510530第 4章 数据的概括性度量数据特征的测度数据特征的测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众 数数众数不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%) 可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露15119690.300.220.180.120.183022181218合计合计501100众数(Mo)特点不唯一性无众数一个众数

2、数个众数不受极端值的影响适用于所有数据类型分类数据顺序数据数值数据中位数n【例】:【例】:9个家庭的人均月收入数据n原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630n排排 序序: 750 780 850 960 1080 1250 1500 1630 2000n位 置: 1 2 3 4 5 6 7 8 9n【例】:10个家庭的人均月收入数据n排排 序序: 660 750 780 850 960 1080 1250 1500 1630 2000n位位 置置: 1 2 3 4 5 6 7 8 9 10中位数(Me)特点n不受极端值的影响n不能用于

3、分类数据同样道理:四分位数n【例】:【例】:9个家庭的人均月收入数据n原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630n排排 序序: 750 780 850 960 1080 1250 1500 1630 2000n位位 置置: 1 2 3 4 5 6 7 8 9n【例】【例】: 10个家庭的人均月收入数据n排 序: 660 750 780 850 960 1080 1250 1500 1630 2000n位 置: 1 2 3 4 5 6 7 8 9 1025%25%25%25%均值nxnxxxxniin121已改至此!已改至此!某电脑公司销

4、售量数据分组表某电脑公司销售量数据分组表按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)Mi fi 14015015016016017017018018019019020020021021022022023023024014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计合计12022200185120222001nfMxkiii2.加权均值加权均值3.几何平均数几何平均数n 【例】【例】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别

5、为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率 %0787. 81%9 .101%5 .125%1 .102%5 .1044G%5 . 84%9 . 1%5 .25%1 . 2%5 . 4G众数、中位数和均值的关系左偏分布对称分布右偏分布数据箱线图某电脑公司销售量数据的箱线图某电脑公司销售量数据的箱线图数据特征的测度数据特征的测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众 数数离散程度(离中趋势)1.异众比率n非众数组的频数占总频数的比率imimirfffffv1异众比率不同品牌饮料的频数分布 饮料品牌频数比例百分比(%) 可口可乐 旭日升冰茶 百

6、事可乐 汇源果汁 露露15119690.300.220.180.120.183022181218合计5011002.四分位差极差一组数据的最大值与最小值之差四分位差上四分位数与下四分位数之差 QD = QU QL离散度:中间50%数据四分位差解:设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5 已知 QL = 不满意 = 2 QU = 一般 = 3四分位差: QD = QU = QL = 3 2 = 1顺序数据问题甲城市家庭对住房状况评价的频数分布回答类别甲城市户数 (户)累计频数 非常不满意 不满意 一般 满意 非常满意2410893453024132225270300

7、合计3003.方差未分组数据组距分组数据nxxMniid1nfxMMkiiid1平均差全面准确反映离散状况数学性质较差平均差某电脑公司销售量数据平均差计算表 按销售量分组组中值(Mi)频数(fi)14015015016016017017018018019019020020021021022022023023024014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计1202040 xMiiifxM 平均差)(1712020401台nfxMMkiiid改进:方差

8、和标准差数据离散程度的最常用测度值总体方差或标准差;样本方差或标准差总体方差和标准差未分组数据组距分组数据NxNii122)(NfMkiii122)(样本方差和标准差n未分组数据:未分组数据:组距分组数据1)(122nxxsnii1)(122nfxMskiii1)(12nxxsnii1)(12nfxMskiii样本标准差某电脑公司销售量数据平均差计算表 按销售量分组组中值(Mi)频数(fi)1401501501601601701701801801901902002002102102202202302302401451551651751851952052152252354916272017108

9、4540302010010203040501602703202700170200240160250合计120554002xMiiifxM2样本标准差)(58.211120554001)(12台nfxMskiii相对位置的度量:标准分数n 计算公式为n n也称标准化值q均值0q标准差1n用于对变量的标准化处理sxxzii标准分数的性质n只是线性变换,并没有改变:q一个数据在改组数据中的位置q也没有改变该组数分布的形状n只将数据变为(例,一组数据标准差6,均值34)q均值为0,q标准差为1。 经验法则n经验法则表明:当一组数据对称分布时n约有68%的数据在平均数加减1个标准差的范围之内n约有95%

10、的数据在平均数加减2个标准差的范围之内n约有99%的数据在平均数加减3个标准差的范围之内 切比雪夫不等式n一对于任意分布形态的数据,根据切比雪夫不等式,至少有(1-1/k2)个数据落在k个标准差之内。n对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内4.离散系数:相对离散程度n标准差与其相应的均值之比 q消除了数据水平高低和计量单位的影响q用于对不同组别数据离散程度的比较n计算公式为xsvs离散系数某管理局所属8家企业的产品销售数据企业编号产品销售额(

11、万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【 例例 】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度离散系数)(19.309)(25.53611万元万元sx)(09.23)(5215.3222万元万元sx数据特征的测度数据特征的测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众 数数偏态与峰态分布的形状偏态系数 (skewness coefficient)根据原始数据计算根据分组数据计算33)2)(1(snnxxnSKi313)(

12、nsfxMSKkiii偏态n数据分布偏斜程度的测度q偏态系数=0为对称分布q偏态系数 0为右偏分布q偏态系数 0为左偏分布偏态系数 某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表 按销售量份组按销售量份组(台台) 组中值组中值(Mi)频数频数 fi140150150160160170170180180190190200200210210220220230230240145155165175185195205215225235491627201710845-256000-243000-128000-2700001700080000216000256000625000102400

13、00729000025600002700000170000160000064800001024000031250000合计合计120540000 70100000 iifxM3iifxM4偏态系数448. 0)58.21(120540000)58.21(120)185()(331013313iiikiiifMnsfxMSK峰态系数 (kurtosis coefficient)根据原始数据计算根据分组数据计算4224) 3)(2)(1() 1()(3)() 1(snnnnxxxxnnKii3)(414nsfxMKkiii峰态数据分布扁平程度的测度峰态系数=0扁平峰度适中峰态系数0为尖峰分布峰态系数306. 03694. 23)58.21(120701000003)(4414nsfxMKkiii偏态与峰态(从直方图上观察)结结 束束本章回顾数据特征的测度数据特征的测度分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论