03第三章样本数据特征的初步分析_第1页
03第三章样本数据特征的初步分析_第2页
03第三章样本数据特征的初步分析_第3页
03第三章样本数据特征的初步分析_第4页
03第三章样本数据特征的初步分析_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章 样本数据特征的初步分析主讲:宇LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建本章要点样本数据结构的基本特征:频次和频率?3.1?3.2?3.3?3.4?3.5观察刻度级样本数据结构的茎叶图与直方图方法样本数据的位置特征:对数据中心的描述样本数据的离散特征样本数据特征的综合表达:箱型图LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.1 样本数据结构的基本特征:频次与频率v 3.1.1 频次与频率的基本概念v 频次:在一个数据集合中,同一个数据值(样本值)出现的次数。v 频率:某样本值的频率=该样

2、本值出现的频次/n(该数据集合的数据总个数)该样本值出现的频次某样本值的频率=该数据集合的数据总个数(n)LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.1 样本数据结构的基本特征:频次与频率v 基于排序,能够简单统计频次:故意增加了“9.94”这个刻度排成一行,看清楚了频率结构特征。以后的统计频率、频次,都由计算机完成。LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建价格9.939.949.959.969.979.989.99次数1011234频率%3.3303.333.336.6710.013.33

3、价格10.0010.0110.0210.0310.0410.0510.06次数4423221频率%13.3313.336.6710.06.676.673.333.1 样本数据结构的基本特征:频次与频率v 例3.1.2 抽样后,得到客户家具的基色调的数据:(这是名义级数据案例)v R,Y,R,G,Y,Y,W,Y,G,G,R,Y,Y,R,W,v G,Y,R,W,Y,G,G,B,R,Y,Y,W,R,R,W,v R,Y,R,G,Y,Y,W,Y,G,G,R,Y,Y,R,W,v G,Y,R,W,Y,G,G,B,R,Y,Y,W,R,R,W,v 其中,R表示暗红色,Y表示黄褐色,G表示浅绿色,W表示白表示黑色

4、v 统计出各个颜色出现的频率如下:LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.1 样本数据结构的基本特征:频次与频率当然,也可以统计出顺序级数据集合的频次与频率结构LOGOPDF 文件使用 "pdfFactory Pro"试用版本创建家具基色BGRWY合计基色频次16851030基色频率3.3320.026.716.733.31003.1 样本数据结构的基本特征:频次与频率v 3.1.2 观察样本数据基本特征(频次与频率)的图形方法v 1、表示频次与频率的饼图v 每个不同的样本值所占据的圆心角的大小又下式计算:v 在圆圈中

5、,给每个不同的样本值一个与其频次(或频率)相当的圆心角:v 某样本值对应的圆心角=该样本值的频率×360°LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.1 样本数据结构的基本特征:频次与频率家具基色调(名义级数据)3. 33%浅绿色20. 00%黄褐色33. 33%暗红色26. 67%白色16. 67%LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.1 样本数据结构的基本特征:频次与频率某员工程度的结构(顺序级数据)小学, 6. 25%初中, 12. 50%高中,12. 50%

6、,12. 50%大学,56. 25%LOGOPDF 文件使用 "pdfFactoryPro" 试用版本创建3.1 样本数据结构的基本特征:频次与频率v 2、表示频次与频率的条形图v (1)横坐标:样本数据的不同值。排序级以上,横坐标上的样本数据应从小到大排列。若是刻度级的,则在排序中,要注意长度的刻度,保持一致的比例。v (2)纵坐标:相应样本值出现的频次或频率。LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.1 样本数据结构的基本特征:频次与频率某商品在30个商店的价格(注意间距)LOGOPDF 文件使用 "pdf

7、Factory Pro" 试用版本创建3.1 样本数据结构的基本特征:频次与频率某科室员工程度例(有顺序,无间距)56. 25%60. 00%50. 00%40. 00%30. 00%20. 00%10. 00%0. 00%12. 50%12. 50%12. 50%6. 25%小学初中高中受教育程度大学LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建百分比3.1 样本数据结构的基本特征:频次与频率家具基色调例(横坐标的色彩无顺序关系)35. 00%30. 00%25. 00%20. 00%15. 00%10. 00%5. 00%0. 00%

8、33. 33%26. 67%20. 00%频率16. 67%3. 33%黑色浅绿色暗红色某色调白色黄褐色LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.1 样本数据结构的基本特征:频次与频率v 3.1.3 样本数据集合的基本特征的延伸:累计频率v 1、累计频率的概念v设m,是样本数据集合中的不重复的样本值(mn样本个数)。v 若把样本 值小于等于某个样本数据 Xi 的频率值,都累加起来,就得到“小于等于Xi”的累积频率。v 2、表格法表示累积频率(以价格问题为例)LOGOPDF 文件使用 "pdfFactory Pro" 试用

9、版本创建3.1 样本数据结构的基本特征:频次与频率价格案例v 顺序级数据能够计算累积频率吗?v 名义级数据能够计算累积频率吗?LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建价格9.939.949.959.969.979.989.99次数1011234频率%3.3303.333.336.6710.013.33价格10.0010.0110.0210.0310.0410.0510.06次数4423221频率%13.3313.336.6710.06.676.673.333.1 样本数据结构的基本特征:频次与频率v 3. 累积频率的条形图表示v 把条形图的纵

10、坐标改成累积频率即可。100 . 00% 90 . 00% 80 . 00% 70 . 00% 60 . 00% 50 . 00% 40 . 00% 30 . 00% 20 . 00% 10 . 00% 0 . 00% 累积频率9 . 93 9 . 95 9 . 97 9 . 99 10 . 01 10 . 03 10 . 05 商品价格XLOGOPDF 文件使用 "pdfFactoryPro" 试用版本创建3.2 观察刻度级样本数据结构的茎叶图与直方图v 3.2.1 茎叶图的概念与作法v 1、概念v “茎叶”的含义:按照某规则,那所有的样本值分成“茎节”和“叶”两个部分。

11、表达为“茎节·叶”的形式。v “茎节”末位上的1所代表的实际值,就是“茎节”的宽度。LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.2 观察刻度级样本数据结构的茎叶图与直方图v 例如,可用茎叶法,把123表示为1.23(此时, 茎节宽=100)v 此时,123(样本值)=1.23(茎叶表达)×100(茎节宽)v 问:若茎节宽度为10,如何表达123?LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.2 观察刻度级样本数据结构的茎叶图与直方图v 2.例题和茎叶图的作法v 例3.2.1

12、 某班级男生身高数据(CM)v 问:以100cm为茎节宽?LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建1711821751771781811851681701751771801761721651601781861901761631833.2 观察刻度级样本数据结构的茎叶图与直方图v 结论:样本数据集合中的“茎节”必须是有变化的v 茎节宽应为10cmv 把所有的数据都表达为“茎节·叶”形式后,把相同茎节的数据合并为“茎节·叶1叶2”形式(叶,要从小到大排列),再把不同的茎节从小到大纵向排列,就得到茎叶图:LOGOPDF 文件使用

13、 "pdfFactory Pro" 试用版本创建3.2 观察刻度级样本数据结构的茎叶图与直方图v茎叶v 16 · 0,3,5,8v 17 · 0,1,2,5,5,6,6,7,7,8,8v 18 · 0,1,2,3,5,6v 19 · 0v 可进一步简化(注明频次)LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.2 观察刻度级样本数据结构的茎叶图与直方图v 频次v 4v 11v 6v 1茎叶16 · 035817 · 0125566778818 · 01235

14、619 · 0v 这就是身高数据的茎叶图v 如果有的茎叶的叶子太多了,怎么办?v 可以把茎叶砍短一点v 例如,把每个茎叶分成两断(L、H),可得到LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.2 观察刻度级样本数据结构的茎叶图与直方图v 频次v 2v 2v 3v 8v 4v 2v 1茎16L叶· 0316H · 5817L · 01217H · 5566778818L · 012318H · 5619L · 0LOGOPDF 文件使用 "pdfFactor

15、yPro"试用版本创建3.2 观察刻度级样本数据结构的茎叶图与直方图v “茎节长度”的概念:茎节长度=覆盖最大覆盖最小值1值v 上例中的茎节长度为5(cm):04,59v 上例中的L、H可以省略。v 事实,上例的茎节是不必砍短的,因叶并不多v 注意:茎节砍短时,要注意茎节等长的原则LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.2 观察刻度级样本数据结构的茎叶图与直方图v 3.2.2 直方图的概念与作法v 条形图的弱点,当刻度级的数据的精度相对高,使得不重复的数据量非常大时,反而让人看不清楚数据集合的结构。如身高问题看不出规律LOGOP

16、DF 文件使用 "pdfFactory Pro" 试用版本创建3.2 观察刻度级样本数据结构的茎叶图与直方图v 1.直方图的基本概念和适用范围v 可以通过作法理解概念v 按照样本值的大小,选择恰当的区间长度(通常要求区间是等长的),对所有的样本值分组;v 统计所有组(区间)内的样本值的个数(频次),或各个组内的样本值的个数占全部样本值总个数的比例(频率);v 用横坐标,按照顺序表示不同的区间(组),用竖立于区间上的矩形条的高度,表示相应区间的样本值的频次或频率。LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.2 观察刻度级样本

17、数据结构的茎叶图与直方图v 直方图与条形图的本质差异在于:v 直方图要对数据分组(或者说,按照一定的刻度范围,把相邻的数据并为一组);v 而条形图不对数据分组,直接统计不同样本值的重复次数(或者,也可以理解为只把相同的数据作为一组)v 直方图的适用范围:当刻度级样本数据很多或者精度相对较高,使得数据集合中重复出现的样本值过少时,就需要对数据分组,用直方图观察不同组数据的频次与频率LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.2 观察刻度级样本数据结构的茎叶图与直方图v 2.数据分组(不讲)3. 绘制直方图v 以身高为例,对数据适当分组,可看到清

18、楚的分布规律。各区间长度时5cm,起点是157.5cm,终点是192.5cm。OPDF 文件使用 "pdfFactory Pro" 试用版本创建3.3样本数据的位置特征:对数据中心的描述v 3.3.1 样本众数v 1.样本众数定义1:样本数据集合中出现频次最高的那个样本值,称为样本众数。在一般情况下, “样本众数”被简称为“众数”。v 单一众数v 复众数v 无众数v 可从条形图,频率表或者频次表来表示。LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.3样本数据的位置特征:对数据中心的描述v 2.不同数据类型的区别v (1)对于

19、顺序级的样本数据集合而言,众数的确定是最容易的;56. 25%60. 00%50. 00%40. 00%30. 00%20. 00%10. 00%0. 00%12. 50%12. 50%12. 50%6. 25%小学初中高中受教育程度大学LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建百分比3.3样本数据的位置特征:对数据中心的描述v (2)对于名义级的样本数据集合而言,可以有众数,但是没什么实际意义,因为名义级的数据没有顺序位置的却别(换言之,其不同样本值的位置是可以任意排列的。)35. 00%30. 00%25. 00%20. 00%15. 00

20、%10. 00%5. 00%0. 00%33. 33%26. 67%20. 00%频率16. 67%3. 33%黑色浅绿色暗红色某色调白色黄褐色LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.3样本数据的位置特征:对数据中心的描述v (3)对于刻度级的样本数据集合而言,情况会比较复杂,要具体对待。LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.3样本数据的位置特征:对数据中心的描述v 3. 样本众数定义2:对于刻度级的样本数据集合而言,在对数据的等区间分组的直方图中,把最高的矩形(即图中的峰,Pea

21、k)所表示的数据区间称该数据集合的众数区间,简称众数。该数据集合的众数区间是:175±2.5PDF 文件使用 "pdfFactory Pro" 试用版本创建3.3样本数据的位置特征:对数据中心的描述v 3.3.2 样本中位数v 设,样本数据集合中的所有数据的排列结果为,nn为样本容量。样本中位数,就是上述序列中,处于“正中间位置”上的数据。v 两个要素:位与数v 正中间位置“号码”=(n+1)×0.5LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.3样本数据的位置特征:对数据中心的描述v 比较严谨的定义是:

22、ìxn+1当n为奇数时,ï2Me = í x+ xnn +1ï 22ï当n为偶数时,î2LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.3样本数据的位置特征:对数据中心的描述v 3.3.3 样本均值v 样本均值仅适用于刻度级的数据。v 样本数据集合的样本均值定义为:1nåx =Xini=1v 式中,xi为样本观察值。LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.4 样本数据的离散特征v 3.4.1 对样本数据离散特征的点状描述:

23、极值、四分点与百分位点v 1.极大值与极小值v 极大值是数据集合中的最大值;v 极小值是数据集合中的最小值。v 极大值与极小值,从一定视角反映了样本数据集合中样本值的离散情况。v 适用于顺序级以上的数据。LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.4 样本数据的离散特征v 2. 下四分点与上四分点v (1)上、下四分点的概念v 下四分点把排序后的样本数据集合分成了左右两部分,使左边部分包括25%的样本总个数,右边部分包含75%的样本总个数。v 上四分点把排序后的样本数据集合分成了左右两部分,使左边部分包括75%的样本总个数,右边部分包含25%

24、的样本总个数。v 上、下四分点在一定意义上反映了样本数据的离散程度。LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.4 样本数据的离散特征v (2)上、下四分点(及中位数)的位置v Q1:下四分点;Q2 =Me:中位数;Q3:上四分点v n:该数据集合的数据总个数下四分点Q1的位置 =(n+1)´ 0.25正中间Q2的位置 =(n+1)´ 0.5上四分点Q3的位置 =(n+1)´ 0.75LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.4 样本数据的离散特征v (3)上

25、、下四分点的值v 当Q1、Q2 、Q3的位置为整数时,相对应整数位置上的样本值,就是Q1、Q2 、Q3的值。v 当其不为整数时:Q1位置左边的样本值+(Q1位置右边的样本值- Q1位置左边的样本值)´ Q1位置的小数部分= Q3位置左边的样本值+(Q3位置右边的样本值- Q3位置左边的样本值)´ Q3位置的小数部分LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.4 样本数据的离散特征v 3.4.2 对样本数据离散特征的区间描述:极差、四分位距与离差v “区间描述”,必须要做加减运算,因此,区间描述仅适用于刻度级的数据。v 1.

26、极差v 极差=极大值极小值v 它反映了样本数据在数轴上的分布范围。v 2.四分位距v 四分位距(Iqr)=Q3Q1v 它反映了样本数据集合中样本值处于中间大小的1/2的数据的分布范围。LOGOPDF 文件使用 "pdfFactory Pro" 试用版本创建3.4 样本数据的离散特征v 3. 样本离差与离差平方和v 样本离差被定义为每个样本与样本均值之差:xi - x ,i = 1, 2,×× ×, nv 样本离差又称为样本中心化数据。v 例3.4.1 的样本数据为:99.8, 99.9, 100.1,v 100.2,均值为100.0,于是,样本离差(中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论