第3章数据整理

上传人：6*** IP属地：湖北上传时间：2023-02-04 格式：PPT 页数：105 大小：1.20MB 积分：28 举报 版权申诉

已阅读5页，还剩100页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第三章统计数据的整理与显示本章主要内容数据的预处理分类和顺序数据的整理与显示数值型数据的整理与显示统计表第一节数据的预处理一、数据审核二、数据筛选三、数据排序数据的审核、筛选与排序的意义数据的审核发现数据中的错误数据的筛选找出符合条件的数据数据排序发现数据的基本特征一、数据审核

㈠对于原始数据的审核

审核的内容完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全准确性审核数据是否存在异常值，检查数据是否真实反映客观实际情况，内容是否符合实际检查数据是否有错误，计算是否正确等原始数据的审核

审核数据准确性的方法逻辑检查主要是从定性角度审核数据是否符合逻辑，内容是否合理，各项目或数字之间有无相互矛盾的现象主要用于对分类和顺序据的审核计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对数值型数据的审核㈡对于二手数据的审核除了对其完整性和准确性进行审核外，还应着重审核数据的适用性和时效性。适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要时效性审核尽可能使用最新的数据确认是否必要做进一步的加工整理二、数据筛选对审核过程中发现的错误应尽可能予以纠正。当发现数据中的错误不能予以纠正，或者有些数据不符合调查的要求而又无法弥补时，需要对数据进行筛选。数据筛选的内容包括：将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来，而不符合特定条件的数据予以剔出。（用Excel进行数据筛选参见教材P.43～46例）三、数据排序㈠数据排序的意义数据排序是按一定顺序将数据排列，以便通过浏览发现数据的一些明显特征或趋势，找到解决问题的线索。排序还有助于对数据检查纠错，为重新归类或分组等提供依据。在某些场合，排序本身就是分析的目的之一。㈡数据排序的方法分类数据的排序字母型数据，排序有升序降序之分，但习惯上用升序汉字型数据，可按汉字首位拼音字母排列，也可按笔画排序，其中也有笔画多少的升序降序之分数值型数据的排序递增排序：设一组数据为X1，X2，…，XN，递增排序后可表示为：X(1)<X(2)<…<X(N)递减排序可表示为：X(1)>X(2)>…>X(N)用Excel可进行数据排序第二节分类和顺序数据的

整理与显示一、数据整理与显示的基本问题二、分类数据的整理与图示三、顺序数据的整理与图示一、数据整理与显示的基本问题

㈠关于统计分组或分类数据经过预处理后可进一步作分类或分组整理。统计分组或分类是根据统计研究的需要，将统计总体（数据）按照一定的标志区分为若干个组成部分的一种统计方法；是在统计总体内部进行一种定性分类；是使认识深化的必要前提。统计分组或分类的作用：⑴区分事物类型；⑵反映事物内部结构；⑶分析事物间的依存关系。简单分组和复合分组：简单分组是按一个标志对现象进行分组。复合分组是按两个或两个人以上标志层叠起来对现象进行分组。如人口先按年龄分组，然后再在此基础上按性别分组。分组分组前分组后25％33％42％1·区分事物类型作用：例：企业按照所有制形式划分，可以分为：国有企业；集体企业；私营企业和其他类型企业。

2·反映总体内部结构及变化例：国内生产总值比例表（%）年份1985年 1995年2005年 2006年第一产业 28.0 19.9 12.5 11.7第二产业 42.9 47.2 47.5 48.9 第三产业 29.1 32.9 40.0 39.4 3·探讨现象之间的依存关系例：中国农民家庭按收入分组的恩格尔系数（1984年）按收入分组（元）<200<300<400<500<600<800<1000恩格尔系数（%）64.960.256.754.450.549.943.6

㈡数据整理与显示应注意的基本问题首先要弄清数据类型，因为对不同类型的数据，所采取和适用的处理方法是不同的。对分类数据和顺序数据主要是做分类整理，对数值型数据主要是做分组整理。适合于低层次数据的整理和显示方法也适合于高层次的数据；但适合于高层次数据的整理和显示方法并不一定适合于低层次的数据。二、分类数据的整理与图示分类数据整理的基本过程：列出各类别计算各类别的频数、频率或比例、比率等指标制作频数分布表选择适当的图形显示数据通过整理可以对数据及其特征有初步了解。㈠频数与频数分布1.频数（Frequency）频数也称次数，是分布在各类(组)别中的数据个数(总体单位数)。将各个类别及其相应的频数全部列出形成总体所有单位在各类(组)间的分布就是频数分布或称次数分布(Frequencydistribution)。将频数分布用表格形式表现出来就是频数分布表。2.频率频率是各组次数与总体总次数之比，通常用百分数或系数形式表示，也可称为比重次数。在频数分布表中也可把频率列出，以各组次数占总体总次数的比例来反映总体各单位在各组间的分布情况。频数与频数分布例3.1：某广告公司在某市随机抽取200人就广告问题做了问卷调查，其中一个问题是：“您比较关心下列哪一类广告？”①商品广告；②服务广告；③金融广告；④房地产广告；⑤招生招聘广告；⑥其它广告。这里的变量是“广告类别”，变量值是各不同类型广告。调查数据经分类整理后形成频数分布表。见表3－1。表3－1某市居民关注广告类型的频数分布变量→广告类型频数→人数（人）频率→人数比例（％）变量值商品广告11256.0服务广告5125.5金融广告94.5房地产广告168.0招生招聘广告105.0其它广告21.0合计200100.03.比率对分类数据整理时还可以计算各种比率。比如在上面的例子中，关注商品广告的人数与关注服务广告人数的比率是112:51。为便于理解，通常将分母化为1。比如，关注商品广告和关注服务广告人数的比率是2.2:1。其它比率指标略。【例3.2】一家市场调查公司为研究不同品牌饮料的市场占有率，对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录，如果一个顾客购买某一品牌的饮料，就将这一饮料的品牌名字记录一次。右边就是记录的原始数据用Excel制作频数分布表绿色健康饮品表3－2顾客购买饮料品牌的频数分布变量→饮料品牌频数→人数（人）频率→人数比例（％）变量值可口可乐1530旭日升冰茶1122百事可乐918汇源果汁612露露918合计50100㈡分类数据的图示1.条形图（Barchart）条形图是用宽度相同的条形的高度或长短来表示数据变动的图形。绘制时，各类别可以放在纵轴，称为条形图，也可以放在横轴，称为柱形图。在表示分类数据的分布时，是用条形或柱形的长度或高度来表示各类数据的频数或频率。有简单条形图、对比条形图等形式。当变量在不同空间或不同时间上有多个取值时，绘制对比条形图可比较变量取值的差异。（见教材P.56）图3－1例3.1某市居民关注广告类型的频数分布条形图图3－2教材例3.3的频数分布条形图2.帕累托图（Paretochart）帕累托图以意大利经济学家V.Pareto名字命名，是按各类别数据频数多少排序绘制的条形图。容易从中看出各类数据多少的类别排序。（见教材P.56图3-15）3．饼图（Piechart）饼图也称圆形图，是用圆形及圆内扇形的角度和面积来表示数值大小的图形。圆形图主要用于表示总体中各组成部分所占的比例，对于研究结构性问题十分有用。在绘制圆形图时，总体中各部分所占的百分比用圆内的各个扇形面积表示，这些扇形的中心角度，是按各部分百分比占3600的相应比例确定的。例3.1中关注服务广告的人数占总人数的百分比为25.5%，那么其扇形的中心角度就应为3600×25.5%＝91.80，其余类推。图3－3某城市居民关注不同类型广告的人数构成图3－4例3.2的圆形图4．环形图环形图中间有一个“空洞”，总体中的每一部分数据用环中的一段表示。环形图与圆形图类似，但又有区别：圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列，每一个总体的数据系列为一个环环形图可用于进行比较研究。环形图可用于展示分类和顺序的数据。图3－7甲、乙城市家庭对住房状况的满意程度构成（内环为甲城市，外环为乙城市）三、顺序数据的整理与显示对于顺序数据，除了可使用前述的整理与显示技术外，还可以计算累积频数和累积频率（百分比）。㈠累积频数和累积频率1.累积频数（Cumulativefrequencies）是各类别频数的逐级累加。方法有：向上累积，是从类别顺序的开始一方向最后一方累加频数（数值型数据则是从变量值小的一方向变量值大的一方累加频数）。向下累积，是从类别顺序的最后一方向开始一方累加频数（数值型数据则是从变量值大的一方向变量值小的一方累加频数）。通过累积频数，可以看出某一类别（或数值）以下及某一类别（或数值）以上的频数之和。2.累积频率（Cumulativepercentages）是各类别频率的逐级累加，也有向上累积和向下累积两种方法。累积频数和累积频率举例

教材P.59例3.5例3.5：在一项城市住房问题的研究中，研究人员在甲、乙两个城市各抽300户家庭进行询问，其中一个问题是：“您对您家庭目前的住房状况是否满意？”①非常不满意；②不满意；③一般；④满意；⑤非常满意。上述被选答案是按满意程度由低到高排列。调查结果经整理如表3－3和3－4所示。表3－3甲城市家庭对住房状况的评价回答类别户数（户）比例（％）向上累积向下累积户数（户）比例（％）户数（户）比例（％）非产不满意248248300100不满意108361324427692一般93312257516856满意4515270907525非常满意30103001003010合计300100－－－－表3－4乙城市家庭对住房状况的评价回答类别户数（户）比例（％）向上累积向下累积户数（户）比例（％）户数（户）比例（％）非产不满意217.0217.0300100.0不满意9933.012040.027993.0一般7826.019866.018060.0满意6421.326287.310234.0非常满意3812.7300100.03812.7合计300100.0－－－－㈡顺序数据的图示1.累积频数分布图根据累积频数或累积频率，可以绘制累积频数或累积频率分布图。例如，根据表3－3和表3－4可绘制累积分布图如图3－5和图3－6。图3－5甲、乙城市家庭对住房状况评价的累积分布图（向上累积）图3－6甲、乙城市家庭对住房状况评价的累积分布图（向下累积）第三节数值型数据的整理与显示一、数值型数据的分组二、数值型数据的图示三、频数分布的类型一、数值型数据的分组数值型数据在整理时通常要进行数据分组，分组的方法有：单变量值分组和组距分组分组方法等距分组异距分组单变量值分组组距分组㈠单变量值分组要点：将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况数值型数据的分组例3.4：某生产车间50名工人日加工零件数如下（单位：个）。117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121数值型数据的分组为便于分组，可先对上面的数据进行排序，结果如下：107108108110112112113114115117117117118118118119120120121122122122122123123123123124124124125125126126127127127128128129130131133133134134135137139139采用单变量值分组形成的频数分布表表3－5某车间50名工人日加工零件数分组表(个,人)零件数人数零件数人数零件数人数107111911282108212021291110112111301112212241311113112341332114112431342115112521351117312621371118312731392数据较多时单变量值分组由于组数较多，不便于观察数据分布的特征和规律，而且对于连续变量无法采用这种分组方法。【例】己知某车间有24名工人，他们的日产量（件）分别是：20，23，20，24，23，21，22，25，26，20，21，21，22，22，23，22，22，24，25，21，22，21，24，23.要求根据以上资料编制变量数列。日产量（件）X工人数（人)f202122232425263564321合计24编制结果如下：㈡组距分组要点将全部变量值依次划分为若干个区间，并将变量的一个取值区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏”的原则。“不重”指一项数据只能分在某一组，不能在其他组中重复出现；“不漏”指全部组别中包括所有各项数据，不能遗漏。可采用等距分组，也可采用不等距分组~~~~~组距分组的几个概念1.下限(Lowlimit)：一个组的最小值2.上限(Upperlimit)：一个组的最大值3.组距(Classwidth

)：上限与下限之差4.组中值(Classmidpoint)：下限与上限之间的中点值下限值+上限值2组中值＝组距分组的步骤：第一步：确定组数组数的确定应以能够显示数据的分布特征和规律为目的。若组数太少，则数据分布过于集中；而组数太多，则数据分布过于分散，这都不便于观察数据分布的特征和规律。一般可根据数据多少和特点及分析要求确定组数。通常在5-15组之间。也可以按Sturges提出的经验公式确定组数K：

式中，n为数据的个数，对结果用四舍五入取整数。例如，对例3.4的数据有：K＝1＋lg50/lg2≈7，即应分为7个组。第二步：确定组距组距可根据全部数据的最大值、最小值、组数以及特定的研究需要来确定。若各组组距相同可用公式：

组距＝（最大值一最小值）/组数

例如对于例3.4的数据，最大值为139，最小值为107，则组距＝(139－107)/7＝4.6。为便于计算，组距宜取5或10的倍数，而且最低一组的下限应低于最小变量值，最高一组的上限应高于最大变量值。上例组距可取5。第三步：数据分组并将结果整理成频数分布表组距分组的步骤对例3.4数据分组，可得如下频数分布表表3－6某车间50名工人日加工零件数（上下组限重叠）按零件数分组（个）人数（人）频率（％）105－11036110－115510115－120816120－1251428125－1301020130－135612135－14048合计50100组距分组的形式（一）组限重叠分组——相邻组限相同。

--适用于连续型变量，也可用于离散型变量。为避免重复,习惯上规定“上组限不在内”，即恰好等于某一组上限的数值不算在本组内，而算在更高一组内。例如在表3－6的分组中，120这一数值不计入“115～120”这一组内，计入“120～125”组中。组限间断分组——相邻组限不同。

--适用于离散型变量，不用于连续型变量。表3-7某车间50名工人日加工零件数分组表（上下组限间断）按零件数分组频数（人）频率（%）105~109110~114115~119120~124125~129130~134135~139358141064610162820128合计50100组距分组的形式（二）闭口组——上下组限齐全开口组——缺上组限或下组限适用于总体存在极端变量值的情况，最大值或最小值与其他数据相差悬殊，为避免出现没有变量值的组或个别极端值被漏掉，最小组或最大组采取“××以下”或“××以上”表示。通常以邻组组距作为开口组的假定组距有向下开口组（最小组）和向上开口组（最大组）表3-8某车间50名工人日加工零件数分组表（使用开口组）按零件数分组频数（人）频率（%）110以下110~114115~119120~124125~129130~134135以上358141064610162820128合计50100组距分组的形式（三）等距分组——组距相同各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律不等距分组——组距不同各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度（频数密度＝频数/组距）反映频数分布的实际状况采用等组距还是不等组距要根据数据特点和研究需要而定。一般应尽量采用等距分组。因为可根据绝对频数来观察频数分布的特征和规律，便于绘制频数分布图，也便于计算某些统计特征值。等距分组和异距分组月收入

人

数比

重

（百元）（个）（％）0—6612.56—121122.912—182143.818—24714.624—3036.3

合

计48100.0月收入

人

数频数比

重

频率（百元）（个）密度（％）密度0—8111.3822.92.868—15172.4335.4

5.0615—20142.829.25.83

20—2530.66.31.2525—3030.66.31.25

合

计481.6100.03.33等距分组异距分组频数分布表的编制举例

教材P.61例3.6【例3.6】某电脑公司2005年前四个月各天的销售量数据(单位：台)。试对数据进行分组。

等距分组表

(上下组限重叠)等距分组表

(上下组限间断)等距分组表

(使用开口组)组中值组距分组掩盖了分布在各组内的各实际变量值，为反映各组数据的一般水平，通常用组中值（Classmidpoint）作为某组数据的代表值。

组中值＝（下限值十上限值）/2以组中值作为组代表值的假定条件是：各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。如果实际数据分布不符合此假定，则用组中值作为一组数据的代表值会有一定误差。二、数值型数据的图示数值型数据的图示方法除前述介绍的条形图、饼图、环形图及累积分布图外，还有以下一些图示方法，这些方法并不适用于分类数据和顺序数据。㈠分组数据：直方图和折线图㈡未分组数据：茎叶图和箱线图㈢时间序列数据：线图㈣多变量数据—雷达图㈠分组数据：直方图和折线图1.直方图（Histogram）直方图是用矩形的宽度和高度来表示频数分布的图形。在平面直角坐标中，横轴表示数据分组，纵轴表示频数或频率，各组组距与相应的频数形成了多个矩形组成的直方图。实际是用矩形的宽度和高度（即面积）表示各组的频数分布。直方图与条形图不同分组数据－直方图频数(人)1512963105110115120125130135140日加工零件数(个)直方图下的面积之和等于1图3-8某车间工人日加工零件数的直方图我一眼就看出来了，大多数人的日加工零件数在120～125之间!直方图与条形图的区别条形图是用条形的长度(横置时)表示各类别频数的多少，其宽度(表示类别)则是固定的。直方图是用直方的面积表示各组频数的多少，矩形的高度表示每一组的频数或频率，宽度则表示各组的组距，其高度与宽度均有意义直方图的各矩形通常是连续排列，条形图则是分开排列条形图主要用于展示分类数据，直方图则主要用于展示数值型数据2.折线图折线图也称频数多边形图(Frequencypolygon)是在直方图的基础上，把直方图顶部的中点(组中值)用直线连接起来，再把原来的直方图抹掉折线图的两个终点要与横轴相交，具体的做法是第一个矩形的顶部中点通过竖边中点（即该组频数一半的位置）连接到横轴，最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等，二者所表示的频数分布是一致的1512963105110115120125130135140日加工零件数(个)频数(人)折线图下的面积与直方图的面积相等！分组数据—折线图图3-9某车间工人日加工零件数的折线图㈡未分组数据：茎叶图和箱线图

1.茎叶图（Stem－and－leafdisplay）⑴用于显示未分组的原始数据的分布⑵由“茎”和“叶”两部分构成，其图形是由数字组成的⑶以该组数据的高位数值作树茎，低位数字作树叶⑷对于n(20≤n≤300)个数据，茎叶图最大行数不超过

L=[10×log10n

]

⑸茎叶图类似于横置的直方图，但又有区别直方图可大体上看出一组数据的分布状况，但没有给出具体的数值茎叶图既能给出数据的分布状况，又能给出每一个原始数值，保留了原始数据的信息树茎树叶7880223477788890012222333344466777889013344579910111213数据个数3132410茎叶图类似横置的直方图未分组数据—茎叶图图3-10某车间工人日加工零件数的茎叶图

2144677茎叶图的制作DatainRawform(ascollected):（未排序数据）

24,26,24,21,27,27,30,41,32,38DateOrderedfromSmallesttoLargest:（从小到大排序）21,24,24,26,27,27,30,32,38,41

Stem

andLeaf

display（茎叶图）:302841未分组数据—茎叶图（扩展的茎叶图）树茎树叶10s10.11*11t11f11s11.12*12t12f12s12.13*12t13f13s13.78802234577788890012222333344455667778890133445799树茎树叶10*10.11*11.12*12.13*13.78802234577788890012222333344455667778890133445799图3-11图3-10扩展后的茎叶图图3-12某电脑公司日销售量茎叶图图3-13图3-12扩展后的茎叶图2．箱线图（Boxplot）用于显示未分组的原始数据的分布一组数据也称为单批数据，多组数据也称为多批数据。对于单批数据可以绘制简单箱线图；对于多批数据可以绘制批比较箱线图。箱线图可以反映原始数据分布的特征，还可以进行多组数据分布特征的比较。箱线图由一组数据的5个特征值绘制而成，它由一个箱子和两条线段组成其绘制方法是：首先找出一组数据的5个特征值，即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU）连接两个四分位数画出箱子，再将两个极值点与箱子相连接未分组数据—单批数据箱线图

（箱线图的构成）中位数4681012QUQLX最大值X最小值图3-14简单箱线图未分组数据—单批数据箱线图举例最小值107最大值139中位数123下四分位数117.75上四分位数128105110115120125130135140图3-1550名工人日加工零件数的箱线图未分组数据—单批数据箱线图举例最小值141最大值237中位数182下四分位数170.25上四分位数197140150160170180190200210220230240图3-16某电脑公司销售量数据的箱线图分布的形状与箱线图

对称分布QL中位数

QU左偏分布QL中位数

QU右偏分布QL

中位数

QU图3-17不同分布的箱线图未分组数据—多批数据箱线图对于多批数据，可以将各批数据的箱线图并列起来进行分布特征的比较。股票分析中常用的K线图与箱线图类似，只不过K线图是用开盘价、收盘价、最低价、最高价这四个数据绘制而成的。箱线图的绘制可以由计算机来完成，例如MINITAB、STATISTICA等软件中就有绘制箱线图的功能。未分组数据—多批数据箱线图举例

教材P.68例3.7【例3.6】

从某大学经济管理专业二年级学生中随机抽取11人，对8门主要课程的考试成绩进行调查，所得结果如表3-9。试绘制各科考试成绩的批比较箱线图，并分析各科考试成绩的分布特征表3-911名学生各科的考试成绩数据课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177

首先列出11个学生各科考试成绩的最大值、最小值、中位数和两个四分位数，如下表所示。表3-10各学科考试成绩的特征值课程名称最小值QLMeQU最大值英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础70516669666555677155767068666270766378746868687278657874707069778171797773707078837481807573718085758384757873818678868576798181908288878187848293919290849091849795939188929495由下图可看出，在8门课程中，平均考试成绩较高的是英语和西方经济学，较低的是经济数学和统计学；从考试成绩的离散程度来看，英语和市场营销学的考试成绩比较集中，且大体上为对称分布；而经济数学、基础会计学和统计学课程的考试成绩比较分散；从分布形状看，英语、市场营销成绩分布大体上为对称分布。图3-188门课程考试成绩的箱线图图3-1911名学生8门课程考试成绩的箱线图Min-Max25%-75%Medianvalue455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11由下图可看出，在11名学生中，第2号学生各科的平均考试成绩最高，而且各科成绩之间的离散程度也较小，分布也较对称，说明该生没有偏科；第1号学生的平均考试成绩最低，而且各科考试成绩的离散程度也较大；各科考试成绩之间离散程度最大的是第3号学生。㈢时间序列数据：线图线图是在平面坐标上用折线表现数量变化特征和规律的统计图。主要用于显示时间序列数据，以反映事物发展变化规律和趋势。绘制线图时应注意以下几点时间一般绘在横轴，指标数据绘在纵轴图形的长宽比例要适当，其长宽比例大致为10：7一般情况下，纵轴数据下端应从“0”开始，以便于比较。数据与“0”之间的间距过大时，可以采取折断的符号将纵轴折断时间序列数据—线图（举例）

教材P.71例3.8【例3.8】已知1991～2000年我国城乡居民家庭的人均收入数据如表10。试绘制线图￥

＄

表101991～2000年城乡居民家庭人均收入年份城镇居民农村居民19911992199319941995199619971998199920001700.62026.62577.43496.24283.04838.95160.35425.15854.06280.0708.6784.0921.61221.01577.71926.12091.12162.02210.32254.4时间序列数据（由Excel绘制的线图）时间序列数据—锥形图（实例）时间序列数据图示（实例）图：2003-2007年国内生产总值及其增长速度新华社发时间序列数据图示（实例）图：2003-2007年居民消费价格涨跌幅度新华社发时间序列数据图示（实例）图：2007年末国家外汇储备15282亿美元新华社发雷达图（RadarChart）是显示多个变量的常用图示方法在显示或对比各变量的数值总和时十分有用假定各变量的取值具有相同的正负号，总的绝对值与图形所围成的区域成正比可用于研究多个样本之间的相似程度㈣多变量数据—雷达图

设有n组样本S1，S2，…Sn，每个样本测得P个变量X1，X2，Xp，要绘制这P个变量的雷达图，其具体做法是多变量数据—雷达图（雷达图的制作）先做一个圆，然后将圆P等分，得到P个点，令这P个点分别对应P个变量，在将这P个点与圆心连线，得到P个幅射状的半径，这P个半径分别作为P个变量的坐标轴，每个变量值的大小由半径上的点到圆心的距离表示再将同一样本的值在P个坐标上的点连线。这样，n个样本形成的n个多边形就是一个雷达图多变量数据—雷达图（举例）【例3.8】2000年我国城乡居民家庭平均每人各项生活消费支出构成数据如表。试绘制雷达图。今天的主食是面包2000年城乡居民家庭平均每人生活消费支出构成(%)项目城镇居民农村居民

食品衣着家庭设备用品及服务医疗

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第3章数据整理

文档简介

温馨提示

最新文档

评论

第3章 数据整理

文档简介

温馨提示

最新文档

评论

相关文档

第3章数据整理