贾俊平《统计学》考研考点大全 (一)_第1页
贾俊平《统计学》考研考点大全 (一)_第2页
贾俊平《统计学》考研考点大全 (一)_第3页
贾俊平《统计学》考研考点大全 (一)_第4页
贾俊平《统计学》考研考点大全 (一)_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录

第一章导论(2)

第一节统计及其应用领域(2)

第二节统计数据类型(4)

第三节统计学的常用基本概念(4)

第二章数据的搜集(6)

第一节数据的来源(6)

第二节调查数据(7)

第三节数据的误差(10)

第三章数据的图表展示(12)

第一节数据的预处理(12)

第二节品质数据的整理与展示(13)

第三节数值型数据的整理与展示(18)

第四节合理使用图表(24)

第四章数据的概括性度量(26)

第一节集中趋势的度量(26)

第二节离散程度的度量(31)

第三节偏态与峰态的度量(34)

第五章概率与概率分布(36)

第一节随机事件及概率(36)

第二节概率的性质与运算法则(39)

第三节离散型随机变量及其分布(44)

第四节连续型随机变量的概率分布(49)

第六章统计量及其抽样分布(54)

第一节统计量(54)

第二节由正态分布导出的几个重要分布(55)

第三节样本均值的分布(58)

第四节样本方差和样本比例的分布(61)

第七章参数估计(62)

第一节参数估计的基本原理(62)

第二节一个总体参数的区间估计(66)

第三节两个总体参数的区间估计(70)

第四节样本量的确定(73)

第八章假设检验(75)

第一节假设检验的基本问题(75)

第二节一个总体参数的检验(80)

第三节两个总体参数的检验(85)

第九章列联分析(91)

第一节分类数据与列联表(91)

第二节X2检验

第三节列联表中的相关测量(95)

第十章方差分析(99)

第一节方差分析引论(99)

第二节单因素方差分析(102)

第三节双因素方差分析(110)

第十一章一元线性回归(116)

第一节变量间关系的度量(116)

第二节一元线性回归(121)

第三节利用回归方程进行预测(128)

第四节残差分析(129)

第十二章多元线性回归(132)

第一节多元线性回归模型(132)

第二节回归方程的拟合优度(133)

第三节显著性检验(134)

第四节多重共线性(136)

第五节变量选择与逐步回归(138)

第十三章时间序列分析和预测(140)

第一节时间序列及其分解(140)

第二节时间序列的描述性分析(142)

第三节时间序列预测的程序(145)

第四节平稳序列的预测(149)

第五节趋势型序列的预测(154)

第六节复合型序列的分解预测(162)

第十四章指数(168)

第一节基本问题(168)

第二节总指数编制方法(169)

第三节指数体系(174)

第四节几种典型的指数(176)

第五节综合评价指数(179)

贾俊平《统计学》考点精讲

课程简介

统计学是一门关于大量数据如何进行搜集、整理和分析的方法论科学,它是统计学专业的一门专

业基础课程,也是经济学类和工商管理类各专业的一门核心课程,众多学科必备的考研专'也课程,主

要介绍如何运用统计方法对社会经济现象的总体特征和发展规律进行描述、分析,包括:统计指标、数

字特征、动态分析、指数分析和简单的趋势模型及抽样推断、相关和回归分析等。

内容体系和章节分配

描述统计:前四章

推断统计:第五章至第十一章

统计应用:第十二章至第十四章

第1章导论第2章数据的搜集

第3章数据的图表展示

第5章概率与概率分布

第7章参数估计

第9章列联分析

第11章一元线性回归

第13章时间序列分析和预测

课程辅导的作用

凸现重点,分解难点,关联体系,把握核心。

内容应有取舍,要求亦分三个层次:

了解-------般的认识。知道出处、适用范围,反映的具体事情;

理解-----对概念、原理、公式的条件、结论及意义有准确的把握;

掌握-----理解基础上,能够正确运用。

通过对重点内容的精细讲解,对难点内容的透彻分析,将整个课程体系串联起来,达到对课程大

纲中核心考点和综合知识的系统掌握。

课程辅导的目标

1.更加深刻地理解统计学主要概念及统计背景,了解在社会经济应用及分析中的重要作用,系统

掌握统计描述和统计推断的基本内容与基本方法;

2.在掌握统计学基础知识的基础匕能较容易理解其他课程中的一些数量分析方法,并能独立完

成对有关资料的搜集、整理、分析。

3.为深入研究社会经济问题和学习其它专业课程提供数量分析的方法。

4.为进一步学习专业统计和数量经济课程打好基础。

要求学生能在教师的指导下,掌握统计学的基本理论和方法,熟悉统计软件的基本操作,并能够

结合经济学和工商管理理论加以应用。

1—

hda

第一章导论

基本内容

统计学的含义、统计数据及其分类、统计学常用的基本概念。

重点内容

统计学常用的基本概念。

学习目标

1.理解统计学的含义,能区分描述统计与推断统计

2.了解统计学的应用领域

3.理解统计数据的含义、基本类型及特点

4.熟悉总体、样本、参数、统计量、变量等基本概念的含义

第一节统计及其应用领域

一、什么是统计学

统计学是处理数据的方法论,是关于收集、处理、分析、解释数据并从中获得结论的科学,研

究对象是来自各领域的数据,其目的是探索数据的内在数量规律性,以达到对客观事物的科学

认识。

1.数据收集:取得统计数据。例如,调查与试验。

2.数据处理:展示数据。例如,分组、制表、作图。

3.数据分析:选择统计方法研究数据。例如,回归分析

4.数据解释:结论的讨论与说明。例如,判别出变量相互独立。

实际问题

收集数据

分析数据

图1-1统计研究的过程

2—

贾俊平《统计学》考点精讲

数据分析方法分类:描述统计方法和推断统计方法,描述是推断统计的前提,推断统计是描述统

计的发展。

描述统计是研究数据收集、处理、汇总、图表描述、概括与分析等的统计方法,通常采用集中量数、

差异量数、地位量数、相关系数等概括性的度量工具;反映研究总体的直观特征、外在联系或横向比较

结果等浅表性信息。

推断统计是借助概率论的原理,研究如何利用样木信息来推断对总体特征的统计方法,主要包括

参数估计、假设检验和方差分析;揭示研究总体内在统计规律与特征;对各种统计方法的性质和优良

程度进行探讨。见图1一2

图1-2统计方法的分类

二、统计学的应用领域

统计学是适用于所有学科领域的通用数据分析方法,使广泛运用于包含定量数据的一切领域中

有效的分析工具,并已发展成为由若干分支学科组成的学科体系。下面给出统计在工商管理中的一

些主要应用。

1.企业发展战略

利用统计方法提供可靠数据,了解经济发展状况、变化趋势,考察市场变化;

利用统计方法的科学分析,挖掘企业优势,发现不足,进行合理的市场定位。

2.产品质量管理

统计在产品管理的主要应用方式是质量控制,借助质量控制图监测生产过程。

3.市场研究

通过市场调查,获取所需信息,利用统计分析,得到关于市场规律的科学结论。

4.财务分析

利用统计方法,对上市公司提供的财务资料与数据进行分析,为股民提供投资参考。

5.经济预测

利用统计方法,对获得的经济领域的一些指标数据和统计信息建立定量模型,作出特征判断和趋

势预测。

6.人力资源管理

利用统计方法,可以对企业员工的基本信息进行管理与分析,并作为企业制定工资计划、奖惩制

度的依据。

图1-3展示了统计学的一些应用领域统计,表1—1。

3—

hda

图1—3统计学的应用领域

第二节统计数据类型

统计数据是统计研究的基础信息和分析应用的依据,是对客观现象进行测量的结果,视研究问题

的角度可有不同方式数据类型划分。

1.按计量尺度划分

数值型数据(m?Eidat):按数字尺度测量的数据,结果表现为具体的数值,能对不同事物的特征

及间距作出精确测度。例如:比例数1%、5%、10%、25%、50%、75%、90%等;

顺序数据(ankdat):只能归于有序等级的非数字型数据,结果表现为等级标准,目的是对事物

类别顺序进行测度,例如,学历分为小学、初中、高中、大专、本科、研究生等;

分类数据(c电tig。rca1dat):只能用不同类别表述的非数字型数据,结果表现为文字类别,目的是

对事物类别进行区分;例如,物体颜色、形状、物理状态等。

2.按收集方法划分

观测数据(。bVnat。na1dat):通过调查或观测而收集到的数据,属于自然环境下获得的。通常经

济、社会、人口领域有关现象的数据大多来源于观测数据。

试验数据(exqe/ment1dat):在试验中控制试验对象而收集到的数据。各种物理、化学、生物、医

学试验等大多数自然科学领域的数据主要出自试验数据。

3.按时间状况划分

截面数据(cor—jsctona1dat):取自相同或相似的时间点上的数据,这类数据通常是在不同的

空间上获得的,测度现象在某一时刻的状态特征。例如,某一年亚洲各国和地区的人文发展数据。

时间序列数据(qmjesresdat):取自不同时间点上的数据,这类数据通常是在同一空间上获得

的,描述现象随时间变化的规律。例如,2000年至2010年我国人口数据。

第三节统计学的常用基本概念

1.总体和样本

总体(popR1ton):包含研究对象的全体组成的集合,组成总体的每一个元素称为个体,按照总体

所含元素数目可分为有限总体和无限总体。有限总体的范围能够明确确定,且元素的数目是有限的;

无限总体所包括的元素是无限的,元素的数目不可数的。区分有限总体和无限总体主要目的是为了

4—

贾俊平《统计学》考点精讲

判断在抽样过程中独立性。

注意:在统计问题中通常将所研究总体限定于它的某个数量指标,视总体为一些实数构成的集

合,利于统计分析方法应用。例如检验一批灯泡的质量,从中选择100只,观察其使用寿命,这里研究

总体就不是这批灯泡,而是这批灯泡的使用寿命,为一组实数构成的集合。

样本(&meP1):从总体中抽取的一部分元素组成的集合,也是总体的一个子集。构成样本的元素

数目称为样本容量或样本量(s扪Rljsez上例中100只灯泡的使用寿命就构成一个样本。

2.参数和统计量

参数(parm)etr:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征的数量

表现。统计学中常用的参数主要有总体均值(U)、标准差(。)、总体比例(n)等,总体参数通常是一个

未知的常数。

统计量(5Pttcsi):用来描述样本特征的概括性数字度量,它是根据样木数据计算出来的,集中了

样本所带来的总体众多信息的样木函数。对应于总体主要参数的样本统计量有样本均值(x)、样木

标准差(3、样本比例()等,样本统计量通常用小写英文字母来表示。

注意:除了上述基本统计量外,统计学中还有一些为统计分析需要所构造的统计量,以后章节中

将会陆续引入。

3.变量

变量:反映现象某种特征和状态的指标,变量的具体取值称为变量值,即数据。如商品价格、受教

育程度、时间、体重等都是变量。统计数据就是统计变量的一些取值。

按照计量尺度划分数据类型的方式,相应地可将变量分成分类变量、顺序变量和数值型变量。数

值型变量因刻画事物特征最为精确,亦为应用最广泛的类型,而且根据其取值是否连续,又可分为离

散型变量和连续型变量。

5—

hda

第二章数据的搜集

基本内容

数据的来源、获得数据方法、数据的误差。

重点内容

简单随机抽样、抽样误差。

学习目标

1.了解数据来源的两种渠道

2.了解概率抽样与非概率抽样特点和差异

3.熟悉概率抽样几种常用方式的操作方法和优缺点

4.了解非概率抽样常用方式适用条件和差异

5.了解搜集数据的基本方法及其特点

6.理解数据的误差含义,以及抽样误差和非抽样误差的区别、产生的原因,了解误差控制的方法

第一节数据的来源

统计数据是实践的基本资源和统计分析的依据,展示了客观现象数量方面的特征,从本质上讲,

所有统计数据最初都来源于调查或实验,但从使用者的角度看,主要出自直接和间接两条途径。

1.数据的间接来源

间接来源:未经过自己的实践,而对别人已搜集数据直接加以利用而得到的。或将已存在信息重

新加工、整理,变为我们所用数据的方式。

搜集的范围包括系统外部和系统内部。系统外部:对外公布的常规信息,收集渠道很多;系统内

部:不对外公布的精密资料,获取途径较少。

优点:采集成本低,便于搜集,并且能很快利用;

作用广泛,包括分析所要研究的问题、提供研究问题的背景、帮助研究者更好地定义问题、检验和

回答某些疑问和假设、寻找研究问题的思路和途径等。

缺点:针对性差,相关性、准确性、时效性可能有不足。

2.数据的直接来源

直接来源:经过自己的调查或实验等直接的实践活动,取得的第一手数据。

包括通过调查方法获得的调查数据,主要针对社会经济现象且取自有限总体,比如统计学家收集

—6—

贾俊平《统计学》考点精讲

人口数据分析某地区人口增长的规律;通过实验方法得到的实验数据,它大多用于自然现象,社会科

学领域也有应用,比如医学家通过实验验证某种中成药的疗效。

优缺点恰与间接来源相反。

第二节调查数据

1.概率抽样与非概率抽样

在数据采集阶段,我们面临的•个关键问题:如何选出一个好的样本?相对而言,好的样本包含

两方面含义:

①对所研究问题有较强的针对性;

②调查费用与估计精度间要保持较高的性价比。

运用抽样方式采集数据的具体方式有很多,但根据抽样原则划分只有概率抽样和非概率抽样两

大类。

图2—1抽样方式图标

1)概率抽样(<prb豆btiayismp1ng

它是遵循随机原则进行的抽样,又称随机抽样。

主要特点

抽取样本时按一定的概率以随机方式选择样本单位;

每个单位被抽中的概率是已知的,通常可以计算出来的;

当用样本对总体指标进行估计时,需考虑到每个样本单位被抽中的概率。

概率抽样是调查实践中最主要且应用最广泛的类型,主要优点是以随机性为原则选取样木,可以

导出样本统计量的理论分布,进而依据调查结果,计算估计量误差,确保了统计推断的可靠性,因此是

获得统计分析样本的基本抽样类型。

概率抽样常用方式包括:

♦简单随机抽样(simelarnd)oSjmping

方法:从总体N个单位中随机地抽取n个单位作为样本,每个单位以相等的概率入选,为最基本

的抽样方法,也是其它抽样方法的基础。

优点:简单、直观,在抽样框完整时,可直接从中抽取样本;用样本统计量对目标量进行估计比较方便。

注:抽样框指包含全部总体单位及标志特征的一个框架。

局限性:当N很大时,构造抽样框较困难;抽出的单位交分散,增加了实施调查的难度;无利用其

—7—

hda

它辅助信息以提高估计的效率。

♦分层抽样(St%tjfead$n)p1ng

方法:将总体单位按某种特征或规则先划分为不同的层,然后从不同的层中独立、随机地抽取一

定数量的单位组成样本。

优点:保证了样本的结构与总体的结构比较相近,从而提高估计的精度;一定条件下方便了调查

的组织实施;可以同时对总体和各层的目标量,效率较高。该方法在实践中应用较为广泛。

例如:某市税务部门欲对市区600名个体户的月零售额作抽样调查,可按申报资金分为大、中、小

3类,比例数为1:4:5,假定选取120人作样本,则可取大户12人,中户48人,小户60人。

♦整群抽样(cultsarjsmp1ng

方法:先将总体中若干个单位合并为组(群),然后以群为单位直接抽取样本,再对入选群中的所

有单位实施调查。

优点:抽样时只需群的抽样框,可简化工作量;调查的地点相对集中,节约费用,方便实施;

缺点:但由于同一群内单位相对接近,对总体估计的误差较大。

♦系统抽样(勺,tema5cas(np1ng

方法:先将总体中的所有单位按一定顺序排列,并随机地抽取一个单位作为初始单位,然后按事

先规定好的规则确定其它单位组成样本。

典型方式先从数字1到k之间随机抽取一个数字r作为初始单位,然后依次选取r+k,r+2k,…

等单位组成样本。

优点:操作简便,一定条件下还可提高估计的精度;缺点:对估计量方差的比较困难。

♦多阶段抽样(mutls>gesmp1ng

方法:先抽取群,但并不是调查群内的所有单位,然后从入选的群中在抽取出若干个单位组成样

本进行调查。因接受调查的单位需经两个步骤产生而命名二阶段抽样,将该方法推广,使抽样的段数

增多,就成为多阶段抽样。

例如第•阶段抽取初级单位------群,第二阶段抽取二级单位,第三阶段抽取接受调查的最终抽样

单位就是三阶段抽样。

优点:具有整群抽样的优点,保证样本相对集中,节约调查费用;

缺点:需要包含所有低阶段抽样单位的抽样框;由于实行了再抽样,使调查单位分布于较为广泛

的范围内展开;经常被用于规模较大的抽样调查。

2)非概率抽样(non—p)r]btabijiysmp1ng

根据研究目的对数据的要求,采用非随机方式从总体中抽出部分单位进行调查的抽样方法。由

于所得为非随机样本,样本统计量的分布是不确定的,因而无法使用样本的结果推断总体,非概率抽

样适合于探索性的研究。

主要方式有以下几种:

♦方便抽样

方法:调查过程中由调查员依据方便的原则,自行确定入选样本的单位。

例如:调查员在各种公共场所进行的拦截调查。

8—

贾俊平《统计学》考点精讲

♦判断抽样

方法:研究人员根据经验、判断和对研究对象的了解,有目的选择一些单位作为样本。

♦自愿抽样

方法:被调查者自愿参加,向调查人员提供有关信息构成样本。

例如,参与报刊上和互联网上刊登的调查问卷活动,或向某类节目拨打热线电话等。

♦滚血球抽样

方法:先选择一组调查单位,对其实施调查之后,再通过他们找到另外一些调查单位,进行此后的

调查。这个过程持续下去,就会形成滚雪球效应。适合于对稀少群体和特定群体研究。

♦配额抽样

方法:先将总体的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判

断抽样的方式选取样本单位。保证了总体中各类别的单位都能出现在样本中。

非概率抽样的几种方式具有相似的优缺点。

优点:易与实施且成本低。

缺点:样本单位的确定较为主观随意,对总体代表性差,调查结果不能用于推断总体。

说明:鉴于本课程中抽样技术不是主要内容,下面讨论中均假定样本是采用简单随机抽样方式选

出的,以便更好地把握统计推断的原理。

2.搜集数据的基本方法

样本单位确定后,从样本单位得到所需的数据有以下常用方法,如图2—2所示。

搜集数据的抵本方法

调在的数据实船的数据

自填式面访式电话式

图2—2数据搜集方法图标显示

♦自填式问卷调查

方法:在无调查员协助的情况下由被调查者自己完成调查问卷。比如调查员分发、邮寄、网络、媒

体等递送方法的问卷。一般要求调查问卷结构严谨,有清楚的说明。

优点:实施方便且成本低。

缺点:问卷的返收率较低,不适合结构复杂的问卷,调查周期较长,发现的问题无法及时调改。

♦面访式问卷调查

方法:调查员与被调查者面对面提问、被调查者回答的调查方式。

优点:可提高调查的回答率、数据的质量,调节花费的时间。

缺点:成本较高且难控制调查质量。

♦电话式问卷调查

方法:通过各种电讯工具向被调查者实施调查。

9—

hda

优点:速度快、时效性强,尤其适合样本单位较为分散的情形。

缺点:受到多种条件的限制。

♦观察式调查

方法:调查员通过直接观察方式获取信息。如交通流量的调查。

♦选择数据收集方法的依据

主要考察抽样框中的有关信息、目标总体的特征、调查问题的内容、有形辅助物的使用、实施调查

的资源、管理与控制和质量要求。表2—1给出了几种收集数据方法的特点比较。

表2-1常用数据收集方法的特点

自填式面访式电话式

调查时间慢中等快捷

调查费用低高低

问卷难度要求容易可以复杂要求容易

有形辅助物的使用中等利用充分利用无法利用

调查过程控制简单复杂容易

调查员作用的发挥无法发挥充分发挥一般发挥

回答率最低较高一般

小结:没有哪一种方法在各方面都是最好的,应根据实际问题的多方面因素综合要求而定。

3.实验数据

它是搜集数据的另一类方法,指在实验中控制实验对象而得到的变量数据。由于这类方法专业

性较强,多用于理工科对应的领域,本课程中少有应用,故这里不再详述。

第三节数据的误差

泛指通过调查得到的数据与研究对象真实结果之间的差异。主要包括抽样误差和非抽样误差两

类,如图2—3所示。

图2—3数据误差的图标分解

1.抽样误差6sjnp)Ingeror

定义:由于抽样的随机性所引起的样本结果与总体真值之间的差异。

描述的不是个体偏差,而是所有样本可能的结果与总体真值之间的平均性差异。

抽样调查所特有的,仅存在于概率抽样中的随机误差,可以计量或测度,并通过抽样设计加以控制。

—10—

贾俊平《统计学》考点精讲

影响抽样误差的大小的主要因素:样本量的大小(反比)和总体的变异性(正比)。

2.非抽样误差(no§i-isn)p1ngeror

泛指除抽样误差之外的,由于其他原因造成的样本结果与总体真值之间的差异。

存在于所有类型的调查之中,包括概率抽样,非概率抽样,全面性调查。

主要类型有以下几种

抽样框误差-----由于抽样框的不完善所致,如抽样框中遗漏部分总体单位;

回答误差-----被调查者在接受调查时的回答与真实情况不符所致,原因包括理解误差、记忆误

差、有意识误差;

无回答误差-----被调查者拒绝接受调查,导致结果出现偏差,尤其是系统性的;

调查员误差-----由于调查员自身的原因所致;

测量误差-----由于调查的方式、测量工具的不完善所致。

3.误差的控制

概率抽样下抽样误差是不可避免的,但可计量,并能在统计理论指导卜,采取措施,控制其大小。

非抽样误差的控制的主要方面是调查过程的质量控制,可在调查员的挑选、培训、督导及抽样调

查的管理制度上采取措施。

11—

hda

第三章数据的图表展示(一)

基本内容

数据的预处理、频数分布表的编制、两类数据的整理与图标展示。

重点内容

数据预处理的方法、识别图表中统计结论与特征。

学习目标

1.熟悉数据预处理的各种方法

2.了解两类数据的整理与展示的方法、特点和差异

3.了解各种常用图表的制作方法和应用条件

4.能够识别各种常用图表的统计结论与特征

第一节数据的预处理

数据的预处理是在对数据分类或分组之前所做的必要处理,确保数据的可靠性和应用的便利性。

主要内容包括数据的审核、筛选、排序等。

1.数据审核

含义:检查数据中有无错误。

♦对调查取得的原始数据,主要审核完整性和准确性两个方面。

完整性审核-----应调查单位有无遗漏,各调查项目或变量是否填写齐全;

准确性审核-----数据是否真实可靠,是否有错误或异常,计算的正确性等。

♦对间接获取的二手数据,还需追加审核适用性、时效性。

适用性审核-----通过对数据的来源、数据的口径以及有关的背景材料的分析,判断对自己的研究

有无应用价值;

时效性审核-----考察时间滞后性对数据的影响。

2.数据筛选(da;*f1er

含义:根据需要找出符合某种特定条件的数据。

数据筛选的原因-----数据中的错误不能纠正,或某些数据不符合调查要求且又无法弥补。

数据筛选的内容-----剔除不符合要求或错误的数据,筛选出符合特定条件的数据。

数据筛选可以由Exc(e1数据】菜单下【筛选】或【高级筛选】命令完成。

12-

贾俊平《统计学》考点精讲

注意:各种图标的制作需要借助于ExcelSPSS统计软件实现,非本课程基本内容,辅导课均不作

介绍,有兴趣同学可以通过教材自学。

3.数据排序(d用trnk)

含义:按一定顺序将数据进行排列整理,包括升序和降序两种。排序之后的数值型数据也被称为

顺序统计量(o(jresit§pctsi)。

作用:便于发现一些明显的数据特征或趋势,找到解决问题的线索;有助于对数据检查纠错,以及

为重新归类或分组等提供依据;排序本身也是分析的内容与目的之一。

各种类型数据的排序都可以由Excp1数据】菜单下【自动筛选】命令实现。

4.数据透视表(@boatbi)

方法:按使用者的习惯或分析要求对数据表的重要信息进行汇总和作图,形成•个符合需要的交

叉表(列联表),建表条件是数据源表首行必须设置列标题。

作用:通过对数据源表的整理,能够从复杂的数据中提取更为综合、系统的有用信息。

数据透视表可以由Exc【e1数据透视表】工具生成。

第二节品质数据的整理与展示

数据经过预处理后,可根据需要进一步作分类或分组,即数据整理。作用是便于更直观清晰地显示数

据特征。图表是数据整理中基本的展示方式,合理使用图表描述统计结果是应用统计的基本技能之一。

数据的整理与显示的基本问题:需弄清所面对的数据类型,以便采取针对性的处理方式。对品质

数据(分类数据和顺序数据)主要是作分类整理,对数值型数据则主要是作分组整理。

1.分类数据的整理与展示

基本过程:列出所分类别,计算各类别的频数、频率或比例,制出频数分布表,通过图表展示数据

的直观特征。

1)频数与频数分布

频数(fequency)-----落在各类别中的数据个数;

频数分布表-----将各个类别及落在其中的相应频数全部列出的统计表格。

分类数据的频数分布表既可以由Exct1数据透视表】或【数据分析】工具中的【直方图】命令生

成,还可以运用SPSS相应功能键实现,包括制作多个变量交叉分类的列联表。频数分布表实例见

【例3.1】和【例3.2

【例3.1]对学生购买饮料品牌的调查资料建立频数分布表。

表3—1学生购买饮料品牌的频数分布表

代饮料品牌x频数(人)f频率(%)

1可口可乐1530

2百事可乐1122

3蒙牛918

4娃哈哈612

5伊利918

合计50100

13—

hda

【例3.2]对某百货公司日商品销售额建立频数分布表。

表3—2某百货公司日商品销售额的频数分布表

按销售额分组X(万元)频数f(天)频率(%)

25〜30410.0

30〜35615.0

35〜401537.5

40〜45922.5

45〜50615.0

合计40100

其它描述分类数据的统计量:

比例(P°rp(prin):研究对象的某一类别数据占全部数据的比值

百分比(p©「aentge):将对比的基数作为100的比值

比率(『比):研究对象中不同类别数据的比值

注意:比率不是部分与整体之间的对比关系,因而比值可能大于1。

2)分类数据的图示

统计图是统计数据最形象、直观的表现形式,有许多种图形能刻画频数、比例分布的特征。

条形图(barqhar)------用宽度相同的条形的高度或长短来表示各类别数据多少的图形,主要用于

反映分类数据的频数分布,实例参见图3-1o

帕雷托图(P电bt2har)------按各类别数据出现的频数多少排序后绘制的柱形图,特点易于比较

各类数据频数多少,实例参见图3—2。

【例3.3]为研究不同类型软饮料的市场销售情况,一家市场调查公司对随机抽取的一家超市

进行了调查。调查员随机观察的50名顾客购买饮料的类型及购买者性别的记录。生成频数条形图

和帕雷托图,观察饮料类型的分布状况,并进行描述性分析。

饮料类5!

图3—1饮料类型销售量的条形图

对比条形图(SideTbyFsdebarchar)--------将分类变量在不同时间或不同空间上的多个取值合成

起来的条形图,用于对比分类变量的取值在不同时间或不同空间上的差异或变化趋势。饮料类型销

售量的帕雷托图参见图3—2。

14—

贾俊平《统计学》考点精讲

图3—2饮料类型销售量的帕雷托图

【例3.4]根据某商场一季度和二季度不同品牌电脑销售情况数据,试建立电脑销售量的季度

对比条形图。

8oo

7oo

6OO

电脑品季二季

5oO

联想2546

4oO

IB2839O

3oO•季度

O

康柏24322o。二季度

O

戴尔5668IO

联想IBM果柏蛾尔电脑品牌

图3-3电脑销售量的对比条形图

饼图(Peighar)--------用圆形及圆内扇形的角度来表示数值大小的图形,主要用于数据结构性研

究,表示样本或总体中各组成部分所占的比例。只能显示一个总体各部分所占的比例。饮料类型销

售量的饼图参见图3—4。

绿茶

图3—4饮料类型销售量的饼图

环形图(doughnutchar)---------饼图挖去中间部分,形成的一个多层环状图形,可以同时描述多个

样本或总体的数据比例,每一个样本或总体的数据系列为一个环,结构比较研究上优于饼图。

2.顺序数据的整理与图示

分类数据的整理与展示的各种方法均适用于顺序数据,本段介绍适用于顺序数据的整理与图示方法。

15—

hda

累积频数(Cumauiltrvesfequenci)-----各顺序类别频数的逐级累加的和数。应用中有向上累积和

向下累积两种算法。作用是可直观看出某一类别以上(下)频数之和。

累积频率(cun^uil4%eperentges)-----各顺序类别频率的逐级累加的比例数。

依据累积频数或累积频率可绘制出累积图,展示数据的累积效果。借助于Excel的计算及制图功

能即可实现。

【例3.5]在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的

一个问题是:“您对您家庭目前的住房状况是否满意?”

1.非常不满意;2.不满意;3.一般;4.满意;5.非常满意。

试依据调查数据建立甲乙两个城市的累积频数表,绘制出环形图。

表3—3甲城市家庭对住房状况评价的频数分布

甲城市

向上累积向下累枳

回答类别

户数百分比

户数百分比户数百分比

(户(%)

(户(%)(户)(%)

)

非常不满意2828.3010

不满意136142792

一般931271656

满意415297525

非常满意3103103010

合计310————

乙城市

向上累积向下累积

回答类别

户数百分比

户数百分比户数百分比

(户(%)

(户(%)(户)(%)

)

非常不满意27.27.3010

不满意9314279

一•般7216186

满意6228103

非常满意31310381

合计310————

贾俊平《统计学》考点精讲

■非常不满意

口不满意

口一般

口满意

■非常满意

图3一5甲乙两城市家庭对住房状况的评价形图

17—

hda

第三章数据的图形展示(二)

第三节数值型数据的整理与展示

品质数据的整理与展示的各种方法均适用于数值型数据,但是还有一些不适用于品质数据,而为

数值型数据所特定的整理与图示方法。本段主要介绍这些方法。

1.数据分组

按照数据统计研究的需要,将原始数据按照某种标准化分成不同的组别的方法即为数据分组。

数据分组后很容易算出各组频数,形成频数分布表,因此便于观察数据的分布特征。

数据分组常用方法有单变量值分组和组距分组两种。

单变量值分组-----将每一个变量值作为一组,适合于离散变量或变量值较少的情况;

组距分组-----将全部变量值依次划分为若干个区间,以变量值的一个区间作为一组,适合于连续

变量或变量值较多的情况,可采用等距分组,也可采用不等距分组。

相关概念:

上限(uppF41md才和下限(1W1mi):一个组的最大值和最小值;

组距(cal&hwit):上限与下限之差;

组中值(cal&is/p。it:下限与上限之间的中点值,代表各组数据的一般水平值。

分组绘制频数分布表主要步骤:

1)确定组数-----应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般取为5W

K<15;

2)确定组距-----可根据全部数据的最大值和最小值及所分的组数来确定,通常

组距=(最大值一最小值)小组数

3)数据分组整理制成频数分布表

组距分组应遵循“不重不漏”的原则以及“上组限不在内”的规定。

借助于Exce1中的【直方图】工具或频数函数均可创建

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论