版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四部分统计第二十二章统计与统计数据统计学统统计学统计学的两大分支变量和数据变量的含义及其分类;变量和数据变量的含义及其分类;数据的含义及其分类观测数据和实验数据;观测数据和实验数据;一手数据和二手数据数据的来源数据的来源统计调查的概念与分类;统计调查的概念与分类;统计调查的方式;统计调查统计调查【知识点】统计学的两大分支(描述统计和推断统计)类型含义及内容举例描述统计研究数据收集、整理和描述的统计方法。其内容包括:如何取得所需要的数据;如何用图表或数学方法对数据进行整理和展示;如何描述数据的一般特征。为了解与居民生活相关的商品及服务价格水平的变动情况,收集统计局发布的CPI数据,利用统计图展示CPI,利用增长率计算CPI的走势。推断统计研究如何利用样本数据推断总体特征的统计方法。其内容包括:参数估计:利用样本信息推断总体特征;假设检验:利用样本信息判断对总体假设是否成立。某公司评测顾客满意度,随机抽取部分顾客进行调查,再对顾客总体满意度进行评估,此时需要用到参数估计法,然后验证满意度高的客户更倾向于成为忠诚客户。【例题1:单选题】收集统计局发布的CPI数据,利用统计图展示CPI,利用增长率计算CPI的走势,这种统计方法是()。A描述统计B推断统计C客观统计D心理统计【答案】A【解析】从题干中的“收集、展示”等词语可判断该统计方法是描述统计。【例题2:2013年多选题】下列统计分析中,需要采用推断统计方法的有()。A.利用样本信息估计总体特征B.利用图表对数据进行展示C.描述一组数据的集中趋势D.利用样本信息检验对总体的假设是否成立E.描述一组数据的离散趋势【答案】AD【解析】通过本题掌握描述统计和推断统计的内容。【例题3:2014年多选题】下列统计方法中,属于描述统计的有()A.用样本信息判断关于总体的假设是否成立B.利用图形展示数据的变化趋势C.用数学方法展示数据分布特征D.用样本均值估计总体均值E.利用表格展示数据的频数分布【答案】BCE第二节、变量和数据【知识点】变量及数据项目含义分类变量变量是研究对象的属性或特征,它是相对于常数而言的。常数只有一个固定取值,变量可以有两个或更多个可能的取值。定量变量(数量变量)变量的取值是数量。如企业销售额、注册员工数定性变量分类变量变量的取值是类别。如企业所属行业、员工性别顺序变量变量的取值是类别且有顺序。如员工受教育水平数据数据是对变量进行测量、观测的结果。数据可以是数值、文字或者图像等形式定量数据(数值型数据)是对定量变量的观测结果,其取值表现为具体的数值。如企业销售额1000万元。定性数据分类数据分类变量的观测结果,表现为类别,一般用文字来表述,也可用数字描述。如,用1表示男性,2表示女性。顺序数据顺序变量的观测结果,表现为类别,一般用文字描述,也可用数字描述。如用1表示硕士及以上,2表示本科,3表示大专及以下。对于不同类型的数据,可以采用不同的统计方法处理和分析。对分类数据可以计算出各类别的频率,而数值型数据则可以计算均值和方差等统计量。【例题4:2013年单选题】下列统计变量中,属于顺序变量的是()。A.原油价格B.年末总人口C.员工受教育水平D.学生年龄【答案】C【解析】通过本题掌握变量的类型。原油价格、年末总人口、学生年龄均属于定量变量。【例题5:2014年单选题】下列变量中,属于定量变量的是()。A.性别B.年龄C.产品登记D.汽车品牌【答案】B【解析】定量变量的取值为数值,本题中年龄属于定量变量;性别、产品登记;汽车品牌均属于定性变量。【例题6:2009年多选题改编】下列变量中,通常用数值型数据表示的有()。A.商品销售额B.上班出行方式C.家庭收入D.居住地区E.年龄【答案】ACE第三节数据来源【知识点一】观测数据与实验数据分类类别内容按收集方法观测数据通过直接调查或测量而收集的数据。观测数据是在没有对事物施加任何人为控制因素的条件下得到的。几乎所有与社会经济现象有关的统计数据都是观测数据,如GDP、CPI、房价等。实验数据通过在实验中控制实验对象以及其所处的实验环境收集到的数据。如,一种新产品使用寿命的数据,一种新药疗效的数据。自然科学领域的数据大多都是实验数据。【例题7:单选题】几乎所有与社会经济现象有关的统计数据都是()A观测数据B一手数据C二手数据D实验数据【答案】A【解析】几乎所有与社会经济现象有关的统计数据都是观测数据;自然科学领域的数据大多都是实验数据。【知识点二】一手数据和二手数据分类类别内容从使用者的角度看,统计数据按来源一手数据来源于直接的调查和科学实验的数据,对使用者来说这是数据的直接来源。其来源主要有:调查或观察;实验。二手数据来源于别人的调查或实验的数据。对使用者来说这是数据的间接来源。【例题8:2013年多选题】下列统计数据中,属于一手数据的有()。A.通过临床试验获得的新药疗效数据B.通过查阅统计年鉴获得的居民消费价格指数C.通过房地产管理部门数据库获得的房价数据D.通过入户调查得到的家庭月收入数据E.通过网络调查得到的网民对某项政策的支持率数据【答案】ADE【解析】一手数据来源于直接的调查和科学实验,由此可判断A选项、D选项和E选项是属于一手数据。第四节统计调查【知识点一】统计调查的分类统计调查过程有两个重要特征:一是调查是一种有计划、有方法、有程序的活动;二是调查的结果表现为搜集到的数据。统计调查的类别种类具体内容按调查对象的范围不同全面调查全面统计报表和普查非全面调查非全面统计报表、抽样调查、重点调查和典型调查按调查登记的时间是否连续连续调查观察总体现象在一定时期内的数量变化,说明现象的发展过程,目的是为了解社会现象在一段时期的总量。如工厂的产品生产、原材料的投入、能源的消耗、人口的出生、死亡等。不连续调查间隔相当长的时间所作的调查,为了对总体现象在一定时点上的状态进行研究。如生产设备拥有量、耕地面积等。【例题9:2008年多选题】下列调查方式中,属于非全面调查的有()A、重点调查B、抽样调查C、典型调查D、普查E、全面报表【答案】ABC【解析】通过本题掌握全面调查和非全面调查的方式。【例题10:多选题】按调查登记的时间是否连续,统计调查分为连续调查和不连续调查,下列现象适合不连续调查的是()A生产设备拥有量B耕地面积C人口的出生死亡D原材料的投入E工厂的产品生产【答案】AB【解析】通过本题掌握连续调查和不连续调查的适用情况。【知识点二】统计调查的方式调查方式含义特征、分类及应用场合统计报表按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供基本统计数据的一种调查方式。按调查对象范围的不同分为全面报表和非全面报表。目前的大多数统计报表都是全面报表。
普查为某一特定目的而专门组织的一次性全面调查,主要用于了解处于某一时点状态上的社会经济现象的基本全貌。1.普查通常是一次性的或者周期性的;
2.一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏,保证普查结果的准确性。
3.数据一般比较准确,规范化程度较高,可以为抽样调查或其他调查提供基本的依据。
4.使用范围比较窄,只调查一些最基本及特定的现象。抽样调查从调查对象的总体中抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的一种非全面调查(1).经济性:是抽样调查的一个显著优点。
(2).时效性强:可以迅速、及时的获得所需要的信息。
(3).适应面广:可用于全面调查也能调查全面调查所不能调查的现象,特别适合特殊现象的调查。如:产品质量检验、农产品试验、医药的临床实验。
(4).准确性高:重点调查从调查对象的全部单位中选择一部分重点单位进行调查。重点单位虽然只是全部单位中的一部分,但就调查的标志值来说在总体中占绝大比重。调查的目的只要求了解基本状况和发展趋势,不要求掌握全面数据,而调查少数重点单位就能满足需要时,采用重点调查比较适宜。(1)为了及时了解全国城市零售物价的变动趋势,就可以对全国的35个大中型城市的零售物价的变化进行调查就是重点调查。(2)要及时了解全国工业企业的增加值和资产总额情况,只需对全国大中型工业企业进行重点调查即可。(3)国家统计局的全国5000家工业企业联网直报制度属于重点调查。典型调查有意识的选择若干具有典型意义的或有代表性的单位进行的调查。作用:弥补全面调查的不足;在一定条件下可以验证全面调查数据的真实性。【例题11:2009年单选题】为了解全国煤炭企业的生产安全状况,找出安全隐患,专家根据经验选择10个有代表性的企业进行深入细致的调查。这类调查方法属于()。A.专家调查B.重点调查C.系统调查D.典型调查【答案】D【解析】通过本题掌握典型调查的含义。相关考点为:重点调查、抽样调查、普查的含义。【例题12:2012年单选题】在进行重点调查时,应选择的调查单位是()。A.就调查标志值来说在总体中占绝大比重的单位B.有典型意义的单位C.主动参与调查的单位D.随机抽取的单位【答案】A【解析】通过本题掌握重点调查的含义。【例题13:2012年单选题】某省统计部门为及时了解该省企业的出口信贷情况,每月定期调查该省出口信贷额排在前500名的企业。这500家企业虽然只占该省出口企业数量的10%,但是出口信贷总额占该省企业出口信贷总额的75%以上,这种调查方法是()A.随机抽样调查 B.典型调查C.系统调查 D.重点调查【答案】D【解析】重点调查是从调查对象的总体中选择少数重点单位进行调查。所选择的重点单位就调查的标志值来说在总体中占绝大比重。【例题14:2011年多选题改编】关于抽样调查的说法,正确的有()。A.抽样调查中不存在非抽样误差B.抽样调查用样本数据推断总体特征C.抽样调查适应面广D.抽样调查时效性差E.抽样调查通常从总体中选择重点单位进行调查【答案】BC【解析】通过本题掌握普查和抽样调查的特点。第二十三章描述统计【本章教材结构】集中趋势的测度均值、中位数、众数集中趋势的测度均值、中位数、众数离散程度的测度方差、标准差离散程度的测度方差、标准差离散系数分布形态的测度偏态系数;标准分数分布形态的测度偏态系数;标准分数变量间的相关分析相关关系的分类;散点图;变量间的相关分析相关关系的分类;散点图;相关系数【教材变化情况】本章从名称上看是2015年教材新增的一章,但其主要内容来自2014年教材第21章及第23章。具体包括:1.集中趋势的测度:均值、中位数、众数,其中众数为新增指标。2.新增“均值、中位数和众数的比较及适用范围”。3.离散程度的测度:方差、标准差、离散系数,其中离散系数为新增内容。4.分布形态的测度(新增内容)变量间的相关关系(来自2014年教材第23章相关与回归分析的第1节)【本章内容讲解】对统计数据特征的测度,主要从三个方面进行:一是分布的集中趋势,反映数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的偏态和峰度,反映数据分布的形状。第一节、集中趋势的测度【本节内容】集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。集中趋势的测度也就是寻找数据水平的代表值或中心值。【知识点一】均值均值也就是平均数,就是数据组中所有数值的总和除以该组数值的个数。【提示1】它是集中趋势中最主要的测度值,是一组数据的重心所在,解释了一组数据的平均水平。【提示2】均值主要适用于数值型数据,但不适用于分类数据和顺序数据。【提示3】均值易受极端值的影响,极端值会使得均值向极大值或极小值方向倾斜,使得均值对数据组的代表性减弱。【例题1:2014年单选题】在某城市2014年4月空气质量检测结果中,随机抽取6天的质量指数进行分析。样本数据分别是:30、40、50、60、80和100,这组数据的平均数是()。A.50B.55C.60D.70【答案】C【解析】均值即位平均数,本题均值=(30+40+50+60+80+100)/6=60【知识点二】中位数1.含义:把一组数据按从小到大或从大到小的顺序进行排列,位置居中的数值叫做中位数。中位数将数据分为两部分,其中一半的数据小于中位数,另一半数据大于中位数。2.计算:根据未分组数据计算中位数时,要先对数据进行排序,然后确定中位数的位置,n为数据的个数,其公式为:(1)n为奇数:中位数位置是,该位置所对应的数值就是中位数数值。(2)n为偶数:中位数位置是介于和(+1)之间,中位数就是这两个位置对应的数据的均值。3.适用:中位数主要用于顺序数据,也适用于数值型数据,但不适用于分类数据,中位数不受极端值的影响,抗干扰性强。尤其适用于收入这类偏斜分布的数值型数据。【例题2:2013年单选题】在某企业中随机抽取7名员工来了解该企业2013年上半年职工请假情况,这7名员工2013年上半年请假天数分别为:15310072这组数据的中位数是()。A.3B.10C.4D.0【答案】A【解析】通过本题掌握中位数的计算。本题计算的关键是一定要先排序,由小到大排序后的数据是“0;1;2;3;5;7;10”。中位数直观观察即可知为“3”【例题3:2007年单选改编】某连锁超市6个分店的职工人数有小到大排序后为57人、58人、58人、60人、63人、70人其均值、中位数分别为()。A.59、58B.61、58C.61、59D.61、70【答案】C.【解析】均值=(57+58+58+60+63+70)/6=61中位数=(58+60)/2=59【例题4:2014年单选题】下列数据特征测度中,适用于反映偏斜分布数值型数据集中趋势的是()。A.离散系数B.方差C.中位数D.标准差【答案】C【解析】2013年也考核本题考点。适用于反映偏斜分布数值型数据集中趋势的是中位数。【知识点三】众数(2015年教材新增)1.含义众数是指一组数据中出现次数(频数)最多的变量值。2.适用适于描述分类数据和顺序数据,不适用于定量数据。有些情况下可能出现双众数、多众数或者没有众数,难以描述数据的集中趋势。【例题5:单选】下面是抽样调查的10个家庭住房面积(单位:平方米):55;75;75;90;90;90;90;105;120;150。这10个家庭住房面积的众数为()A90B75C55D150【答案】A【解析】在这组数中90出现的次数最多,故众数为90【知识点四】均值、中位数和众数的比较及适用范围指标适用范围优点缺点均值定量变量能够充分利用数据的全部信息,其大小受观测值的影响,比较稳定易受极端值的影响,如果观测值中有明显的极端值,则均值的代表性较差。中位数顺序变量;定量变量,特别是分布不对称的数据不受极端值的影响没有充分利用数据的全部信息,稳定性差于均值,但优于众数。众数分类变量;顺序变量不受极端值的影响,分布明显呈偏态时,众数的代表性更好没有充分利用数据的全部信息,缺乏稳定性,而且可能不唯一。【例题6:单选题】下列指标中,用于描述数据集中趋势,并且易受极端值影响的是()。A.均值B.中位数C.众数D.极差【答案】A【解析】中位数和众数都不受极端值的影响,均值用于描述数据集中趋势,并且易受极端值影响。【例题7:多选题】适于测度顺序变量的指标有()。A.离散系数B.中位数C.众数D.均值E.标准差【答案】BC【解析】均值、标准差、离散系数只适用于定量变量。第二节离散程度的测度【本节考点】1.离散程度的测度指标2.方差、标准差的含义及适用3.离散系数的含义及作用【本节内容】离散程度反映的是各变量值远离中心值的程度。衡量离散程度的指标包括方差、标准差、离散系数。集中趋势的测度值是对数据一般水平的一个概括性变量,它对一组数据的代表程度,取决于该组数据的离散水平。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差,离散程度越小,其代表性就越好。【例题9:2010年单选题】集中趋势的测度值对一组数据的代表程度,取决于该组数据的离散水平。数据的离散程度越大,集中趋势的测度值对该组数据的代表性()。A.越好B.越差C.始终不变D.在一定区间内反复变化【答案】B【知识点一】方差和标准差1、方差与标准差的含义(1)方差是数据组中各数值与其均值离差平方的平均数。是实际中应用最广泛的离散程度测度值。方差越小,说明数据值与均值的平均距离越小,均值的代表性越好。方差的单位是原数据的平方。(2)标准差:方差的平方根,不仅能度量数值与均值的平均距离,还与原始数值具有相同的计量单位。2、方差与标准差的适用方差、标准差只适用于数值型数据,易受极端值的影响。标准差的大小不仅与数据的测度单位有关,也与观测值的均值大小有关,不能直接用标准差比较不同变量的离散程度。【例题9:单选题】某学校学生的平均年龄为20岁,标准差为3岁;该校教师的平均年龄为38岁,标准差为3岁。比较该校学生年龄和教师年龄的离散程度,则()。A.学生年龄和教师年龄的离散程度相同B.教师年龄的离散程度大一些C.教师年龄的离散程度是学生年龄离散程度的1.9倍D.学生年龄的离散程度大一些【解析】由于学生年龄与教师年龄的均值不同,故无法用方差和标准差来比较两组数据的离散程度。【知识点二】离散系数(2015年新增)1.含义离散系数也称为变异系数或标准差系数,即标准差与均值的比值。2.作用
离散系数消除了测度单位和观测值水平不同的影响,因而可以直接用来比较变量的离散程度。【接例题9】某学校学生的平均年龄为20岁,标准差为3岁;该校教师的平均年龄为38岁,标准差为3岁。比较该校学生年龄和教师年龄的离散程度,则()。
A.学生年龄和教师年龄的离散程度相同
B.教师年龄的离散程度大一些
C.教师年龄的离散程度是学生年龄离散程度的1.9倍
D.学生年龄的离散程度大一些【答案】D【解析】平均值不同的情况下,用离散系数比较离散程度。学生年龄的离散系数=3/20*100%=15%教师年龄的离散系数=3/38*100%=7.89%离散系数大的说明数据的离散程度也就大,离散系数小的说明数据的离散程度也就小。【例题10:2011年单选题】下列离散程度的测度值中,能够消除变量值水平和计量单位对测度值影响的是()。A.标准差B.离散系数C.方差D.极差【答案】B【解析】通过本题掌握离散系数的作用。【例题11:2008年单选题】标准差系数是一组数据的标准差与其相应的()之比。A算数平均数B极值C众数D几何平均数【答案】A【解析】通过本题掌握离散系数的计算。【例题12:2010年多选题改编】数值型数据离散程度的测度指标有()。A.中位数B.离散系数C.均值D.标准差E.方差【答案】BDE【解析】依据教材,离散程度的测度指标有方差和标准差、离散系数。集中程度的测度指标有众数、均值和中位数。第三节分布形态的测度(2015年新增)【知识点一】分布形态的测度指标分布形态的测度指标包括偏态系数和标准分数。【例题13:多选题】分布形态的测度指标包括()。A标准差B离散系数C中位数D偏态系数E标准分数【答案】DE【解析】通过本题掌握集中趋势、离散程度、分布形态的测度指标。【知识点二】偏态系数项目主要内容偏度数据分布的偏斜方向和程度,描述的是数据分布对称程度偏态系数测度数据分布偏度的统计量,取决于离差三次方的平均数与标准差三次方的比值。偏态系数的取值等于0数据的分布是对称的。偏态系数>0:分布为右偏。1.取值在0和0.5之间,轻度右偏;2.取值在0.5和1之间,中度右偏;3.取值大于1,严重右偏;偏态系数<0分布为左偏。1.取值在0和-0.5之间,轻度左偏;2.取值在-0.5和-1之间,中度左偏;3.取值小于-1,严重左偏;偏态系数的绝对值越大数据分布的偏斜程度越大;【例题14:多选题】下列关于偏态系数的表述错误的是()。A偏态系数取决于离差平方的平均数与标准差平方的比值B偏态系数等于0,说明数据的分布是对称的C偏态系数大于0,说明数据分布为左偏D偏态系数绝对值越大,说明数据分布的偏斜程度越小E偏态系数为0.8,说明数据分布为中度右偏【答案】ACD【解析】通过本题掌握偏态系数不同取值的含义。【知识点三】标准分数(一)标准分数的含义及计算在统计上,均值和标准差不同时,不同变量的数值是不能比较的,来自不同分布的变量值不可比,但是每个数值在变量分布中相对于均值的相对位置是可比的,因此可以通过计算标准分数来比较不同变量的取值。【例题15:标准分数举例】某班2014年中级经济师考试中,已知公共课考试的全班平均分为110分,标准差为10分,张三得了116分;专业课考试的全班平均分为100分,标准差为8分,张三得了107分。张三哪一门考试成绩比较好?【分析】1.因为两科考试的标准差不同,因此不能用原始分数直接比较。需要将原始分数转换成标准分数,然后进行比较。2.标准分数的计算标准分数Z=(原始分数Xi-平均分数X)÷标准差s【提示】标准分数的平均数为0,标准差为1【补充】标准分数表示一个给定的分数距离平均数有多少个标准差,含有标准差的个数越多,说明该分数和平均数的距离越大(标准分数若为正数,则标准分数越大越好,标准分数若为负数,则越小越好)【接上例】张三Z(公共课)=(116-110)/10=0.6张三Z(专业课)=(107-100)/8=0.8753.两门课程的比较张三的公共课成绩在其整体分布中位于平均分之上0.6个标准差的地位,他的专业课成绩在其整体分布中位于平均分之上0.875个标准差的地位。由此可见,张三的专业课考试成绩优于公共课考试成绩。(二)标准分数的实际应用在实际应用中,当数据服从对称的钟形分布时,可以运用经验法则来判断与均值的距离在特定倍数标准差之内的数据项所占比例。约有68%的数据与平均数的距离在1个标准差之内,标准分数在【-1,1】范围内;约有95%的数据与平均数的距离在2个标准差之内;标准分数在【-2,2】范围内;约有99%的数据与平均数的距离在3个标准差之内;标准分数在【-3,3】范围内;【例题16:标准分数举例】当数据服从对称的钟形分布时,经验法则表明,68%的的标准分数在()范围内A【-1,1】B【-2,2】C【-3,3】D【-4,4】【答案】A【解析】通过本题掌握标准分数在实际应用中服从对称分布的经验法则。第四节变量间的相关分析【知识点一】变量之间的相关关系分类标准类别内含相关的程度完全相关一个变量的取值变化完全由另一个变量的取值变化所确定。称这两个变量完全相关。如价格不变的条件下,某种商品的销售总额由其销售量决定。不完全相关介于完全相关和不相关之间。大部分相关现象均属于不完全相关。不相关两个变量的取值变化彼此互不影响。如股票的价格与气温的高低。相关的方向正相关一个变量的取值由小变大,另一个变量的取值也相应的由小变大。(两个变量同方向变化)。负相关一个变量的取值由小变大,另一个变量的取值由大变小(两个变量反方向变化)相关的形式线性相关两个相关变量之间的关系大致呈现为线性关系。非线性相关两个相关变量之间的关系不表现直线的关系,而近似于某种曲线方程的关系。【注】相关关系并不等于因果关系。比如夏天雪糕和遮阳伞的销售量【例题17:单选题】工人的工资随着劳动生产率的提高而增加,工资与劳动生产率存在()关系。A正相关B不确定C不相关D负相关【答案】A【解析】两个变量同向变化,应为正相关。【例题18:多选题】按相关的方向,相关关系可以分为()A完全相关B不完全相关C正相关D负相关E不相关【答案】CD【解析】通过本题掌握相关关系的分类。【知识点二】两变量的散点图两变量之间的相关关系可以用散点图来展示,在散点图中,每个点代表一个观测值,横纵坐标值分别代表两个变量相应的观测值【例题19:2013年多选题】根据变量X和变量Y的散点图,可以看出这两个变量间的相关关系为()。A.正相关B.不相关C.负相关D.线性相关E.完全相关【答案】AD【解析】通过本题熟悉散点图的形状。【知识点三】相关系数的定义和取值1、定义相关系数是度量两个变量之间相关关系的统计量。最常用的相关系数是pearson(皮尔逊)相关系数。2.相关系数大取值相关系数的取值范围在【-1,1】之间,即-1≦r≦+1,pearson相关系数只适用线性相关关系。r的取值两变量之间的关系0<r≦+1正线性相关-1≦r<0负线性相关r=1完全正线性相关r=-1完全负线性相关r=0不存在线性相关关系,但并不能说明两变量之间没有任何关系,它们之间可能存在非线性相关关系。根据实际数据计算出的r,其取值一般为-1<r<1,在说明两个变量之间的线性关系强弱时,根据经验可将相关程度分为以下几种情况,见下表:|r|的取值两变量之间的相关程度|r|≧0.8高度相关0.5≦|r|<0.8中度相关0.3≦|r|<0.5低度相关|r|<0.3相关程度极弱,可视为无线性相关关系。【例题20:2007年多选改编】当相关系数r=-1时,变量x和y的相关关系为()。A.高度相关B.不完全相关关系C.完全正相关关系D.不相关关系E.完全负相关关系【答案】AE【解析】通过本题掌握相关系数的不同取值各自代表什么含义。【例题21:2013年单选题】在相关分析中,如果两个变量间Pearson相关系数r=0,这表示()。A.两个变量间不存在线性相关关系B.两个变量间没有任何相关关系C.两个变量间存在中度相关关系D.两个变量间存在非线性相关关系【答案】A【解析】Pearson相关系数r=0说明两变量间不存在线性相关关系,但并不能说明两变量之间没有任何关系,它们之间可能存在非线性相关关系。【例题22:2014年单选题】变量X和变量Y的Pearson相关系数r=1,这说明变量X和变量Y间的相关关系是()。A.完全负线性相关B.低度线性相关C.完全正线性相关D.不存在线性相关【答案】C【解析】r=1表示两变量完全正线性相关关系【例题23:2005年单选题】下列变量间,相关的程度最高的是()A.某城市居民人均收入与私人汽车拥有量之间的相关系数为0.82B.某产品单位成本与利润之间的相关系数为-0.93C.某城市景点游客数量与票价的相关系数为-0.58D.某城市居民收入水平与食品支出之间的相关系数为0.9【答案】B【解析】通过本题掌握利用相关系数的取值判断两变量的相关程度。相关系数的绝对值越大,相关程度越高。第二十四章抽样调查抽样调查的基本概念抽样调查的基本概念;抽样调查的基本概念抽样调查的基本概念;概率抽样与非概率抽样;抽样调查的一般步骤;抽样调查中的误差几种基本概率抽样方法估计量与样本量简单随机抽样;分层抽样;系统抽样;整群抽样;多阶段抽样。几种基本概率抽样方法估计量与样本量简单随机抽样;分层抽样;系统抽样;整群抽样;多阶段抽样。估计量的性质;抽样误差的估计;样本量的影响因素;第一节、抽样调查的基本概念【本节内容】【知识点一】抽样调查基本概念概念含义例子总体调查对象的全体,组成总体的各个个体称作总体单元或单位。如研究某公司所有注册在职人员(共有1000名)的工资状况,总体是公司所有注册在职员工,每个注册在职人员是总体单元。样本和样本量样本是总体的一部分,由从总体中按一定原则或程序抽出的部分个体所组成。样本也是一个集合。每个被抽中进入样本的单位称为入样单位。样本中包含的入样单位的个数称为样本量。上例中,按一定原则从所有注册在职人员中抽取出200人调查。这200名注册在职员工就是样本;而抽出的每一名员工就是入样单位;该样本的样本量是200.抽样框供抽样所用的所有抽样单元的名单,是抽样总体的具体表现。常用的抽样框有名录框,如企业名录、电话簿、人员名册。抽样框也可以是一张地图或其他适当的形式,不管是那种形式,抽样框中的单位必须是有序的,便于编号。高质量的抽样框应当提供被调查单位更多的信息,并且没有重复和遗漏。上述例子中,企业1000名注册在职职工的名册,就是抽样框。总体参数总体参数就是总体指标值,它是未知的常数,是根据总体中所有单位的数值计算的,是通过调查想要了解的,不受样本的抽选结果影响。常用的总体参数有总体总量、总体均值、总体比例、总体方差。如研究某公司所有注册在职人员(共有1000名)的工资状况,公司所有注册在职人员的平均工资就是总体参数。样本统计量(估计量)是根据样本中各单位的数值计算的,是对总体参数的估计,也称估计量。它是一个随机变量,取决于样本设计和正好被选入样本的单元特定组合。常用的样本统计量有样本均值、样本比例、样本方差。如上例中,200名注册在职职工的平均工资就是该公司所有员工平均工资的一个估计量(样本统计量)【例题1:2012年单选题】在研究某城市居民的家庭消费结构时,在全部50万户家庭中随机抽取3000户进行入户调查,这项抽样调查中的样本是指该城市中()。A.抽取出来的3000户家庭B.50万户家庭C.每一户家庭D.抽取出来的每一户家庭【答案】A【解析】通过本题掌握抽样调查中的基本概念。总体50万户家庭总体单元50万户家庭中的每一户家庭样本抽取出来的3000户家庭样本单元抽取出来的每一户家庭抽样框50万户家庭消费信息的载体总体参数50万户家庭的平均消费样本统计量抽取出来的3000户家庭的平均消费【例题2:2013年单选题】某研究机构从我国金融行业从业人员中随机抽取5000人来了解该行业从业人员的年平均收入。这项抽样调查中的样本是()。A.我国金融行业的所有从业人员B.我国金融行业的每个从业人员C.抽中的5000个金融行业从业人员D.我国金融行业从业人员年平均收入【答案】C【解析】通过本题掌握抽样调查的有关概念。做题时需掌握每个选项涉及是抽样调查的哪个基本概念。【知识点二】概率抽样和非概率抽样抽样方法含义特点具体方式概率抽样依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的方法。1.按一定概率以随机原则抽取样本。2.总体中每个单元被抽中的概率是已知的或者是可以计算出来3.当采用样本对总体参数进行估计时,要考虑到每个样本单元被抽中的概率。若每个单位被抽中的概率相等,则成为等概率抽样;否则称为非等概率抽样。1.简单随机抽样;2.分层抽样3.系统抽样;4.整群抽样5.多阶段抽样非概率抽样调查者根据自己的方便或主观判断抽取样本的方法。抽取样本时并不是依据随机原则。1.判断抽样:调查者依据调查目的和对调查对象的了解,人为确定样本单元;2.方便抽样:拦截式3.自愿样本:网上调查4.配额抽样:总体划分若干类型,将样本数额分配到各类型,从各类型中抽取样本的方法没有严格限制,一般采用方便抽样。【例题3:2011年单选题】下列抽样方法中,属于非概率抽样的是()。A.分层抽样B.整群抽样C.判断抽样D.等距抽样【答案】C【解析】通过本题掌握概率抽样与非概率抽样的方法。【例题4:2013年单选题】下列抽样方法中,属于概率抽样的是()。A.判断抽样B.配额抽样C.方便抽样D.整群抽样【答案】D【例题5:多选题】相对于非概率抽样而言,概率抽样的特点有()A按一定的概率以随机原则抽取样本B总体中每个单元被抽中的概率是已知的或可以计算出来C每个单位被抽入样本的概率相等D抽取样本时不需要依据随机原则E当采用样本对总体参数进行估计时,要考虑到每个样本单元被抽中的概率【答案】ABE【解析】通过本题掌握概率抽样和非概率抽样的特点。【知识点三】抽样调查的一般步骤实施调查过程撰写调查报告数据处理实施调查过程撰写调查报告数据处理分析调查方案设计确定调查问题【例题6:单选题】抽样调查的一般步骤不包括()。A.确定调查问题B.调查方案设计C.数据处理分析 D.评价调查结果【答案】D【解析】考核统计调查的步骤。【知识点四】抽样调查中的误差样本估计值和总体参数值之间的差异称为误差,一般来说调查中的误差分为抽样误差和非抽样误差两类。误差形成原因抽样误差由抽样的随机性造成的,用样本统计量估计总体参数时出现的误差。抽到哪一个样本完全是随机的,而抽到不同的样本,对总体的估计就会不同。非抽样误差除抽样误差外,由其他原因引起的样本统计量与总体真值之间的差异。
(1)抽样框误差:样本框不完善造成的。如用工商局签发的营业执照作为个体商业的抽样框,对个体商业实施抽样调查,以掌握个体商业零售额的情况。但有些商贩无照经营、有些商贩虽有执照但转行,不再经商;有些虽有一个摊点却办理多个营业执照。这些情形均会导致估计结果失真。(2)无回答误差:调查人员没能够从被调查者那里得到所需要的数据。无回答分为:①由于随机因素造成的。如被调查者恰巧不在家,这种会减少有效样本量,造成估计量方差增大。②由于非随机因素造成的:如被调查者不愿告诉实情而拒绝回答,这时,回答者与不回答者在调查指标上存在数量的差异,调查的结果中只有回答者的信息,却没有无回答者的信息,这种无回答不仅造成估计量方差增大,还会带来估计偏差。(3)计量误差:由于调查所获得的数据与其真值之间不一致造成的误差。这种误差可能是由调查人员、问卷设计、受访者等原因造成的。【例题7:2013年多选题】在城乡住户收支调查中,非抽样误差的可能来源有()。A.抽样框遗漏掉部分城乡住户B.部分高收入住户拒绝接受调查C.调查人员有意作弊D.被调查住户提供虚假数据E.抽样的随机性【答案】ABCD【解析】考核非抽样误差的产生原因。本题可采用排除法,排除“随机性”即可选择。抽样的随机性会导致抽样误差,所以E选项不选。【例题8:2014年单选题】由于受访者记忆模糊,导致调查数据与其真值之间不一致,这种误差属于()。A.抽样误差B.计量误差C.抽样框误差D.无回答误差【答案】B【解析】由于调查者、受访者、问卷设计导致的误差都属于计量误差。【例题9:2010年多选题改编】人口普查统计数据可能存在的误差来源有()。A.填报错误B.抽样的随机性C.抄录错误D.汇总错误E.有意瞒报【答案】ACDE【解析】普查只存在非抽样误差。所以本题实质是考核登记性误差产生的原因。【例题10:单选题】样本估计值和总体参数值之间的差异称为统计误差,下列关于统计误差的表述错误的是()A抽样误差是由抽样的随机性造成的,用样本统计量估计总体参数时出现的误差B样本框不完善造成的误差称为抽样框误差C计量误差是调查人员没能够从被调查者那里得到所需要的数据D由于调查所获得的数据与其真值之间不一致造成的误差称为计量误差【答案】C【解析】本题考核各种误差的含义。调查人员没能够从被调查者那里得到所需要的数据,这种统计误差称为无回答误差。【知识点一】简单随机抽样(一)含义1、有放回简单随机抽样从总体中随机抽出一个样本单位,记录观测结果后,将其放回到总体中去,再抽取第二个,如此类推,一直到抽满n个单位为止。【注】单位有被重复抽中的可能,容易造成信息重叠而影响估计的效率,较少采用。2、不放回简单随机抽样从包含N个单元的总体中逐个随机抽取单元并无放回,每次都在所有尚未被抽入样本的单元中等概率的抽取下一个单元,直到抽取n个单元为止。【注】每个单位最多只能被抽中一次,不会由于样本单位被重复抽中而提供重叠信息,比放回抽样有更低的抽样误差。(二)优缺点1.优点:简单随机抽样是最基本的随机抽样方法,操作简单,且每个单位的入样概率相同,样本估计量形式也比较简单。2.缺点:没有利用抽样框更多的辅助信息,用样本统计量估计总体参数的效率受到影响,样本的分布可能十分分散,增加了调查过程中的费用和时间。(三)适用条件1、抽样框中没有更多可以利用的辅助信息2、调查对象分布的范围不广阔3、个体之间的差异不是很大【例题11:单选题】下列关于简单随机抽样的表述错误的是()。A总体的每个单位入样概率相同B是最基本的随机抽样方法C没有利用抽样框更多的辅助信息D适用个体之间差异较大的调查【答案】D【解析】通过本题掌握简单随机抽样的特点。【知识点二】分层抽样
(一)含义先按照某种规则把总体分为不同的层,然后在不同的层内独立、随机的抽取样本,这样所得到的样本称为分层样本。如果每层中的抽样都是简单随机抽样,则称为分层随机抽样。【例题12:单选题】在调查某部门平均工资时,先将该部门员工分为经理和普通职员两类,再采用随机原则分别在经理和普通职员中抽取样本,这种抽样方法属于()。A.简单随机抽样B.整群抽样C.分层抽样D.等距抽样【答案】C。解析:考核分层抽样概念的理解。(二)分层抽样样本量在各层分配的方法分配方法含义优缺点等比例分配层中单位数越多,抽取的样本单位就越多,该层样本单位比例与该层中的总体单位比例相一致.操作容易,易于理解,在实践中广泛使用。但各层单位数相差悬殊或层内方差过大时抽样误差会很大。不等比例分配层样本单位比例与该层中的总体单位比例不一致。如果各层的总体方差已知,不等比例抽样的抽样误差可能比等比例抽样更小。【例题13:单选题】某校高中生共有2700人,其中高一年级900人,高二年级1200人,高三年级600人,现采取分层抽样法抽取容量为135的样本,那么高一、高二、高三各年级抽取的人数分别为()A.45,75,15B.45,45,45C.30,90,15D.45,60,30【答案】D【解析】样本量占总体容量的比=135/2700=5%n(高一)/900=5%,所以,n(高一)=5%×900=45人n(高二)/1200=5%,所以,n(高二)=5%×1200=60人n(高三)/600=5%,所以,n(高三)=5%×600=30人(三)优缺点
优点:1.不仅可以估计总体参数,同时也可以估计各层参数
【例】调查某市中小企业就业的相关指标,可以按照行业将该市中小企业进行分层,再在每个行业内独立随机抽取一部分中小企业进行调查,这样不仅能估计全市中小企业就业的相关指标,还可以在各行业进行推算。2.便于抽样工作的组织。3.每层都要抽取一定的样本单位,样本在总体中分布比较均匀,可以降低抽样误差。(四)适用条件抽样框中有足够的辅助信息,能够将总体单位按某种标准划分到各层之中,实现在同一层内,各单位之间的差异尽可能小,不同层之间各单位的差异尽可能大。(层内差异小,层间差异大)【知识点三】系统抽样(一)含义\系统抽样指先将总体中的所有单元按一定顺序排列,在规定范围内随机抽取一个初始单元,然后按事先规定的规则抽取其他样本单元。最简单的系统抽样是等距抽样。其步骤如下:1.将总体N个单位按直线排列,依次编号1——N;【例】调查一个居委会4000户家庭人均收入,编号1-4000,要抽取40户。2.根据样本量n确定抽样间隔K抽样间隔=【接上例】抽样间隔=4000/40=1003.在1——K的范围内随机抽取一个整数i,令位于i位置上的单位为起始单位,往后每间隔k抽取一个单位,直至抽满n。【接上例】在1-100号中随机确定15号,抽取的样本为15;15+100;15+200;15+300;……15+3900(二)优缺点1、优点(1)操作简便;(2)对抽样框的要求比较简单,它只要求总体单位按一定顺序排列,而不一定是一份具体的名录清单。系统抽样的估计效果与总体排列顺序有关。①无关标识排列(排列顺序与调查内容没有联系)【例】对汽车尾气排放情况的调查中,是按汽车牌号排列,牌号与尾气排放没有关系,即属于无关标识排列。②有关标识排列(排列顺序与调查内容有关)【例】对汽车尾气排放情况的调查中,按汽车价格排列,价格与尾气排放量有相关性。2、缺点:方差估计比较复杂,这就给计算抽样误差带来一定困难。【知识点四】整群抽样
(一)含义
整群抽样是将总体中所有的基本单位按照一定规则划分为互不重叠的群,抽样时直接抽取群,对抽中的群调查其全部的基本单位,对没有抽中的群则不进行调查。【例】调查某市在职的房地产行业人员工资水平,将房地产行业所有在职人员按照所属企业分群,直接抽取企业单位,入样的企业单位内所有职工接受调查,没有入样的企业单位员工都不调查。【例题14:2012单选题】在调查某城市小学教师亚健康状况时,从该城市的200所小学中随机抽取40所,每个被抽取小学中的所有教师都参与调查,这样抽样方法属于()。A.简单随机抽样B.整群抽样C.分层抽样D.等距抽样【答案】B【解析】通过本题理解整群抽样的概念。(二)整群抽样优缺点1、优点:(1)实施调查方便,可以节省费用和时间。(2)抽样框编制得以简化,抽样时只需要群的抽样框2、缺点群内各单位之间存在相似性,差异比较小,而群与群之间的差别比较大,使得整群抽样的抽样误差比较大。(三)适用情况如果群内各单位之间存在较大差异,群与群的结果相似,整群抽样会降低估计误差。整群抽样特别适合于对某些特殊群结构进行调查。【知识点五】多阶段抽样(一)含义在大规模抽样调查中,一次抽取到最终样本单位很难实现,往往需要经过二个或二个以上阶段才能抽到最终样本单位,这就是多阶段抽样方法。(二)抽样步骤【例题15:2014年多选题】为调查我国国有企业在职职工的延迟退休意愿,分别从东部、中部和西部地区采用简单随机抽样方法各自抽取10个地级行政区域,然后在被抽中的每个地级行政区域采用简单随机抽样方法抽取20家国有企业,对被抽中企业的所有在职员工发放问卷进行调查。该调查中,除了简单随机抽样,还使用到的抽样方法有()A.分层抽样B.配额抽样C.整群抽样D.多阶段抽样E.系统抽样【答案】ACD【解析】通过本题掌握多阶段抽样的步骤东部10个行政区域东部10个行政区域总体全国国企在职职工整群200家总体全国国企在职职工整群200家国企简单随机样本600家国企的全部职工样本600家国企的全部职工分层简单随机10简单随机10个行政区域200家国企200家国企整群中部200家200家国企10个行政区域整群简单随机西部整群简单随机西部第二阶段:整群抽样简单随机抽样第二阶段:整群抽样简单随机抽样第一阶段:分层抽样简单随机抽样多阶段抽样多阶段抽样(三)优缺点
在大范围的抽样调查中,采用多阶段抽样是必要的。多阶段的抽样设计比较复杂,其抽样误差计算也比较复杂。【例题16:2014年单选题】某城市为调查居民对市政建设的满意度,先从该市所有居委会中随机抽取20个居委会,再从每个被抽中的居委会中随机抽取30个居民家庭进行入户调查,该项调查采用的抽样方式是()。A.分层抽样B.整群抽样C.系统抽样D.多阶段抽样【答案】D【解析】通过本题掌握各种抽样方法的特点。通过题干可知,第一阶段采用整群抽样,第二阶段采用了简单随机抽样。所以本题所采用的抽样方法是多阶段抽样。第三节估计量和样本量【知识点一】估计量的性质(一无有,可记忆为“一无所有”)性质内含一致性随着样本量的增大,估计量的值如果稳定于总体参数的真值,这个估计量就有一致性,可称为“一致估计量”。无偏性对于不放回简单随机抽样,所有可能的样本均值取值的平均值总等于总体均值(样本均值的平均数等于总体均值),这就是样本均值估计量的无偏性。有效性在同一抽样方案下,对某一总体参数,如果有两个无偏估计量θ1、θ2,由于样本的随机性,如果θ1的可能样本取值较θ2更密集在总体参数真值附近,则认为θ1比θ2更有效,此时θ1的方差小于θ2的方差。【例题17:单选题】抽样统计中,估计量的性质不包括()。A一致性B相关性C无偏性D有效性【答案】B【解析】通过本题掌握估计量的三大性质。【例题18:2013年单选题】在抽样估计中,随着样本量的增大,如果估计量的值稳定于总体参数的真值,则这个估计量具有的性质是()。A.一致性B.无偏性C.有效性D.确定性【答案】A【解析】通过本题掌握估计量的每个性质的含义。【知识点二】抽样误差的估计
抽样误差无法避免,但是可以计算的。在不放回简单随机抽样方法中,将样本均值作为总体均值的估计量。则估计量的方差为:样本估计量的方差=【结论】抽样误差与总体分布有关,总体单位值之间差异越大,即总体方差越大,抽样误差越大。抽样误差与样本量n有关,其他条件相同,样本量越大,抽样误差越小。抽样误差与抽样方式和估计量的选择也有关。例如分层抽样的估计量方差一般小于简单随机抽样。利用有效辅助信息的估计量也可以有效的减小抽样误差。【注意】实践中,总体方差是未知的,可以利用样本方差来估计,因此估计量方差的的估计公式为:样本估计量的方差=【例题19】从某个N=1000的总体中抽出一个样本容量为100的不放回简单随机样本,样本均值50,样本方差200,对总体均值的估计量等于样本均值等于50,估计量的方差是()。【解析】样本估计量的方差===1.8【例题20:2014年多选题】下列影响因素中,属于抽样误差来源的有()A.总体单位值之间的差异大小B.样本量大小C.访问员的选择D.抽样方式的选择E.估计量的选择【答案】ABDE【解析】通过本题掌握抽样误差的影响因素。【知识点三】样本量的影响因素1、调查的精度:用样本数据对总体进行估计时可以接受的误差水平,要求的调查精度越高,所需要的样本量就越大。2、总体的离散程度:在其他条件相同情况下,总体的离散程度越大,所需要的样本量也越大。3、总体的规模:对于大规模的总体,总体规模对样本量的需求则几乎没有影响(样本量n可大致用公式表示)。但对于小规模的总体,总体规模越大,为保证相同估计精度,样本量也要随之增大(但不是同比例的)。4、无回答情况:无回答减少了有效样本量,在无回答率较高的调查项目中,样本量要大一些,以减少无回答带来的影响。5、经费的制约:事实上,样本量是调查经费与调查精度之间的某种折中和平衡。6、其他:调查的限定时间,实施调查的人力资源也是影响样本量的客观因素。【例题21:多选题】影响样本量的因素有()。A总体的离散程度B调查的精度C无回答情况D经费的制约E抽样方法【答案】ABCD【解析】通过本题掌握影响样本量的因素。第二十五章回归分析【本章教材结构】回归模型最小二乘法回归分析的概念一元线性回归模型最小二乘法的原理回归模型最小二乘法回归分析的概念一元线性回归模型最小二乘法的原理模型的检验及预测决定系数的含义及取值模型的检验及预测决定系数的含义及取值第一节回归分析【知识点一】回归分析与相关分析的关系
回归分析就是根据相关关系的具体形态,选择一个合适的数学模型,来近似的表达变量间的平均变化关系。回归分析与相关分析的关系:(一)回归分析与相关分析的联系1.它们具有共同的研究对象。2.在具体应用时,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有高度相关时,进行回归分析寻求其相关的具体形式才是有意义的。(二)回归分析与相关分析的区别
相关分析与回归分析在研究目的和方法上具有明显的区别。1、相关分析研究变量之间相关的方向和相关的程度。2、回归分析是研究变量之间相关关系的具体形式,它对具有相关关系的变量之间的数量联系进行测定,确定相关的数学方程式,根据这个数学方程式可以从已知量来推测未知量,从而为估算和预测提供了一个重要方法。【例题1:2014年多选题】关于相关分析和回归分析的说法,正确的的有()A.相关分析可以从一个变量的变化来推测另一个变量的变化B.相关分析研究变量间相关的方向和相关的程度C.相关分析中需要明确自变量和因变量D.回归分析研究变量间相互关系的具体形式E.相关分析和回归分析在研究方法和研究目的有明显区别【答案】BDE【解析】通过本题掌握回归分析与相关分析的关系。【知识点二】一元线性回归模型1.回归模型分类(2015年新增)描述因变量如何依赖自变量和误差项的方程称为回归模型,回归模型的类别如下:(1)根据自变量的多少,回归模型可以分为一元回归模型和多元回归模型。(2)根据回归模型是否线性,回归模型分为线性回归模型和非线性回归模型。2.一元线性回归模型一元线性回归模型是研究两个变量之间相关关系的最简单的回归模型,只涉及一个自变量。---------模型的参数;----------误差项,是一个随机变量。X-----------自变量【提示1】因变量Y是自变量X的线性函数(β0+β1X)加上误差项ε;β0+β1X反映了由于自变量X的变化而引起的因变量y的线性变化。误差项ε是个随机变量,表示除线性关系之外的随机因素对Y的影响,它是不能由X和Y的线性关系所解释的Y的变异性。【例题2:2013年单选题】在一元线性回归模型Y=β0+β1X+ε中。ε反映的是()。A.X和Y的线性关系对Y的影响B.由自变量X的变化引起的因变量Y的变化C.X和Y的线性关系对X的影响D.除X和Y的线性关系之外的随机因素对Y的影响【答案】D【解析】通过本题掌握一元线性回归模型。【提示2】描述因变量Y的期望值E(Y)如何依赖自变量X的方程称为回归方程。一元线性回归方程的形式:一元线性回归方程的图示是一条直线,β0是回归直线的截距,β1是回归直线的斜率,表示X每变动一个单位时,E(Y)的变动量。【例题3:单选题】估计的城镇居民人均可支配收入和人均消费的一元线性直线回归方程式:人均消费C=1300+0.79Y,则当城镇居民家庭人均可支配收入是15000元,人均消费支出是()【解析】人均消费支出C=1300+0.79×15000=13150元第二节最小二乘法【知识点】最小二乘法在现实中,模型的参数都是未知的,需要利用样本数据去估计,采用的估计方法是最小二乘法。最小二乘法就是使得因变量的观测值与估计值之间的离差平方和最小来估计的方法。【例题4:2007年单选题】对于一元线性回归方程,确定的方法是()。A.二次平均B.加权平均C.斯特基方法D.最小二乘法【答案】D【例题5:2014年单选题】在回归分析中,估计回归系数的最小二乘法的原理是()。A.使得因变量观测值与均值之间的离差平方和最小B.使得因变量估计值与均值之间的离差平方和最小C.使得观测值与估计值之间的乘积和最小D.使得因变量观测值与估计值之间的离差平方和最小【答案】D第三节模型的检验和预测【知识点一】回归模型的拟合效果分析
一般情况下,使用估计的回归方程之前,需要对模型进行检验,其内容包括:(1)结合经济理论和经验分析回归系数的经济含义是否合理;(2)对模型进行假设检验。(3)分析估计的模型对数据的拟合效果如何(用决定系数来测度)决定系数,也称为R2,可以测度回归直线对样本数据的拟合程度。决定系数的取值在0到1之间,大体说明了回归模型所能解释的因变量变化占因变量总变化的比例。决定系数越接近1,回归直线的拟合效果越好。R2=1,说明回归直线可以解释因变量的所有变化。R2=0,说明回归直线无法解释因变量的变化,因变量的变化与自变量无关。【例题6:单选题】测度回归直线对样本数据的拟合程度的指标是()。A相关系数B样本估计量C决定系数D投资乘数【答案】C【知识点二】模型预测回归分析的一个重要应用就是预测,即利用估计的回归模型预估因变量数值。第二十六章时间序列【本章教材结构】时间序列时间序列时间序列的含义及分类时间序列的含义及分类时间序列的水平分析平均发展水平;时间序列的水平分析平均发展水平;增长量与平均增长量发展速度与增长速度发展速度与增长速度平均发展速度与平均增长速度;速度的分析及应用时间序列的速度分析时间序列的速度分析移动平均法;移动平均法;指数平滑法平滑预测法第一节时间序列及其分类【知识点一】时间序列的含义及构成要素统计对事物进行动态研究的基本方法是编制时间序列。我国1991—1994年若干国民经济指标指标年份1991199219931994国内生产总值21618266383463446759年底总人口数115823117171118517119850人均国内生产总值1879228729393923城镇人口比重26.3727.6328.1428.621、时间序列含义:时间序列也称动态数列,是将某一统计指标在各个不同时间上的数值按时间先后顺序编制形成的序列。2、时间序列的构成要素:(1)被研究现象所属时间:(2)反映该现象一定时间条件下数量特征的指标值。同一时间序列中,各指标值的时间单位一般要求相等,可以是年、季、月、日。3.时间序列的分类:时间序列按照其构成要素中统计指标值的表现形式,分为绝对数时间序列、相对数时间序列、平均数时间序列。时间序列的类别表24-1绝对数时间序列时期序列反映现象在一定时期内发展的结果。时点序列反映现象在一定时点上的瞬间水平。相对数时间序列统计指标值是相对数平均数时间序列统计指标值是平均数【例题1:2006年多选题】下表中能源生产总量是()时间序列。我国l997—2003年能源产总量年份1997199819992000200l20022003能源生产总量(万吨标准煤)132410124250109126106988120900138369160300A.相对数B.时期C.绝对数D.平均数E.时点【答案】BC【解析】通过本题掌握时间序列的分类。【例题2:2014年单选题】“国内生产总值”指标的时间序列属于()A.时点序列 B.相对数时间序列C.平均数时间序列D.时期序列【答案】D【解析】通过本题掌握时间序列的分类第二节时间序列的水平分析【知识点一】发展水平的有关概念1.发展水平:发展水平是时间序列中对应于具体时间的指标数值。2.最初水平、最末水平、中间水平
时间序列中第一项的指标值称为最初水平,最末项的指标值称为最末水平,处于二者之间的各期指标值则称为中间水平。3.基期水平和报告期水平(1)基期水平:是作为对比的基础时期的水平;(2)报告期水平:是所要反映与研究的那一时期的水平。【知识点二】平均发展水平
平均发展水平也称序时平均数或动态平均数,是对时间序列中各时期发展水平计算的平均数,它可以概括性描述现象在一段时期内所达到的一般水平。(一).绝对数时间序列序时平均数的计算1、由时期序列计算序时平均数:就是简单算术平均数。【例题3:2004年单选题】某地区1999~2003年原煤产量如下:年份1999年2000年2001年2002年2003年原煤产量(万吨)4546596872该地区1999~2003年的平均每年原煤产量为()万吨。
A.58B.57.875C.59D.60【答案】A【解析】原煤产量是时期指标。平均产量=(45+46+59+68+72)/5=58万吨。2、由时点序列计算序时平均数:(1)第一种情况,由连续时点(逐日登记)计算。又分为两种情形。
①资料逐日排列且每天登记。即已掌握了整段考察时期内连续性的时点数据,可采用简单算术平均数的方法计算。
②资料登记的时间单位仍然是1天,但实际上只在指标值发生变动时才记录一次。此时需采用加权算术平均数的方法计算序时平均数,权重是每一指标值的持续天数占总天数的比例【例题4:2014年单选题】某超市2013年6月某商品的库存量记录见下边,该商品6月份的平均日库存量是()台。日期1-9日10-15日16-27日28-30日库存量(台)50604050A.48B.40C.45D.50【答案】A【解析】本题属于连续时点序列中指标值变动才登记的一种情况。采用一次加权平均法来计算。平均库存量=50*9/30+60*6/30+40*12/30+50*3/30=48(2)第二种情况,由间断时点(不逐日登记)计算。又分为两种情形。
①每隔一定的时间登记一次,每次登记的间隔相等。间断相等的间断时点序列序时平均数的计算思想是“两次平均”:先求各个时间间隔内的平均数,再对这些平均数进行简单算术平均。【例题5:单选题】某企业职工人数资料(单位:人)如下:时间3月31日4月30日5月31日6月3职工人数1400150014601420该企业3~6月份平均职工人数为()。
A.1500人B.1400人C.1445人D.1457人【答案】D【解析】月末职工人数是时点指标,由此构成的时间序列为间断时点时间序列。间隔期均为1个月。采用“两次平均”的思想计算平均发展水平。第一次平均:(1400+1500)/2=1450;(1500+1460)/2=1480;(1460+1420)/2=1440;第二次平均:(1450+1480+1440)/3=1457②每隔一定的时间登记一次,每次登记的间隔不相等。
间隔不相等的间断时点序列序时平均数的计算也采用“两次平均”的思路,且第一次的平均计算与间隔相等的间断序列相同;进行第二次平均时,由于各间隔不相等,所以应当用间隔长度作为权数,计算加权算术平均数。【例题6:2009年单选题】某行业2000年至2008年的职工数量(年底数)的记录如下:年份2000年2003年2005年2008年职工人数(万人)1000120016001400则该行业2000年至2008年平均每年职工人数为()万人。A.1300B.1325C.1333D.1375【答案】B。【解析】年末职工人数是时点指标,所对应的时间序列为间断时点序列,登记的间隔期不同,采用“两次平均”的思想计算平均发展水平。第一次平均(简单算术平均):(1000+1200)/2=1100;(1200+1600)/2=1400;(1600+1400)/2=1500;第二次平均(加权平均):1100*3/8+1400*2/8+1500*3/8=1325万人。【绝对数时间序列序时平均数计算总结】序列具体类别平均数的计算时期序列简单算术平均数时点序列连续时点(以天为时间单位)逐日登记逐日排列简单算术平均数指标值变动才登记加权算术平均数间断时点间隔时间相等两次平均:均为简单算术平均间隔时间不相等两次平均:第一次简单算术平均;第二次加权算术平均【例题7:2010年单选题】在序时平均数的计算过程中,与间隔相等的间断时点序列序时平均数计算思路相同的是()。A.间隔不相等的间断时点序列序时平均数B.时期序列序时平均数C.资料逐日登记且逐日排列的连续时点序列序时平均数D.只在指标值发生变动时才记录一次的连续时点序列序时平均数【答案】A(二).相对数或平均数时间序列序时平均数的计算
相对数或平均数时间序列是派生数列,相对数或平均数通常是由两个绝对数对比形成的。计算思路:分别求出分子指标和分母指标时间序列的序时平均数,然后再进行对比,用公式表示如下:【知识点三】逐期增长量与累计增长量1.增长量:报告期发展水平与基期发展水平之差,反映报告期比基期增加(减少)的绝对数量。用公式表示为:增长量=报告期水平-基期水平(1)逐期增长量:报告期水平与前一期水平之差。(2)累计增长量:报告期水平与某一固定时期(通常是时间序列最初水平)水平之差。【提示】同一时间序列中,累计增长量等于相应时期逐期增长量之和。例如:某地区2000~2004年钢材使用量(单位:万吨)如下:年份20002001200220032004使用量12458逐期增长量分别是:2-1=1万吨;4-2=2万吨;5-4=1万吨;8-5=3万吨累计增长量是:8-1=7万吨累计增长量7万吨=逐期增长量之和(1+2+1+3)【例题8:2010年单选题】在同一时间序列中,累计增长量与相应时期逐期增长量之间的数量关系是()。A.累计增长量等于相应时期逐期增长量的加权平均数B.累计增长量等于相应时期逐期增长量之积C.累计增长量等于相应时期逐期增长量之和除以逐期增长量个数D.累计增长量等于相应时期逐期增长量之和【答案】D【解析】通过本题掌握逐期增长量与累计增长量的关系。【例题9:2011年单选题】我国2000年--2005年不变价国内生产总值资料如下:年份200020012002200320042005不变价国内生产总值逐期增长量(亿元)—8235.19758.611750.613005.616056.2我国2000年--2005年期间不变价国内生产总值累计增加()亿元。A.58806.1B.16056.2C.11761.2D.7821.1【答案】A【解析】累计增长量=8235.1+9758.6+11750.6+13005.6+16056.2=58806.1【例题10:2012年单选题】逐期增长量与累计增长量的区别是().A.适用的时间序列类型不同B.计量单位不同C.基期确定方法不同D.报告期确定方法不同【答案】C【例题11:2013年单选题】在时间序列的水平分析中,报告期水平与前一期水平的差是()。A.累计增长量B.逐期增长量C.平均增长量D.定基增长量【答案】B【解析】通过本题掌握逐期增长量和累计增长量的含义。【知识点四】平均增长量
平均增长量是时间序列中逐期增长量的序时平均数,它表明现象在一定时段内平均每期增加(减少)的数量。其计算公式为:平均增长量=【例题12:单选题】某商场1999~2003年商品销售额(单位:百万元)如下:年份19992000200120022003销售额35.040.044.049.955.0该商场1999~2003年商品销售额的平均增长量为()百万元。
A.5B.4C.44D.3【答案】A【解析】平均增长量===5百万元【例题13:2007年单选题】平均增长量是时间序列中()的序时平均数。A.累计增长量B.报告期水平与某一固定时期水平(通常是时间序列最初水平)之差C.逐期增长量D.报告期发展水平【答案】C【解析】通过本题掌握平均增长量的含义。第三节时间序列的速度分析【本节内容】【知识点一】发展速度与增长速度(一)发展速度1、发展速度:是以相对数形式表示的两个不同时期发展水平的比值,表明报告期水平已发展到基期水平的几分之几或若干倍。发展速度=由于基期选择的不同,发展速度有定基发展速度与环比发展速度之分。(1)定基发展速度:报告期水平与某一固定时期水平(通常是最初水平)的比值,用表示,(2)环比发展速度是报告期水平与其前一期水平的比值,用表示,【应用举例】某地区2000~2002年钢材使用量(单位:万吨)如下:年份2000200120022003使用量1245以2000年为基期的定基发展速度200%400%500%环比发展速度200%(2/1)200%(4/2)125%(5/4)(3)定基发展速度与环比发展速度之间的关系第一,定基发展速度等于相应时期内各环比发展速度的连乘积(简记:定基积)推导:定基发展速度=各环比发展速度的连乘积第二,两个相邻时期定基发展速度的比率等于相应时期的环比发展速度(简记:环比比)推导:相邻时期定基发展速度的比率/==相应时期的环比发展速度【例题14:2005年、2006年、2007年单选题】以2000年为基期,我国2002、2003年广义货币供应量的定基发展速度分别是137.4%和164.3%,则2003年与2002年相比的环比发展速度是()。
A.16.4%B.19.6%C.26.9%
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教版小学四年级数学上期教案
- 2024高中地理第六章人类与地理环境的协调发展第1节人地关系思想的练习含解析新人教版必修2
- 2024高中生物第2章动物和人体生命活动的调节第3节神经调节与体液调节的关系课堂演练含解析新人教版必修3
- 2024高中语文第二单元古代记叙散文第5课荆轲刺秦王学案新人教版必修1
- 2024高考地理一轮复习第五部分选修地理-重在迁移第43讲环境保护课时作业含解析新人教版
- 2024高考地理一轮复习第一部分自然地理-重在理解第一章行星地球第3讲地球的宇宙环境及地球的圈层结构学案新人教版
- 误解以后心健教案
- (4篇)2024年幼儿园教师年度个人总结
- 施工测量控制措施
- 2024年渤海船舶职业学院高职单招职业适应性测试历年参考题库含答案解析
- 2024年京东商家入驻协议模板
- 义务教育(音乐)课程标准(2022年版)解读
- 智慧农业行业营销策略方案
- 市场部整体运营概况
- 数字广告数据要素流通保障技术研究报告(2023年)
- JJF(苏) 283-2024 暂态地电压法局部放电检测仪校准规范
- 某27层高层住宅楼施工组织设计方案
- 2025年中考语文备考之名著导读:《水浒传》主要人物梳理
- 小学科学学情分析报告总结
- 健康中国产业园规划方案
- (2024年)二年级上册音乐
评论
0/150
提交评论