




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第七章数值预测问题 n相关分析相关分析和和回归分析回归分析是社会经济问题研究中是社会经济问题研究中最常用也是最重要的两种统计方法。它们主最常用也是最重要的两种统计方法。它们主要被用于回答一些定义明确的度量单位的要被用于回答一些定义明确的度量单位的数数值变量之间的关系值变量之间的关系问题。问题。n相关分析:是描述两个相关分析:是描述两个数值变量间的关系强数值变量间的关系强度度问题。问题。n回归分析:是描述回归分析:是描述一个或多个自变量的变化一个或多个自变量的变化如何引起因变量变化如何引起因变量变化的一种统计分析方法。的一种统计分析方法。n相关分析和回归分析在处理数值变量关系时相关分析和回归分析
2、在处理数值变量关系时可以互为补充、相辅相成。可以互为补充、相辅相成。第一节 相关分析n一、变量间关系一、变量间关系n变量之间的关系可分为两种类型:变量之间的关系可分为两种类型:函数关函数关系系和和相关关系相关关系。n函数关系函数关系是指现象之间存在是指现象之间存在一一对应一一对应的的确确定性定性的数量依存关系。的数量依存关系。n相关关系相关关系,也称统计相关,是指现象之间,也称统计相关,是指现象之间存在的存在的非确定性非确定性的数量依存关系。但这种的数量依存关系。但这种数量变化关系并不是严格数量变化关系并不是严格一一对应一一对应的。的。(收入与储蓄;父母与子女身高)(收入与储蓄;父母与子女身高
3、)n二、相关关系的种类二、相关关系的种类按相关关系涉及的变量(或因素)的多少按相关关系涉及的变量(或因素)的多少 按变量之间相互关系的表现形式按变量之间相互关系的表现形式按变量之间的相互关系的方法或性质不同按变量之间的相互关系的方法或性质不同 按变量之间的相关程度不同按变量之间的相关程度不同 单相关复相关线性相关线性相关非线性相关正相关正相关负相关负相关完全相关完全相关不相关不相关不完全相关不完全相关n三、相关分析主要解决的问题三、相关分析主要解决的问题变量之间是否存在关系?变量之间是否存在关系?如果存在关系,它们之间是什么样的关系?如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何
4、?变量之间的关系强度如何?样本所反映的变量之间的关系能否代表总体变样本所反映的变量之间的关系能否代表总体变量之间的关系?量之间的关系?进行相关分析时:进行相关分析时:绘制散点图判断变量之间的关系形态;绘制散点图判断变量之间的关系形态;计算相关系数来确定相关关系的密切程度(关计算相关系数来确定相关关系的密切程度(关系强度);系强度);对相关系数进行显著性检验,以判断样本所反对相关系数进行显著性检验,以判断样本所反映的关系能否用来代表两个变量总体上的关系映的关系能否用来代表两个变量总体上的关系。n相关系数:相关系数: 通过相关图表可以了解现象通过相关图表可以了解现象之间是否具有相关关系,但要想之间
5、是否具有相关关系,但要想更具体地了解现象之间的相关密更具体地了解现象之间的相关密切程度,必须进一步测定相关系切程度,必须进一步测定相关系数。相关系数就是描述两个变量数。相关系数就是描述两个变量之间线性相关密切程度和相关方之间线性相关密切程度和相关方向的统计分析指标。向的统计分析指标。n相关关系的显著性检验相关关系的显著性检验 一般,总体相关系数一般,总体相关系数 是未是未知的,通常是根据样本相关系数知的,通常是根据样本相关系数r作为近似值的。作为近似值的。 能否根据样本相关系数说明能否根据样本相关系数说明总体的相关程度,就需要考察样总体的相关程度,就需要考察样本相关系数的可靠性,也就是进本相关
6、系数的可靠性,也就是进行行显著性检验显著性检验。第二节 一元线性回归 在社会经济现象中,各种经济变量在社会经济现象中,各种经济变量相互联系,相互制约。通过相关分析,相互联系,相互制约。通过相关分析,可以分析现象之间相关关系的可以分析现象之间相关关系的方向方向和和相相关的密切程度关的密切程度。但相关分析。但相关分析不能不能判断现判断现象之间象之间具体的数量变动具体的数量变动依存关系,也依存关系,也不不能能根据根据相关系数相关系数来来估计或预测因变量估计或预测因变量y可能发生的数值可能发生的数值。因此,为了。因此,为了探求探求经济经济变量变量之间的之间的具体数量变动具体数量变动关系,一般在关系,一
7、般在相关分析的相关分析的基础基础上再进行上再进行回归分析回归分析。 回归分析就是对具有相关关系的回归分析就是对具有相关关系的两个或两个以上变量之间数量变化两个或两个以上变量之间数量变化的一般关系进行测定,确定因变量的一般关系进行测定,确定因变量和自变量之间数量变动关系的数学和自变量之间数量变动关系的数学表达式,以便对因变量进行估计或表达式,以便对因变量进行估计或预测的统计分析方法。预测的统计分析方法。 回归分析是在回归分析是在相关分析的基础相关分析的基础上上,进一步研究现象之间的,进一步研究现象之间的数量变数量变化化规律规律。n回归分析的主要内容:回归分析的主要内容:(1)根据研究目的和现象之
8、间的内在联系,根据研究目的和现象之间的内在联系,确定自变量和因变量确定自变量和因变量。现象之间还存在着因。现象之间还存在着因果关系。作为果关系。作为原因的变量为自变量原因的变量为自变量,作为,作为结结果的变量为因变量果的变量为因变量。回归分析时,从理论出。回归分析时,从理论出发进行定性分析,确定变量间的因果关系,发进行定性分析,确定变量间的因果关系,从而确定哪个为自变量,哪个为因变量。从而确定哪个为自变量,哪个为因变量。 (2)确定回归分析模型的类型及数学表达式确定回归分析模型的类型及数学表达式。根据现象之间的内在影响机制或通过对具体根据现象之间的内在影响机制或通过对具体变量数据描点分析,找出
9、最适合的回归分析变量数据描点分析,找出最适合的回归分析模型,再通过计算求出模型的待估参数,得模型,再通过计算求出模型的待估参数,得到回归方程。到回归方程。 估计方法一般是最小二乘法估计方法一般是最小二乘法。(3)对回归分析模型进行评价与诊断。对回归分析模型进行评价与诊断。得到得到具体的回归方程以后,要对其进行统计检验。具体的回归方程以后,要对其进行统计检验。 如对回归方程计算一些检验统计量,如如对回归方程计算一些检验统计量,如t值、值、F值、估计标准误、判定系数等,来值、估计标准误、判定系数等,来对回归方对回归方程的代表性及及拟合程度进行评价程的代表性及及拟合程度进行评价。又如,。又如,要检验
10、判断回归模型基本假设是否合理、满要检验判断回归模型基本假设是否合理、满足。足。(4)根据给定的自变量数值确定因变量的数根据给定的自变量数值确定因变量的数值。值。回归方程可以用于统计估计或预测,即回归方程可以用于统计估计或预测,即可根据给定的自变量数值估计因变量的数值可根据给定的自变量数值估计因变量的数值或置信区间。以及利用回归模型进行回归控或置信区间。以及利用回归模型进行回归控制。制。一、一元线性回归模型一、一元线性回归模型二、参数估计二、参数估计n在数学分析中,在数学分析中, 0 、 1为回归参数或为回归参数或待定系数,待定系数, 0 、 1为相应的估计值。为相应的估计值。n拟合回归直线的主
11、要任务是估计待定拟合回归直线的主要任务是估计待定参数参数 0 、 1的值,常用的方法就是最的值,常用的方法就是最小二乘法,用这种方法求出的回归直小二乘法,用这种方法求出的回归直线是原始数据的线是原始数据的“最佳最佳”拟合直线。拟合直线。最小二乘法的原理是使实际值最小二乘法的原理是使实际值y与估计与估计值的离差平方和最小。值的离差平方和最小。三、回归直线的拟合优度三、回归直线的拟合优度1、判定系数、判定系数 回归直线在一定程度上描述了变量回归直线在一定程度上描述了变量x与与y之间的之间的数量关系,根据这一方程,可根据自变量数量关系,根据这一方程,可根据自变量x的取值的取值来估计或预测因变量来估计
12、或预测因变量y的取值。的取值。但估计或预测的精但估计或预测的精度如何将取决于回归直线对观测数据的拟合程度度如何将取决于回归直线对观测数据的拟合程度。如果各观测数据的散点都落在这一直线上,那么这如果各观测数据的散点都落在这一直线上,那么这条直线就是对数据的完全拟合,直线充分代表了各条直线就是对数据的完全拟合,直线充分代表了各个点,此时用个点,此时用x来估计来估计y是没有误差的。是没有误差的。各个观察点各个观察点越是紧密围绕着直线,说明直线对观测数据的拟合越是紧密围绕着直线,说明直线对观测数据的拟合程度越好,反之则越差。程度越好,反之则越差。 回归直线与各观测点的接近程度称为回归直线回归直线与各观
13、测点的接近程度称为回归直线对数据的拟合优度。为说明直线的拟合优度,则需对数据的拟合优度。为说明直线的拟合优度,则需要计算判定系数。要计算判定系数。2、估计标准误差、估计标准误差 判定系数可用于度量回归直线的拟判定系数可用于度量回归直线的拟合程度,相关系数也可以起到类似的作合程度,相关系数也可以起到类似的作用。用。标准误差反映了用估计的回归方程标准误差反映了用估计的回归方程预测因变量预测因变量y时预测误差的大小时预测误差的大小。若各。若各观测点越靠近直线,估计标准误差越小,观测点越靠近直线,估计标准误差越小,回归直线对各观测点的代表性就越好,回归直线对各观测点的代表性就越好,根据估计的回归方程进
14、行预测也就越准根据估计的回归方程进行预测也就越准确。从另一个角度说明了回归直线的拟确。从另一个角度说明了回归直线的拟合优度。合优度。四、回归方程的显著性检验四、回归方程的显著性检验 回归分析的主要目的是根据所建立的估回归分析的主要目的是根据所建立的估计方程用自变量计方程用自变量x来估计或预测因变量来估计或预测因变量y的取的取值。值。 在建立了估计方程后,还不能马上进行估在建立了估计方程后,还不能马上进行估计或预测,因为该估计方程是根据样本数据计或预测,因为该估计方程是根据样本数据得出的,它是否真实地反映了变量得出的,它是否真实地反映了变量x和和y之间之间的关系,则需要通过检验后才能证实。的关系
15、,则需要通过检验后才能证实。 回归分析中的显著性检验主要包括:回归分析中的显著性检验主要包括: 线性关系的检验;线性关系的检验; 回归系数的检验。回归系数的检验。五、对因变量进行估计和预测五、对因变量进行估计和预测 回归分析的主要目的是根回归分析的主要目的是根据所建立的估计的回归方程进据所建立的估计的回归方程进行预测。行预测。 预测是指通过自变量预测是指通过自变量x的的取值来预测因变量取值来预测因变量y的取值。的取值。六、残差分析六、残差分析七、用残差检测异常值七、用残差检测异常值第三节 多元线性回归 在复杂的经济现象中,在复杂的经济现象中,对因变量产生影响的自对因变量产生影响的自变量往往不止
16、一个,而是有多个变量往往不止一个,而是有多个。因此仅仅以一个。因此仅仅以一个自变量来解释因变量往往是不全面的,需要建立一自变量来解释因变量往往是不全面的,需要建立一个因变量与多个自变量的联系模型来进行分析,才个因变量与多个自变量的联系模型来进行分析,才能获得较全面、准确的分析结果。能获得较全面、准确的分析结果。 研究在线性相关条件下两个或两个以上自变量研究在线性相关条件下两个或两个以上自变量对一个因变量的数量变动关系,称为多元线性回归对一个因变量的数量变动关系,称为多元线性回归,表现这个数量关系的数学公式,称为多元线性回归表现这个数量关系的数学公式,称为多元线性回归模型。模型。 多元线性回归分
17、析是对一元线性回归分析的拓多元线性回归分析是对一元线性回归分析的拓展,其步骤、方法和一元线性回归分析基本上相类展,其步骤、方法和一元线性回归分析基本上相类似,只是在计算上相对比较复杂些。似,只是在计算上相对比较复杂些。 n现实问题:现实问题:学生打分的客观性学生打分的客观性 近年来,高校学生作为教学主体参与教近年来,高校学生作为教学主体参与教师的教学评价已成为我国高等学校广泛采用师的教学评价已成为我国高等学校广泛采用的一种教学评价方法,很多高校将学生评教的一种教学评价方法,很多高校将学生评教结果与教师的职称聘任、晋级评定、年终考结果与教师的职称聘任、晋级评定、年终考核挂钩。核挂钩。 某学院为一
18、所女子普通高等学校,该校某学院为一所女子普通高等学校,该校制定了相应的本科课堂教学质量评估办法。制定了相应的本科课堂教学质量评估办法。规定课堂教学质量评估包括学生评估、领导规定课堂教学质量评估包括学生评估、领导评估、同行评估和教师自评这四个方面的综评估、同行评估和教师自评这四个方面的综合成绩为教师课堂教学质量评估成绩,其中,合成绩为教师课堂教学质量评估成绩,其中,学生评估在总评结果中所占权重为学生评估在总评结果中所占权重为60%。 从道理上讲,学生的确是应该参与从道理上讲,学生的确是应该参与评教,但是学生评估在总评结果中所占评教,但是学生评估在总评结果中所占权重过高,则可能影响评估结果的公正权
19、重过高,则可能影响评估结果的公正性。这是因为,对学生评教的客观性一性。这是因为,对学生评教的客观性一直存在很多争论,学生评教的结果可能直存在很多争论,学生评教的结果可能会受很多与教学不相关的因素影响。比会受很多与教学不相关的因素影响。比如学生对本门课程的喜好程度、评分时如学生对本门课程的喜好程度、评分时的心态以及评分在考试前还是考试后进的心态以及评分在考试前还是考试后进行等等,因此,有必要对评教过程中学行等等,因此,有必要对评教过程中学生打分的客观性进行定量分析。生打分的客观性进行定量分析。n定量分析:定量分析: 影响学生打分的因素很多,这影响学生打分的因素很多,这里选择一个易于量化的因素,即
20、学里选择一个易于量化的因素,即学生本门课程的学习成绩入手进行定生本门课程的学习成绩入手进行定量分析,看看学生打分是否与学生量分析,看看学生打分是否与学生本门课程的学习成绩高度相关。本门课程的学习成绩高度相关。 为此,研究者调查了某班为此,研究者调查了某班28名名学生给某门课程的教师打分和这些学生给某门课程的教师打分和这些学生本门课程的考试成绩。学生本门课程的考试成绩。 在在Excel中,选择中,选择“插入插入”选项,选项,选择选择“图表图表”,选择,选择“XY散点图散点图”。n上图中,横坐标表示学生成绩,纵上图中,横坐标表示学生成绩,纵坐标表示学生打分。图中的数据点坐标表示学生打分。图中的数据
21、点呈现从左下方到右上方的分布局势,呈现从左下方到右上方的分布局势,表明:学习成绩较好的同学,对老表明:学习成绩较好的同学,对老师的评分也会较高。这两者之间存师的评分也会较高。这两者之间存在一定的正相关性。在一定的正相关性。n在在Excel中,调用数据分析中的中,调用数据分析中的“相关系数相关系数”功能来计算学生成绩功能来计算学生成绩与学生打分之间的(样本)相关系与学生打分之间的(样本)相关系数:数:n在在“工具工具”中选择中选择“数据分析数据分析”选项,再选择选项,再选择“相关系数相关系数”工具。工具。n从上图,即学生成绩与学生打分之间的从上图,即学生成绩与学生打分之间的(样本)相关系数为(样
22、本)相关系数为0.857。n完全线性相关如学生成绩与其自身完全线性相关如学生成绩与其自身的相关系数为的相关系数为1,而,而0.857这样一个这样一个相关系数则表明学生成绩与学生打相关系数则表明学生成绩与学生打分之间是高度相关的。分之间是高度相关的。n 当然,从假设检验的角度出发,当然,从假设检验的角度出发,我们需要在显著水平我们需要在显著水平0.05上拒绝学上拒绝学生成绩与学生打分之间的(总体)生成绩与学生打分之间的(总体)相关系数为相关系数为0的假设。的假设。n借助一元线性回归分析来完成上述借助一元线性回归分析来完成上述检验。检验。n如果记学生打分为如果记学生打分为Y,学生成绩为,学生成绩为
23、X,上述的模型就表示学生打分对学生成上述的模型就表示学生打分对学生成绩的一元线性回归。其线性关系可以绩的一元线性回归。其线性关系可以用学生成绩与学生打分的用学生成绩与学生打分的XY散点图散点图中的趋势线来表示。中的趋势线来表示。n在在Excel中,将光标移至前面画出的中,将光标移至前面画出的学生成绩与学生打分的学生成绩与学生打分的XY散点图中散点图中的散点处,先单击鼠标左键,再点击的散点处,先单击鼠标左键,再点击鼠标右键,如下图:鼠标右键,如下图: n 为了考察自变量为了考察自变量X(学生成绩)对因变量(学生成绩)对因变量Y(学生打分)的影响,调用(学生打分)的影响,调用“工具工具”中的中的“
24、数据分析数据分析”中的中的“回归回归”功能。功能。n在上图中,在上图中,“Significance F”的数值的数值为为5.74E-09,即,即5.7410-9,远小于显,远小于显著性水平著性水平0.05,即在显著性水平,即在显著性水平0.05上我们可以拒绝因变量上我们可以拒绝因变量Y(学生打分)(学生打分)与自变量与自变量X(学生成绩)之间的(总体)(学生成绩)之间的(总体)相关系数等于相关系数等于0的原假设。由于这两者的原假设。由于这两者之间的(样本)相关系数(之间的(样本)相关系数(Multiple R)为为0.857,大于,大于0,因此,学生打分与,因此,学生打分与学生成绩之间存在正相
25、关性,即学生学生成绩之间存在正相关性,即学生成绩越好,其对老师的评估分数也越成绩越好,其对老师的评估分数也越高。高。nR平方(平方(R Square),表示因变量),表示因变量Y的(样本的)数据的波动有多大比的(样本的)数据的波动有多大比例是由自变量例是由自变量X的(样本的)数据的的(样本的)数据的波动引起的,或者说是可以由自变波动引起的,或者说是可以由自变量量X的(样本的)数据的波动来解释的(样本的)数据的波动来解释的。的。n从上图中,注意到学生打分的从上图中,注意到学生打分的70%以上(以上(73.48%)的波动(既不同学)的波动(既不同学生之间的打分差异)是可以由学生生之间的打分差异)是
26、可以由学生成绩的波动(即不同学生之间的成成绩的波动(即不同学生之间的成绩差异)来解释的。绩差异)来解释的。n需要注意的是,因变量需要注意的是,因变量Y的变动可的变动可以被自变量以被自变量X的变动来解释,并不的变动来解释,并不意味着这两者之间存在着因果关意味着这两者之间存在着因果关系。它们完全可能是同一个原因系。它们完全可能是同一个原因的两个结果。的两个结果。n其次,这也并不意味着因变量其次,这也并不意味着因变量Y和和自变量自变量X之间的真实关系就是一元之间的真实关系就是一元线性回归模型所表示的线性关系。线性回归模型所表示的线性关系。这种线性关系很可能只是它们之这种线性关系很可能只是它们之间较为
27、复杂的关系的一种较好的间较为复杂的关系的一种较好的近似。近似。n再次,在自变量再次,在自变量X的样本观测值范的样本观测值范围以外是否存在着类似的回归关系,围以外是否存在着类似的回归关系,尚无法肯定。尚无法肯定。n最后,对于任何两个指标或变量,最后,对于任何两个指标或变量,无论它们之间是什么样的关系,我无论它们之间是什么样的关系,我们都可以进行上述计算。而它们之们都可以进行上述计算。而它们之间是否线性关系或能否用线性关系间是否线性关系或能否用线性关系较好地近似,则要看计算结果中的较好地近似,则要看计算结果中的R平方(平方(R Square)是否足够大。)是否足够大。n前面分析表明,学生对老师的评
28、估前面分析表明,学生对老师的评估分数与学生本门课程的学习成绩高度分数与学生本门课程的学习成绩高度相关。或许对老师喜爱程度上的差异相关。或许对老师喜爱程度上的差异会影响学生的学习兴趣和学习成绩,会影响学生的学习兴趣和学习成绩,但一般而言,同一门课程学习成绩的但一般而言,同一门课程学习成绩的好坏很大程度上取决于学生们自身,好坏很大程度上取决于学生们自身,而不决定于老师的教学水平,因为这而不决定于老师的教学水平,因为这时老师对所有学生的教学水平是一致时老师对所有学生的教学水平是一致的。的。n由此看来,学生评教的分数在评判由此看来,学生评教的分数在评判教学质量当中作为主要参考因素在某教学质量当中作为主
29、要参考因素在某种程度上是不恰当的,也不是客观的。种程度上是不恰当的,也不是客观的。n当然,并不是所有的课程的学生当然,并不是所有的课程的学生打分都与学生成绩存在高度的相打分都与学生成绩存在高度的相关性,也不排除某些老师的教学关性,也不排除某些老师的教学会受到所有学生的欢迎或排斥。会受到所有学生的欢迎或排斥。n如果出现这种情况,即学生成绩如果出现这种情况,即学生成绩与学生打分之间的正相关性比较与学生打分之间的正相关性比较弱的情况,那么该课程的学生打弱的情况,那么该课程的学生打分的客观性就会有所增加。分的客观性就会有所增加。n此外,学生成绩只是影响评教分此外,学生成绩只是影响评教分数的一个因素,还
30、有一些与教学数的一个因素,还有一些与教学不完全相关的因素在影响着评教不完全相关的因素在影响着评教结果。对于这些因素有待进一步结果。对于这些因素有待进一步的分析。的分析。n最后,这里的定量分析结果并不最后,这里的定量分析结果并不是要拒绝学生参与教学评估,而是要拒绝学生参与教学评估,而是提出问题,以期在保证学生参是提出问题,以期在保证学生参与的前提下,运用更为充分的定与的前提下,运用更为充分的定量分析方法,制定出科学合理的量分析方法,制定出科学合理的评教标准。评教标准。现实问题一:现实问题一:技术人员人数的预测技术人员人数的预测 某市人事局为了研究针对外来技术某市人事局为了研究针对外来技术人员的户
31、籍政策,需要预测未来几年人员的户籍政策,需要预测未来几年各级技术人员的人数。各级技术人员的人数。 当时,该市人事局能够提供的只当时,该市人事局能够提供的只是是2000年至年至2003年具有初级、中级和年具有初级、中级和高级职称者的人数,要求高级职称者的人数,要求根据该市今根据该市今后后GDP的增长趋势,预测的增长趋势,预测2004年至年至2010年具有初级、中级和高级职称者年具有初级、中级和高级职称者的人数。的人数。现实问题一:现实问题一:技术人员人数的预测技术人员人数的预测 定量分析一:定量分析一: 要根据该市今后要根据该市今后GDP的增长趋势来预测的增长趋势来预测2004年至年至2010年
32、具有初级职称、中级职称和高级职称者年具有初级职称、中级职称和高级职称者的人数,的人数,首先首先是要建立较为可信的该市技术人员数是要建立较为可信的该市技术人员数量与量与GDP的相互关系模型,的相互关系模型,其次其次是要有可靠的对该是要有可靠的对该市今后市今后GDP的增长趋势的预测。的增长趋势的预测。 尽管可以从该市统计年鉴上查到该市尽管可以从该市统计年鉴上查到该市2000年至年至2003年的年的GDP数据,但是,仅仅只有四年的年度数数据,但是,仅仅只有四年的年度数据,尚不足以构建起较为可信的该市技术人员数量据,尚不足以构建起较为可信的该市技术人员数量与与GDP的相互关系模型;即使有较为可靠的对该
33、市的相互关系模型;即使有较为可靠的对该市今后今后GDP的增长趋势的预测,也难以根据该市今后的增长趋势的预测,也难以根据该市今后GDP的增长趋势来预测的增长趋势来预测2004年至年至2010年具有初、年具有初、中、高级职称者的人数;更何况,对该市今后中、高级职称者的人数;更何况,对该市今后GDP的增长趋势的预测也难免会存在一定的误差。的增长趋势的预测也难免会存在一定的误差。 为了对技术人员数量的变化有一个感性认识,为了对技术人员数量的变化有一个感性认识,首先在首先在Excel中对年份做关于技术人员数量的中对年份做关于技术人员数量的XY散散点图。在插入中选择图表。点图。在插入中选择图表。 从图中可
34、以看出,具有各级职称的技术从图中可以看出,具有各级职称的技术人员的人数都呈现一种近似线性的增长趋势。人员的人数都呈现一种近似线性的增长趋势。其中,初级职称人员的增长其中,初级职称人员的增长 较快而高级职较快而高级职称人员的增长较缓。称人员的增长较缓。 最后直接根据最后直接根据2000至至2003年的该市具年的该市具有初级、中级和高级职称者的人数来预测有初级、中级和高级职称者的人数来预测2004年至年至2010年具有初、中、高级职称者年具有初、中、高级职称者的人数。的人数。 构建各级职称人员数量构建各级职称人员数量关于时间(年份)关于时间(年份)的的一元线性回归一元线性回归模型,并以此模型来预测
35、各模型,并以此模型来预测各级职称人员在级职称人员在2004年至年至2010年里的数量。年里的数量。 在Excel中,直接调用函数FORECAST来直接得到一元线性回归模型的预测结果。 上图中,上图中,X指的是我们要预测技术人员人数的那指的是我们要预测技术人员人数的那个年份;个年份;Known-ys是指已知的因变量,在这里是是指已知的因变量,在这里是指指2000年至年至2003年的技术人员数;年的技术人员数; Known-xs是是指已知的自变量,在这里是指指已知的自变量,在这里是指2000年至年至2003年的年年的年份数。份数。 以此类推,我们可以计算出以此类推,我们可以计算出2004至至201
36、0年年各级职称技术人员人数的预测值。各级职称技术人员人数的预测值。 2004年至年至2010年各级职称人员占当年各级职称人员占当年全部技术人员的比例,我们可以注意年全部技术人员的比例,我们可以注意到,这里的预测结果延续了到,这里的预测结果延续了2000至至2003年的一个趋势,即初级职称的人员在全年的一个趋势,即初级职称的人员在全部技术人员中的比例呈缓慢的上升趋势。部技术人员中的比例呈缓慢的上升趋势。这是该市人事局所不愿意见到的现象。这是该市人事局所不愿意见到的现象。当然,不能因为不愿意见到就回避这一当然,不能因为不愿意见到就回避这一可能的趋势。它的意义就在于提醒该市可能的趋势。它的意义就在于
37、提醒该市人事局应当加强职称的评审工作和加大人事局应当加强职称的评审工作和加大扶持、引进高级职称技术人才的力度。扶持、引进高级职称技术人才的力度。现实问题二:现实问题二:偷税的简单识别偷税的简单识别 一般而言,偷税现象在不少企业中不同一般而言,偷税现象在不少企业中不同程度地存在。隐瞒销售收入、减少计税依据程度地存在。隐瞒销售收入、减少计税依据是最常见的偷税手法。税务机关如果对所有是最常见的偷税手法。税务机关如果对所有企业逐户进行税务检查,将花费大量的人力、企业逐户进行税务检查,将花费大量的人力、物力、财力并且收效甚微。税务机关是否能物力、财力并且收效甚微。税务机关是否能够通过对众多企业某些财务指
38、标的分析,较够通过对众多企业某些财务指标的分析,较为迅速地发现隐瞒销售收入的企业,进而集为迅速地发现隐瞒销售收入的企业,进而集中力量,有阵对性地对这部分企业进行税务中力量,有阵对性地对这部分企业进行税务重点稽查,确认偷税事实,打击偷税行为,重点稽查,确认偷税事实,打击偷税行为,挽回国家财政收入损失呢?挽回国家财政收入损失呢?定量分析二:定量分析二: 日常调查发现,采取隐瞒销售收入进行日常调查发现,采取隐瞒销售收入进行偷税的企业,一般情况下其工人工资支出在偷税的企业,一般情况下其工人工资支出在账簿上体现得较为真实。而且,在同一地区账簿上体现得较为真实。而且,在同一地区某一特定行业内,由于工人流动
39、较为充分的某一特定行业内,由于工人流动较为充分的缘故,在该行业不同企业内的工人月平均工缘故,在该行业不同企业内的工人月平均工资大体是相同或相近的;不少行业(例如机资大体是相同或相近的;不少行业(例如机械制造业、食品制造业、服装制造业)大多械制造业、食品制造业、服装制造业)大多推行计件工资,因此,在同一地区同一行业推行计件工资,因此,在同一地区同一行业内,相同的工人工资支出对应的销售收入大内,相同的工人工资支出对应的销售收入大体是一致的。体是一致的。 基于以上理由,我们可以建立一个销售基于以上理由,我们可以建立一个销售收入和工人工资总额之间的一元线性回归模收入和工人工资总额之间的一元线性回归模型
40、,再通过工人工资总额来预测销售收入。型,再通过工人工资总额来预测销售收入。从而,在对某地区某行业若干家核算较为规从而,在对某地区某行业若干家核算较为规范的企业销售收入和工人工资总额统计资料范的企业销售收入和工人工资总额统计资料基础上,我们可以通过另外某户企业工人工基础上,我们可以通过另外某户企业工人工资总额来预测其销售收入,该销售收入可认资总额来预测其销售收入,该销售收入可认为是该企业正常情况下应当实现的平均销售为是该企业正常情况下应当实现的平均销售收入。如果该企业账面销售收入明显低于该收入。如果该企业账面销售收入明显低于该预测收入,则可认为该企业有隐瞒销售收入预测收入,则可认为该企业有隐瞒销
41、售收入偷税的嫌疑。偷税的嫌疑。 例如,某市例如,某市10户核算规范的摩托车链轮生户核算规范的摩托车链轮生产企业年度销售收入和工人工资总额的统产企业年度销售收入和工人工资总额的统计资料如下:计资料如下: 而该市一家待查的摩托车链轮生产而该市一家待查的摩托车链轮生产企业向税务部门上报的年度销售收入和企业向税务部门上报的年度销售收入和工人工资总额分别为工人工资总额分别为765.5万元和万元和308万万元。元。 先用先用10户核算规范的某市摩托车链轮户核算规范的某市摩托车链轮生产企业年度销售收入和工人工资总额生产企业年度销售收入和工人工资总额的统计资料,建立一个销售收入和工人的统计资料,建立一个销售收
42、入和工人工资总额之间一元线性回归模型。工资总额之间一元线性回归模型。 Y=0 +1X+ X X为工资总额,为工资总额,Y Y为销售收入。为销售收入。 在上图中,在上图中,“Significance F”的数值为的数值为5.66E-12,即,即5.6610-12,小于显著性水平,小于显著性水平0.05,说明销售收入与工人工资总额之间存,说明销售收入与工人工资总额之间存在显著的相关性,而在显著的相关性,而R平方(平方(R Square)达)达到到0.998,约为,约为1,表明销售收入的差异几乎,表明销售收入的差异几乎完全可以由工人工资总额的差异来解释。完全可以由工人工资总额的差异来解释。 在上图中
43、,一元线性回归模型中的两个参在上图中,一元线性回归模型中的两个参数数0和和1的估计值分别是的估计值分别是“Intercept”和和“工资工资(万元)(万元)”所对应的所对应的“Coefficients”的数值。的数值。也就是说,这里的回归方程是:也就是说,这里的回归方程是:Y=-11.33+3.956X 这表明,工人工资总额每增加这表明,工人工资总额每增加1万元,对万元,对应销售收入会增加应销售收入会增加3.596万元。万元。 该市一家待查的摩托车链轮生产企业向该市一家待查的摩托车链轮生产企业向税务部门上报的年度销售收入和工人工资总税务部门上报的年度销售收入和工人工资总额分别为额分别为765.
44、5万元和万元和308万元。万元。 利用上面得到的回归方程,我们用这家利用上面得到的回归方程,我们用这家企业的工人工资总额来预测其销售收入的平企业的工人工资总额来预测其销售收入的平均水平为均水平为-11.33+3.596308=1096.238 于是,该企业账面销售收入比预测的平于是,该企业账面销售收入比预测的平均水平少了均水平少了1096.238-765.5=330.738万元。万元。 实际上,销售收入的平均水平并不代表企业实际上,销售收入的平均水平并不代表企业实际上将会达到的销售收入水平。由于各种因素实际上将会达到的销售收入水平。由于各种因素的干扰,企业的实际销售收入会围绕这个平均水的干扰,
45、企业的实际销售收入会围绕这个平均水平而波动,但是波动的幅度不会太大。因此,我平而波动,但是波动的幅度不会太大。因此,我们不能一看到企业的账面销售收入比预测的平均们不能一看到企业的账面销售收入比预测的平均水平少就认为企业在偷税,我们只不过是认为那水平少就认为企业在偷税,我们只不过是认为那些账面销售收入比预测的平均水平减少得比较多些账面销售收入比预测的平均水平减少得比较多的企业存在偷税嫌疑。的企业存在偷税嫌疑。 判断账面销售收入比预测的平均水平减少判断账面销售收入比预测的平均水平减少得是否得是否“比较多比较多”的标准是看有没有超出两倍的的标准是看有没有超出两倍的标准误差。其显著水平约为标准误差。其
46、显著水平约为0.05.而这个标准误而这个标准误差的数值就是上图中第六行的差的数值就是上图中第六行的“标准误标准误差差”17.92。 由于待查企业的账面销售收入与预测收由于待查企业的账面销售收入与预测收入水平的差距入水平的差距330.738万元是这个标准误差万元是这个标准误差17.92万元的万元的18.5倍,远远大于倍,远远大于2倍的水平,倍的水平,因此,我们有理由认为,该企业存在隐瞒销因此,我们有理由认为,该企业存在隐瞒销售收入进行偷税的嫌疑。售收入进行偷税的嫌疑。 在前面的分析中,为了保证分析结果的在前面的分析中,为了保证分析结果的可靠性,要求用于建立回归模型的样本数据可靠性,要求用于建立回
47、归模型的样本数据是真实的。本案例是直接将核算规范的企业是真实的。本案例是直接将核算规范的企业的销售收入数据作为真实的数据来建模的。的销售收入数据作为真实的数据来建模的。而更好的方式应当是将经过税务部门检查、而更好的方式应当是将经过税务部门检查、确认的销售收入数据作为真实的数据。确认的销售收入数据作为真实的数据。 实际上,在调用回归分析时,如果选实际上,在调用回归分析时,如果选择了其它选项,我们还可以对模型及所用择了其它选项,我们还可以对模型及所用数据进行更进一步的考察:数据进行更进一步的考察: 在上图中,在上图中,“预测销售收入(万元)预测销售收入(万元)”是用一元线性回归模型计算出来的那是用
48、一元线性回归模型计算出来的那10户核户核算规范的企业销售收入的预测值。若标准残算规范的企业销售收入的预测值。若标准残差的绝对值大于差的绝对值大于2,则视该样本为异常样本,则视该样本为异常样本,需要对其数据进行检查,因为它们常常代表需要对其数据进行检查,因为它们常常代表了错误的数据,要在对其加以修正后,重新了错误的数据,要在对其加以修正后,重新估计方程。估计方程。 如果检查发现样本数据没有错误,则应如果检查发现样本数据没有错误,则应当考察是否存在某种明显的影响因素导致了当考察是否存在某种明显的影响因素导致了异常值。如果确有某种因素存在,要么在异常值。如果确有某种因素存在,要么在模型中加入这一因素
49、,要么剔除异常样本模型中加入这一因素,要么剔除异常样本 如果没有其他原因,且异常值个数不足如果没有其他原因,且异常值个数不足5%,那,那么这些异常值可能完全是由于随机因素的影响而产么这些异常值可能完全是由于随机因素的影响而产生的,就保留这些异常值参与建模与方程的估计。生的,就保留这些异常值参与建模与方程的估计。 我们注意到,上图中的数据表明,第八个企业我们注意到,上图中的数据表明,第八个企业的标准残差小于的标准残差小于-2,这说明该企业也存在低报销售,这说明该企业也存在低报销售收入的可能性,应当对该企业的会计信息进行一番收入的可能性,应当对该企业的会计信息进行一番核查后再使用。核查后再使用。
50、下图是由下图是由“百分比排位百分比排位”画出的正态概率图画出的正态概率图 (当想对一系列数据进行由大到小的排名(当想对一系列数据进行由大到小的排名时可以用到此项,而且除了正常排名外还会时可以用到此项,而且除了正常排名外还会产生一个百分比排位,百分比排位是指小于产生一个百分比排位,百分比排位是指小于本行的数据个数除以小于本行的数据个数加本行的数据个数除以小于本行的数据个数加上大于本行的数据个数之和所得到的百分比上大于本行的数据个数之和所得到的百分比排位)排位) 一元线性回归模型要求误差项服从正态概一元线性回归模型要求误差项服从正态概率分布。如果上述数据点基本上分布在一条率分布。如果上述数据点基本
51、上分布在一条直线上,我们就认为这一要求得到了满足;直线上,我们就认为这一要求得到了满足;否则,计算出来的一元线性回归模型在应用否则,计算出来的一元线性回归模型在应用时会导致较大的误差而不能使用。时会导致较大的误差而不能使用。 Excel画出的另外两个图是残差图和拟合画出的另外两个图是残差图和拟合图。拟合图将上图中的预测数据与原始数据图。拟合图将上图中的预测数据与原始数据画在一张图上,通过数据点的重合性来直观画在一张图上,通过数据点的重合性来直观地反映回归模型的有效性,可供分析的意义地反映回归模型的有效性,可供分析的意义不大。而下面的残差图的意义则比较大。不大。而下面的残差图的意义则比较大。 这
52、是因为,一个合格的一元线性回归模型这是因为,一个合格的一元线性回归模型要求残差图中的散点应落在一条水平带中要求残差图中的散点应落在一条水平带中间,杂乱无规律;否则,计算出来的一元间,杂乱无规律;否则,计算出来的一元线性回归模型也会因为在应用时会导致较线性回归模型也会因为在应用时会导致较大的误差而不能使用。大的误差而不能使用。 本案例所展示只是定量分析技术在税务本案例所展示只是定量分析技术在税务稽查选案中的一个简单应用。如果企业同时稽查选案中的一个简单应用。如果企业同时少报工人的工资总额,上述办法就难以奏效少报工人的工资总额,上述办法就难以奏效了。好在我们有更复杂的定量分析技术来应了。好在我们有
53、更复杂的定量分析技术来应对这种情况,而且这样的一些技术手段已经对这种情况,而且这样的一些技术手段已经进入了税务部门的办公系统。正是因为有这进入了税务部门的办公系统。正是因为有这样一些定量分析技术,加上电子信息技术,样一些定量分析技术,加上电子信息技术,才保证了近些年来我国税收的增长速度高于才保证了近些年来我国税收的增长速度高于GDP的增长速度,偷漏税案件数量能够得到的增长速度,偷漏税案件数量能够得到有效的控制。定量分析技术对于实现税务稽有效的控制。定量分析技术对于实现税务稽查选案的科学性、准确率和快捷化具有非常查选案的科学性、准确率和快捷化具有非常重要的现实意义。重要的现实意义。 相比之下,我
54、国的银行系统目前还相比之下,我国的银行系统目前还很少使用定量分析技术,从而监管部门很少使用定量分析技术,从而监管部门只能采用承受损失的方式即通过剥离不只能采用承受损失的方式即通过剥离不良贷款来降低不良贷款余额和不良贷款良贷款来降低不良贷款余额和不良贷款率。不良贷款的金融风险始终得不到有率。不良贷款的金融风险始终得不到有效地控制。效地控制。 由于定量分析技术能够在一定程度由于定量分析技术能够在一定程度上发现和限制某些人为的故意失误,因上发现和限制某些人为的故意失误,因此这一技术受到某些部门的排斥就在所此这一技术受到某些部门的排斥就在所难免了。难免了。现实问题三:现实问题三:粮食产量相关因素分析粮
55、食产量相关因素分析 为了完成定量分析方法课的作业,尽管老为了完成定量分析方法课的作业,尽管老师一再强调定量分析必须以问题为导向而师一再强调定量分析必须以问题为导向而不是以数据为导向,某不是以数据为导向,某MPA小组还是决定小组还是决定根据根据中国统计年鉴中国统计年鉴和和中国农村统计中国农村统计年鉴年鉴中的数据来分析某些指标和粮食产中的数据来分析某些指标和粮食产量的相关性。量的相关性。定量分析三:定量分析三: 该该MPA小组推测粮食播种植面积、有效小组推测粮食播种植面积、有效灌溉面积、化肥施用量、农业机械总动力、灌溉面积、化肥施用量、农业机械总动力、农业支出、农业支出占财政支出的比重应当农业支出
56、、农业支出占财政支出的比重应当是六个与粮食总产量相关的指标,于是他们是六个与粮食总产量相关的指标,于是他们考虑用这六个指标作为自变量、粮食总产量考虑用这六个指标作为自变量、粮食总产量作为因变量来建立一个多元线性回归模型,作为因变量来建立一个多元线性回归模型,再根据模型来分析这六个指标与粮食总产量再根据模型来分析这六个指标与粮食总产量的相关情况。的相关情况。 调用调用Excel“工具工具”、“数据分析数据分析”中的中的“回归回归”功能:功能: 在上图中,在上图中,“Significance F”的数值为的数值为6.2E-10,即,即6.210-10,远小于显著性水平远小于显著性水平0.05,似乎
57、说明这六个自变量的全部或部分,似乎说明这六个自变量的全部或部分与粮食总产量之间存在显著的相关性,而与粮食总产量之间存在显著的相关性,而R平方(平方(R Square)为)为0.981,似乎表明上述,似乎表明上述多元线性回归模型几乎能够完全解释粮食总多元线性回归模型几乎能够完全解释粮食总产量的波动。产量的波动。 在这里,我们为什么要增加在这里,我们为什么要增加“似乎似乎”这这两个字,我们稍后再解释。我们先看上表中两个字,我们稍后再解释。我们先看上表中“有效灌溉面积(千公顷)有效灌溉面积(千公顷)”和和“农业支出农业支出占财政支出的比重占财政支出的比重”这两个自变量所对应的这两个自变量所对应的p-
58、值(值(p-value)。这两个)。这两个p-值都大于显著性值都大于显著性水平水平0.05,其含义是,这两个字变量的系,其含义是,这两个字变量的系数数0.124和和-187都可以视为都可以视为0,从而表面上看这,从而表面上看这两个自变量对于因变量两个自变量对于因变量粮食总产量没有粮食总产量没有什么影响,而实质上则是,在其它自变量不什么影响,而实质上则是,在其它自变量不变的情况下,这两个自变量的单独变动对因变的情况下,这两个自变量的单独变动对因变量的影响可以忽略。通常情况下,这两个变量的影响可以忽略。通常情况下,这两个自变量要从多元线性回归模型中剔除。自变量要从多元线性回归模型中剔除。 就就“农
59、业支出占财政支出的比重农业支出占财政支出的比重”这个指这个指标而言,它是一个相对指标,而粮食总产量标而言,它是一个相对指标,而粮食总产量是一个绝对指标。将一个相对指标作为一个是一个绝对指标。将一个相对指标作为一个绝对指标的回归模型中的自变量本身就是不绝对指标的回归模型中的自变量本身就是不大合适的,因此,从模型中删除这个指标是大合适的,因此,从模型中删除这个指标是没有什么可以异议的。没有什么可以异议的。 但是,但是,“有效灌溉面积(千公顷)有效灌溉面积(千公顷)”应当是一个对粮食总产量有着直接影响应当是一个对粮食总产量有着直接影响的指标,否则人们也不会修建水利工程的指标,否则人们也不会修建水利工
60、程增加有效灌溉面积了。那么,为什么这增加有效灌溉面积了。那么,为什么这个自变量所对应的个自变量所对应的p-值没能小于显著性值没能小于显著性水平水平0.05呢?呢? 实际上,如果我们以实际上,如果我们以“有效灌溉面积有效灌溉面积(千公顷)(千公顷)”作为自变量,以粮食总产作为自变量,以粮食总产量作为因变量,建立一个一元线性回归量作为因变量,建立一个一元线性回归模型,选择模型,选择“工具工具”中的中的“数据分析数据分析”中的中的“回归回归”,结果如下:,结果如下: 上图中的上图中的R平方(平方(R Square)表明,粮食)表明,粮食总产量的波动的一半以上可以由有效灌溉面积的总产量的波动的一半以上
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五农村合作社农村电商合作运营合同
- 二零二五年度城市绿化临时用工人员派遣合同
- 二零二五年度木结构装配式建筑木工用工协议
- 2025年度音乐节外聘演员演出协议
- 二零二五年度虚拟现实技术应用合作保密协议
- 2025年度直播平台主播艺人经纪代理合同
- 二零二五年度股票代持业务尽职调查合同
- 二零二五年度钢结构拆除工程安全生产及环境保护合同
- 冀教版数学四年级下册全册教学课件(2025年2月修订)
- 二零二五年度集体劳动合同在跨国公司中的执行
- 【MOOC】机器学习-北京理工大学 中国大学慕课MOOC答案
- 《森林防火安全教育》主题班会 课件
- 《类风湿专病数据集技术规范》 编制说明
- 麻醉机故障应急预案演练
- 人工喂养课件教学课件
- 2024年同等学力申硕英语考试真题
- 2024-2030年实验室自动进样器行业市场现状供需分析及投资评估规划分析研究报告
- 七年级信息技术教案下册(合集6篇)
- 电子商务概论(第四版)课件 张润彤 第7-12章 企业电子商务的发展与管理-电子商务应用案例
- 消除“艾梅乙”医疗歧视-从我做起
- 专题07说明文阅读(中考常考热点题型)20篇(原卷版)-2023-2024学年九年级语文上学期期末(一模)真题分类汇编
评论
0/150
提交评论