回归分析大作业_第1页
回归分析大作业_第2页
回归分析大作业_第3页
回归分析大作业_第4页
回归分析大作业_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中国财政收入回归模型摘要:财政收入指国家财政参与社会产品分配所取得的收入,是实现国家职能的财力保证。本文通过收集1996年2006年间影响国家财政收入的若干因素的经济指标数据,利用逐步回归分析建立了国家财政收入回归模型。关键字:财政收入,逐步回归分析1. 引言:我国财政收入主要来自于工业、农业、商业、交通运输业和服务业等部门1。除此以外,财政收入还不可避免的受人口总数和受灾面积等地影响,因此在建立回归模型的时候必须综合考虑多个对财政收入产生影响的主要因子。值得指出的是,与以往年份相比,2007年财政收支科目实施了较大改革,特别是财政支出项目口径变化很大,与往年数据不可比。基于可得到的数据,我们

2、选择了中国统计年鉴1994-2006年间的数据作为本次分析的数据样本。2. 回归分析理论基础2.1 回归分析相关理论简介在多元线性回归分析中,由于有多个自变量,存在一些在一元线性回归分析中不会遇到的问题。首先碰到的问题就是如何确定回归自变量,如果遗漏了某些重要的变量或者考虑了过多的可有可无的变量,都会是模型精度降低,从而直接影响到回归方程的应用。近代回归分析理论里决定某个自变量对y的影响是否显著。解决这个问题的方法是偏回归平方和与偏f检验。另外,必须使建立的线性回归模型是最优的:一方面是该模型中包含所有对因变量y有显著影响的自变量,另一方面是该模型中所包含的自变量个数尽可能少。要真正做到最优是

3、很不容易的 ,通常是去找比较最优的满意结果。一般选择最优回归方程的方法有四种:1)全部比较法,缺点是计算了太大,实际应用很少;2)向后回归分析,缺点是开始建立的方程可能自变量过多,计算繁琐,且变量一旦被剔除就再也回不到方程中去;3)先前回归分析,缺点是变量一旦引入方程,就不会剔除,这样得到的模型,因为变量间可能存在相关关系,故并不能保证所有的变量都是显著的。4)逐步回归法,该方法基本思想是:将变量一个个引入,引入的条件是该变量的偏f检验是显著的。同时,每引入一个新变量后又要对老变量逐个检验,将变得不显著的变量从回归模型中剔除,可以看出逐步回归法是向前法和向后法的一种结合。2.2 偏f检验与逐步

4、回归法要知道所选的每个自变量对因变量的影响是否显著,就需要对选取的自变量进行显著性分析。本文中采用偏f检验进行因变量的显著性分析。 设有m个自变量x1,x2xm,,采用这m个自变量拟合的全模型为: y=0+1x1+2x2+.+mxm+ (1) 从该模型中剔除自变量xi,剩余的m-1个变量拟合为减模型: y=0 +1x1+. +i-1xi-1+i+1xi+1+ . +mxm+ (2) 设式(1)的复相关系数平方和为r2,式(2)的复相关系数平方和为ri2,定义ri2=r2- ri2。若ri2接近为零,说明自变量xi对因变量y影响甚微,反之,若ri2 越大,则说xi对y的影响越大。该过程相当于检验

5、假设:h0: ri2=0, h1:ri20这种检验称为偏f检验,它是筛选变量的依据,该过程在逐步回归计算中得到了体现。逐步回归法是向前回归法和向后回归法的一种结合。其基本思想是: 将变量一个个地引入, 引入的条件是该变量的偏f检验是显著的。同时, 每引入一个新变量后又要对老变量逐个检验, 将变得不显著的变量从回归模型中剔除。预先给定f进和f 出, 且f进f出, 则逐步回归法的具体计算步骤为:(1)m 个自变量xi 分别与因变量y 建立回归模型:y = (0)i0 + (0)i xi ,对它们进行f 检验, 得fi中最大的那个值, 定义为: fl1=maxfi (i=1,2,.,m) (3)(a

6、)如果fl1f 进, 则计算结束, 即y 与所有自变量线性无关;(b)如果fl1f 进, 引入xl1, 并建立回归方程: y=0 (1)+1 (1)xl1 (4) (2) 建立y 与自变量子集xl1,xi,i=1,2,m 且il1 的二元回归模型:y=i0 (0)+i1 (0)xl1+i (0)xi (5)以等式(5)为全模型, 以等式(4) 为减模型求偏fi 值, 并取fi 中最大的那个值, 定义为fl2。( a) 如果fl2f 进, 则计算结束, 这时建立的回归模型为( 3) 。( b) 如果fl2f 进, 引入xl2, 并建立回归方程: y=0 (2)+1 (2)xl1+2 (2)xl2

7、 (6)(3) 当引入xl2 后, 对xl1 做偏f 检验,看xl1是否需要剔除:(a)如果fl1f 出, 则不剔除xl1, 并继续引入下一个自变量;(b)如果fl1f 出, 则从模型(5) 中剔除xl1, 并继续引入下一个自变量。3. 国家财政收入回归分析与建模3.1 变量选择与样本数据的选取本文以财政收入y(单位:亿元)为因变量,我们选取了几个可能对财政收入产生影响的经济因素:国家农业总产值x1(单位:亿元),工业总产值x2(单位:亿元),建筑业总产值x3(单位:亿元),社会商品零售总额x4(单位:亿元),总税收(单位:亿元),全国人口总数x5(单位:万人)和就业人数(单位:万),受灾面积

8、x6(单位:万公顷)共8个因素作为候选的自变量。相关的样本数据见表一。年份财政总收入(亿元)农业总产值(亿元)工业总产值(亿元建筑业总产值(亿元)社会商品零售总额 (亿元)总税收 (亿元)总人口数(万人)就业人口数(万人)受灾面积 (千公顷)19945218.19572.719480.72964.718622.95126.88119850674555504619956242.212135.824950.63728.823613.86038.04121121680654582419967407.9914015.429447.64387.428360.26909.82122389689504699

9、119978651.1414441.932921.44621.631252.98234.04123626698205342719989875.9514817.634018.44985.833378.19262.81247617063750145199911444.081477035861.55172.135647.910682.581257867139449980200013395.2314944.740033.65522.339105.712581.511267437208554688200116386.0415781.343580.65931.743055.415301.381276277

10、302552215200218903.641653747431.36465.548135.917636.451284537374046946200321715.2517381.754945.57490.852516.320017.311292277443254506200426396.4721412.7652108694.35950124165.681299887520037106200531649.2923070.477230.810133.867176.628778.541307567582538818200638760.22404091310.911851351

11、314487640041091yx1x2x3x4x5x6x7x8表一3.2 回归分析建模设财政收入函数:使用社会统计学软件spss18.0, 选择逐步回归法, 并设置运行参数为: (1) 设财政总收入y为因变量(d);(2)设x1, x2, x3, x4, x5, x6, x7, x8为自变量(1);(3)剔选变量的准则为系统默认值,即: f 值所对应的p 值;(4)选入变量的显著性水平即进入值为0.05, 即当p0.05时, 就将该变量选 入回归方程; (5)删除变量的显著性水平(removal)为0.10, 即当p0.10 时, 就该变量 不能入选回归方程,如图2所示。(1)、(2)、(3

12、)步操作如图1所示,(4)、(5)步操作如图2所示。 图1 线性回归参数设置图2 线性回归:选项的参数设置经过软件回归计算后得到的回归模型为: y =6909.1+1.047x5 -0.12x7 +0.3.5x3 3.3计算结果表二 输入移去的变量a模型输入的变量移去的变量方法1x5.步进(准则: f-to-enter 的概率 = .100)。2x7.步进(准则: f-to-enter 的概率 = .100)。3x3.步进(准则: f-to-enter 的概率 = .100)。a. 因变量: y表三 模型汇总模型rr 方调整 r 方标准 估计的误差11.000a1.0001.000176.97

13、86121.000b1.0001.000122.0929231.000c1.0001.00074.88526a. 预测变量: (常量), x5。b. 预测变量: (常量), x5, x7。c. 预测变量: (常量), x5, x7, x3。表四 anovad模型平方和df均方fsig.1回归1.311e911.311e941864.997.000a残差344535.7301131321.430总计1.312e9122回归1.311e926.557e843989.234.000b残差149066.8201014906.682总计1.312e9123回归1.312e934.372e877960.7

14、63.000c残差50470.22095607.802总计1.312e912a. 预测变量: (常量), x5。b. 预测变量: (常量), x5, x7。c. 预测变量: (常量), x5, x7, x3。d. 因变量: y表五 系数a模型非标准化系数标准系数tsig.b标准 误差试用版1(常量)-590.38297.383-6.062.000x51.121.0051.000204.609.0002(常量)8390.0462480.8933.382.007x51.161.0121.03698.808.000x7-.133.037-.038-3.621.0053(常量)6909.0011562

15、.1034.423.002x51.074.022.95748.406.000x7-.121.023-.034-5.297.000x3.305.073.0764.193.002a. 因变量: y表六 已排除的变量d模型beta intsig.偏相关共线性统计量容差1x1.010a.551.594.172.071x2.101a2.590.027.634.010x3.088a2.565.028.630.013x4-.045a-1.114.292-.332.014x6-.029a-2.990.014-.687.145x7-.038a-3.621.005-.753.103x8-.006a-.927.37

16、6-.281.5712x1.021b1.799.106.514.068x2.079b3.230.010.733.010x3.076b4.193.002.813.013x4.101b2.801.021.682.005x6.137b2.671.026.665.003x8-.001b-.146.887-.049.5073x1-.024c-1.823.106-.542.020x2-.107c-1.269.240-.409.001x4-.062c-.842.424-.285.001x6.038c.656.530.226.001x8.003c.944.373.317.468a. 模型中的预测变量: (常量

17、), x5。b. 模型中的预测变量: (常量), x5, x7。c. 模型中的预测变量: (常量), x5, x7, x3。d. 因变量: y表七 共线性诊断a模型维数特征值条件索引方差比例(常量)x1x2x3x4x6x7x8117.7171.000.00.00.00.00.00.00.00.002.2755.301.00.00.00.00.00.00.00.003.00635.006.00.02.00.00.00.00.00.184.00173.404.00.03.01.01.03.00.00.005.001102.016.00.49.00.00.01.00.00.3765.961e-535

18、9.799.00.05.67.92.00.00.00.0074.695e-61282.098.82.08.23.03.95.03.18.1781.102e-62645.973.18.33.09.04.00.97.82.28a. 因变量: y表八 案例诊断a案例数目标准 残差y预测值残差dimension01.3505218.105156.001662.098372-.9596242.206412.5269-170.326923.3817407.997340.374767.615354-.2858651.148701.7217-50.581675.6929875.959752.9695122.9

19、80526.18811444.0811410.729033.351047-.72013395.2313523.1145-127.8845481.16716386.0416178.7881207.251899.18718903.6418870.406233.2338410-.96321715.2521886.3515-171.1015011-.25426396.4726441.5950-45.1250312-.27031649.2931697.2406-47.9506413.48738760.2038673.760786.43929a. 因变量: y表九 残差统计量a极小值极大值均值标准 偏差n

20、预测值5156.001538673.761716618.890810454.0995513残差-171.10150207.25189.00000114.6478713标准 预测值-1.0962.110.0001.00013标准 残差-.9631.167.000.64513a. 因变量: y图3 回归标准化残差的标准p-p图4. 输出结果分析4.1复相关系数复相关系数反映了模型中的自变量x5、x7、x3与响应变量y之间线形回归关系的密切程度。从表3中可以看到,随着变量x5、x7、x3逐渐增加到模型中,r的值分别为1,这说明随着x5、x7、x3的逐个引入,其与y呈现高度相关。4.2 方差分析从表3

21、可以看到,当单独引进变量x5时,其偏差r=1.000,统计误差为176.9786;引入变量x7后,两个变量相互作用,偏差为r=1.000,相应地系统误差减小到122.0929;再引入变量x3后,偏差为r=1.000,系统误差减小到74.8853,说明三个变量互相影响后对响应变量的影响非常显著。从表4可以看到,随着x5、x7、x3变量的逐步引入,模型的回归均方及残差均方分别由1.311e9和31321.43减小到4.372e8和5607.802,显著性概率sig=0.0000.001,这说明x5、x7、x3的回归系数不为零。因此,选择同时含有自变量x5、x7、x3的回归模型,统计误差最小,最具有

22、统计意义。4.3 解释变量分析y =6909.1+1.047x5 -0.12x7 +0.305x3 该方程的经济意义是明显的, 即财政收入主要取决于总税收、建筑业总产值和就业人数3 个因素, 各因素数量的变化引起财政收入总量变化的程度由各自的系数来反映。x5的系数表明, 总税收增加1亿元,财政收入增加1.047亿元,可见总税收变化对财政收入的影响都是非常大的;x3的系数表明, 建筑业总产值增加1亿元, 财政收入增加0.305亿元, x7的系数表明,就业人数增加1万人,财政收入减少0.12亿元, x7和x3的系数则表明我国建筑业总产值和就业人数的关系也比较密切。增加财政收入不一定非要采取提高税率

23、, 增加税种这样的税收手段, 如果国家的经济发展形势良好, 经济总量持续扩大, 人口资源得到合理利用,财政收入的规模也会随之扩大。4.3 误差分析从表8中可以看出,将1994-2006各年的相关数据代入回归模型中,得到各年的财政收入预测值,将其与当年的实际值进行比较,绝对误差最大达到207.2519(亿元),最小达到33.2338(亿元),相对误差最大值为1.26%,由此可见,回归效果颇为满意,回归模型有效可用。综合分析,回归过程中误差的存在可能由以下原因造成:(1)统计数据不精确由于有的数据来源于相关部门的抽样调查而非普查,所以数据的估计值与真实值存在一定偏差,从而会对统计结果的误差产生一定

24、影响。(2)解释变量缺乏诸如全国各年受灾损失、消费者价格指数等因素也会对财政收入造成一定的影响,但这些数据有的难以统计,有的没有公开报道或数据不全,导致对fin的解释变量的缺乏。(3)某些不可预测的因素和突发事件等所产生的影响。5提高我国财政收入质量的政策建议5.1 建立科学的财政收入目标任务与政绩考核机制从各地财源实际出发,科学合理确定财政收入目标任务,明确财政收入应该依法征收。与此同时,将财政收入质量纳入财政工作目标管理和公共财源建设考核的必要内容中,废止单纯以收入任务完成作依据的“一票否决”办法。建立以加强收入征管和提高收入质量为主要内容的财政收入考核机制。当前重点是进一步完善财政收入预算管理质量考核政绩,考核不应单纯以收

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论