近年居民消费结构统计分析的研究综述_关于因子分析和聚类分析的应用_第1页
近年居民消费结构统计分析的研究综述_关于因子分析和聚类分析的应用_第2页
近年居民消费结构统计分析的研究综述_关于因子分析和聚类分析的应用_第3页
近年居民消费结构统计分析的研究综述_关于因子分析和聚类分析的应用_第4页
近年居民消费结构统计分析的研究综述_关于因子分析和聚类分析的应用_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、收稿日期 :2006年 03月 24日 文章编号 :1002-1566(2007 05-0776-06近年居民消费结构统计分析的研究综述 关于因子分析和聚类分析的应用吴 栋 李乐夫 李阳子(清华大学经济与管理学院 , 北京 , 100084摘要 :本文对近年有关居民消费结构的实证分析进行研究 , 、 进 ; 回顾了模型分析的过程与结论 ; , 段的应用及后续研究提供相应参考 。关键词 :消费结构 ; ; . 文献标识码 :ARev i ew of Em p i r i ca l Stud i es on Con sum pti on StructureWU Dong, L ILe 2fu, L

2、 I Yang 2zi(School of Econom ics &Manage ment, Tsinghua University, Beijing, 100084Abstract:This article exa m ines the e mp irical studies on consu mp ti on structure published in recent years, revie ws the methods used in data collecti on, the transiti on of e mp irical methods, and the p r oc

3、esses and conclusi ons of the model analysis . The author als o p r ovides s ome comments and suggesti ons which can be taken as references f or the future study on app lying e mp irical methods .Key words:Consu mp ti on Structure; Fact or Analysis; Cluster Analysis近年来随着我国经济的快速平稳发展 , 消费需求不足日益突出 , 对于

4、消费问题的关注成为 转型期经济研究的重点之一 。 消费总量和消费结构是研究消费问题的两个基础 , 而对于消费 结构的研究难度更大 , 因为其变量较多 、 机理复杂 、 数据量很大 , 所以各种较新的数理实证方法 在此领域中应用逐渐受到广大学者的重视 。 近年来运用因子分析 、 聚类分析等实证手段研究 消费结构的方法在学术界日渐得到广泛应用 , 有必要梳理分析的过程 、 回顾其分析结果 , 以期 为今后统计实证手段的应用提出一定的建议 。1 数据选取和实证方法综述在近年来对于农村居民消费结构的研究中 , 实证分析手段日趋多样化 。传统的实证分析 一般停留在简单地对各类指标进行年均增减等比对分析

5、, 从而发现问题或佐证观点 。但是随 着统计方法日趋完善 , 各类年鉴中统计指标逐渐细化 , 且有充足统计数据的时间段逐渐延长 , 对于同一指标的描述也从原来的单变量变为了多维变量 , 数据量大大增加 , 而刻画描述的细化 程度也越来越有利于我们对实际情况进行分析 。 可以说 , 单从各类数据角度出发 , 对类似于农 民消费结构这样的重大经济问题 , 我们已经有了摆脱简单实证分析的数据基础 。从数据选取来看 , 针对农村居民的消费结构问题在 中国统计年鉴 中 , 其指标体系共有 2007年 9月 第 26卷 第 5期 数理统计与管理 App licati on of Statistics an

6、d Manage ment Sep 1, 2007Vol 126 No 1 5九项 , 在 “ 各地区农村居民家庭平均每人生活消费现金支出 ” (或者 “ 消费总支出 ” 表中 将消费 细分为 “ 总量 ” 与 “ 食品 ” 、 “ 衣着 ” 、 “ 家庭设备及服务 ” 、 “ 医疗保健 ” 、 “ 交通和通讯 ” 、 “ 文教娱 乐用品及服务 ” 、 “ 其他商品及服务 ” 等八项指标 。而消费结构的实证分析主要以这些数据为 准 , 多数研究者都是采取了某一年份 31个省 、 市 、 自治区 (以下简称省份 的截面数据 , 也有个 别学者以 9年时间序列为准 , 不用分区数据 , 仅用全国的

7、总合分析八项指标的在 9年间的变动 情况 。从方法上看 , 针对 31个省份 , 八项指标在 9年来所形成的大量数据 , 无论是仅做消费的单 独实证分析 , 还是要进一步回归分析 , 讨论消费与收入 、 G DP 等指标的关系 , 都离不开因子分 析和聚类分析的方法 。 这两种分析方法都可以把多维变量根据数据自身的变动规律 , 通过矩 阵运算等方式有效地降维和归类 。, , 也常常配合别的统计方法 ,。因 , 针对此点一般软件中都会有专门的统计量 加以刻画 , “ 取样适当性数 ” 即 “ K MO ” (Kaiser -Meyer -O lkin 检验 , 而现 有文献中更为普遍的方法直接列

8、出相关系数阵或协方差阵 , 通过粗略观测其数值大小来分析 该数据是否适合进行因子分析 。 第二 , 从相关系数矩阵中捉取特征向量 , 通过转轴方式确定各 个变量在各个因子中的方差贡献率 , 以确定因子数目和归为同一因子的变量 。一般学者均采 取 “ 最大变异数法 ” (VER I M AX, 或称为“ 方差最大旋转方法 ” 进行转轴 。多数学者在此步骤 会比较详细 , 表述清晰向量模型 , 以及各个因子提取后的方差累计贡献率 , 同时对于各个因子 含义进行简要分析 。 第三 , 给各个地区在不同因子上打分 , 然后进行排序以及相关解释或者后 续分析 。 多数学者不会列出因子与原始数据关系的模型

9、 , 而孙艳玲 此步骤前以综合模型的 方式列出各因子前的系数 , 直观反映了其贡献率的权重 。 在后续分析中 , 可以是单独因子的排 名讨论 , 也可以利用因子得分再进行聚类或者画图分析 。 具体见后文 。聚类分析在消费结构研究中很少单独出现 , 一般都是配合因子分析出现的 , 在聚类方法上 的说明均比较简略 , 所采用的具体方法也较为统一 , 一般都采用欧氏距离平方的距离测试 , 选 择最小方差聚类方法进行分析 , 聚类的对象可以为八项消费 , 也可以为 31个省份 , 具体将在下 文分章列出 。 一般 31个省份的聚类结果由于比较复杂 , 在文章中经常省略 , 仅保留聚类过程 说明结果 。

10、在软件方面 , 研究者使用 SPSS 软件的居多 , 尤其对于需要输出聚类图谱的文章基本上都 是应用 SPSS, 其在作图和输出方面比较易于操作 。也有部分学者使用 S AS 数据分析系统 , 二 者在普通分析上差别不大 。2 模型结论综述综合近年来的论文 , 可以发现因子分析和聚类分析的同时使用是近年来对于消费结构分 析的发展趋势 , 本文选取的几篇论文基本上都采用了两种实证方法 , 或者在这两种方法的数据 基础上再进行回归分析 , 具有一定的代表性 。具体而言 , 可以先聚类 , 利用聚类的结果来分区 域进行因子分析 , 最后对比不同地区在八项消费上所体现的特点 , 进而分析得出结论 。

11、柯健 2利用 2002年的城镇居民消费数据 , 对于消费和地区互相做了聚类 。其先用 31个 省份作为八项消费的属性 , 对于消费结构进行聚类 , 又将图标进行转置 , 即把八项消费作为 31个省份的属性 , 对 31个省份再进行聚类 , 将其分为四个层次 。 具体结果见后表 。应该说 , 我国幅员辽阔 , 地区间的自然禀赋 、 文化基础迥异 , 这样的分析思路虽然在理论上 符合实事求是 、 具体问题具体分析的要求 , 但在研究农村消费结构上的应用较少 。 极少有学者 把农村分消费进行分区域比对 , 而在研究城市消费结构时则较多使用 , 具体原因是农村地区的 消费结构差异没有在城市间体现得显著

12、 。殷玲 3分别就发达地区城市和农村的消费结构和 不发达地区城市和农村的消费结构分别做了因子分析 , 并且进行了对比 , 应该指出其划分发达 与不发达的标准并非是先聚类的结果 , 而是根据 G DP 进行排名 。 因子结果是城市的发达与不 发达在消费结构上体现明显 , 发达城市的医疗与教育在因子一中 , 而不发达地区的食品 、 交通 和其他商品消费在第一因子中 , 两地区毫不重合 , , 而发达地 区的农村和不发达农村在消费结构上的差异很小 , , 而在 不发达地区进入了因子二 2002年城镇 , , 分别进行因子分 析 , , 得到另一个结果 。对比三个因子分 析结果 , 。孙艳玲 5的方法

13、则真正综合了因子分析与聚类分析 , 不同的是其先进行了因子分析 , 再 用因子分析的结果进行了聚类分析 。 孙艳玲较多运用了 31个省份的因子得分 , 在 2002年农 村居民消费结构的数据基础上 , 她不但计算出单因子情况下 31个省份的得分 , 而且计算出了 31个省份在八项消费产生的 3个因子上的得分 , 再把该得分作为 31个省份的属性 , 采用离差 平方和 (ward 方法进行聚类 , 最后将城市分为四层 。其次该文利用了单因子得分的地区排名 和聚类后的四类地区的排名进行对比 , 发现北京等发达城市不单单在单因子排名中名列前茅 , 而且在占总信息 88%的第一因子中仍然位居前列 ,

14、很有充分地说明了排名前列的城市代表了 数据结果的总趋势 。 相对而言王芳 、 王景东 6单纯利用因子分析 2001年对我国城镇居民消 费进行因子分析就略显简单 , 文章也提取了 3个因子 , 并且利用了 3个因子得分对于 31个省 份进行了 3次排名 。从经济学原理出发消费是社会经济活动中的关键环节 , 所以和消费相关的经济活动与消 费结构本身联系变化的内在机理是非常值得探索的 。庄燕君 7就利用聚类分析以及线性回 归研究了农村地区消费结构变动与区域产业结构的关系 。文中首先进行了聚类分析 , 将全国 城市分成四个层次 , 再对比四个层次城市的农村居民消费结构 (即八项消费的比例 和三次产 业

15、比例 , 最后用线性回归实证出各个产业与各项消费的相关性 。孙冰 、 王其元 8利用 1997年和 1999年的城镇居民消费结构数据分别进行了因子分析 , 对 两年都提取了三个因子 , 虽然三个因子对于八项消费的具体归类文中没有详细归纳 , 但是对比 了三因子中各项消费的变动情况 , 得出了我国居民生活水平已有很大提高 , 生活质量有了明显 改善 , 消费观念正迅速转变等结论 。以上列举的文章都是采取截面数据 , 很少有用序列数据作为八项指标的属性 , 宁自军 9在分析浙江省城镇居民人均生活消费结构时就采用了 1992年到 2000年的数据对八项消费进 行了因子分析 , 但是和一般分析全国的文

16、章不同 , 该文仅选取了两个因子 , 并且以两个因子分 为纵轴 , 以年份为横轴 , 直观地反映了浙江省消费结构的变动情况 。苏 芳 、 胡日东 10也采取 类似的方法步骤对福建地区的城镇居民从 1992年到 2003年的八项消费数据进行分析 。同样 作为分区域研究 , 田萍 、 廖靖宇 11对于河南省城镇居民 2000年的消费结构进行了研究 。该文 也是利用转置 , 对于河南省 17个地区和八项消费分别进行了聚类分析和因子分析 。以上论文的具体输出结果见下表 :因子数目 、 命名 。 聚类结果将单独标明 。 论文作者数据年份因子 1因子 2因子 3选取数据 孙艳玲2002食物 、 交通 、

17、其他 家电 、 教育 、 住宅 医药 、 衣着全国农村 葛虹 逄守艳 2002(结果以 聚类为准 分类 食物、 交通、 其他住宅。 命名 :主消费因子 家电 、 教育 、 医药 命名 :次消费因子 衣着命名 :弱消费因子全国城镇 食物 、 交通 、 其他 家电 、 教育 、 医药 食物 、 交通 、 教育 、 家电 全国城镇 不发达地区 殷玲 2001(结果以 G DP 为 准分类 教育 、 交通 、 住宅 、 其他衣着 全国城镇 发达地区 食物 、 衣着 、 其他 教育 、 医疗 、 交通 家电 因子 4:住宅 全国城镇 不发达地区食物 、 交通 、 家电 、教育 、 住宅 、 其他衣着 、

18、 医疗 全国农村发达地区 食物 、家电 、 教育 、 住宅衣着 、 医疗 、 交通 、 其他 全国农村 不发达地区 王芳 、 王景东 2001食物 、 交通 、 住宅其他命名 :生活必需因子家电 、 医疗 、 教育 命名 :享受因子 衣着 命名 :季节因子 全国城镇 柯健 2002聚类一 :食物 、 交通 、 其他聚类二 :家电 、 教育 、 住宅 聚类三 :医药 聚类四 :衣着 全国城镇 田萍 2002家电 、 教育 、 其他衣着 、 交通 医药 、 食物 、 住宅 河南城镇 宁自军 时间序列 食品 、 衣 着 、 医 疗 保健 、 文 化 娱 乐 、 交 通通讯和居住 家庭设备和杂项 浙江

19、城镇3 简要评论3. 1 研究地区应侧重农村 , 实证方法应侧重综合 , 研究领域应加强联系拓展 ;从上表不难看出 , 对于城镇消费结构研究要多于对于农村消费结构研究 , 虽然这和本文选 取的论文样本有一定关系 , 但如前文所述 , 城镇消费结构差异体现更为明显等特点使得对于城 977吴栋 , 李乐夫等 :近年居民消费结构统计分析的研究综述镇消费结构研究的论文在数量上确有一定优势 。随着中央第八个一号文件提出“ 建设社会主 义 ” 的号召 , 对于 “ 三农问题 ” 的分析研究应该得到进一步的加强 , 尤其是以日趋完善的统计数 据为基础 , 运用更加科学化的实证手段多层次 、 多角度地开展分析

20、更应成为目前研究的方向 , 所以应加强对于因子分析 、 聚类分析等数理方法在“ 三农 ” 研究中的应用 。通过目前的文献来 看 , 简单运用以上分析方法的文章居多 , 尤其是仅用因子分析的论文占了很大部分 , 聚类分析 则一般不会单独使用 。 应该说 , 两种方法的侧重点不同 , 聚类更加注重分类的结果 , 而因子分 析则可更好地说明几列变量在变化趋势的相近程度 , 从而总结隐藏在多个变量后的较少的几 个因子 。 所以对于两种方法的综合运用可以帮助我们更加清晰地从不同层次 、 不同地区分辨 多变量的关系 , 已达到因地制宜的良好效果 。部讨论问题 , 从更加广阔的视角出发 , 、系 ,结果 。

21、3. 2;, 在其看似简单的结果背后有着大量的运算过程 。 从已有的众多文献来看 , 对于这些预算过程的处理方式大致有三种 , 一是完整列出 , 有的论文 甚至有三分之一以上的篇幅是罗列出因子分析的运算机理 ; 第二是完全忽略 , 丝毫不提数理过 程 ; 第三是通过索引形式 , 为要参看数理过程的研究者指明可参考的书目 , 再简要概括自己的 运算步骤 。 应该说完全列出是可取的 , 一般研究者不会特别关注运算过程 , 且该过程对于不同 文章并无太大差异 , 没有必要每篇均列出 。 采取第三种方式即方便了多数读者阅读 , 也方便想 要详细借鉴方法的学者查阅 , 应当提倡这种适当的省略 。对于运算

22、过程中的各种检验指数也 存在这样的问题 , 有文章花费大量篇幅列出矩阵的相关系数阵和协方差阵 , 用以说明各数列间 存在较强的相关性 , 可以进行因子和聚类分析 。 但是这样做稍显繁琐 。 在一般统计软件内 , 除 了前文提到的 “ K MO ” 外 , 还有 “ Bartlett 球形检验 ” (Bartlett s test of s phericity 的卡方统计量也 可以更加简明的说明数据是否适合做因子分析 。如能在一般的统计分析中统一规范 , 列出几 个重要检验指标则 , 则会大大精简篇幅 , 同时加大说服力 。3. 3 结果表述缺乏直观图示 , 大量列表不易说明观点 ;在现有软件技术水平基础上 , 因子分析和聚类分析的结果不单可以用表格和数列的形式 表明 , 也可以用较为直观的图示来输出 , 但一般而言图示比表格要更加清晰 。 尤其是对于因子 分析 , 其因子打分的作用不单单体现在单个因子的排名上 , 更可以将因子作为纬度 , 把变量的 因子得分作为在三个纬度上的取值 , 直接输出平面图形甚至三维图形 , 这样就可以直观地表达 出各个点的位置 , 作为消费结构的研究 , 则可以把各个地区的位置在平面图上标明 , 更加清晰 直观 。 而在以各个年份数据作为八项消费的属性做因子分析时 , 以年份为横轴 、 因子得分为纵 轴的画图方式值得提倡 。 对于特别复杂的输出结果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论