



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基基于于 k 均均值值聚聚类类和和主主成成分分分分析析的的上上市市公公司司业业绩绩评评价价指指标标研研究究 jiang bing,wang qian,ding hu-song school of management, hefei university of technology, p.r.china,230009 摘要:评价指标体系的确定是上市公司经营业 绩评价研究的一个重要方面,其研究的立足点是如 何权衡指标的全面性和代表性。本文提出了综合运 用多元统计分析中的 k 均值聚类分析和主成分分析 对上市公司众多业绩指标进行先分类再筛选的指标 确定方法。首先运用 k 均值聚类分析对备选指标进 行
2、分类,并根据 f 统计值的大小,确定适宜的分类 数;然后对含有较多指标的类运用主成分分析进一 步筛选指标。在实证研究中,以车类板块 28 家上市 公司自 2003-2005 连续三年的 32 个业绩指标为数据 样本,运用 k 均值聚类分析和主成分分析,结合实 际意义,最终从 32 个备选指标中选出 12 个指标; 通过将 12 个和 32 个指标所得出的指标归一化平均 值所作的评价进行比较,表明筛选的 12 个指标具有 很好的全面性和代表性。 关键词:f 统计值,指标选择,k 均值聚类,上 市公司,主成分分析 abstract: establishment of index systems e
3、valuating listed companies business performance is an important aspect of company performance evaluation which is based on how to weigh the entirety and typification of indices systems. in this paper,a method integrating k-means clustering with principal component analysis in multivariant statistics
4、 to classify and select indices for listed companies performance evaluation is proposed. first the classification is decide using k-means clustering and the number of cluster is determined according to f-statistic. then the indices in the classes including more indices are filtrated by principal com
5、ponent analysis.b in practical study,taking 32 performance indices of 28 stocks in vehicle trade from 2003 to 2005 as example,12 indices are chosen from 32 indices to be selected at last by integrating k-clustering with principal component analysis. comparing the evaluation according to the average
6、of unitary indices calculated by 12 indices with that calculated by 32 indices verifies that 12 indices selected are of good entirety and typification. keywords: f-statistic, index selection, k-means clustering, listed companies, principal component analysis 1 引引言言 随着我国证券市场的发展,对上市公司经营 业绩的综合评价 已成为理论与
7、实践界 研究的热 点。其中关于综合评价指标体系的建立,目前的 做法一般是从上市公司披露的数据指标中选择一 部分构成指标体系,且 多数是出于 评价主体 需 要而人为设定 12。众所周知,对综合评价指标 的选择 ,既要求指标能很好地反映研究对象某方 面的特性,即 代表性 ;又要求能反映对象的全部 信息,即 全面性 3。若要满足全面性 , 势必要 增加指标 数量,而增加了指标 数量,指标间相关 程度可能增大, 又影响了代表性 。对上市公司来 说,媒体披露 的是大量的指标数据序列,仅 财 务指标就多达 56 项。如何从众多的数据信息中 提炼出满足评价要求的少数指标,尤其是如何权 衡指标的全面性和代表性
8、, 是一个 尚未得到很好 解决的问题 。对此,本文以我国车类板块上市公 司业绩评价指标选择为例, 综合运用聚类分析法 和主成分分析法 选择上市公司业绩 综合评价指标 。 其思路是 :本着指标选择的基本原则,初步选择 能联合反映上市公司整体特征的每个方面,在此 基础上,用 k 均值聚类分析进行分类,并根据 f 统计值来确定合适的分类数;然后用主成分分析 对有关类 选择代表性指标。这样, 通过聚类分析 使指标体系 涵盖所有的类;通过 主成分分析提取 代表性指标, 从而将代表性和全面性完美结合起 来。 2 k 均均值值聚聚类类 分分析析和和主主成成分分分分析析 2.1 k 均均值值聚聚类类 分分析析
9、 聚类分析是直接比较各事物之间的性质,将 性质相近的归为一类,将性质差别较大的归入不 同的类。聚类分析又分为系统聚类和k 均值聚类。 k 均值聚类又称为逐步聚类法 4,先把被聚 类对象进行初始分类,然后逐步调整,得到最终 分类。其步骤为: (1)将数据进行标准化处理 ; (2)假设分类数目为 k,确定每一类的初始 中心位置,即 k 个凝聚点 ; (3)按顺序计算各个样品与k 个凝聚点的 距离,根据最近距离准则将所有样品逐个归入凝 聚点,得到初始分类结果 ; (4)重新计算类中心 ; (5)所有样品归类后即为一次聚类,产生了 新的类中心,如果满足一定的条件如聚类次数达 到指定的迭代次数,或者两次
10、计算的最大类中心 的变化小于初始类中心之间最小距离的一定比例, 则停止聚类,否则就转到第3 步。 为了确定合适的分类数目k,本文 利用 anova 方差分析( f 检验)来确定合适的分类 数5,其原理是: 设随机变量x呈正态分布,均值为,方 差为2,记为 n(,2), 若x1 ,x2 , , x n 相互独立,且xin(i,1),则称随机变量 为自由度为n,非中心参量为 n i i xx 1 2 的2分布,记为。 n i i 1 2 2 , n 又设x1, x2是独立随机变量,且 x1、x2,称比例 2 , 1 n 2 0, 2 n 是自由度为n1和n2、非中心 22 11 , / / | 2
11、1 nx nx f nn 参量为的 f 分布。 f 概率分布函数可以由高斯概率分布函数 p(x)近似: (1)()|( , 21 xpfp nn 其中 (2) 13 11 2 121 1 22 3 11 2 121 2(2 )2 11 99() 2(2 )2 9()9 n fn nnn x nn f nnn f 分布的均值为: (3) 12 2 ,2 2 ,2 2 nnf n e fn n 当 方差为: (4) 12 2 2 2 212 ,2 2 112 2(2) ,4 (2) (4) n nff nnn efn n nn 当 当 f 统计值 大于给定水平下的临界值时,说 明类间差异显著,所进
12、行的分类合理。据此,我 们可以遍取 不同的 k 分类数, 以 f 统计值 最大 者对应的分类为最终分类。 2 2. .2 2 主主成成分分分分析析 主成分分析原理是 利用降维的思想,将多指 标重新组合成一组新的相互无关的几个综合指标 (主成分) 来代替原来的指标 6。根据主成分的 权向量,还可 从原指标中 提取少数代表性指标, 并使之尽可能多地反映原指标的信息。虽然这样 做会损失部分信息,但由于 既减少了变量的数目 又抓住了主要矛盾,从而有利于问题的分析和处 理。 设n个指标的m组样本 yij,i=1,2, ,m;j=1,2,n,运用主成分分析筛选 少数主要指标的步骤是: (1)对样本进行标准
13、化处理,其计算公式为: (i=1,2,m;j=1,2,n) j jij ij s yy x (5) (j=1,2,n) 1 1 m jij j yy m (6) (j=1,2,n) (7) 式中:yij第j指标的第i样本数据; xij样本标准化数据,标准化结果是使xij的 均值为 0,方差为 1。 (2)利用样本标准化数据计算相关系数估计 总体协方差矩阵r r=(rij)n*n,其计算公式为: (i,j=1,2,n) (8) 根据协方差矩阵r r计算n个非负特征值 i,i的特征向量为第i主成分的权系数, i本身则为第i主成分占总体信息量的贡献程度 ; (3)选择近似于零的特征值(表明对总体贡
14、献最小) ,求其特征向量,将该向量中具有最大绝 对值分量所对应的指标删除(表明在贡献最小的 主成分中起较大作用); (4)对剩下的指标样本,重复( 2)(3) 步减少指标个数,直至剩下的指标满足方差 ,且易于解释为止 。 3 基基于于 k 均均值值聚聚类类 和和主主成成分分分分析析的的指指标标 选选 择择 基于 k 均值聚类 和主成分分析 选择上市公 司业绩评价指标 ,包括对指标进行分类和筛选 两个步骤 。首先通过 k 均值聚类 分析把待选指 标分成不同的类,业绩评价指标必须涵盖所有的 类,以符合指标全面性的要求 ;然后对含有较 多指标的 类,运用主成分分析对 其指标进一步 筛选,使得各类指标
15、数量趋于均衡且有代表性。 为了说明方法的具体运用, 本文以有较好数据 连续性和完整性 的车类板块 28 家上市公司 为 例,从这些公司 自 20032005 连续三 年的众多 业绩指标数据中, 考虑收益、资本运作、财务 管理、投资能力四个方面 7,初步选出 32 个 指标数据为分析样本, 指标内容见表 1。 2 j 2 ijj 1 1 s =(y -y ) m-1 m i 2 1 /85% p j j psm 2 1 1 22 1 1 )()( )*( m k kj m k ki m k kjkj ij xx xx r tab.1 32 个个业业绩绩 指指标标 每股收益 x1 存货净额 x9
16、应付账款 x17 主营业务 收入净额 x25 每股净资产 x2 长期股权投 资 x10 流动负债合 计 x18 主营业务 利润 x26 净资产收益 率 x3 流动资产合 计 x11 长期借款 x19 管理费用 x27 每股资本公 积金 x4 长期投资合 计 x12 长期负债合 计 x20 财务费用 x28 每股经营现 金流量 x5 长期投资净 额 x13 负债合计 x21 营业利润 x29 货币资金 x6 固定资产净 值 x14 股东权益合 计 x22 利润总额 x30 应收账款 x7 固定资产合 计 x15 负债及股东 权益总计 x23 净利润 x31 应收账款净 额 x8 资产总计 x16
17、 主营业务收 入 x24 固定资产 折旧 x32 3.1 k 均均值值聚聚类类分分析析 对样本 xij|i=1,2,84;j=1,2,32,使用 spss软件中的 k均值聚类 方法,分别指定类数 2、3、.、10进行分类,并计算相应的 f统计值 。 经检验,当 32个指标被分为 410类时, f统计值 均大于给定水平下的临界值,说明所作的分类都 较合理。 图1直观地 显示了 f统计值 随类数的变 化情况,显见,分类数为 7时f统计值 最大, 故 确定将指标分成 7类。具体为: l1=x1、x2、x5, l2=x3,l3=x4, l4=x6、x11、x14、x15、x16、x17、x18、x21
18、、x22 、x23、x24、x25、x26、x27、x29、x30、x31, l5=x7、x8、x19、x20、x28,l6=x9, l7=x10、x12、x13、x32。 0 50 100 150 200 12345678910 分类数 f值 fig. 1 不不同同分分类类数数 k 均均值值聚聚类类 f 统统计计值值 3.2 类类内内指指标标筛筛选选 在上述分类中,第一类包括 每股收益、每股 净资产和净资产收益率3 个指标 ,考虑到 32 个 备选指标中,反映收益的指标较少,故这3 个 指标均予以保留。 第四、五、七类含有较多指标, 用主成分分析法对 它们进一步 筛选。首先对第四 类 17
19、个指标按主成分分析步骤计算17 个特征值 i (见表 2) ,最小特征值 1=-4.14e-18,接近零, 其特征向量为( 3.60e-16,-1.74e-15,-3.84e- 18,-0.70206,2.62e-15,1.03e-15,1.49e- 15,1.82e-14,2.40e-14,0.70206,- 0.084318,0.084318,1.26e-14,-6.78e-15,- 8.30e-15,1.30e-14,-9.57e-15) ,其中第 410 个分量绝对 值较大,分别为 -0.70206 和 0.70206。由于特征值近似为零,表明该主分量对 总体几乎没有贡献,而其特征向量
20、中第410 个分量所占权数最大,即在贡献最小的因子中这 两个分量起主要作用, 故将其对应指标x15、x23 删除。对其余 15 个指标样本重复以上操作, 这 样经过 7 次筛选已没有 较大 绝对值的分量,最终 筛选出 3 个主要指标:x16、x24和x31(资产总计、 主营业务收入和 净利润) ,它们的方差贡献 p=87.202%。 tab.2 四四类类 17 个个指指标标协协方方差差矩矩阵阵特特征征值值i表表 -4.14e-181.03e-160.000764380.0014987 0.00167670.00486320.0095470.018938 0.0343180.0555420.10
21、7470.13065 0.215880.578180.90772 1.65 13.275 对第五类 5 个指标 ,按上述步骤 计算得 最小 特征值 1= 0.0036601,接近零,其特征向量为 (-0.57721,0.73488,0.15057,-0.22633,- 0.22996) ,其中第 2 个分量绝对值较大,为 0.73488,删除对应指标 x8。这样经过 2 次求解, 最终筛选出 1 个主要指标是 x20(长期负债)。 对第七类 4 个指标,按上述步骤计算 得最小 特征值 1= 1.3878e-16,接近零,其特征向量为 (-4.26e-16,0.70711,-0.70711,-1
22、.91e-16) , 其中第 2、3 个分量绝对值较大,分别为 - 0.70711 和 0.70711,于是 筛选出 2 个主要指标 : x10、x32(长期股权投资、固定资产折旧) 。 至此,综合运用聚类分析和主成分分析方法 从 32 个指标中筛选出 x1、x2、x3、x4、x5、x9、x10、x16、x20、x24、x3 1、x32共 12 个指标 ,它们是 每股收益、每股净资 产、净资产收益率、每股资本公积金、每股经营 现金流量、应收账款净额、存货净额、长期投资 净额、资产总计、负债合计、净利润、固定资产 折旧。 4 指指标标选选择择的的合合理理性性 分分析析 为了考察所选出的 12 个
23、指标信息对原 32 个指 标信息的涵盖性,我们以 2005 年为例,分别以 12 个和 32 个指标,对所选 28 只股票计算每只股票的 指标归一化平均值,以该平均值作为业绩评价依据 并排序,结果见表 3。由表可见,以不同指标数对样 本所作的评价基本一致,评价值相关系数达 0.8。若 分别以前 8 名、中间 12 名和后 8 名,将公司业绩对 应分为好、中、差三类,则评价为好的 8 家公司中, 有 6 家是共同的、评价为中等的 12 家公司中,有 10 家是共同的、评价为差的 8 家公司中,有 5 家是共 同的,评价结论一致的公司占 75%。图 2 直观地反 映了以 12 个和 32 个指标所
24、得出的平均值情况,从 相对评价角度来看,两者非常接近。 tab.3 按按不不同同 指指标标数数得得出出的的 指指标标归归一一化化平平均均值值 按 12 个指标评价 名次代码平均值名次代码平均值 16000660.775156002620.592 26000060.640166006090.589 38870.636176003720.589 46250.632189270.584 56005010.629196001040.580 66008050.622206001660.577 76003730.607216002180.576 86002130.606226007150.575 9800
25、0.605236007610.573 109570.605246004180.571 116004800.601258680.556 126007600.596265500.539 136005650.594276006860.531 146003750.592288800.529 按 32 个指标评价 名次代码平均值名次代码平均值 16000660.658156003750.422 26000060.579166004800.421 36002180.509176008050.418 46005010.500186003720.398 56250.494199570.394 66003730
26、.489206005650.392 78870.480216002620.385 85500.470229270.379 96002130.445236007150.368 106007610.440246001660.364 118000.438256004180.358 126001040.437268680.306 136007600.436278800.279 146006090.426286006860.266 0.2 0.4 0.6 0.8 13579111315171921232527 股票 评价值 12个指标 32个指标 fig. 2 28 只只股股票票指指标标归归一一化化平平
27、均均值值 以上对比说明,筛选出的12 个指标基本涵 盖了原 32 个指标的信息,真正体现了指标构建的全 面性和代表性原则,说明基于聚类和主成分分析的 上市公司业绩评价指标的选择方法是合理、有效的。 这样,我们就可以根据这 12 个少数指标对上市公司 业绩进行评价,同时还可以根据先期预测或公布的 这些指标数据,预测公司未来业绩,为相关部门和 人士提供决策支持。 5 结结束束语语 上市公司财务指标多达近百项,其中较常用的 也达到几十项,无论是对有关部门还是广大投资者, 由于能力与精力的限制,要及时获取所需要的几十 项指标并做出评价是不现实的。对此,本文提出了 综合运用 k 均值聚类分析和主成分分析
28、对上市公司 众多业绩指标进行先分类再筛选的指标确定方法。 以车类板块 28 家上市公司 32 个财务指标连续 3 年 的数据为样本,首先使用 k 均值聚类方法,并根据 f 均值确定适宜的分类数,然后对含有指标较多的类 运用主成分分析进一步筛选指标,最终筛选出 12 个 指标为上市公司业绩评价指标。为了验证本文方法 的合理有效性,将 12 个和 32 个指标所得出的指标 归一化平均值进行比较,结果表明筛选的 12 个指标 具有很好的全面性和代表性。 参参考考文文献献 1 dong feng-gu. comprehensive evaluation of listed companiesproje
29、ct design and application research(in chinese)m.shanghai: shanghai university of finance and economics publisher 2 state resource committee statistics evaluation bureau of state department .enterprise performance evaluate standard value in 2005(in chinese)mbeijing: economy and science publisher,2006
30、.5-12 3 zeng wei. model design and application of listed companies performance comprehension evaluation(in chinese)j.economy research of amount economic technique.2002(2).95-98 4 kiri wagstaff, and claire cardie. constrained k- means clustering with background knowledge.c. proceedings of the eighteenth international conference on machine learning. 2001. 577-584. 5 siddheswar ray ,and rose h.turi.determination of number of clusters in k-means clustering and application in color image segmentation c.icaprdt99,calcutta,india.1999.12.27-29 6 qin shoukang. valu
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论