聚类判别分析论文_第1页
聚类判别分析论文_第2页
聚类判别分析论文_第3页
聚类判别分析论文_第4页
聚类判别分析论文_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、sas与现代经济统计分析结课论文姓名:叶文甫学好:089114321班级:统计082基于聚类分析和判别分析方法的股票投资价值分析关于中小企业版的初步研究摘要:随着市场投资理念逐步转向价值投资,上市公司基本面的变化将更收关注。中小企业板作为新兴的资本市场板块,具有重要的研究意义。利用38家中小企业版上市公司的2004年会计和财务数据,运用聚类分析和判别分析方法对其盈利,成长和扩张能力进行定量分析研究,并据此归结出整个板块股票的分类及其特点,为投资者和市场各参与主体有效把握中小企业上市公司及其成长趋势提供借鉴。关键词:股票;投资价值;聚类分析;判别分析一 研究背景:自2004年6月25日深交所推出

2、中小企业版以来,其基本面的变化与市场表现都受到了市场参与各方的极大关注。到目前为止,已有50家公司在深圳中小企业版发行上市,成为中小企业融资的一个重要渠道,也为建立多层次的资本市场提供了广阔的前景。但相对于主板市场的研究,这方面的研究大多停留在定性的研究和对这个股的分析上,缺少对整个中小企业板态势的把握。我利用多元统计分析中的聚类分析对选定的各中小企业版股票进行初步聚类,在此基础上,在应用判别分析对分类情况进行校验且得到一组有用的判别函数,从而达到对中小企业版量化分析的目的,并且得到对市场各方的有指导意义的结论。二、方法(一)聚类分析所谓聚类分析就是根据样品或指标的“相似”特征进行分类的一种多

3、远统计分析方法,这里离的类就是“相似”元素的集合。进行聚类分析需要知道待分类的若干样品及其指标值;然后通过聚类分析将对象的数据特征按一定规则把分类对象分成若干类,通过每一类指标数据的分析,进一步对各个结构进行优化。聚类分析法的基本理想是定义样品之间的距离(或相似系数)和类与类之间的距离。一开始将n个样品各自自成一类,这时类间的距离与样品间的距离是一致的,然后将距离最近的两个类进行合并形成一个新类,并计算新类与其他类之间的距离,再按距离最小准则并类。每并类一次,类的个数就减少。这个过程持续到所有样品都被归为一类为止。传统的聚类算法已经比较成功的解决了低维数据的聚类问题。但是由于实际应用中数据的复

4、杂性,在处理许多问题时,现有的算法经常失效,特别是对于高维数据和大型数据的情况。高维聚类分析已成为聚类分析的一个重要研究方向。同时高维数据聚类也是聚类技术的难点。根据以上聚类分析的基本思想以及各种距离的定义,可以得到不同聚类分析方法,如下:(一)最短距离聚类法最短距离聚类法,是在原来的m×m距离矩阵的非对角元素中找出 ,把分类对象gp和gq归并为一新类gr,然后按计算公式 计算原来各类与新类之间的距离,这样就得到一个新的(m1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把gi和gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。 (二)最远距离

5、聚类法最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式不同。最远距离聚类法所用的是最远距离来衡量样本之间的距离。(三)直接聚类法直接聚类法是先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。(四)中间聚类法是当类与类之间的距离不采用最短距离也不采用最长距离,而是介于两者之间,这种聚类方法称为中

6、间距离法。当进行到某一步,类gi和gj并为g(k),则按中间距离法计算新类g(k)与其他聚类gl之间的距离。(五)重心法是指类与类之间的距离定义为两类重心之间的距离。(六)离差平方法的基本思想是来自方差分析。先将n个样品各自成一类,然后每次每缩小一类,每缩小一类离差平方和就要增加,选择使离差平方和增加(ssmsskssl)最小的两类合并,直至所有的样品归为一类为止。(二)判别分析1.基本思想判别分析(discriminatory analysis),就是根据已知不同类别的研究对象一批样品观测数据,建立一个判别规则,然后对未知类型的样本进行判别归类的一种统计分析方法.其基本思想是: 判别分析就是

7、根据以上观测数据,依据某种判别标准建立一个判别准则(也称为判别函数),并根据该准则对新样品进行判别归类。判别分析的任务是根据已掌握的样本资料,建立判别函数,进而对给定的新观察,判断它来自哪一个总体。2.费歇(fisher)判别法费歇判别法是fisher于1936年提出的,它借助于方差分析的思想来导出判别函数和建立判别规则。由于线性函数计算简便,使用起来也方便,所以在fisher判别中也通常使用线性判别函数。下面仅介绍不等协差阵的两总体fisher判别法的判别函数的导出。假设有两个总体g1、g2,从总体g1中抽取n1个样品,从总体g2中抽取n2个 样品,每个样品观测p个指标,列表如下: (1)

8、第一步,求判别函数,设判别函数为y=cx+cx+cx则分别得到第总体g,g2的各个样本的判别值和均值。方差分析的思想:要有好的判别效果,就有:(1)类间离差平方和最大,即 最大;(2)类内离差平方和最小,即g1中 最小,g2中 最小,记方差分析的思想也就是求i的极大值,也是求lni的极大值。通过求导,有(2)第二步,建立判别准则在假设两总体先验概率相等的情况下,一般取判别临界值 (5)判别准则为:(3)第三步,检验判别效果h: u=u h: u和u不等检验统计量 f= (6)t (7)s=(s) (4)第四步,对已知类别的样品进行回判;(5)第五步,对待判样品进行判别归类。三、实证分析(一)指

9、标选取基于上市公司基本面情况,盈利能力和成长性是支持股票价的长期因素,也是判断公司是否具备投资价值的根本所在,而经营业绩良好的公司其股本的扩张能力也应较强。所以在上市公司会计和财务指标中,选取了较能反映这些能力的七项重要指标:每股收益(x1),净资产收益率(x2),每股经营现金流量(x3),主营业务收入增长率(x4),净利润增长率(x5),流通股本(x6),每股净资产(x7)新和成 0.61 -0.30 1.67 -0.35 -0.23 0.82 1.38江苏琼花 -0.84 -0.72 -0.51 -0.18 -0.61 0.82 -0.82伟星股份 0.46 0.20 0.34 0.58

10、0.5 0.73 1.15 华邦制药 -0.36 1.57 0.29 -0.67 0.35 1.34 -1.34 德豪润达 -0.01 -1.25 -0.42 1.11 -2.24 0.13 1.97精工科技 -0.53 -0.67 -0.97 0.83 -0.16 0.82 -0.21华兰生物 0.54 -0.4 -0.24 0.07 0.06 -0.56 2.23大族激光 -0.12 -0.26 -1.66 1.12 0.61 0.31 -0.6天奇股份 -0.29 -0.41 -0.17 0.94 -0.27 -0.04 0.08传化股份 0.68 0.77 -0.62 0.82 0.7

11、9 -0.9 0.12盾安环境 -0.71 -1.13 -0.85 -2.23 -1.41 0.48 0.71凯恩股份 -0.19 0.52 0.04 -0.13 0.32 0.82 -1.04中航精机 -1.05 -1.22 -0.42 -0.84 -1.56 -0.90 -0.61永新股份 0.02 0.52 0.26 -0.72 -0.24 -0.32 -0.74霞客环保 -0.05 -0.08 -1.00 -1.29 0.34 -0.90 -0.61 威尔科技 -0.84 -1.40 -0.34 -1.81 -1.54 -0.04 -0.02东信和平 -0.19 -0.13 -1.04

12、 -0.88 -0.25 -0.04 -0.06华星化工 -0.46 -0.35 -1.30 -0.06 -0.35 -0.90 -0.48鑫富股份 0.54 -0.11 0.56 0.72 0.88 -1.77 1.00京新药业 -0.29 -0.31 -0.82 -0.55 0.09 -1.32 -0.37中捷股份 -0.22 -0.79 0.62 0.22 -0.66 0.13 0.08科华生物 0.54 2.08 0.74 -0.85 0.48 -1.25 0.15海特高新 0.02 -0.27 0.41 -0.27 0.34 -0.21 0.46苏宁电器 5.12 2.42 2.23

13、 1.40 2.39 -0.04 2.41航天电器 0.19 2.48 0.24 0.93 1.83 0.08 -0.65山东威达 -0.39 -0.45 -0.70 -1.34 0 0.82 -0.07七喜股份 0.02 -0.04 -1.81 -1.20 -0.51 0.65 0.15思源电气 1.61 2.31 0.26 1.24 1.08 -2.04 1.89七匹狼 -0.43 -0.08 -0.54 0.42 0.21 -0.04 -0.84达安基因 -0.57 -0.68 -0.57 -0.44 -1.18 -0.56 -1.19巨轮股份 0.19 0.46 0.01 0.22 1

14、.09 2.20 1.00苏泊尔 0.02 -0.78 1.07 -0.30 -1.07 1.51 0.26丽江旅游 -0.32 0.59 1.04 2.23 2.27 -0.04 -1.38美欣达 0.37 -0.21 3.19 2.04 0.35 -0.63 1.16华帝股份 0.36 0.33 0.69 0.21 1.11 0.04 0.58宜科科技 -0.77 -0.66 -0.07 0.09 0.22 0.82 -0.82久联发展 -0.64 -0.66 0.31 -0.55 -0.59 2.55 -0.63双鳌药业 -0.01 -0.24 0.09 0.30 -0.24 -1.08

15、 0.50(二)、实证1.聚类分析根据收集的数据,现编程如下:data xf;input province$ x1-x8;cards;run;proc cluster data=xf method=ward nonormstd outtree=xf1 pseudo;id province;run;proc tree data=xf n=4 out=out1 horizontal graphics;id province;proc sort;by descending cluster;run;proc print data=out1;id province;by descending clust

16、er;run;表1 7个聚类变量的特征值信息 eigenvalue difference proportion cumulative 1 3.36604073 1.40646456 0.4208 0.4208 2 1.95957617 0.49025756 0.2449 0.6657 3 1.46931862 0.65175555 0.1837 0.8494 4 0.81756307 0.57393729 0.1022 0.9516 5 0.24362578 0.09975015 0.0305 0.9820 6 0.14387563 0.14387563 0.0180 1.0000 7 0.0

17、0000000 0.00000000 0.0000 1.0000 8 -.00000000 -0.0000 1.0000表1虽然对聚类结果分析的意义不大,但是却表明了7个变量的统计信息,7个变量的统计信息可以用俩年两个主成分来近似反映,着有利于用两个主成分画散点图,以便直观的确定类的个数表2 ward聚类法的聚类过程ncl -clusters joined- freq sprsq rsq psf pst2 bss e37 华星化工 京新药业 2 0.0017 .998 16.2 . 0.442636 江苏琼花 宜科科技 2 0.0019 .996 15.9 . 0.483735 东信和平 山东

18、威达 2 0.0025 .994 14.5 . 0.637534 中航精机 达安基因 2 0.0025 .991 14.0 . 0.653433 盾安环境 威尔科技 2 0.0026 .989 13.8 . 0.675532 海特高新 华帝股份 2 0.0028 .986 13.6 . 0.729831 天奇股份 中捷股份 2 0.0028 .983 13.6 . 0.737430 cl35 七喜股份 3 0.0034 .980 13.4 1.4 0.876329 华邦制药 凯恩股份 2 0.0036 .976 13.2 . 0.925728 精工科技 大族激光 2 0.0037 .973 1

19、3.1 . 0.95427 霞客环保 cl37 3 0.0037 .969 13.1 2.2 0.963526 cl28 七匹狼 3 0.0042 .965 13.1 1.1 1.084225 伟星股份 cl32 3 0.0042 .960 13.1 1.5 1.090324 cl31 双鳌药业 3 0.0046 .956 13.2 1.6 1.189623 苏泊尔 久联发展 2 0.0062 .950 12.9 . 1.603422 传化股份 鑫富股份 2 0.0072 .942 12.5 . 1.872221 cl29 永新股份 3 0.0077 .935 12.2 2.1 1.98452

20、0 cl36 cl26 5 0.0096 .925 11.7 2.9 2.479819 新和成 cl25 4 0.0103 .915 11.3 2.9 2.666518 cl19 华兰生物 5 0.0123 .903 10.9 2.1 3.182817 航天电器 丽江旅游 2 0.0134 .889 10.5 . 3.460416 cl34 cl27 5 0.0154 .874 10.2 5.8 3.982815 cl22 科华生物 3 0.0170 .857 9.8 2.3 4.399514 cl18 巨轮股份 6 0.0174 .839 9.7 2.4 4.51313 cl33 cl30

21、5 0.0198 .820 9.5 7.0 5.129512 cl20 cl24 8 0.0199 .800 9.4 4.5 5.142911 cl15 思源电气 4 0.0199 .780 9.6 1.6 5.152810 cl13 cl16 10 0.0300 .750 9.3 4.7 7.77759 cl21 cl23 5 0.0301 .720 9.3 5.2 7.80198 cl12 cl9 13 0.0373 .682 9.2 4.4 9.6705 7 cl14 德豪润达 7 0.0393 .643 9.3 4.2 10.169 6 cl7 美欣达 8 0.0426 .601 9.

22、6 3.0 11.034 5 cl11 cl17 6 0.0483 .552 10.2 3.4 12.521 4 cl8 cl10 23 0.0689 .483 10.6 6.8 17.853 3 cl6 cl5 14 0.0888 .394 11.4 4.5 22.991 2 cl3 苏宁电器 15 0.1277 .267 13.1 5.1 33.087 1 cl2 cl4 38 0.2667 .000 . 13.1 69.082 表2给出了ward聚类法给出的聚类过程,从并类(-clusters joined-)所在的两列可以看到。ward法首先把华星化工和京新药业聚为一类,记为cl37,

23、两者之间的离差平方和(bbs最小所在列)为0.4426,是所有样品(共38个类)中离差平方和最小者;接下来把江苏琼花和宜科科技聚为一类,记为cl36,两者之间的离差平方和为0.4837,是37个类中离差平方和最小者;第三次是把东信和平和山东威达聚为一类,记为cl35,是36个类中离差平方和最小者;第四次是把中航精机和达安基因聚为一类,记为cl34,两者之间的离差平方和为0.6534,是35个类中离差平方和最小者;第五次是把盾安环境和威尔科技聚为一类,是34个类中离差平方和最小者;第六次是把海特高新和华帝股份聚为一类,是33个类中离差平方和最小者;第七次是把天奇股份跟中捷股份省聚为一类,是32个

24、类中离差平方和最小者;第八次是由于cl35已包含东信和平和山东威达两个样本,所以cl30中含有七喜股份,东信和平和山东威三个样本,与“freq”列对应该行的值是一致的这一过程一直持续到所有样本被归为一类,并类思想与所解释的三个类的合并过程是一样的。样本可分聚为四类:第一类:第 11,13,15,16,17,18,20,26,27,30个样本.第二类:第2,3,4,6,8,9,12,14,21,23,29,31,35,37,38个样本.第三类:第1,5,7,34,个样本.第四类:第10,19,22,25,28,33个样本.暂无归归类的样本:第24,32,36个2.判别分析对于上面的分组情况,在聚

25、类分析的基础上,进行判别分析。利用所判断的分组情况进行判别性的检验一下.现编程如下:data a;input type x1-x7;cards;1 -0.71 -1.13 -0.85 -2.23 -1.41 0.48 0.711 -1.05 -1.22 -0.42 -0.84 -1.56 -0.90 -0.611 -0.05 -0.08 -1.00 -1.29 0.34 -0.90 -0.611 -0.84 -1.40 -0.34 -1.81 -1.54 -0.04 -0.021 -0.19 -0.13 -1.04 -0.88 -0.25 -0.04 -0.061 -0.46 -0.35 -1

26、.30 -0.06 -0.35 -0.90 -0.481 -0.29 -0.31 -0.82 -0.55 0.09 -1.32 -0.371 -0.39 -0.45 -0.70 -1.34 0 0.82 -0.071 0.02 -0.04 -1.81 -1.20 -0.51 0.65 0.151 -0.57 -0.68 -0.57 -0.44 -1.18 -0.56 -1.192 -0.84 -0.72 -0.51 -0.18 -0.61 0.82 -0.822 0.46 0.20 0.34 0.58 0.5 0.73 1.152 -0.36 1.57 0.29 -0.67 0.35 1.34

27、 -1.342 -0.53 -0.67 -0.97 0.83 -0.16 0.82 -0.212 -0.12 -0.26 -1.66 1.12 0.61 0.31 -0.62 -0.29 -0.41 -0.17 0.94 -0.27 -0.04 0.082 -0.19 0.52 0.04 -0.13 0.32 0.82 -1.042 0.02 0.52 0.26 -0.72 -0.24 -0.32 -0.742 -0.22 -0.79 0.62 0.22 -0.66 0.13 0.082 0.02 -0.27 0.41 -0.27 0.34 -0.21 0.462 -0.43 -0.08 -0

28、.54 0.42 0.21 -0.04 -0.842 0.19 0.46 0.01 0.22 1.09 2.20 1.00 2 0.36 0.33 0.69 0.21 1.11 0.04 0.582 -0.64 -0.66 0.31 -0.55 -0.59 2.55 -0.632 -0.01 -0.24 0.09 0.30 -0.24 -1.08 0.503 0.61 -0.30 1.67 -0.35 -0.23 0.82 1.383 -0.01 -1.25 -0.42 1.11 -2.24 0.13 1.973 0.54 -0.4 -0.24 0.07 0.06 -0.56 2.233 0.

29、37 -0.21 3.19 2.04 0.35 -0.63 1.164 0.68 0.77 -0.62 0.82 0.79 -0.9 0.124 0.54 -0.11 0.56 0.72 0.88 -1.77 1.004 0.54 2.08 0.74 -0.85 0.48 -1.25 0.154 0.19 2.48 0.24 0.93 1.83 0.08 -0.654 1.61 2.31 0.26 1.24 1.08 -2.04 1.894 -0.32 0.59 1.04 2.23 2.27 -0.04 -1.38* 5.12 2.42 2.23 1.40 2.39 -0.04 2.41* 0

30、.02 -0.78 1.07 -0.30 -1.07 1.51 0.26* -0.77 -0.66 -0.07 0.09 0.22 0.82 -0.82;proc candisc out=result ncan=2;class type;var x1-x7;run;proc gplot data=result;plot can1*can2=type;run;proc discrim data=result distance list;class type; var can1 can2;run;由判别分析得到的样本分类结果统计表中,给出了三个待归类样本的类别.并且指出了聚类时的误判样本点,并给出

31、了其应属类别. 可得判别函数:fuction 1=-3.138a-1.741b-2.190c-3.972d+0.658e-2.076f-1.638g-5.092fuction 2=-1.236a+0.047b-0.83c+0.185d-0.31e+0.433f-0.584g-1.853fuction 3=-4.25a+2.413b+3.145c+4.266d-0.705e+2.183f+7.715g-9.744fuction 4=-2.543a+4.011b+1.066c+2.304d+1.009e-0.418f+2.989-5.697运用判别函数时,将样本的各指标标准化数据代入四个函数中,每

32、个样本对应的四个函数的值进行比较,其中最大的那个是第几函数,则改样本就判为第几类。 分类总结:通过判别分析。对聚类结果进行修正和完善。得到最终结果:第一类:11.13.15.16.17.18.20.26.27.30.共10个样本点。第二类:2.3.4.6.8.9.10.12.14.21.23.29.31.33.35.36.37.38.共18个样本点。第三类:1.5.19.28.32。共5个样本点。第四类:7.22.24.25.34共5个样本点。实证总结: _ 实证结果分析:在分析各类样本时,采用指标平均值, i=1/n ij 表示第i个指标的样本平均值,i取1234:n表示样本点个数,计算结果如下、样本类每股收益净资产收益率每股经营现金流量主营收入增长率净利润增长率流通资本每股净资产10.33307.14300.06546.2640-9.17502365.8794.349020.38339.90940.406130.173314.71062729.9683.884430.62409.89200.666034.33800.51802368.0006.262040.856016.40200.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论