高级统计学(3-4)_第1页
高级统计学(3-4)_第2页
高级统计学(3-4)_第3页
高级统计学(3-4)_第4页
高级统计学(3-4)_第5页
已阅读5页,还剩109页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、聚类分析聚类分析聚类分析的基本思想聚类分析的基本思想相似度的度量相似度的度量五种系统聚类法五种系统聚类法系统聚类方法的系统聚类方法的SPSSSPSS实现实现K-K-均值聚类法的均值聚类法的SPSSSPSS实现实现聚类分析原理聚类分析原理聚类分析的对象聚类分析的对象 1.对样本进行分类对样本进行分类 2.对指标或变量进行分类对指标或变量进行分类聚类分析方法聚类分析方法 1.系统聚类法系统聚类法(分层聚类分层聚类) 2.动态聚类法动态聚类法(K-均值聚类均值聚类)系统聚类法与聚类步骤流程图系统聚类法与聚类步骤流程图 初始分类:初始分类: ;,2211nnxGxGxGnk 若若 与与 距离最小距离最

2、小, ,合并为一类合并为一类iGjG1 nkKk no输出分类结果输出分类结果yes类与类之间距离定类与类之间距离定义的不同导致不同义的不同导致不同的系统聚类方法的系统聚类方法yes动态聚类法动态聚类法(K-均值聚类均值聚类)与聚类步骤流程图与聚类步骤流程图寻找寻找K K个凝聚点个凝聚点: :iKiixxx,21若若 则则 ; ;得得),(min),(1ijlKjiklxxdxxd0klGx 00201,KGGG计算各类的重心计算各类的重心: :Kxxx,21若若 则则 ; ;得得),(min),(1jlKjklxxdxxdklGx KGGG,21计算各类的重心计算各类的重心: :Kxxx,2

3、1重心改变重心改变输出分类结果输出分类结果no相似度的度量(样本间的距离)相似度的度量(样本间的距离)欧式距离马氏距离明氏距离)()(),(2jijijiXXXXXXd)()(),(12jijijiXXSXXXXdqqpkkjkiijxxqd11)()()()(),(12XXSXXGXd一点到总体的马氏距离一点到总体的马氏距离样本离差阵样本离差阵相似度的度量(指标间的相似系数)相似度的度量(指标间的相似系数)夹角余弦相关系数Oab指标1与指标2间的夹角余弦nknkkknkkkxxxxC1121222112112)(pnnnppxxxxxxxxx212221212111,1X2XpX指标1与指标

4、2间的相关系数21112222111221112)()()(nknkkknkkkxxxxxxxxR五种系统聚类方法五种系统聚类方法最短距离法(最短距离法(nearest neighbor)最长距离法(最长距离法(furthest neighbor)重心法(重心法( centroid clustering )),(min),(,jiGXGXqpXXdGGdqjpi ),(max),(,jiGXGXqpXXdGGdqjpi ),(),(qpqpXXdGGd 类平均法类平均法(Average linkage) piqjGXGXjiqpqpXXdnnGGd),(1),( piqjGXGXjiqpqpX

5、XdnnGGd),(1),(22离差平法和法(离差平法和法(wards method)qpqpqpSSSGGd ),(2 pnipippippXXXXS1)()( qniqiqqiqqXXXXS1)()( qpnniqpqipqpqipqpXXXXS1)()(反映反映 聚集程度聚集程度pG反映反映 聚集程度聚集程度qG聚类方法的聚类方法的SPSS实现实现Analyze Classify K-means cluster(动态聚类法动态聚类法) Hierarchical cluster(系统聚类法)系统聚类法)Hierarchical cluster窗口窗口样本聚类样本聚类谱系聚类图谱系聚类图可选

6、可选可选可选点击点击点击点击Vertical IcicleVertical IcicleXXXXXXXXXXXXXXXX XXXXXX XXX XXXXXX XXX X XXXX X X X XXXNumber of clusters12345卫生机构数 高校数 新增固定资产 城镇可支配收入 农村纯收入 人均GDPCase例题例题2005年全国各省市自治区社会均衡发展状况研究样本聚类与变量聚类结果K-means cluster窗口窗口科研案例科研案例王宇王宇,范英范英,魏一鸣魏一鸣.人力资本对区域可人力资本对区域可持续发展的实证研究持续发展的实证研究. 数理统计与管数理统计与管理理. 2006

7、,25(2):149-155摘要摘要本文以我国31个省、直辖市、自治区为单位,应用聚类分析法对各地区的人力资本、经济发展、环境状况进行分析,试图探讨人力资本对我国区域可持续发展的影响和途径。结果表明,目前我国区域环境压力随着经济的发展而不断扩大,并逐步进入减速发展阶段,各地区应加大对人力资本的投资力度,实现经济的腾飞和环境保护力度的增强,最终实现我国区域的可持续发展。加拿大环境基金组织的加拿大环境基金组织的“真富指数真富指数”可持续发展可持续发展社会社会金融金融人力资本人力资本生产生产自然自然财富来源构成财富来源构成本文研究目的本文研究目的本文的研究目的在于把互相差异的自然地理区域根据不同的属

8、性(经济、人力资本和环境)用聚类方法进行分类和归纳,着重分析在加入人力资因素后,我国可持续发展在不同评价指标上表现出的不同特征,揭示各区域内可持续发展的基本情况和协调程度,从而得出人力资本对我国区域可持续发展的影响途径和贡献程度。可持续发展评价指标生态保护生态保护指标体系指标体系环境水平环境水平经济发展经济发展 产业结构产业结构教育教育环境治理环境治理人力资本人力资本环境状况环境状况环境保护环境保护经济指标经济指标保健保健大气污染大气污染经济发展指标的分类经济发展指标的分类 ABDC人力资本状况分类人力资本状况分类ABDC环境指标聚类分析环境指标聚类分析ABDC环境治理情况分类环境治理情况分类

9、ABDC结果分析与讨论结果分析与讨论库茨涅茨库茨涅茨(Kuznets)曲线曲线判别分析判别分析判别分析的基本思想判别分析的基本思想距离判别法距离判别法Bayes判别法判别法Fisher判别法判别法逐步判别法逐步判别法判别分析的判别分析的SPSSSPSS实现实现判别分析的基本思想判别分析的基本思想1G111211nxxx问题描述问题描述2G2G222221nxxx 属于哪一类?属于哪一类?x11Sx22Sx1G 11 2G 22 距离判别法的基本原理距离判别法的基本原理 ),(),(),(),(,),(),(,21212211GxdGxdGxdGxdGxGxdGxdGx若若待判,待判,若若若若)

10、()(),(11111 xxGxd)()(),(21222 xxGxd马氏距离马氏距离距离判别法的线性判别准则距离判别法的线性判别准则 21axxGxdGxdxW)()()(),(),( 5 . 0)(21112 0)(0)(,0)(,21xWxWGxxWGx若若待待判判,若若若若2)(21 与与 的估计的估计 1111111niixnx 1122221niixnx )(212121SSnn 理论判别函数与样本判别函数理论判别函数与样本判别函数aXXXSSXW)()()()()(21121 aW)()()()(211 a2)(21XXXaBayesBayes判别法的基本原理判别法的基本原理已知

11、 与 的 和各自总体的分布密度函数由公式计算: ,最大后验概率准则1G2G2211)(,)(qGpqGp )(),(21XfXf)(1 GP)(2 GP )()()()()()(21212211GPGPGPGPGGPGPG若若待待判判若若若若两个正态总体的两个正态总体的BayesBayes判别准则判别准则 与 的先验概率: 与 的密度函数:1G2G2111nnnq 2122nnnq 1G2G)()(21exp)2(1)(1112121 XXXfp)()(21exp)2(1)(2122122 XXXfp判别函数:判别法则: )ln()()ln()()ln()(12122121qqWqqWGqqW

12、G若若待判待判若若若若aXXXSSXW)()()()()(21121 多组正态数据的多组正态数据的判别判别 11 G 22 G 33 G 44 G1p2p3p4p(x)1f(x)2f(x)3f(x)4f后验概率后验概率 41(x)(x)x(iiikkkfpfpGp )(x)(x21exp)x(1kkkkpGp kkkkkpGpln5 . 0 x)()x(11 判别法判别法研究问题的角度基本思想 线性投影变换 降维 pxxxx21xuxuxuxuypp 2211二维降一维图示二维降一维图示1x2xyz判别式可分准则判别式可分准则组内离差平方和Wuuxuxuyyijiijijiij 22)()(

13、iiijiijiijSxxxxW)(组间离差平方和Buuxuxunyyniiiiii 22)()()( xxxxnBiiii 的选择uWuuBuu max)1( WuuBuuL 1 Wuu 设 是 的特征值 若 是 的最大特征值, 是对应的特征向量,则第一判别函数是: 1 BW1 puuuu112111ppxuxuxuxuy121211111 21 BW1 判别效率判别效率判别函数的选择判别函数的选择 iir 118 . 01 r8 . 021 iimmr 一维一维判别法则判别法则 212211yyyyGxyyyyGx若若若若ppxuxuxuxuy12121111 1y2y1x2x212111

14、xuxuy y多维多维判别法则判别法则 ),(),(),(),(,),(),(,21212211GydGydGydGydGxGydGydGx若若待判,待判,若若若若)()(),(11111yySyyGydy )()(),(21222yySyyGxdy 线性线性判别与判别与判别的区别判别的区别正态性前提假设正态性前提假设等方差性等方差性 使用判别分析应注意的问题使用判别分析应注意的问题 1. 每组至少每组至少20个样本个样本 2. 变量与样本量比为变量与样本量比为1:5 1. Wilks lambda 检验检验 2. 交叉验证交叉验证 性性(ANOVA)等协方差阵假设的等协方差阵假设的Boxs检

15、验检验),(11 pN),(22 pN1n 样本样本2n 样本样本3n 样本样本Kn 样本样本),(33 pN),(KKpN 零假设零假设K 21检验统计量检验统计量 KiiiiKSnnSSSknkn12111ln) 1()(1ln)(M)1)(1(21M)1(2 Kppd 相等相等)(不等不等iiiinKpKppnKnnKpppd)1)(1(6)1(132111)1)(1(6132212knnnn 21统计量的渐进分布统计量的渐进分布单个变量单个变量 的可分性的可分性(ANOVA),(211 N),(212 N1n 样本样本2n 样本样本Kn 样本样本),(21 KN零假设零假设K11211

16、 1X111211,nxxx222221,nxxx1,21KnKKxxx总平方和分解总平方和分解 KiiiKinjiijKinjijxxnxxxxii12112112)()()(BWTSSS 检验统计量检验统计量统计量的分布统计量的分布)()1(knSkSFWB ), 1(knkFF 评价判别模型评价判别模型Wilks lambda 检验检验 ),(1 pN),(2 pN1n 样本样本2n 样本样本3n 样本样本Kn 样本样本),(3 pN),( KpN 零假设零假设K 21总平方和分解总平方和分解 KiiiiiijKinjiijijKinjijxxxxnxxxxxxxxii11111)()(

17、)(BWTSSS检验统计量检验统计量统计量的渐进分布统计量的渐进分布)1(ln)(211(2 KpKpn TWKnKpSS , 1,评价判别模型评价判别模型交叉验证交叉验证留一个样本在外原则留一个样本在外原则逐步判别法逐步判别法依据某种检依据某种检验法则逐步验法则逐步筛选若干判筛选若干判别能力强的别能力强的指标变量指标变量基本步骤基本步骤利用选取的利用选取的变量以及变量以及Fisher判别判别法建立判别法建立判别法则法则逐步筛选流程图逐步筛选流程图1 ix2ix3ix选入过程选入过程剔除过程剔除过程4ix5ix6ix2ix7ix检验各总体协方差阵相等检验各总体协方差阵相等Fisher判别判别L

18、ogistic回归回归Bayes判别判别Fisher判别判别Logistic回归回归检验各总体均值相等检验各总体均值相等判别是显著的判别是显著的判别不显著判别不显著单个变量均值相等的检验单个变量均值相等的检验(方差分析方差分析)单变量的判单变量的判别是显著的别是显著的单变量的单变量的判别不显判别不显著,采用著,采用逐步判别逐步判别判别分析的判别分析的SPSSSPSS实现实现 Analyze Classify Discriminant 点击点击1 1点击点击2 2点击点击填写填写点击点击选取选取点击点击可选可选点击点击点击点击点击点击点击点击点击点击点击点击可选可选点击点击点击点击可选可选点击点

19、击点击点击例题例题(估计金融机构正常运转的概率估计金融机构正常运转的概率)Detecting ailing financial and business establishments is an important function of audit and control. Table 1 gives some of the operating financial ratios of 33 firms that went bankrupt after 2 years and 33 that remained solvent during the same period. Three fina

20、ncial ratios were available for each firm:金融机构监管的判别分析结果assetstotalearningretainedX 1assetstotaltaxesandinterestbeforeearningX 2assetstotalsalesX 3 yearsaftersolventifyearsafterbankruptifY2120Response Variable科研案例科研案例葛超豪葛超豪,葛学健葛学健.银行信贷风险评估计量模型银行信贷风险评估计量模型探讨探讨.统计与决策统计与决策.2005,12:24-26任志娟任志娟. SPSS中判别分析

21、方法的正确使用中判别分析方法的正确使用.统计与决策统计与决策.2006 (2): 157-157摘要摘要 本文运用和对银行信贷风险作计量评估,详细介绍了模型的数学原理,指标和数据的前期处理,并建立了信用评级的判别函数.通过对估计样本和检验样本的分类精度的分析和讨论,可知两种模型对信用风险评估均具有较高的科学性和精度.在此基础上,我们编写了应用程序以便于金融机构建立内部信用风险评估体系,促进银行信贷资产质量的提高.指标选择过程指标选择过程根据相关性原理,从“企业景气调查”65个基本指标和72个派生指标中,定性筛选归并出19个具有代表性的复合指标,然后再采用逐步判别的方法并反复利用上述结论,获得如

22、.数据处理过程数据处理过程原始数据矩阵中不同指标一般都有各自不同的量纲和数量级单位,这对预测精度影响较大.为了使不同量纲、不同数量级的数据能进行比较,我们首先应对数据进行变换使数据具有较好的数学性质.我们对数据进行三次变换.首先将某些指标的数据,使各指标均在取值较大时对企业等级贡献较大.其次进行变化.通过标准化后,每列数据的均值为0、方差为1,并能在抽取样本改变时保持相对稳定性.最后我们将原始数据的值域化,此变化能使各指标规格化,减少数据的波动.聚类分析聚类分析.参照企业信用等级分类标准,将企业信用等级分为五级,分别称为AAA、AA、A、B 和C.为了提高样本的代表性,我们对289 个原始样本

23、数据进行多次聚类,最终选出了AAA 级21 组,AA 级36 组,A 级20 组,B级6 组,C 级8 组,共计91 个具有典型代表意义的特征企业样本.由此可得出5 级分类的标准特征模版.对待估测的企业,可通过计算其与5类标准模版的离差进行信用等级分类.判别分析判别分析采用Bayes判别法,得:待判样本待判样本Classifying a potential business-school graduate studentsThe admission officer of a business school has used an “index” of under graduate grade

24、point average (CPA) and graduate management aptitude test (GMAT) score to help decide which applicants should be admitted to the schools graduate programs.Pairs of x1=GPA, x2=GMAT values for groups of recent applicants have been categorized as G1: admitted; G2: not admitted; G3: borderline. Suppose

25、a new applicant has an undergraduate GPA of x1=3.21 and a GMAT score of x2=497. Let us classify this applicant using discriminant analysis. Log DeterminantsLog Determinants24.87925.30423.62524.855groupnot admittedadmittedborderlinePooled within-groupsRankLogDeterminantThe ranks and natural logarithm

26、s of determinantsprinted are those of the group covariance matrices.Test ResultsTest Results16.6272.6736146732.9.014Boxs MApprox.df1df2Sig.FTests null hypothesis of equal population covariance matrices.EigenvaluesEigenvalues5.618a96.796.7.921.190a3.3100.0.399Function12Eigenvalue % of VarianceCumulat

27、ive %CanonicalCorrelationFirst 2 canonical discriminant functions were used in theanalysis.a. Wilks LambdaWilks Lambda.127168.1894.000.84014.1681.000Test of Function(s)1 through 22WilksLambdaChi-squaredfSig.Canonical Discriminant Function CoefficientsCanonical Discriminant Function Coefficients4.995

28、-1.878.009.014-19.061-1.464GAPGMAT(Constant)12FunctionUnstandardized coefficientsFunctions at Group CentroidsFunctions at Group Centroids-2.810.3262.769.245-.275-.643groupnot admittedadmittedborderline12FunctionUnstandardized canonical discriminantfunctions evaluated at group meansPrior Probabilitie

29、s for GroupsPrior Probabilities for Groups.3292828.000.3653131.000.3062626.0001.0008585.000groupnot admittedadmittedborderlineTotalPriorUnweightedWeightedCases Used in AnalysisClassification StatisticsClassification Function CoefficientsClassification Function Coefficients77.812105.82892.296.166.212.173-134.760-240.740-177.994GAPGMAT(Constant)not admittedadmittedborderlinegroupFishers linear discriminant functionsCl

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论