教育统计学 课件第15次-聚类分析及其应用;第16次-判别分析及其应用_第1页
教育统计学 课件第15次-聚类分析及其应用;第16次-判别分析及其应用_第2页
教育统计学 课件第15次-聚类分析及其应用;第16次-判别分析及其应用_第3页
教育统计学 课件第15次-聚类分析及其应用;第16次-判别分析及其应用_第4页
教育统计学 课件第15次-聚类分析及其应用;第16次-判别分析及其应用_第5页
已阅读5页,还剩156页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

教育统计学聚类分析及其应用学部本科科生课课程北京师范大学教育学部胡咏梅聚类方法:分层聚类(系统聚类)与快速聚类聚类分析概述:概念、准则及原理聚类分析方法应用示例聚类研究的质量评价课堂操作练习contentso

概念:口聚类分析是统计学中研究“物以类聚”的一种方法,即根据事物外显特

征研究个体分类的多元统计分析方法。o

聚类分析按分类的对象不同,可分为样本聚类(或称个案聚类)

和变量

聚类两种类型。o

样本聚类是根据被观测对象的各种特征,即反映被观测对象特征的各变

量值对样本进行分类。o

在教育研究中适用于对于学生或学校按照某些指标进行类别划分等方面。例如:对大学按照办学质量分类、对学生按照兴趣爱好分类、对校长进

行领导风格分类等等。聚类分析概述o

变量聚类是一种降维的方法,用于在变量众多时,寻找有代表性的变

量,以便当用少数、有代表性的变量代替原始较多变量时,损失的信

息很少。o

在教育、心理研究中适用于对高校各系课程变量的类属划分以及心理

结构变量的探查等方面。聚类分析概述o

准则:聚类分析是建立一种分类,是将一批样本(或变量)按照在性质上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法。其中:类

内个体具有较高的相似性,类间的差异性较大。聚类分析概述若对以上五所高校进行分类,依据平均得分的差距,将差距较小的分为一类,我们可以将A

、B高校分为一类,C高校为一类,D

、E高校为一类。o

例15-1假设现在对A

、B

、C

、D

、E五所高校教学、科研、社会服务三大职能进行评价,评分情况如下:聚类分析研究的关键问题

问题3.

形成

多少类别最

合适?问题1.

怎样测量相似性?问题2.如何

聚类?o

亲疏远程度的衡量指标:衡量亲疏程度的指标有两种,即距离和相似系

数。o

变量之间的亲疏程度则通常用相似系数来度量。相似系数越接近于1或-

1时,认为变量之间的亲疏程度越高;相似系数接近于0时,认为变量之

间是无关的。比如夹角余弦、相关系数:r

=

聚类分析原理:1.怎样测量相似性?o

距离是将每个样品看成m个数据对应的m维空间中的一个点,然后在该

空间中所定义的距离越近,则亲疏程度越高。o

如何定义数据间的距离呢?不同测度水平的数据间的距离定义是否不同?聚类分析原理:1.怎样测量相似性?o

定距型个体间的距离:把每个个案数据看成是m维空间上的点,在点和点之间定义某种距离。一n平方欧氏距离(SEUCLID)n明可夫斯基距离(欧氏距离是其特例)般适用于定距数据。n欧氏距离(EUCLID)缺点:要求各指标计量单位相同,而且同等看待各指标的重要性。

聚类分析原理:怎样测量相似性?

(

xi

-

yi

)

2n切比雪夫距离dij(∞)

=

mxEUCLID

(

x,y

)

=xik

-

xjkCaseEuclidean

Distance1:A商厦2:B商厦3:C商厦4:D商厦5:E商厦1:A商厦2:B商厦3:C商厦4:D商厦5:E商厦.0008.062

17.804

26.907

30.4148.062.000

25.456

34.655

38.21017.80425.456

.000

9.22012.80626.90734.655

9.220

.00030.41438.210

12.806

3.606

.000l定距型个体间的距离:连续型变量个体距离矩阵ProximityMatrix两类:(AB)(C

D

E)

三类:(AB)

(C)

(D

E)聚类分析原理:怎样测量相似性?This

isa

dissimilarity

matrix3.606姓名选修课门数

(期望频数)专业课门数

(期望频数)得优门数

(期望频数)合计张三9(8.5)6(6)4(4.5)5(4.5)9198(8.5)171938

聚类分析原理:怎样测量相似性?l

定距型个体间的距离:计数变量6(6)12李四合计选课特征姓名是否喜欢讨论

式教学是否选择方法

类课程是否喜欢年

轻教师授课小张111小李110小王001ll聚类分析原理:怎样测量相似性?

类属型个体间的距离

类属型个体间的距离(1)简单匹配(simple

matching)系数:适用二值变量简单匹配系数将同时拥有或同时不拥有某特征的情况看作匹配。应

用简单匹配系数时,取0和1的地位等价,编码方案的变化不会引起系数的其中,a为个体i与个体j在相同变量上同时取1的个数

;d为同

时取0的个数。个体i与个体j之间的距离为:个体i10

聚类分析原理:怎样测量相似性?个体j1

0变化。a

cb

d

类属型个体间的距离—简单匹配(simple

matching)系数:适用二值变量。姓名是否喜欢讨论课是否喜欢方法课是否喜欢年轻老师张三

111李四

11

0王五

0

01(张三,李四):a=2b=

1c=0d=0d(x,y)=1/(1+2)=1/3(张三,王五):a=1b=2c=0d=0d(x,y)=2/(1+2)=2/3张三距李四近聚类分析原理:怎样测量相似性?发烧咳嗽检查1

检查2检查3检查41

0

1

0

0010

1

0

1

01

1

0

0

00o

类属型个体间的距离口根据临床表现研究病人是否有类似的病聚类分析原理:怎样测量相似性?姓名张三李四王五……男

男性别(2)杰卡德(Jaccard)系数:适用二值变量杰卡德系数排除同时不拥有某特征的情况。应用杰卡德系数时,取1的状

态比取0更有意义。同时,编码方案会引起系数的变化。个体j个体i10其中,a为个体i与个体j在相同变量上同时取1的个数;d

为同时取0的个数。个体i与个体j之间的距离为:J

(i

,

j

)

=

聚类分析原理:怎样测量相似性?1

0acbdo

类属型个体间的距离口

Jaccard系数举例:根据临床表现研究病人是否有类似的病。姓名性别

发烧咳嗽检查1

检查2

检查3

检查4张三

1

01

0

0

0李四女

1

0101

0王五

1

1

0

0

0

0结论:张三和李四最有可能得类似的病;李

四和王五不太有可能得类似的病。聚类分析原理:怎样测量相似性?d

(张三

,

李四

)

=

=

0

.33d

(李四

,

王五

)

=

=

0

.75d

(张三

,

王五

)

=

=

0

.67……..

相似系数测量:

夹角余弦或相似系数

小结:怎样测量相似性?

选择距离测量:

区分数据类型

样本聚类变量聚类o

注意:口聚类过程中如果数据在数量级上存在差异或单位不同时,应进行标准

化处理。聚类分析概述

例如:l

说明:l聚类分析中的变量选择问题:–

变量应和聚类分析的目标密切相关(如:学校科研能力的评价,可选

变量:科研经费、项目数、获奖等级及频次、重点学科数、重点实验

室或基地数)。–

聚类结果仅是所选变量数据相似性的反映,未必符合事物真实的类

别属性。–

变量之间不应具有高度相关性,否则相当于给这些变量进行了加权。l聚类分析包括:样本(或个案)聚类和变量聚类两种。l聚类方法包括:分层(或系统)聚类和快速聚类两种。聚类分析概述o

(一)基本原理:首先将所有的个体(样品或变量)各自看成一类,然后根据个体之间

特征的亲疏程度,将亲疏程度最高的两类进行合并,再计算合并后的新

类与其他类之间的亲疏程度,并将亲疏程度最高的两类进行合并。重复

这一过程,直至所有个体都合并为一类。分层聚类(或称系统聚类,Hierarchical

Cluster)

o

衡量亲疏程度的指标有两种,即距离和相似系数。o

距离是将每个样品看成m个数据对应的m维空间中的一个点,然后在该

空间中所定义的距离越近,则亲疏程度越高。o

变量之间的亲疏程度则通常用相似系数来度量。相似系数越接近于1或-

1时,认为变量之间的亲疏程度越高;相似系数接近于0时,认为变量

之间是无关的。分层聚类(或称系统聚类,Hierarchical

Cluster)

以合并(凝聚)的方式聚类(SPSS采用):口

首先,每个个体自成一类。口

其次,将最“亲密”的个体聚成一小类。口

然后,将最“亲密”的小类或个体再聚成一类。口

重复上述过程,即:把所有的个体和小类聚集成越来越大的类,直到所有的个体都

到一起(一大类)为止。口可见,随着聚类的进行,类内的“亲密”性在逐渐减低。 分层聚类(或称系统聚类,Hierarchical

Cluster)

o

(二)程序:o

以分解的方式聚类:口

首先,所有个体都属于一类。口

其次,将大类中最“疏远”的小类或个体分离出去。口

然后,分别将小类中最“疏远”的小类或个体再分离出去。口

重复上述过程,即:把类分解成越来越小的小类,直到所有的个体自成一类为止。口可见,随着聚类的进行,类内的亲密性在逐渐增强。

分层(或系统)聚类方法o

(三)类间距离的计算方法o

“亲疏”程度的衡量对象:口个体间距离口个体和小类间、小类和小类间的距离分层(或系统)聚类方法o

个体与类间、类和类间的距离计算方法口最短距离法(nearest

neighbor):n两类间的距离定义为两类中距离最近的两个个案之间的距离。口最长距离法(furthest

neighbor):n两类间的距离定义为两类中距离最远的两个个案之间的距离。口类平均法(Average

linkage)n两类之间的距离定义为两类个案之间距离的平均值。包括:n组间平均法(between-groups

linkage):只考虑两类间的距离n组内平均法(Within-groups

linage):考虑所有个案间的距离(三)分层聚类中类间距离的计算方法常用的系统聚类方法有8种。Wishart在1969年给出了8种聚类方法类与类之间距离的统一公式。设

Gp

Gq

Gr

=

{Gp

,Gq

},则

Gr

G

k

:D

r

=

α

p

D

+

α

q

D

q

+

βD

q

+Y

|

D-

D

q

|式中

α

p

,

α

q

,β,

Y

不同的

不同的

值,

给出了

8

法的

。k2kp2p2k2kp2k2常用的分层(或系统)聚类方法Ward’s

Method

Average

Linkage

(SPSS中即betweengroupslinkage)o

(四)基本操作步骤1.基本操作A.菜单选项:analyze->classify->Hierarchical

clusterB.选择参与聚类分析的变量入variables框C.选择一个字符型变量作为个案的标记变量(label

cases)D.选择个案聚类还是变量聚类分层(或系统)聚类方法o

(四)基本操作步骤2.选择距离计算方法(method选项)o

cluster

method:计算类间距离的方法o

measure:计算样本距离的方法o

transform

values:对数据进行标准化处理口

by

variable:以变量为单位标准化,适用于个案聚类口

by

case:以个案为单位标准化,适用于变量聚类分层(或系统)聚类方法

例15-2假设有学者认为,可以从受教育权和入学机会公平、公共教育资源配置公平、教育质量公平、群体间教育公平四个方面设计正规三级教育的教育公平的具体评价指标。据此对全国31个省区、直辖市展开调查,获得31个省区、直辖市的教育公平指标数据。试将31个省区、直辖市按照教育公平状况进行分类。

数据文件15-1.sav

入学机会公平、公共教育资源配置公平、教育质量公平、群体间教育公平4个

指标的变量名分别为x1

、x2

、x3

、x4

Analyze-Classify-HierachicalCluster

…分层(或系统)聚类示例-样本聚类o选择Agglomeration

schedule(凝聚状态表)和Proximitiy

matrix(样本的距离矩阵)选项,输出

结果将生成样本的距离矩阵和凝聚状态表,显示

每一步合并的类以及类与类之间的距离等信息。o在Cluster

membership(类成员)栏下方选中Single

solution(聚成固定类数时各样本的归属)复选项,

并在其右侧的空白框内输入:3

。输出结果中将会

显示聚为3类时各个样品所对应的类别。类成员栏

其他选项none表示不输出类成员,range

ofsolutions表示聚成m-n类时各样本的归属(m<n<总

样本数)。o单击Plots按钮,展开其对话框。选择Dendrogram(树形图)复选项。树形图显示系统聚类步骤,

包括各步的成员合并情况和距离系数值,图中用

相连的垂线表示相联系的样品,它将实际距离缩

放到0-25之间,保留聚类步骤之间距离的比例。o在Icicle(冰柱图)下单栏中勾选默认选项Allclusters选项,表示聚类的每一步均在冰柱图中体

现。specified

range

of

clusters表示冰柱图中呈现聚

类时从第m类开始到第n类结束,间隔p类的过程。

Orientation表示冰柱图的方向,我们选择默认选项

vertical(纵向),horizontal表示横向。o

计算类间距离的方法(ClusterMethod)包括组间平均法(between-groupslinkage)、组内平均法(Within-groupslinage)、最短距离法(nearestneighbor)、最长距离法(furthestneighbor)、中间距离法(Medianclustering)、重心法(Centroidclustering)、离差平方和法(Wald’smethod)。我

们选择默认选项组间平均法。o

在计算样本距离的方法(Measure)的下拉式列表框

中选择默认项欧氏距离的平方(SquaredEuclideandistance)。TransformValues部分为对数据进行标准化处理,本例中未勾选。Byvariable为以变量为单位的标准化,适用于样本聚类;

Bycase为以个案为单

位标准化,适用于变量聚类。o

勾选Single

solution复选项,并在其

右侧的空白框内输入:3

。在变量

界面会生成新的聚类变量CLUN_M,

其中N为聚类数,M表示第几次做

的聚类结果。o

range

of

solutions表示生成若干个

变量分别存放聚成n-m类时各样本

的归属情况。右侧为聚类分析的凝聚过程表。Stage列代表聚类的步骤顺序。ClusterCombined(Cluster1

,Cluster2)是该步被合并的两类中的观测量号,合并生成的新类序号以类中最

小序号代之,如第一步12

、13类被合并成一新类,新类的

序号为12

。Coefficients列代表合并类之间的距离。随着类数减少,类间距离逐渐增大。StageClusterFirst

Appears两列代表对应的被合并的类上一次是在哪一步形成的。Cluster1和Cluster2值均为0的表示是两个观测量合并;其中有一个为0的表示是观测量与类合并;两个值均为非0值的表示是两个类合并。如第7步为第26个观测量与第28个观测量合并,而第26个观测量已经在第2步与第27个观测量合并为一类了,因此此项值2表示与第2步形成的类归并为一类。NextStage列则表示该步被合并的类又被合并成新类时的步骤序号。如第7步合并的类将在第12步被合并成新类。聚类结果

右侧为聚类结果成员表,它表明各观测

量分别隶属哪一类别。北京、上海、天津为一类,浙江、广东、江苏、辽宁、福建为一类,

其他省份为一类。聚类结果

右侧树形图显示系统聚类的具

体步骤,包括各步的成员合并

情况和距离系数值。生成的新的聚类类别变量

CLU3

1。聚类结果

聚类结果

(五)SPSS选项说明:1.数据输出(statistics选项)o

agglomeration

schedule:凝聚状态表(默认)o

distance

matrix:样本的距离矩阵o

cluster

membership:类成员口

none:不输出类成员(默认)口single

solution:聚成n类时各样本的归属口

range

of

solutions:聚成m~n类时各样本的归属(m<n<总样本数)分层(或系统)聚类方法2.

图形输出(plot选项)o

dendrogram:树型图o

icicle:冰柱图口all

cluster:聚类的每一步均在冰柱图中体现。口specified

range

of

clusters:将聚类的第n1类开始到第n2类结束,间隔n3类

的聚类分析过程在冰柱图中体现。o

orientation:冰柱图的方向口

vertical:纵向口

horizontal:横向分层(或系统)聚类方法3.结果保存(save选项)o

single

solution:生成一新变量存储在聚成n类时各样本属于哪一类

(cluN_M:N为聚类数,M为第几次做的)。o

range

of

solutions:生成若干个变量分别存放聚成n~m类时各样本的归属

情况。分层(或系统)聚类方法例15-3本科生课程设置与其能力培养有着密切的联系。某高校教育学部为本科生开设教育学原理、教学论、量化研究、质性研究等10门课程,

现在需要对这10门课程进行分类,以便了解其对学生培养的能力模式。

数据文件15-2.sav为该教育学部30名本科生在校期间上述10门课程的成绩

数据。Analyze-Classify-Hierachical

Cluster

…分层(或系统)聚类方法示例2-变量聚类右侧为聚类结果成员表,它表明各

变量分别隶属哪一类别。教育史为一类,主要侧重学生学科

史、学科发展脉络知识的培养;量化研究和质性研究一类,主要侧

重学生方法论知识的培养;教育学原理、教育管理学基础、学

期教育学基础等课程为一类,主要

侧重学生各方向基础知识能力的培

养。聚类分析:3.形成多少类别最合适?

o

聚类数目的确定口聚类数目确定尚无统一标准,一般原则:n

各类所包含的元素都不应过多。n

分类数目应符合分析的目的。口分层聚类中可以将类间距离作为确定分类数目的辅助工具n

SPSS聚类过程中(合并凝聚方式),类间距离随着类数减少而呈增加趋势。n

类间距离小,类的相似性大;距离大,相似性小。n

绘制碎石图(X轴为类距离,Y轴为类数)。o

确定分类数的问题是聚类分析迄今尚未解决的问题之一,主要障碍是对待分类的群体的类的真实结构不清楚,从理论和实践中都无法得到

关于类结构的假设。因此,往往根据研究目的,从实用的角度出发,

选择合适的分类数。聚类分析:3.形成多少类别最合适?戴米尔曼(Demirmen,

1972)曾提出根据树状结构图来分类的准则:o

任何类都必须在邻近各类中是突出的,即各类重心之间的距离必须够

大。o

各类所包含的元素都不要过分地多。o

分类数目应该符合使用的目的。o

若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的

类。聚类分析:3.形成多少类别最合适?(一)基本原理:首先确定要聚成的类数,然后按照一定的方法选取一批凝聚点,并让参与聚类的样品向最近的凝聚点凝聚,这样由点凝聚成类,

得到初始分类。但是,初始分类不一定合理,需要按距离最小原则进行

修改不合理的分类,直到分类比较合理为止,这样形成一个最终的分类

结果。K-means快速聚类快速聚类法使用的是欧氏距离平方作为距离测度,如果需要使用其他的距离测度,则必须使用系统聚类法进行。快速聚类的变量必须是连续型变量,如果各变量的单位不同,应该对聚类

变量使用Descriptives过程进行标准化后再进行聚类分析,否则会得出错误

的结论。如果参与聚类的变量是计数变量或二分变量,则只能考虑使用系

统聚类法进行聚类分析。K-means快速聚类(二)程序1.指定最后要聚成K类。2.用户指定k个样本作为初始类中心或系统自动确定k个样本作为初始类中

心。3.系统按照距k个中心距离最近的原则把每个样本分派到各中心所在的类

中去,形成一个新的k类,完成一次迭代。4.重新计算k个类的类中心(计算每类各变量的均值,

以均值点作为类中心)。

5.重复3步和4步,直到达到指定的迭代次数或达到终止迭代的条件。SPSS中两个判断聚类是否结束的条件,满足其中一个即可结束聚类过程。口达到指定迭代次数(maximum

iteration),默认10次。口收敛标准(convergence),默认0.02

,即:本次迭代产生的任意新类,各中

心位置变化较小,其中最大的变化率小于2%。(三)SPSS操作步骤A.菜单选项:analyze->classify->k

means

clusterB.选定参加快速聚类分析的变量到variables框。C.确定快速聚类的类数(number

of

clusters)

,类数应小于个案总数。D.选择聚类方法(method):默认iterate

and

classify

,即:在聚类的每一步

都重新计算新的类中心。E.确定聚类终止条件(如iterate次数)。(四)SPSS可选项说明1.保存快速聚类的结果(save)口

cluster

membership:将各个案所属类的类号保存到qcl_

1变量中。口

distance

from

cluster

center:将各样本距所属类中心的距离保存到qcl_2变量中。(四)SPSS可选项说明

2.输出选项(option)口

initial

cluster

centers:输出初始类中心点。口

ANOVA

table:输出各类的方差分析表。口

cluster

information

for

each

case:输出每个样本的分类结果和距离。(四)SPSS可选项说明3.use

running

means项:口选中:表示每个样本被分配到一类后立即计算新的类中心。聚类结果

与个案的先后次序有关。口不选中:表示完成了所有个案的依次分配后再计算类中心,省时。(四)SPSS可选项说明

4.用户指定类中心(center)口

read

initial

from:若不指定则系统自动确定初始类中心。指定则从某.sav文件中读入

初始类中心数据(应设一个名为Cluster_的变量名)。口

Write

final

as:在分析的最后将各类中心写入某.sav文件。o

例15-4某中学希望对某实验班320名学生按照他们的语文、数学、英语、文科综合和理科综合成绩进行分类,将学生分成优秀、良好、中等、及格4类,以便提供针对性辅导,数据文件15-3.sav包含这320名学生的

期末考试成绩,试采用快速聚类法进行聚类分析。K-means快速聚类示例o在进行快速聚类分析之前,首先要生成各成绩变量的标准化变量。o

Analyze-Descriptive

Statistics-Descriptives

…K-means快速聚类示例o

Analyze-Classify-K-Means

Cluster

…o在Method(聚类方法)栏下选择默认的Iterate

and

classify

,即选择初始聚类中心,在迭代过程中使

用K-Means算法不断更换类中心,在聚类的每一

步都重新计算新的类中心,把样品分派到与之最

近的以类中心为标志的类中去。另一选项Classify

only

,则只使用初始类中心对样品进行聚类。o下方(Cluster

Centers)用户指定类中心中readinitial表示若不指定则系统自动确定初始类中心,指定则从某.sav文件中读入初始类中心数据(应设

一个名为Cluster_的变量名);Write

final

表示在

分析的最后将各类中心写入某.sav文件。K-means快速聚类示例o

单击Iterate按钮,进入确定聚类终止条件对话框,如图可以设置iterate次数,此处

保持默认状态。use

running

means项若选

中,表示每个样本被分配到一类后立即计

算新的类中心。聚类结果与个案的先后次

序有关。若不选中,表示完成了所有个案

的依次分配后再计算类中心,这种方式比

较省时。K-means快速聚类示例o

单击Save按钮,展开Save

New

Variables保存新变量对话框,选中Clustermembership复选项,以建立一个新变量,

系统默认该变量名为qc1

1

,其值表示

聚类结果,即各样品被分配到哪一类中,

该变量将在原数据文件中出现。另一选

项distance

from

cluster

center表示将各样

本距所属类中心的距离保存到qcl

2变量

中。K-means快速聚类示例o

单击Options(输出选项),保持默认状态。选中initial

cluster

centers表示输出初

始类中心点。ANOVA

table表示输出各

类的方差分析表。cluster

information

foreach

case表示输出每个样本的分类结果

和距离。K-means快速聚类示例o

上面是初始类中心表,此表中作为类中心的样品由系统所确定。输出结果

o此表显示的是各次迭代后类中心的变化距离。由于没有指定迭代次数或收敛判据,因此使用系统

默认值:最大迭代次数为10

,收敛参数为0

。即

当迭代到10次时则停止迭代;或迭代使类中心变

化的距离近似为0时,则迭代停止。此例快速聚

类过程执行4次迭代后,各类中心的变化距离均

为0

,因此,迭代就停止了。第一次迭代1—4类

的类中心与初始类中心之间的距离分别为1.423

1.298

、0.964

、1.550

。第二次迭代1—4类的类中

心与初始类中心之间的距离分别为0.443

、0.311

0.000

、0.000

。第三次迭代1—4类的类中心与初

始类中心之间的距离分别为0.030

、0.019

、0.000、

0.000。输出结果

o

最终的类中心的各变量值。输出结果

o

聚类总结表,显示的是各类别中样品的个数以及参与聚类分析的有效样品数、缺失样品数。输出结果

输出结果

o

系统聚类法(分层聚类法)只能单方向进行聚类,聚类结果受数据中

奇异值影响很大。o

快速聚类法(迭代聚类法)对初始分类非常敏感,通常也只能得到局

部最优解。系统聚类法与快速聚类法的缺点

o

如何聚类?--选择聚类类型:样本聚类/变量聚类?

--选择聚类方法:系统聚类/快速聚类?

--选择类间距离测度、样本距离测度2.如何聚类?--系统聚类法VS快速聚类法口选择系统聚类和快速聚类的依据

系统聚类比较适用:①一个广泛的可供选择的聚类方法有待尝试;②

样本规模适中(一般样本个数在300~400之内,至多不超过1000)

快速聚类比较适用:①聚类数目或者初始类中心比较明确;②离群值

(outlier)必须进入分析时,因为快速聚类对离群值不太敏感/受离群值的影响不大。-在系统聚类后同时使用快速聚类(两种方法结合使用)的适用情况:n通过系统聚类可以获得初始聚类数目,以及各聚类中心;n在系统聚类后,再进行快速聚类可以提供更加准确的聚类关系。2.如何聚类?--系统聚类法VS快速聚类法o

如何聚类?o

趋势:两者结合使用o

首先使用系统聚类法确定分类数,检查是否有离群值,去除离群值后,

对剩下的样本重新进行分类,把用系统聚类法得到的各个类的重心,作为迭代聚类法的初始分类中心,这样就克服了系统聚类法单方向聚

类以及迭代聚类法对初始类中心敏感的缺点,对样品点进行重新调整、

聚类。2.如何聚类?--系统聚类法VS快速聚类法如何评价聚类研究的质量?

没有任何一个公认的客观标准能够完全判断聚类的好坏;研究者可以根据下述标

准进行参考性判断:

单一样本(数量很少的样本)成为一组往往不能被接受,这一组往往需要考虑删

除【当然,如果确实存在非常突出/糟糕表现的样本也需要保留,引起重视/单

独分析】。

各个聚类的样本规模:最好每个聚类应包含10%的样本。以样本规模为1000的样本为

例,每一个类别最好应包含100个样本。这意味着我们最后得到的类别不能超过10类。

对于系统聚类,停止准则主要依赖于随着聚类类别数量的增减,类间距离是否

不再有较大幅度的增加。

聚类结果不是显著地依赖于聚类变量的选择。

对于聚类结果可以进行有实际意义的解释。

交互分类有效性(cross-validation)

将样本随机分成2组或者多组:分组分别使用同样的聚类方法进行分析,看看是

否具有稳定性(比如同时使用系统聚类对两组样本--每组100个样品--分别进行

聚类,看看聚类成2-10类时,两组样本中各类的样本数是否基本相同,类中心

是否接近)。•

通常的做法是计算各类在各聚类变量上的均值,对均值进行比较,看看分组的意义是否合适(各类的均值差异是否较大)(可以利用多因变量方差分析考察

各组在聚类变量上的均值是否存在显著性差异)。建立有效性标准(Establishing

Criterion

Validity)聚类结果的效度(Validity)

1.试比较系统聚类法和快速聚类法的优缺点。2.随机从某大学经济与工商管理学院抽取30名学生,他们的4科成绩如下:试利用数据文件“exe15-1.sav”将这30名学生按其综合成绩的优劣进行分类。作业o

3.试利用数据文件“

15-1.sav”,采用快速聚类法对例15-1进行聚类分析,并将之与系统聚类法的聚类结果进行对比分析。作业教育统计学判别分析及其应用北京师范大学教育学部胡咏梅学部本科科生课课程判别分析概述:概念及基本原理判别分析的假设条件及基本模型

判别分析的研究步骤几种判别分析方法示例分析练习与思考contentso判别分析是利用已知类别的样本模拟模型,为未知样品判类的一种统计方

法。即根据已掌握的每个类别的若干样本的数据信息,建立判别公式和判别准

则;然后,当遇到新的样品时,只要根据判别公式和判别准则,就能判别该样

品所属的类别。o

该方法(

Discriminant

Analysis

,简称DA),是由R.A.Fisher于1936

年提出来的。近年来,在医学、管理学、心理学、教育学科中都有广泛的应用。

比如,识别新患者是否得了某种疾病;预测一个公司是否会违贷;预测某个学

生能否考上“985”高校;识别某所高校能否成为世界一流大学;识别某个学生

是否有网瘾,等等。一、概念及基本原理简言之,判别分析是研究判别个体所属类型的一种统计分析方法。设有k个总体,希望建立一个准则,对给定的任意一个样品,依据这

个准则就能判断它是来自哪个总体。当然,我们应当要求这种准则在某

种意义下是最优的。例如,错判概率最小,或错判损失最小等等。一、概念及基本原理o判别分析是用于分析因变量为分类变量、自变量为可测变量(定距或定比变量)数

据的一种统计分析模型。o在判别分析中将分组变量称为因变量;用以分组的其他特征变量称为判别变量或自

变量。o例如,某高校学生管理部门希望对现在就读的本科生进行分类,以便对肄业风险高的学生进行提前干预。o分组变量(因变量):是否肄业o判别变量(自变量):专业课GPA、学位基础课与学位专业课挂科门数、每周网络聊天或游戏时长、实习或兼职

周工作天数……一、概念及基本原理判别分析的应用和解释非常类似于回归分析:利用1个或者多个自变量的线性(非线性)组合,用于预测唯一的因变量。但回归分析的因变

量是数值型变量,而判别分析要预判的是分类变量【也正因为如此,在

估计判定函数时可以采用logistic回归模型】判别分析VS回归分析

对于已有样本并未给出明确的分组信息时,往往需要先利用聚类分析给出样本的分组信息(分组数、分组类别、各组具体特征等)。之后,在此基础上再进行新增样本分组预测。聚类分析

样本进行分组判别分析VS回归分析

对新增样本进行

分组预测

1.根据判别变量建立判别函数;

2.要处理的是未知分组属性的case

,以第一阶段的分析结果所建立的

判别函数为依据,将这些未知组别的cases进行判别分组。判别分析两个阶段的工作将中国各个省份按教育发展状况划分为教育发达地区和落后地区两种。用来分组的指标包括人均受教育年限、生均经费、各级教育的入学

率、财政性教育经费占GNI的比重等。假定已经有28个省份被归类了,但是还有中部地区的河南省、湖南省以及西部的陕西省还未归类。请用

判别分析过程进行归类。一个假想的例子o

体温、血压、白血球感冒?肺炎?非典?o

人均GDP

、人均收入、人均寿命、人均住房面积等

小康了吗?……其他例子

o

前提条件:

分组类型(group

,用g表示)在两组以上;

在第一阶段工作时候每组case必须至少在一个以上;

各判别变量的测度等级为定距变量或定比变量(才能方便计算均值和

方差);

已知类别Case

的个数要比判别变量的个数至少多两个。二、判别分析的假设条件和基本模型不同组别的变量具有相同协方差

以便计算判别函数

和进行显著性检验不存在多重共线

性:每一个判别

变量不能是其他

判别变量的线性各个判别变量的

联合分布服从多

元以便精确计算统计

量的显著性水平和

样品分组归属的概

率。否则无法估计

判别函数判别分析的研究假设

通过判定得分对每个case进行分类:对于每个特定的群组,分别计算z分数平均值,这一平

均数又被称为各组的重心(centroid);如果有2个群组,则会得到2个重心,如果有3个组别

则有3个重心,依次类推。重心意味着该群组内绝大多数的个案都会分布在该点周围。

判别效果依赖于判定函数对不同组别重心之间距离的测量;如果分布的重叠很小,那么,

判定函数能够将两组样本较好的区分开;反之,如果分布的重叠部分很大,那么,判定函

数则不能将两组样本较好的区分开。口以线性判别函数为例,阐述判别分析基本思想:zjk

=

a

+

W1x1k+

W2x

2k+…

+

Wnx

nk在上式中:Z分数是第k个样本在第j个判定函数中的得分;a是常数项;Wi是自变量Xi的判

定权重;x

ik是第k个case在自变量Xi的取值。

对于每个case的判定函数得分Z,实质上是每个自变量通过判定权重W加权后的得分之和。判别分析的基本思想判别函数:y=b0

+

b1x1

+

b2

x2

+…+

bk

xk

(1)其中y是判别函数值,xi

为判别变量,bi

为相应的判别系数。

判别函数与回归函数的

区别:[1]判别函数中的y不是代表实测的因变量

的估计,因为实测的因变量是定类变

量,而由该函数预测的

因变量是定距变量。[2]回归分析中的方程只有

一个;判别分析中的函数往往不止一个。判别函数值y又简称为判别值,判别

系数表示各个判别变量对判别值的影响,

b0

是常数值。判别分析的基本模型

第一步:判别分析的研究设计第二步:判别分析的研究假设第三步:估计判别函数以及评估整体拟合度第四步:判别结果的解释第五步:结果的验证三、判别分析的研究步骤第一步

判别分析的研究设计

保留样本选

择变量的选择样本规模/容

量A的选择样本规模/容量因变量:分类变量,相互独立、排斥(即每个样本只能归为其中的一类);分类结果可以使从现有信息

中直接获得,也可以是通过聚类分析等手段生成。+尽可能地控制因变量的类型数量(因为随着组别类型的增加,不同组别之间在自变量特征的重

合性上增加,会大大增加判定的难度、降低判定的准确性)。+因变量最好是分类变量;对于顺序型数值变量,我们可将其转化成分类变量(例如:按照学生

成绩排名,将样本分为高、中、低)。自变量:

来自于已有研究/理论模型+

运用研究者知识、直觉第一步

判别分析的研究设计

保留样本选

择变量A样本规

量模/容保留样本选

择最佳:+

样本数÷自变量数≥20

+

样本数÷组别数量≥20底线:+

样本数÷自变量数≥5

+

样本数÷组别数量≥5第一步

判别分析的研究设计

变量的选择保留样本选

择分析组样本:+

估计判定函数保留组样本:+检验判断函数样本外的预测正确率选择分析组和保留组的个体时,通常遵循等比例分

层抽样,即两组样本中,各具体组别大小比例应与

整个样本基本保持一致。第一步

判别分析的研究设计

变量的选择样本规模/容量不存在多重

共线性不同组别的

变量具有相

同协方差矩阵

检验:相关系数检验

处理1:选择代表性变量

处理2:使用因子分析方法提取公因子各个判别变

量的联合分

布服从多元正态分布第二步

判别分析的研究假设不存在多重

共线性不同组别的

样本具有相

同协方差矩阵各个判别变

量的联合分

布服从多元正态分布Box’sM

test

随着样本量的增加,以及组别数量的增加,协方差

矩阵的要求可以放宽(比如,p>0.01即可)。

解决办法:增加样本量;使用二次判定函数。第二步

判别分析的研究假设不存在多重

共线性各个判别变

量的联合分

布服从多元正态分布不同组别的

变量具有相

同协方差矩阵

对于显著性检验可以适当放宽,即将显著性水平限制在0.01及以下。+更需要保证单变量服从一元正态分布,因此,可以通过取对数等手段

进行数据转换。

如果确实拒绝多元正态分布的假设,我们则可以采用logistic回归估计

判定函数,或者非参数的判定方法。第二步

判别分析的研究假设

计算判别Z得

分;检验组的差异;评价各组预测

的精度。联立模型逐步模型第三步

估计判别函数以及评估整体拟合度

评估判别函数

的显著性估计判别函数评估整体拟合统计显著性联立模型:

自变量同时全部进入判别函数模型,判别函数可能不止

一个,所以是联立模型。逐步模型:

自变量逐步进入判别函数模型计算判别Z得分;检验组的差

异;评价各组预

测的精度。第三步

估计判别函数以及评估整体拟合度评估判别函

数的显著性联立模型

逐步模型估计判别函数评估整体拟合统计显著性在我们估计完判别函数后,首先需要做的是判断估计所得到判别函数的解释效力:

整体显著性判断:Wilk’s

lamada;Hotelling

迹;Pillai准则(实质上为多因变量

方差分析整体显著性的判断)联立模型;

逐步模型;计算判别Z得分;检验组的差异;评价各组预测

的精度。第三步

估计判别函数以及评估整体拟合度

评估判别函数

的显著性估计判别函数评估整体拟合统计显著性计算判别Z得分;

检验组的差异;

评价各组预测

的精度。联立模型;

逐步模型;第三步

估计判别函数以及评估整体拟合度评估判别函数

的显著性评估整体拟合度估计判别函数统计显著性o评估整体拟合度(Assessing

overallmodel

fit)口

对每个观测样本估算Z分数口

基于判别Z分数评价组间差异性n计算组间Z分数重心的差异性口

评价各组预测的精度n设定分类函数/分类准则,估算临界得分(cutting

score)。n通过每个样本Z分数与临界得分的对比,将各个样本归入相应的组别中。第三步

估计判别函数以及评估整体拟合度

判别载荷标准化判别权重第四步

判别结果的解释观察并分析判别函数赋予每个变量的标准化判别权重:+符号:正的贡献or负的贡献+大小:较大值代表那个变量对判别函数的判断力贡献较大;反之,则对判别函数的判别力贡

献较小。

需要注意:较为严重的多重共线性会对判别权重的估算产生非常严重偏差。判别载荷标准化判别权重第四步

判别结果的解释标准化判别权重

判别载荷判别载荷又被称为结构相关系数:

各个解释变量与判别函数得分的简单相关系数+其反映的是每个解释变量对判别函数的相对贡献第四步

判别结果的解释

任何判别准则都可能产生错判现象,总的平均错判概率越小,判别准则越好。

有些时候为了检验判别准则的优劣,需要将各母体中的对象按判别准则进行

回判,观察回判中的错判比例。母体中的样品,有时被称为“训练样本”。第五步

结果的验证

(1)貌似误判率方法在建立了判别准则后,计算误判的比例:

n12、n21分别是应当是第一类错判为第二类的样品数、应当是第二类而错判为

第一类的样品数。该比例一般情况下比实际的误判概率要小,因为使用的是部分样本。但在样本

足够大的情况下,可以近似地反映整体误判情况。可以证明该结果是实际误判概率的渐近无偏估计。第五步

结果的验证(2)刀切法也称为Lachenbruch删除法或者交叉确认法(Cross-Validation)。其基本思想是每次剔除训练样本中的一个样品,利用其余的样品建立判别准则,

然后对所剔除的样品进行判别,记录判别的效果。刀切法的计算量非常大,但stata软件中提供了专门的处理程序。第五步

结果的验证-判别法四、几种判别分析方法te判别法四、几种判别分析方法1

、总体样本分布已知的马氏距离计算2

、两个总体的距离判别3

、多个总体的距离判别口距离判别最直观的想法是计算样品到第i类总体的平均距离,选择距离最小的组作为归类组别。口因此,距离函数判别的思想是通过构建一个适当的距离函数,通过计算样本与某类别之间距离的大小,判别其所属类别。设

x

=

(x1,

x2,

…,

xm

)9和y

=

(y1,

y2,

…,

ym

)9

是从期望μ=

(μ1,

μ2,

…,

μm

)9和方差阵Σ=(σij

)m×m

>0

的总体G抽得的两个观测值

则称d

2

(x,

y)=(x

-

y)9Σ-1

(x

-

y)为X与Y之间的Mahal

anobis距离。样品X和Gi类之间的马氏距离定义为X与Gi类重心间的距离:d

2

(x,

Gi

)=(x

-

μi

)9Σ-1

(x

-

μi

)

i

=1,2,

,

k1、总体样本分布已知的马氏距离计算马氏距离有如下的特点:1

、马氏距离不受计量单位的影响;2

、马氏距离是标准化后的变量的欧式距离。1

、总体样本分布已知的马氏距离计算先考虑两个总体的情况,设有两个协差阵Σ相同的p维正态总体,对给定的样品Y,判别一个样品Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。

故我们用马氏距离来给定判别准则,即:[y

G1

如d

2

(y

G1

)

<d

2

(y

G2

),{y

G2

,如d

2

(y

G2

)

<d

2

(y

G1

)l待判,如d

2

(y,

G1

)=d

2

(y,

G2

)2、两个总体距离判别法1、协方差阵相同d2

(

y

,G

2

)

d2

(

y

,G

1

)=

(

y

μ2

)

’Σ

一1

(

y

μ2

)

(

y

μ1

)

’Σ

一1

(

y

μ1

)

=

2

y

’Σ

一1

(

μ1

μ2

)一

(

μ1

+

μ2

)

’Σ

一1

(

μ1

μ2

)

α=

Σ

一1

(

μ1

μ2

)

=

(a1,

a2,

,

ap

)’令

μ1,

μ2

和Σ已知时,α

一1

(μ1

μ2

)

是一个已知的p维向量,

W(y)是y的线性函数,称为线性判别函数。用线性判别函数进行判别分析非常直观,使用起来最方便,在实

际中的应用也最广泛。[y

G1

,如W(y)>0,{y

G2

如W(y)<

0。l待判,

如W

(Y)=0W(y)=(y一

μ)’α

=

α’(y一

μ)则前面的判别准则可以转换为μ1

)

+

…+

ap

(yp’

’=

α

y

αμ=a1

(y1一

μp

)一变量均值向量协方差矩阵优秀一般资金利润率13.55.468.3940.2421.41劳动生产率40.729.840.2454.5811.67产品净值率10.76.221.4111.677.90例如,在企业绩效考核中,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有:现有二个企业,观测值分别为(7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?资金利润率=利润总额/资金占用总额

劳动生产率=总产值/职工平均人数

产品净值率=净产值/总产值根据前面对线性判别函数的推导,我们可以根据本例子中

的协方差矩阵以及两组样本的均值,给出以下判别函数:y

=

0

.6

0

5

81x1

+

0

.2

5

3

6

2x2

+

1

.

8

3

6

7

9x3

18

.7

3

5

9’’

=

α

y

α

μ

对于观测值为(7.8,39.1,9.6)的样本点:y1

=

0

.6

0

5

81×7

.

8

+

0

.2

5

3

6

2

×3

9

.

1+

1

.

8

3

6

7

9×9

.6

18

.7

3

5

9

6=

4

.0

8

9

2

>

0

属于第一组,即是优秀类企业对于观测值为(

8.1,34.2,6.9)的样本点:y

2

=

0

.6

0

5

81×8

.

1+

0

.2

5

3

6

2

×3

4

.2

+1

.

8

3

6

7

6

.9

18

.7

3

5

9

6=

2

.2

9

5

6

<

0

属于第二组,即是一般类企业[y

G1

如d

2

(y

G1

)

<d

2

(y

G2

),{y

G2

,如d

2

(y

G2

)

<d

2

(y

G1

)l待判,如d

2

(y,

G1

)=d

2

(y,

G2

)d

2

(y

,

G2

)一

d

2

(y

,

G1

)=(y一

μ2

)’Σ2

一1

(y一

μ2

)

(y一

μ1

)’Σ1一1

(y一

μ1

)2

、两个总体距离判别法2

、当协方差阵不同判别准则为:判别函数:设有K个总体,分别有均值向量μi(i=

1,2,

,k)和协方差阵Σi=Σ

,各总体出现的先验概率相等。又设Y是一个待判样品。则Y与第i个

总体的距离为(即判别函数)d2

(

y,G

i

)

=

(

y

μi

)

,

Σ

一1

(

y

μi

)

上式中的第一项Y'Σ-1Y与i无关,可忽略,舍去后得一个等价函数:

g

i

(Y

)

=

一2

y

一1μi

+μi,Σ

一1μi,3

、多个总体距离判别法将上式中提-2,得

g

i

(Y

)

=

一2

(

y

一1μi

0

.5

μi,Σ

一1μi,)令

fi

(Y

)

=(

y

一1μi

0

.5

μi,Σ

一1μi,)则距离判别法的判别函数为:令

fi

(Y

)

=(

y

一1μi

0

.5

μi,Σ

一1μi,)

fl

(

y

)

=

k

f

i

(

x

)

,则

y

G

l

1mfi

(Y

)

=

(

y

一1μi

一0

.5

μi,Σ

一1μi,)最大d2

(y

,

Gi

)

=(y

μi

)

,Σ注:这与前面所提出的距离判别是等价的。判别准则为:(y

μi

)最小一12

距离判别费雪性判别法四、几种判别分析方法

费雪(Fisher)判别是借助于方差分析的思想,来导出判别函数和建立判别准则。在现实中,通常使用线性判别函数,因此也称为费雪线性判别。费雪判别对于总体的分布不需要提出特定的假设,因此适用性更广。1

.基本思想构造一个判别函数,假定是线性函数y

=

C

1

X

1

+

C

2

X

2

+

+

C

n

X

n其中各系数的选择,应当是使两类间的区别最大,而使类内

部的离差最小。对于一个新的样品,将其代入判别函数,然后与

判别临界点进行比较。该统计量越大,判别效果越好。最佳的线性判别函数应该是:两个重心的距离越大越好,两个组内

的离差平方和越小越好。最优的判别函数应当满足y(1)

-y(2)最大,而组内的

离差平方和(yi(1)

-y(1))和

(yi(2)

-y(2))

最小.21212

.求判别函数观察两组的判别函数的平均值:

y

=

c

1

x

1

+

c

2

x

2

+

+

ck

x

ky

=

c

1

x

1

+

c

2

x

2

+

+

ck

x

k

(

2

)

(

2

)

(

2

)

(

2

)

(1)

(1)

(1)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论