版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十四聚类分析第1页,课件共30页,创作于2023年2月聚类分析是一种重要的分类技术。与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与回归分析、判别分析一起被称为多元分析的三大方法。第2页,课件共30页,创作于2023年2月1.聚类的目的
根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离法、重心法等),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。第3页,课件共30页,创作于2023年2月2.聚类分析的应用例子同一种疾病(如肝炎),根据临床表现等将病人分成若干类(甲、乙、丙、丁、戊型肝炎)根据疾病的若干临床表现,将病人分成轻、中、重三型在儿童生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类第4页,课件共30页,创作于2023年2月3.聚类的种类根据分类的原理可将聚类分析分为:
K-meansCluster过程(快速聚类法)
HierarchicalCluster过程(系统聚类法)根据分类的对象可将聚类分析分为:系统Q型(即样品聚类clusteringforindividuals)系统R型(即指标聚类clusteringforvariables)第5页,课件共30页,创作于2023年2月4.聚类分析与判别分析间的联系
先采用聚类分析获得各个个体的类别(classification);然后采用判别分析建立判别函数,对新个体进行类型识别(identification)第6页,课件共30页,创作于2023年2月5、距离与相似系数(P418)(1)距离
假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dij。第7页,课件共30页,创作于2023年2月(2)相似系数
研究样品间的关系常用距离,研究指标间的关系常用相似系数。相似系数常用的有:夹角余弦与相关系数第8页,课件共30页,创作于2023年2月5、方法原理按距离的远近划分类别6、用途细分市场消费行为划分设计抽样方案等第9页,课件共30页,创作于2023年2月7、操作时距离测量方法建议使用默认值即可(Q型分类)8、变量选择无关变量有时会引起严重的错分应当只引入在不同类间有显著差别的变量尽量只使用相同类型的变量进行分析第10页,课件共30页,创作于2023年2月9、共线性问题对纪录聚类结果有较大的影响最好先进行预处理10、变量的标准化变量变异程度相差非常大时需要进行标准化后会削弱有用变量的作用第11页,课件共30页,创作于2023年2月11、异常值影响较大还没有比较好的解决办法应尽力避免12、分类数从实用角度讲,2~8类比较合适13、专业意义一定要结合专业知识进行分析第12页,课件共30页,创作于2023年2月二、K-meansCluster过程属于非系统聚类法的一种也叫快速聚类\动态聚类、逐步聚类、迭代聚类)(quickclustermethod、k-meansmodel)适用于样本量很大的情形,用系统聚类法计算的工作量极大,作出的树状图也十分复杂,不便于分析
第13页,课件共30页,创作于2023年2月1、原理选择初始凝聚点根据欧氏距离将每个样品归类各类的重心代替初始凝聚点根据欧氏距离将每个样品归类,……
直至达到指定的迭代次数或达到终止迭代的判据要求第14页,课件共30页,创作于2023年2月2、初始凝聚点
initialclusterseeds;clustercenters自动选择必须给出允许分类的最大个数k凭经验选择以初始凝聚点建立一个数据文件,在SPSS的CETERS过程的READINITIALFROM选择项中输入该数据文件第15页,课件共30页,创作于2023年2月3、方法特点要求已知类别数可人为指定初始位置节省运算时间样本量大于100时有必要考虑只能使用连续性变量第16页,课件共30页,创作于2023年2月4、菜单:Analyze-classify-KmeansCluster5、分析实例(P416data13-02)
第17页,课件共30页,创作于2023年2月三、HierarchicalCluster过程
1、系统聚类的基本思想相近的聚为一类(以距离表示,样品聚类)相似的聚为一类(以相似系数表示,变量聚类)第18页,课件共30页,创作于2023年2月2、方法原理先将所有n个变量/观测量看成不同的n类;然后将性质最接近(距离最近)的两类合并为一类;再从这n-1类中找到最接近的两类加以合并;依此类推,直到所有的变量/观测量被合为一类;使用者最后再根据具体的问题和聚类结果来决定应当分为几类。第19页,课件共30页,创作于2023年2月3、类与类之间的距离1.最短距离法(singlelinkage)2.最长距离法(completelinkage)3.中间距离法(medianmethod)4.类平均法(averagelinkage)5.可变类平均法(flexible-betamethod)6.重心法(centroidmethod)7.Ward离差平方和法(Ward'sminimum-variancemethod)第20页,课件共30页,创作于2023年2月8.Mcquitty的相似分析法(Mcquitty'ssimilarityanalysis)9.最大似然估计法(EML)10.密度估计(densitylinkage)11.两阶段密度估计法(two-stagedensitylinkage)等。第21页,课件共30页,创作于2023年2月4、系统聚类法的性质
单调性
中间距离法、重心法不具有单调性空间的浓缩与扩张
不同聚类法作图,横坐标的范围可相差很大。最短距离法与重心法比较浓缩;可变类平均比较扩张;类平均法比较适中。第22页,课件共30页,创作于2023年2月5、有关问题
几种聚类方法获得的结果不一定相同指标聚类采用相似系数,相似系数大或距离小则表示类间关系密切,为了统一,可采用以下公式变换。
第23页,课件共30页,创作于2023年2月6、特点一旦观测/变量被划定类别,其分类结果就不会再进行更改;可以对变量或记录进行聚类;变量可以为连续或分类变量;提供的距离测量方法非常丰富;运算速度较慢。第24页,课件共30页,创作于2023年2月
7、变量聚类法
原理与观测量聚类法类似,只是将标准化后的变量视为“个体”,变量间的相关系数描述“个体”间的相似程度。
第25页,课件共30页,创作于2023年2月8、路径:Analyze-Classify-HierarchicalCluster9、分析实例(P428/P437data13-03/data11-03)
第26页,课件共30页,创作于2023年2月SPSS自带数据集judges.sav是中、美、法等七个国家的裁判和未经严格训练体育爱好者在评判体育比赛中对选手的评分情况。请根据在评分上的差异将它们分为适当的类。第27页,课件共30页,创作于2023年2月解题思路•
应当选用变量聚类•
具体的分类数不明,需要输出全部结果•
方差和均数相差不大,无需进行标准化•
测量距离使用PEARSON相关系数即可第28页,课件共30页,创作于2023年2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度大型运动会安防系统合同
- 2024年度大数据分析服务合同标的明细
- 2024年专用:租赁合同保证金条款汇编
- 2024年度居民住宅铝合金门窗安装工程合同
- 2024年废旧物资回收协议
- 2024工程合规审查中的黑白合同问题探讨
- 04版智能硬件研发与制造分包合同
- 2024年国际货运代理及仓储物流合作合同
- 2024年度5G基站建设与运营合作协议
- 2024年一年级数学老师家长会
- 压力容器及压力管道课件
- 部编版小学语文六年级上册《童年》阅读测试题及答案(全册)
- 山东省济南市历城区2023-2024学年五年级上学期期中数学试卷
- 基本消防知识考试题库200题(通用版)
- 23秋国家开放大学《法律咨询与调解》形考任务1-4参考答案
- 读后续写人与动物-天使狗狗的守护讲义 高三英语作文复习写作专项
- 课件大班科学活动《有趣的影子》
- 监控施工方案四篇
- 某标准件厂冷镦车间低压配电系统及车间变电所设计(超详细)
- 紫金矿业污染事件商业伦理分析
- 体检指标分析课件
评论
0/150
提交评论