




已阅读5页,还剩23页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
聚类 1 第六章聚类分析 教材第七章 教学目的和要求 通过本章的学习 要求学生加深理解和掌握聚类分析方法 并灵活运用SAS过程步进行案例分析 教学重点 系统聚类法教学难点 确定类的个数教学方法 教师讲授为主 学生课堂实验为辅教学主要内容 1 系统聚类法应用 2 动态聚类法应用 3 SASClUSTER过程 TREE过程及输出结果的分析 4 判别分析与聚类分析的区别 聚类 2 第六章聚类分析 聚类分析是研究对样品或指标进行分类的一种多元统计分析方法 对样品的聚类称为Q型聚类 对指标 变量 的聚类称为R型聚类 可利用的SAS过程步 CLUSTER过程 系统聚类过程 FASTCLUS过程 快速聚类过程 MODECLUS过程 非参数聚类过程 VARCLUS过程 变量聚类过程 TREE过程 画树状图过程 ACECLUS过程 数据的预处理过程 聚类 3 聚类分析与判别分析的主要差别 已知条件不同 判别分析事先有类 并具有来自不同类的若干样品 聚类分析只有待分类的若干样品及其指标值 分析目的不同 判别分析目的是将一些待判的样品归入已知的类中 而聚类分析事先并没有类 目的正是根据样品的数据特征确定分类数目 建立一种分类规则 并按规则对样品给出合理的分类 分析方法不同 判别分析根据已知样品建立判别函数和判别准则 并据此对待判样品进行分类 聚类分析是根据样品或指标之间的 相似 程度直接对样品或指标进行分类 分析结果不同 判别分析的结果是把待判样品归入某一类 聚类分析是把样品或指标分成事先并没有的类 聚类 4 聚类过程涉及到的两个问题 选定聚类方法 不同的聚类方法 得到的聚类结果往往不同 1 系统聚类法 最常用的聚类方法 2 调优法 3 最优分割法 4 模糊聚类法 5 图论聚类法 6 聚类预报法 类数的确定 1 通过临界值来确定类的个数 根据聚类图及经验和应用目的研究者主观上给定的数 2 根据样品的散点图直观地确定类的个数 3 根据样本统计量R2 伪F统计量 半偏R2统计量 伪t2统计量等确定类的个数 聚类 5 确定分类个数的准则 Bemirmen 1972年 A 各类重心之间距离必须很大B 确定的类中 各类所包含的元素都不要太多C 类的个数必须符合实用目的D 若采用几种不同的聚类方法处理 则在各自的聚类图中应发现相同的类 唯一正确的分类方法 没有 聚类 6 CLUSTER过程主要功能 1 提供11种Q型系统聚类方法 2 样品数据可以是原始坐标型 也可以是距离型 还可以是属性数据 3 提供用于确定类的个数的统计量 用户可根据这些统计量值的变化来确定类的个数 4 聚类分析输出的数据集可以用于画谱系聚类图 聚类图可以为确定类的个数提供直观的依据 聚类 7 CLUSTER过程提供的11种Q型系统聚类方法名 1 Average 类平均法 2 Centroid 重心法 3 Complete 最长距离法 4 Density 密度估计法 5 EML 最大似然谱系聚类法 6 Flexible 可变类平均法 7 Mcquitty McQuitty相似分析方法 8 Median 中间距离法 9 Single 最短距离法 10 Twostage 两阶段密度估计法 11 Ward Ward法或离差平方和法 聚类 8 CLUSTER过程的一般形式 Procclustermethod 系统聚类方法名选项 var用于分析的数值型变量 id要代替观测号的变量名 其它语句 Run 选项 Data 数据集名Outtree 数据集名 生成纪录聚类过程的输出数据集 作为Tree过程输入数据集 Pseudo输出伪F统计量和伪t2统计量Rsqare输出R2和半偏R2STD对变量进行标准化 聚类 9 TREE过程主要功能 用由CLUSTER过程或VARCLUS过程产生的数据集来画树状图 根据用户的要求输出各个观测所属类别的输出集 几个术语 树根 包含全体对象的类树枝 至少含有两个对象但不是全体对象的类树叶 聚类的每个对象节点 如果类B和类C合并为A 或者类A分裂为类B和类C 称类A是类B和类C的节点 一般地 树根 树枝和树叶都是节点父辈子辈 若类B和类C合并为类A 称类A是类B和类C的父辈 而类B和类C是类A的子辈 根是没有父辈的节点 叶是没有子辈的节点二元树 如果每一类至多有两个子辈 这个树称为二元树 CLUSTER过程总是生成二元树 聚类 10 TREE过程的一般格式 Proctree选项 name识别每个观测代表的节的变量名 copy列出复制到out 数据集中的变量名 id在树状图中识别个体的变量名 其它语句 Run 选项Data 数据集名HORIZONTAL树状图的取向为水平方向GRAPHICS画出高分辨率的图Out 输出数据集名其中有新变量Cluster 类号 和Clusname 类名 N 整数规定在OUT 的数据集中所希望的类个数 聚类 11 案例7 1我国16个地区 Diqu 农民1982年支出情况的分类 在文件nong82 txt中有抽样调查的汇总资料 数据是反映每人平均生活消费支出情况的六个指标 食品 X1 衣着 X2 燃料 X3 住房 X4 生活用品及其他 X5 文化生活服务支出 X6 试用以下几个系统聚类方法对16个地区支出情况进行分类 1 用类平均法 对数据作标准化变换 输出伪F 伪t2 R2及偏R2统计量 并画出谱系聚类图 观测号用地区名来替换 2 用中间距离法 对数据作标准化变换 输出伪F 伪t2 R2及偏R2统计量 并画出谱系聚类图 观测号用地区名来替换 3 用Ward法 对数据作标准化变换 输出伪F 伪t2 R2及偏R2统计量 综合以上两个方法指定类的个数 画出谱系聚类图 并输出包含新变量Cluster和Clusname以及原变量X1 X6的数据集 打印此数据集 并查看有哪些变量 4 用Ward法对16个地区的分类结果打印输出 观测号用地区名来替换 并按类别计算6个指标的均值 并比较 5 在文件nong04 txt中有2004年汇总资料 用Ward法分类后比较两年的用Ward法分类结果 有哪些变化 聚类 12 1 用类平均法 对数据作标准化变换 输出伪F 伪t2 R2及偏R2统计量 并画出谱系聚类图 观测号用地区名来替换 datanong82 infile E timeseries data nong82 txt firstobs 2 inputdiqu X1 X6 run procclusterdata nong82method avestdpseudorsqareouttree Anong82 varx1 x6 iddiqu run proctreedata Anong82horizontalgraphics title method ave run 程序说明 method ave类平均法Std标准化变换Pseudo伪F 伪t2统计量RsqareR2及偏R2统计量iddiqu 观测号用地区名来替换 聚类 13 6个聚类变量的特征值信息 AverageLinkageClusterAnalysisEigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative13 509942 102210 5849900 5849921 407730 842610 2346220 8196130 565130 192640 0941880 9138040 372480 266810 0620810 9758850 105680 066640 0176130 9934960 03904 0 0065061 00000Thedatahavebeenstandardizedtomean0andvariance1Root Mean SquareTotal SampleStandardDeviation 1Root Mean SquareDistanceBetweenObservations 3 464102 聚类 14 类平均聚类法的并类过程及统计量 NormalizedRMSNCL ClustersJoined FREQSPRSQRSQPSFPSt2DistanceTie15安徽福建20 0023800 99762029 93 0 18896314河北河南20 0051860 99243420 18 0 27890813CL14山西30 0064290 98600417 611 240 30294612江苏CL1530 0088750 97712915 543 730 32980411CL13内蒙40 0104830 96664614 491 810 36587810天津山东20 0090490 95759815 06 0 3684189CL12江西40 0126190 94497915 032 240 3928438CL10浙江30 0181210 92685814 482 000 4876437黑龙江CL950 0225710 90428714 172 840 5063286辽宁吉林20 0178860 88640115 61 0 5179675CL8CL650 0470900 83931114 363 140 6552174CL5CL7100 1366340 7026779 457 890 7859953CL4CL11140 2005680 5021096 568 090 8799682北京上海20 0546310 44747911 34 0 9052391CL2CL3160 4474790 000000 11 341 545755 聚类 15 依据统计量确定类数 R2 RSQ 越大越分开 通常随着分类个数NCL减少 R2逐渐减少 而当某步的R2值突然下降较多 则前一步的聚类效果较好 因为从NCL 4到NCL 3和从NCL 2到NCL 1时下降较多 所以分4类或2类较合适 半偏R2 SPRSQ 越大越分开 某步的半偏R2值越大说明前一步的聚类效果较好 在NCL 1 3 4时 半偏R2值最大 分2类 4类或5类较合适 伪F PSF 统计量 伪F值越大的步聚类效果越好 NCL 2 5 6时 伪F值较大 分2类 5类或6类较合适 伪t2 PSt2 统计量 某步的伪t2值越大说明前一步的聚类效果较好 NCL 1 3 4时 伪t2值较大 分2类 4类或5类较合适 归纳以上结果 分成4类或5类比较好 聚类 16 类平均聚类法的谱系聚类图 根据谱系聚类图考虑的话 分4类或5类较合适 聚类 17 2 用中间距离法 对数据作标准化变换 输出伪F 伪t2 R2及偏R2统计量 并画出谱系聚类图 观测号用地区名来替换 procclusterdata nong82method medstdpseudorsqareouttree Mnong82 varx1 x6 iddiqu run proctreedata Mnong82horizontalgraphics title method ave run 聚类 18 中间距离法的谱系聚类图 聚类 19 聚类 20 3 用Ward法 对数据作标准化变换 输出伪F 伪t2 R2及偏R2统计量 综合以上两个方法指定类的个数 画出谱系聚类图 并输出包含新变量Cluster和Clusname以及原变量diqu和X1 X6的数据集 打印此数据集 并查看有哪些变量 procclusterdata nong82method Wardstdpseudorsqareouttree Wnong82 varx1 x6 iddiqu run proctreedata Wnong82N 5horizontalgraphicsOUT TWnong82 copydiquX1 X6 title method Ward run procprintdata TWnong82 run 程序说明 N 5指定类个数OUT Twnong82输出新变量Cluster和ClusnamecopyX1 X6 在输出数据集Twnong82中包含变量diquX1 X6 聚类 21 数据集 TWnong82 Obs NAME diquX1X2X3X4X5X6CLUSTERCLUSNAME1安徽安徽153 1123 0915 6223 5418 186 391CL62福建福建144 9221 2616 9619 5221 756 731CL63河北河北95 2122 839 3022 4422 812 802CL104河南河南101 1823 268 4620 2020 504 302CL105山西山西104 7825 116 409 8918 173 252CL106江苏江苏144 9829 1216 9619 5221 756 731CL67天津天津135 2036 4010 4744 1636 493 943CL58山东山东115 8430 2612 2033 6133 773 853CL59内蒙内蒙128 4127 638 9412 5823 993 272CL1010江西江西140 5421 5017 6419 1915 974 941CL611辽宁辽宁145 6832 8317 7927 2939 093 473CL512吉林吉林159 3733 3818 3711 8125 295 223CL513浙江浙江169 9232 7512 7247 1234 355 003CL514黑龙黑龙116 2229 5713 2413 7621 756 041CL615北京北京190 3343 779 7360 5449 019 044北京16上海上海221 1138 6412 53115 6550 825 895上海 聚类 22 Ward法的谱系聚类图 聚类 23 4 用Ward法对16个地区分类的结果打印输出 观测号用地区名来替换 并按类别计算6个指标的均值 并比较 procsortd
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 延边大学《环境流体力学》2023-2024学年第二学期期末试卷
- 江苏省无锡市玉祁初级中学2025届初三下学期中考试生物试题含解析
- 湖南省长沙市2025届高三下学期返校英语试题含解析
- 辽宁经济职业技术学院《涉外礼仪》2023-2024学年第二学期期末试卷
- 温州医科大学《电影批评》2023-2024学年第一学期期末试卷
- 食品经营许可证办理流程
- 2025设备租赁合同纠纷民事诉状起诉书
- 2025年招标师考试合同管理模拟题
- 2025塑料管材购销合同范本
- 给药治疗与护理
- 综合执法改革试题及答案
- 2024年泉州实验中学初一新生入学考试数学试卷
- 人工智能在航班调度中的未来应用探讨
- 内蒙古自治区赤峰第四中学2024-2025学年高一下学期4月月考历史试题(含答案)
- 2025-2030中国保健品行业市场深度调研及竞争格局与投资研究报告
- 2025年江苏省无锡市锡山区中考英语一模试卷
- (二模)衢州、丽水、湖州2025年4月三地市高三教学质量检测 语文试卷(含答案解析)
- 宜昌市社区工作者招聘真题2024
- 水下潜水艇课件
- 36 阶段统计项目风险管理表甘特图
- 2025-2030中国电信增值行业运行状况与发展前景预测研究报告
评论
0/150
提交评论