![SAS统计分析7聚类分析_第1页](http://file4.renrendoc.com/view11/M03/2F/01/wKhkGWX7azWAMzcYAAI5fFz_FIU499.jpg)
![SAS统计分析7聚类分析_第2页](http://file4.renrendoc.com/view11/M03/2F/01/wKhkGWX7azWAMzcYAAI5fFz_FIU4992.jpg)
![SAS统计分析7聚类分析_第3页](http://file4.renrendoc.com/view11/M03/2F/01/wKhkGWX7azWAMzcYAAI5fFz_FIU4993.jpg)
![SAS统计分析7聚类分析_第4页](http://file4.renrendoc.com/view11/M03/2F/01/wKhkGWX7azWAMzcYAAI5fFz_FIU4994.jpg)
![SAS统计分析7聚类分析_第5页](http://file4.renrendoc.com/view11/M03/2F/01/wKhkGWX7azWAMzcYAAI5fFz_FIU4995.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7章聚类分析
7.1聚类分析方法的概述
聚类分析〔ClusterAnalysis〕是研究物以类聚的一种统计分析方法。用于对事物类别尚不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。1.聚类分析的指标聚类分析可分为对变量聚类和对样品聚类。聚类分析所依据的指标按其测量的尺度可分为以下三种:间隔尺度:指标用连续的实型变量表示。如长度,时间,产量,重量等。有序尺度:用该指标度量时没有明确的数量表示,只有次序关系。如评价某种产品的质量,可分为一等品、二等品、三等品、等外品四种等级;如对某产品很满意、满意、不满意等。名义尺度:用该指标度量时既没有数量也没有次序关系。如化学反响中催化剂的种类,天气的晴或阴,雨等。2.聚类分析法简介聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量,然后根据这种统计量把元素分成假设干类。常用的聚类统计量有距离系数和相似系数2类。距离系数一般用于对样品分类,而相似系数一般用于对变量聚类。距离的定义很多,如极端距离、明考斯基距离、欧氏距离、切比雪夫距离等。相似系数有相关系数、夹角余弦、列联系数等。2.聚类分析法简介研究样品间的关系常用两种方法:一种是距离法。它将每一样品看成为m维空间的一个点〔m是样品的指标个数〕,这样就将研究样品间的关系变为研究m维空间中点与点之间的关系。而点与点之间的关系常用距离来表示,并根据点与点间的距离进行分类,即将距离较近的点归为一类,而将距离较远的点归为不同的类。另一种是相似系数法。相近样品的相似系数接近1〔或-1〕,而彼此无关的样品的相似系数接近于0,这样就可以根据样品的相似系数的值分为不同的类。聚类分析方法大致归纳如下:1)系统聚类法:先将n个元素〔样品或变量〕看成n类,然后将性质最接近〔或相似程度最大〕的2类合并为一个新类,得到n-1类。再从中找出最接近的2类加以合并变成了n-2类。如此下去,最后所有的元素全聚在一类之中。2〕调优法:这种方法是先将样品做一个初始的分类,然后按照某种最优的原那么逐步调整,一直到调整的分类比较合理为止。但这种方法,当初始分类不同时,对最终分类结果会有影响。该法可用SAS提供的FASTCLUS过程实现。此过程主要用于大数据集的聚类,观测数应在100~10万之间。3〕图论法:这种方法是从几何观点来考虑分类问题,即应用图论的观点将n个样品看成m维空间的n个点〔n为样品个数〕,点与点间用直线连接,从而构成m维空间的点的连接图,再应用图论的观点将样品点在m维空间作最小支撑树,最终到达分类目的。7.2TREE过程
语句格式:PROCTREE选择项;BYVARIABLES;COPYVARIABLES;RUN;假设输入的数据集是由CLUSTER或VARCLUS过程生成的,那么只有PROCTREE语句是必须的。7.3应用举例
7.3.1用VARCLUS过程实现变量聚类分析3.应用举例例7.1〔数据来自《数据分析》范金城梅长林编著科学出版社〕。下表数据为某年各地农民生活费用支出数据。其中:num序号、area地区、x1食品、x2衣着、x3燃料、x4住房、x5生活用品及其它、x6文化生活效劳支出。试对这些指标作变量聚类分析。专业结论:结合生活常识发现:将6个变量指标分为4类比较合理,即第1类中含x1食品、x4住房、x5生活用品及其它,这三个变量属于居民根本生活消费有关的变量。第2类中含x3燃料,第3类中含x6文化生活效劳支出,第4类中含x2衣着。通过这种聚类分析,我们可以将居民的消费支出按类进行分析,以获得不同消费支出情况,可进一步研究居民生活水平状况。7.3.2用CLUSTER过程实现样品聚类分析5.BY语句:与其它过程相同。6.结〔Tie〕说明在系统聚类的每一层,CLUSTER必须按最小距离把两类合并。但有时,对于离散型数据,可能会有几个相等的最小距离,在这种情况下,这种连结〔Tie〕必须按随机方式打破。类是采用内观测最小序号来识别,当两类要合并时,这两类有一个较大序号和一个较小序号,如果出现Tie,那么取其中较大序号中的最小者合并。在输出的Tie列中,以T指出最小距离的一个连结,空白说明没有连结。7.应用举例例7.2某研究者收集了24种菌株。其中17~22号为的标准菌株,它们分别取自牛、羊、犬、猪、鼠、绵羊,其他为未知菌株。获得各菌株的16种脂肪酸百分含量。试作样品聚类分析,以便了解哪些未知菌株与的标准菌株在全部指标上最为接近。7.3.3用FASTCLUS过程进行大样本聚类分析例7.3数据为世界上55个国家和地区1984年前在七个径赛工程上的女子记录。变量M100、M200、M400、M800、M1500、M3000、MARATHON分别表示100米、200米、400米、800米、1500米、3000米、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度校园广告牌设计、制作与维护综合服务合同
- 2025年度校园内广告张贴许可使用合同
- 2025年度公共设施室内装修施工合同
- 2025年度广告牌照明系统升级改造工程合同
- 2025年度建筑施工安全设备检测与维修合同
- 2025年度空调安装与系统集成服务合同
- 2025年度个人与企业签订的创业担保借款合同
- 2025年度节能灯照明灯具节能性能检测服务合同
- 2025年化工原料运输合同风险评估及应对方案
- 2025年度交换机模块及备份电源采购合同
- 学校农业教育体验项目方案
- 水利工程施工监理规范(SL288-2014)用表填表说明及示例
- 独家投放充电宝协议书范文范本
- 财税实操-反向开票的方式解读
- TwinCAT CNC实现对G代码.NC文件的加密与解密
- 《联合国教科文:学生人工智能能力框架》-中文版
- 2023年部编人教版六年级道德与法治下册全册课件【完整版】
- 2024-2030年中国二手医疗器械行业市场发展趋势与前景展望战略分析报告
- 世界近代史-对接选择性必修 课件-高考统编版历史一轮复习
- 20210年中考英语复习:阅读理解信息归纳摘录考题汇编(含答案)
- (正式版)SHT 3225-2024 石油化工安全仪表系统安全完整性等级设计规范
评论
0/150
提交评论