下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
聚类分析在实际中的应用综述摘要:近几年来,模式识别技术在许多领域已得到或正得到卓有成效的应用。它所研究的理论和方法在许多科学和技术领域中得到了广泛的重视,推动了人工智能系统的发展,扩大了计算机应用的可能性。聚类分析是非监督模式识别的重要分支,在模式识别、数据挖掘、计算机视觉以及模糊控制等领域具有广泛的应用,也是近年来得到迅速发展的一个研究热点,本文通过具体实例说明了聚类在模式识别中的一些应用。关键字:聚类分析,模式识别引言聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用 k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如 SPSS、SAS等。从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。聚类分析与模式识别的概念聚类分析聚类分析定义对一批没有标出类别的模式样本集,按照样本之间的相似程度分类,相似的归为一类,不相似的归为另一类,这种分类称为聚类分析,也称为无监督分类。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用 k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练
实例,需要由聚类学习算法自动确定标记,而分类学习的实例或 数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。2.1.2聚类分析的流程及数据来源聚类分析法的主要流程包括[2]:数据预处理、为衡量数据点间的相似度定义一个距离函数、聚类或分组和评估输出,用流程图描述如图1所示。图1聚类分析流程图聚类分析的源数据通常是待聚类或分组的数据。对机械故障模式识别而言,首先要获取关于本机组的大量运行参数,既要有机器平稳运行、正常工作时的数据,更要有机器出现故障时的数据,并且获知故障的类别。这样,由已知故障类别、故障发生时的各运行参数、历史记录组成的数据库便构成了数据挖掘的训练学习样本库。这里用到的数据就是设备的点检数据。聚类分析的方法及其应用范围直接聚类法先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。最短距离聚类法:最短距离聚类法,是在原来的mXm距离矩阵的非对角元素中找出,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。最远距离聚类法最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式不同。最远距离聚类法所用的是最远距离来衡量样本之间的距离。具体例子说明聚类分析的应用聚类分析是数据挖掘领域最常用的技术之一。所谓聚类就是将物理或抽象对象的集合组成为由类似的对象组成的多个类或簇的过程。由聚类生成的簇是一组数据对象的集合,同一簇中的对象尽可能相似,而不同簇中的对象尽可能相异。通过聚类人们可以发现数据分布的一些特征。目前,聚类分析已被广泛应用于数据挖掘、图像分割、模式识别等研究领域。如在商务上,聚类能帮助市场分析人员从客户基本信息中发现不同的客户群,并且用购买模式来刻画不同的客户群特征。聚类分析还可以应用在其他挖掘算法的预处理步骤,如先对数据进行聚类,然后在得到的聚类结果上进行其他的研究和处理。目前,图书馆系统大多使用操作性数据库,在数据库中存储书目馆藏信息、文献流通信息、读者基本信息等数据。通过该系统可以查询读者、图书、借阅记录等信息。图书聚类分析在进行图书聚类分析的过程中,根据图书总计流通次数和当年流通次数对图书进行聚类分析。通过图书聚类分析可以得到哪些图书借阅频率较高,哪些图书借阅频率较低,可以反映出馆藏图书的利用情况和读者对图书的兴趣,从而制定出相应的决策,有针对性地丰富馆藏资源和优化图书馆的馆藏布局。根据系统实际数据应用本文提供的K-均值改进算法进行图书聚类分析实验,步骤如下:4.1.1数据预处理据统计,数据预处理所花费的时间和成本占数据挖掘全过程的60%~80%,其余的工作占20%~40%,由此可见,提高数据预处理的效率成为数据挖掘工作中的重中之重。数据预处理主要包括数据清洗、数据集成、数据转换和数据消减。根据数据预处理的方法,结合论文所需要解决的问题可知,主要属性均不可以为空值。若这些相关属性出现空值,将根据表的属性以及挖掘的内容将空值进行填充。4.1.2对图书数据进行聚类分析在图书聚类分析过程中,设置聚类个数为3,采用K-均值改进算法对上面的图书被借阅次数进行聚类挖掘,可以得出图书聚类统计结果(表4)和图书聚类详细情况(表5)的数据。此挖掘结果中CLU_ID字段中的1、2、3分别表示利用率较高图书、利用率一般图书和利用率较低图书。图书聚类详表说明如下:以第一条记录为例,它是指索书号为TP312/370的图书总计被借阅85次,该图书属于利用率较高图书。图书聚类统计结果表解释如下:同样以第一条记录为例,它是指在抽取的1000种图书中共有678种图书属于利用率较低图书,该类图书平均借阅次数为3.94次。4.1.3结果分析根据挖掘结果分析可以得出借阅频率高与低的图书的清单,从而可以反映出读者利用图书的况,也可以反映出采访人员对全校师生读书喜好的把握程度,以及图书经费是否得到合理的使用。以此图书聚类分析结果为依据,可以从3个不同的类别中寻找各类图书群体的共性,来分析每类图书利用率高或底的具体原因,同时图书聚类分析为关联规则挖掘做好前期准备工作。3.2读者聚类分析在进行读者聚类分析的过程中,我们根据读者借阅图书次数来对读者进行聚类分析。4.2.1数据预处理数据预处理步骤与图书聚类数据预处理过程相同。本例以信电学院2005~2006级学生为例,选取其中500名读者进行聚类分析。实现语句为SQL2:SQL2:SELECTTOP500CERT_ID,TOTAL_LEND_QTY,YEAR_LEND_QTYFROMREADERWHEREDEPT='电信学院'ANDLEFT(CERT_ID,4)='2005'ORLEFT(CERT_ID,4)='2006'4.2.2对读者数据进行聚类分析在本例的读者聚类分析研究过程中,设置聚类个数为3,同样采用K-均值改进算法,对读者借阅图书册数进行聚类挖掘可以得出读者聚类统计结果和读者聚类详细情况的数据。此挖掘结果中CLU_ID字段中的1、2、3分别表示活跃读者、普通读者、不活跃读者。读者聚类详表说明如下:以第一条记录为例,它是指证件号为20053372的读者总计借阅图书360册,该读者属于活跃读者。读者聚类统计结果表解释如下:同样以第一条记录为例,它是指在抽取的500名读者中共有299名属于不活跃读者,该类读者的平均借阅总量为29.49册。4.2.3结果分析分析结果可以使我们得出不同类中读者对图书的利用状况,为此我们可以打破以往按照学生类型(硕士、本科、专科)来制定相关借阅标准的惯例,而根据读者聚类分析得出的聚类结果为依据来制定相应借阅规则,活跃读者的借阅册数可以增加,不活跃读者借阅册数相应减少,以此来满足不同读者群的需求,同时也可以提高图书资源的利用率。我们也可以据此结果制定针对不同读者群开展不同服务的计划,分析活跃读者的借阅习惯,有针对性地为活跃读者推荐他们所关注的图书;可以针对不活跃读者开展问卷调查,了解其借阅图书较少的根源以及他们关注哪方面的图书,并听取他们的建议,以此来进一步丰富、优化图书馆馆藏资源。总结聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。比如说现在要把n个产品按产品的m个指标继续聚类,因为产品可能之前的特色是不一样的。而这个时候影响产品的因素有m个,不可能一个一个的考虑,那样是分不出类来的。所以只能对产品的m个指标综合考虑,采用SPSS中的样本聚类方法,就可以直接将产品分好类。并且从分析结果还可以看出各类产品的特色分别是什么。。就是最主要的分类标准是什么。聚类分析不仅可以用于样本聚类,还可以用于变量聚类,就是对m个指标进行聚类。因为有时指标太多,不能全部考虑,需要提取出主要因素,而往往指标之间又有很多相关联的地方,所以可以先对变量聚类,然后从每一类中选取出一个代表型的指标。这样就大大减少了指标,并且没有造成巨大的信息丢失。聚类分析是研究“物以类聚”的一种科学有效的方法。做聚类分析时,出于不同的目的和要求,可以选择不同的统计量和聚类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医院科室成本控制培训
- 学校传染病培训
- 四川省绵阳市游仙区富乐实验中学2023-2024学年七年级下学期期中考试数学试卷(含答案)
- 2024-2025学年九年级上学期期中考试英语试题
- 2024年山东省淄博市中考历史试题卷(含答案解析)
- T-XTHSCYXH 001-2024 鲜活仙桃黄鳝
- Windows Server网络管理项目教程(Windows Server 2022)(微课版)课件项目4 DNS服务器的配置与管理
- 高中物理第十七章波粒二象性综合测试课件新人教版选修3-
- 数据库与Access资料
- 六年级心理健康表格式教案
- 地下管线保护措施课件
- 智慧医院可行性研究报告
- 危险源辨识与风险评价记录文本表
- 《建筑工程设计文件编制深度规定》2016版
- 广西壮族自治区社会组织变更登记表【模板】
- 视觉设计流程与规范1
- 餐饮服务质量监管与程序
- G414(五) 预应力钢筋混凝土工字形屋面梁
- ISO50001能源管理体系简介(课堂PPT)
- PROE5.0布线设计基本操作
- (完整版)小学一年级10以内数的分解与组合练习题.doc
评论
0/150
提交评论