K 均值聚类法_第1页
K 均值聚类法_第2页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、K-均值聚类法0聚类是对数据空间中数据对象进行分类,位于同一类中的数据对象之间的相似度较大,而位于不同类之间的数据对象差异度较大。聚类是一种无监督学习,能自动对数据集进行划分。常见的聚类算法:k-means,DBSCAN,CURE等算法。简单地讲,聚类的结果就是得到数据集中数据对象的类别信息。例如,将以下几种物品玫瑰、红枫、松树、老虎、大象、绵羊等进行聚类,就应该得到玫瑰、红枫、松树属于同一类,老虎、大象、绵羊属于一类,可以对这自己对这两类赋予标记,如“植物”、“动物”这两个标记分别代表聚类空间中的两个类。算法:第一步:选K个初始聚类中心,z1(1),z2(1),,zK(1),其中括号内的序号

2、为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定,例如可选开始的K个模式样本的向量值作为初始聚类中心。第二步:逐个将需分类的模式样本x按最小距离准则分配给K个聚类中心中的某一个zj(1)。假设i=j时,则,其中k为迭代运算的次序号,第一次迭代k=1,Sj表示第j个聚类,其聚类中心为zj。第三步:计算各个聚类中心的新的向量值,zj(k+1),j=1,2,K求各聚类域中所包含样本的均值向量:其中Nj为第j个聚类域Sj中所包含的样本个数。以均值向量作为新的聚类中心,可使如下聚类准则函数最小:在这一步中要分别计算K个聚类中的样本均值向量,所以称之为K-均值算法。第四步:若,j=1,2K,则

3、返回第二步,将模式样本逐个重新分类,重复迭代运算;若,j=1,2K,则算法收敛,计算结束聚类的用途是很广泛的。在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。聚类分析的算法可以分为划分法(PartitioningMethods)、层次法(HierarchicalMethods)、基于密度的方法(den

4、sity-basedmethods)、基于网格的方法(grid-basedmethods)、基于模型的方法(Model-BasedMethods)。聚类是数据挖掘的重要分支之一,引入模糊理论的模糊聚类分析为现实数据提供了模糊处理能力,在许多领域被广泛应用。在本文中,总结了模糊聚类的原则和通用的方法,讨论了常用的模糊聚类算法,讨论了这些算法的优缺点、存在的问题以及前景展望。模糊C-均值聚类算法是目前广泛使用的模糊聚类算法。但它也存在一些缺点,例如模糊C-均值(FCM)聚类算法受初始化影响较大,在迭代时容易陷入局部极小。本文从引入隶属度函数、引入消息熵和类中心的约束出发,研究了模糊C-均值的改进方

5、法。在此基础上,提出了一种改进的模糊C-均值聚类算法。其基本思想是:通过对数im据对象的模糊隶属度增加一个加权值,以及在算法中引入模糊聚类有效性函数对聚类数目c进行优选。为了证明改进FCM算法的实用性,我们将该算法应用于两个领域:网络入侵检测和Web日志挖掘。入侵检测是网络安全的第二道防线。在本文中,分析了入侵检测技术的要点,提出了一种基于改进FCM算法的网络入侵检测方法。该方法的优点是不需要标示或训练数据集。文中使用KDD99数据集作为实验数据,实验结果显示该方法检测未知入侵检测是有效的,而且它提高了入侵检测系统的检测率和误警率。最后,我们使用改进的模糊聚类算法来分析Web日志数据,以实现Web用户聚类,即根据用户的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论