聚类算法的应用_第1页
聚类算法的应用_第2页
聚类算法的应用_第3页
聚类算法的应用_第4页
聚类算法的应用_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类算法应用主讲:张旺01聚类算法的介绍02应用场景的介绍03三种聚类算法04图片分割目录聚类算法的介绍1何为聚类?俗话说:“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。所谓类,通俗地说,就是指相似元素的集合。何为聚类?“聚类”是无监督学习的一种,目标是通过对无标记训练样本的学习来届时数据内在的性质及其规律。聚类试图将数据集中的样本划分为若干个通常不相交的子集,每个子集称为一个“簇”。通过这样的划分,每个簇可能对应一些潜在的概念。常见的聚类算法有:K-Means(K均值)聚类K最近邻(KNN)分类算法(监督学习)均值漂移聚类(Meanshift)应用场景的介绍2应用场景的介绍聚类的用途是很广泛的。在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。应用场景的介绍图片分类

现实世界中我们往往容易获得大量的无标签的数据集,如果我们能够从无标签数据中学的模式,那么可以不必花费大量时间和金钱来标记标签数据用于监督学习,因此我们可以将聚类的方法应用在图片分类上,使机器能够自动的将图片进行分类。图片分割

图像分割技术已在实际生活中得到广泛的应用。例如:在机车检验领域,可以应用到轮毂裂纹图像的分割,及时发现裂纹,保证行车安全;在生物医学工程方面,对肝脏CT图像进行分割,为临床治疗和病理学研究提供帮助。应用场景的介绍网页聚类

网页聚类是网络挖掘的一种重要方法,用于从大量半结构化数据(如网页)中发现未知知识或信息。实际上,HTML页面是存储在后台数据库中的数据和HTML内容模板的结合体,在网站内部的网页大多都是由一套相同的内容模板生成的,因此可以认为网页的设计是有一定规律的.通过这个规律,使用一定的聚类算法来对网页进行分类。社交网络聚

社交网络是一种以用户为节点、以用户关系为边的网络结构,用户的兴趣、行为、功能等关系使社交网络中存在多个社区或簇。社交网络的结构对于探求信息的传播方式和获取价值信息(如广告投放、潜在商机发现)等具有重要价值和意义。大部分社交网络均可抽象为无向或有向图,研究这些图结构,有利于挖掘出其中潜在的有价值信息。电商用户聚类

现如今,网上购物已经成为了人们日常生活不可或缺的一个部分。在网上购物的情境下,买家和卖家不再需要进行面对面的交易,这给卖家直观的掌握顾客的需求和反馈提供了一定的障碍。但在另一方面,网上购物为数据分析提供了便利。顾客在网上发生的所有购物行为都被计算机记录在案,这使得商家能够通过这些数据分析顾客的行为从而了解消费者的需求和偏好,甚至能够预测顾客的购买行为。三种聚类算法3K-means聚类算法k均值聚类算法(k-meansclusteringalgorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小K-means聚类算法算法流程(1)选取K个点做为初始聚集的簇心(也可选择非样本点);(2)分别计算每个样本点到K个簇核心的距离(这里的距离一般取欧氏距离或余弦距离),找到(3)离该点最近的簇核心,将它归属到对应的簇;所有点都归属到簇之后,M个点就分为了K个簇。之后重新计算每个簇的重心(平均距离中心),将其定为新的“簇核心”;(4)反复迭代2-3步骤,直到达到某个中止条件。KNN算法KNN算法又称k近邻分类(k-nearestneighborclassification)算法。它是根据不同特征值之间的距离来进行分类的一种简单的机器学习方法,它是一种简单但是懒惰的算法。他的训练数据都是有标签的数据,即训练的数据都有自己的类别。KNN算法主要应用领域是对未知事物进行分类,即判断未知事物属于哪一类,判断思想是,基于欧几里得定理,判断未知事物的特征和哪一类已知事物的的特征最接近。它也可以用于回归,通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。KNN算法算法过程:1)计算测试数据与各个训练数据之间的距离;2)按照距离的递增关系进行排序;3)选取距离最小的K个点;4)确定前K个点所在类别的出现频率;5)返回前K个点中出现频率最高的类别作为测试数据的预测分类核心思想:KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于哪个类别Meanshift算法meanShift,均值漂移,在聚类、图像平滑、分割、跟踪等方面有着广泛的应用。meanShift这个概念最早是由Fukunage在1975年提出的,其最初的含义正如其名:偏移的均值向量;但随着理论的发展,meanShift的含义已经发生了很多变化。如今,我们说的meanShift算法,一般是指一个迭代的步骤,即先算出当前点的偏移均值,然后以此为新的起始点,继续移动,直到满足一定的结束条件。Meanshift算法算法过程:1、在未被标记的数据点中随机选择一个点作为中心center;2、找出离center距离在bandwidth之内的所有点,记做集合M,认为这些点属于簇c。同时,把这些求内点属于这个类的概率加1,这个参数将用于最后步骤的分类3、以center为中心点,计算从center开始到集合M中每个元素的向量,将这些向量相加,得到向量shift。4、center

=

center+shift。即center沿着shift的方向移动,移动距离是||shift||。5、重复步骤2、3、4,直到shift的大小很小(就是迭代到收敛),记住此时的center。注意,这个迭代过程中遇到的点都应该归类到簇c。6、如果收敛时当前簇c的center与其它已经存在的簇c2中心的距离小于阈值,那么把c2和c合并。否则,把c作为新的聚类,增加1类。6、重复1、2、3、4、5直到所有的点都被标记访问。7、分类:根据每个类,对每个点的访问频率,取访问频率最大的那个类,作为当前点集的所属类。核心思想求解一个向量,使得圆心一直往数据集密度最大的方向移动。说的再简单一点,就是每次迭代的时候,都是找到圆里面点的平均位置作为新的圆心位置图片分割4图片分割使用k-means对图像进行分割,我们将每个像素点划分到不同的簇上,并用每个簇质心的值来代替这个簇的所有像素点的值,实现简单的图像分割算法流程:Step1:初始化每个类别的中心点:

这里根据图像通道数进行初始化,如果是rgb图像,每个类别的中心点需

要包含三个通道,每个通道可以看作原始k-means聚类的一个维度(即特征的数量,有多少个属性).Step2:循环以下,直到每次计算中心点后其值不变化2.1.根据中心点聚类:计算图像中每个像素点与每个类别中心点的距离,距离最小的那个类别为该像素点所属的类别.2.2.根据每个类别更新中心点:根据每个类别的所有像素点,计算这些像素点每个通道的均值,以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论