大数据聚类分析

上传人：贾*** IP属地：浙江上传时间：2022-08-23 格式：PPTX 页数：53 大小：1.07MB 积分：25 举报 版权申诉

已阅读5页，还剩48页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、大数据聚类分析技术创新，变革未来大数据技术概论什么是聚类分析？聚类分析将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程聚类（簇）：数据对象的集合在同一个聚类（簇）中的对象彼此相似不同簇中的对象则相异什么是聚类分析？聚类是一种无指导的学习：没有预定义的类编号聚类分析的数据挖掘功能作为一个独立的工具来获得数据分布的情况作为其他算法（如：特征和分类）的预处理步骤聚类分析的典型应用模式识别空间数据分析商务应用中万维网聚类分析的典型应用市场销售: 帮助市场人员发现客户中的不同群体，然后用这些知识来开展一个目标明确的市场计划；土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区；保险:

2、对购买了汽车保险的客户，标识那些有较高平均赔偿成本的客户聚类分析的典型应用城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅；地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类；什么是好的聚类分析？什么是好的聚类分析？一个好的聚类方法要能产生高质量的聚类结果簇，这些簇要具备以下两个特点：高的簇内相似性低的簇间相似性聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及其具体实现；聚类方法的好坏还取决于该方法发现隐含模式的能力；数据挖掘对聚类分析的要求 (1)可扩展性(可伸缩性)大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率，但是处理不同数据类

3、型的能力数字型；二元类型，分类型/标称型，序数型,比例标度型等等发现任意形状的能力基于距离的聚类算法往往发现的是球形的聚类，其实现实的聚类是任意形状的数据挖掘对聚类分析的要求 (1)用于决定输入参数的领域知识最小化对于高维数据，参数很难决定，聚类的质量也很难控制处理噪声数据的能力（抗噪性、健壮性、容错性）对空缺值、离群点、数据噪声不敏感数据挖掘对聚类分析的要求 (2)对于输入数据的顺序不敏感同一个数据集合，以不同的次序提交给同一个算法，应该产生相似的结果高维性高维的数据往往比较稀松，而且高度倾斜数据挖掘对聚类分析的要求 (2)基于约束的聚类找到既满足约束条件，又具有良好聚类特性的数据分组可解释

4、性和可用性聚类要和特定的语义解释和应用相联系聚类分析中的数据类型和距离计算聚类分析中的数据类型许多基于内存的聚类算法采用以下两种数据结构数据矩阵（对象-变量结构,n*p）：用p个变量来表示n个对象也叫二模矩阵，行与列代表不同实体聚类分析中的数据类型相异度矩阵（对象-对象结构,n*n）：存储n个对象两两之间的临近度也叫单模矩阵，行和列代表相同的实体相异度计算许多聚类算法都是以相异度矩阵为基础，如果数据是用数据矩阵形式表示，则往往要将其先转化为相异度矩阵。相异度计算许多聚类算法都是以相异度矩阵为基础，如果数据是用数据矩阵形式表示，则往往要将其先转化为相异度矩阵。相异度d(i,j)的具体计算会因所使

5、用的数据类型不同而不同，常用的数据类型包括：区间标度变量、二元变量、标称型、序数型、比例标度型变量、混合类型的变量区间标度变量区间标度度量是一个粗略线性标度的连续度量，比如重量、高度等选用的度量单位将直接影响聚类分析的结果，因此需要实现度量值的标准化，将原来的值转化为无单位的值，给定一个变量f的度量值，可使用以下方法进行标准化：区间标度变量计算平均的绝对偏差其中计算标准化的度量值(z-score)使用平均的绝对偏差往往比使用标准差更具有健壮性对象间的相似度和相异度(1)对象间的相似度和相异度是基于两个对象间的距离来计算的Euclidean距离Manhattan距离对象间的相似度和相异度(2)M

6、anhattan距离和Euclidean距离的性质d(i,j) 0d(i,i) = 0d(i,j) = d(j,i)d(i,j) d(i,k) + d(k,j)对象间的相似度和相异度(2)Minkowski距离上式中，q为正整数，如果q=1则表示Manhattan距离，如果q=2则表示Euclidean距离二元变量 (1)一个二元变量只有两种状态：0或1；e.g. smoker来表示是否吸烟一个对象可以包含多个二元变量。二元变量的可能性表：如何计算两个二元变量之间的相似度？Object iObject j二元变量 (2)对称的 VS. 不对称的二元变量对称的二元变量指变量的两个状态具有同等价

7、值，相同权重；e.g. 性别基于对称的二元变量的相似度称为恒定的相似度，可以使用简单匹配系数评估它们的相异度：二元变量 (2)不对称的二元变量中，变量的两个状态的重要性是不同的；e.g. HIV阳性 VS HIV阴性基于不对称的二元变量的相似度称为非恒定的相似度，可以使用Jaccard系数评估它们的相异度示例假定一个病人记录表如下：姓名发烧咳嗽检查1检查2检查3检查4张明是否不正常正常正常正常王枚是否不正常正常不正常正常李力是是正常正常正常正常.假定一个病人记录表如下：姓名发烧咳嗽检查1检查2检查3检查4张明是否不正常正常正常正常王枚是否不正常正常不正常正常李力是是正常正常正常正常.示例假定一

8、个病人记录表如下：姓名发烧咳嗽检查1检查2检查3检查4张明是否不正常正常正常正常王枚是否不正常正常不正常正常李力是是正常正常正常正常.从左边的计算知道：（1）李力和王枚不大可能有相同疾病，因为相异很高；（2）张明和王枚最可能得相同的疾病示例标称变量标称变量是二元变量的推广，它可以具有多于两个的状态值。比如：红、绿、蓝、黄。对于标称型变量，值之间的排列顺序是不重要的。计算标称变量所描述的对象（一个对象可以包含多个标称变量）i和j之间的相异度可用如下方法：标称变量方法一：简单匹配方法m: 匹配的数目，即对象i和j取值相同的变量的数目 (也可加上权重)方法二：对M个标称状态中的每个状态创建一个新的二

9、元变量，并用非对称二元变量来编码标称变量红绿蓝黄取值0100绿0010蓝。序数型变量一个序数型变量可以是离散的或者是连续的序数型变量的值之间是有顺序关系的，比如：讲师、副教授、正教授。假设f是描述n个对象的一组序数型变量之一，f的相异度计算如下：序数型变量1. 设第i个对象的f值为xif，则用它在值中的序 rif 代替2. 将每个变量的值域映射到0,1的空间3. 采用区间标度变量的相异度计算方法计算f的相异度比例标度变量一个比例标度型变量xif是在非线性的标度中所取的正的度量值，例如指数标度，近似的遵循以下公式：AeBt or Ae-Bt 计算比例标度型变量描述的对象之间的相异度采用与区间标度

10、变量同样的方法标度可能被扭曲，效果往往不好对比例标度型变量进行对数变化之后进行与区间标度变量的相似处理yif = log(xif)将xif看作连续的序数型数据，将其秩作为区间标度的值来对待混合类型的变量在真实的数据库中，数据对象不是被一种类型的度量所描述，而是被多种类型（即混合类型）的度量所描述，包括：区间标度度量、对称二元变量，不对称二元变量，标称变量，序数型变量和比例标度变量计算混合型变量描述的对象之间的相异度，一般有以下两种方法6、混合类型的变量真实数据库的元组的变量往往是混合的。处理方法为：（1）将变量按类型分组，对每种类型的变量进行单独的聚类分析。如果这些分析得到的结果是兼容的，则该

11、方法是可行的。实际应用中，这种情况比较少见。 6、混合类型的变量（2）将所有变量一起处理，只进行一次聚类。将不同类型的变量组合在单个相异度矩阵中，把所有有意义的变量转换到共同的值域区间0.0，1.0上。假设数据集包含p个不同类型的变量，对象i和j之间的相异度d(i，j)定义为：类间距离距离函数都是关于两个样本的距离刻画，然而在聚类应用中，最基本的方法还有计算类间的距离。类间距离类间距离的度量主要有：最短距离法：定义两个类中最靠近的两个元素间的距离为类间距离。最长距离法：定义两个类中最远的两个元素间的距离为类间距离。中心法：定义两类的两个中心间的距离为类间距离。组间平均连接：组内间平均连接：

12、离差平方和离差平方和主要的聚类方法主要的聚类方法聚类分析算法种类繁多，具体的算法选择取决于数据类型，聚类的应用和目的，常用的聚类算法包括：划分方法层次的方法基于密度的方法基于网格的方法基于模型的方法实际应用中的聚类算法，往往是上述聚类方法中多种方法的整合主要的聚类方法聚类分析算法种类繁多，具体的算法选择取决于数据类型，聚类的应用和目的，常用的聚类算法包括：划分方法层次的方法基于密度的方法基于网格的方法基于模型的方法实际应用中的聚类算法，往往是上述聚类方法中多种方法的整合（1）基于划分的方法划分算法的思想是，将给定待挖掘数据集中的数据对象划分成 K 组（k N，N代表数据集中对象数目），每一组

13、表示一个聚类的簇。并且要满足任何一个数据对象仅可以属于一个聚类，每个聚类中至少具有一个数据对象。 K-means 算法是划分算法中两个比较经典的算法。其他很多划分算法都是从这两个算法演变改进而来的。3.聚类分析算法分类(2)基于层次的聚类算法层次的方法按数据分层建立簇,形成一棵以簇为节点的树。根据层次如何形成，层次的方法可以分为凝聚的和分裂的。凝聚的方法，也称自底向上的方法，该方法从数据点作为个体簇开始，每一步合并两个最接近的簇，直到所有的簇合并为一个(层次的最上层)，或者达到一个终止的条件。3.聚类分析算法分类(2)基于层次的聚类算法分裂的方法，也称为自顶向下的方法，它与凝聚的方法正好相

14、反，该方法从包含所有点的一个簇开始，每一步分裂一个簇，最终每个对象在单独的一个簇中，或者达到一个终止条件，比如达到某个希望的簇数目，或者两个最近的簇之间的距离超过了某个闭值。缺点：合并或分裂的步骤不能被撤销3.聚类分析算法分类(3)基于密度的方法基于距离的聚类方法的缺点：只能发现球状的簇，难以发现任意形状的簇。目前的研究发现基于密度的聚类方法在发现任意形状的数据集方面具有非常有力的效果。简单来说，基于密度的聚类算法就是将数据对象划分为成被低密度区分隔开的高密度区。3.聚类分析算法分类(3)基于密度的方法优点：基于密度的聚类，有非常优秀的抵抗噪声的效果，而且在挖掘任意形状的簇方面的能力也非常优秀。缺点：虽然基于密度的聚类在发现任意形状的簇的方面具有良好的效果，但是他依然需要用户输出必要的参数，并且其可扩展性也具有一定的局限性。典型的基于密度的聚类方法包括DBSCAN和OPTICS。3.聚类分析算法分类（4）基于网格的方法基于网格算法的基本是思想是把数据空间的每个属性分割成有限个相邻的单元的网格结构，以单个单元为对象创见网格单元的集合，在此一切都是以划分的网格单元为对象进行操作。基于网格的算法涉及到两方面参数

人人文库> 全部分类> 专业文献 > IT计算机

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据聚类分析

文档简介

温馨提示

最新文档

评论

大数据聚类分析

文档简介

温馨提示

最新文档

评论

相关文档