




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2023/2/1数据仓库与数据挖掘1第6章数据聚类2023/2/1数据仓库与数据挖掘26.1引例数据分类分类是在已经知道类标号的训练集上进行分类器工作数据聚类聚类是对没有类标号的数据集进行处理.2023/2/1数据仓库与数据挖掘36.1引例样本序号描述属性1描述属性2x113x216.5x31.54x44.57.5x548.5x65.59x74.58聚类分析的数据集没有类别属性2023/2/1数据仓库与数据挖掘46.1引例聚类分析的定义聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程.聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度.2023/2/1数据仓库与数据挖掘56.1引例聚类分析中数据集的表示X={(xi)|i=1,2,…,total}数据样本xi用d维特征向量xi=(xi1,xi2,…,xid)来表示xi=(xi1,xi2,…,xid),其中xi1,xi2,…,xid分别对应d个描述属性A1,A2,…,Ad的具体取值2023/2/1数据仓库与数据挖掘66.2聚类分析概述聚类分析的应用作为一个独立的工具,对未知类标号的数据集进行划分;作为其他数据挖掘技术如数据分类的预处理工作;其他应用如科学数据;商业领域;生物学方面;医疗诊断等领域;2023/2/1数据仓库与数据挖掘76.2聚类分析概述数据挖掘技术对聚类分析的要求:可伸缩性小数据集
大数据集处理不同类型属性的能力连续型二值离散型多值离散型混合类型2023/2/1数据仓库与数据挖掘86.2聚类分析概述数据挖掘技术对聚类分析的要求:发现任意形状聚类的能力欧氏距离曼哈顿距离倾向于划分为相近大小和密度的球型聚类;实际数据集可能是任意形状的;2023/2/1数据仓库与数据挖掘96.2聚类分析概述数据挖掘技术对聚类分析的要求:减小对先验知识和用户自定义参数的依赖性处理噪声数据的能力孤立点缺失值错误值可解释性和实用性低维度聚类结果容易理解高维度聚类结果不容易理解2023/2/1数据仓库与数据挖掘106.2聚类分析概述通常聚类算法可以分为以下几类:划分聚类方法(K-Means)
层次聚类方法凝聚型层次聚类分解型层次聚类基于密度的聚类方法基于网格的聚类方法2023/2/1数据仓库与数据挖掘116.3聚类分析中相似度的计算方法2023/2/1数据仓库与数据挖掘126.3聚类分析中相似度的计算方法2023/2/1数据仓库与数据挖掘136.3聚类分析中相似度的计算方法2023/2/1数据仓库与数据挖掘146.3聚类分析中相似度的计算方法2023/2/1数据仓库与数据挖掘156.3聚类分析中相似度的计算方法聚类分析将数据集划分为多个类别,要求每个类别中任意两个样本的相似度较高,不同类别间的样本之间相似度较低.6.3.1连续型属性的相似度计算方法6.3.2二值离散型属性的相似度计算方法6.3.3多值离散型属性的相似度计算方法6.3.4混合类型属性的相似度计算方法2023/2/1数据仓库与数据挖掘166.3.1连续型属性的相似度计算方法连续型属性:指取值为连续值的属性,例如年龄、收入和距离等。假设数据集X={Xm|m=1,2,…total},X中的样本用d个属性A1,A2,…Ad来表示,并且d个描述属性都是连续型属性。即数据样本Xi=(Xi1,Xi2,…Xid),Xj=(Xj1,Xj2,…Xjd),样本Xi与Xj之间的距离用以下方式表示。2023/2/1数据仓库与数据挖掘176.3.1连续型属性的相似度计算方法欧氏距离(Euclideandistance)2023/2/1数据仓库与数据挖掘186.3.1连续型属性的相似度计算方法欧氏距离(Euclideandistance)2023/2/1数据仓库与数据挖掘196.3.1连续型属性的相似度计算方法曼哈顿距离(Manhattandistance)2023/2/1数据仓库与数据挖掘206.3.1连续型属性的相似度计算方法曼哈顿距离(Manhattandistance)2023/2/1数据仓库与数据挖掘216.3.1连续型属性的相似度计算方法明考斯基距离(Minkowskidistance)很明显,当q=1的时候?很明显,当q=2的时候?样本序号描述属性1描述属性21642753634465382023/2/1数据仓库与数据挖掘226.3.1连续型属性的相似度计算方法上述三种距离满足如下的数学性质:
2023/2/1数据仓库与数据挖掘236.3.2二值离散型属性的相似度计算方法数据样本的二值离散型属性的取值情况数据样本xi10合计数据样本xj1a11a10a11+a100a01a00a01+a00合计a11+a01a10+a00a11+a10+a01+a00A1A2A3A4A5A6A7A8A9Xi110010100Xj0110110012023/2/1数据仓库与数据挖掘246.3.2二值离散型属性的相似度计算方法对称的二值离散型属性不对称的二值离散型属性a00不重要,不必参与运算2023/2/1数据仓库与数据挖掘256.3.3多值离散型属性的相似度计算方法多值离散型属性的相似度年龄收入信誉度1老年高优2青年中良3中年低差4老年中优5青年中良6中年低良7中年中良8老年中良2023/2/1数据仓库与数据挖掘266.3.3多值离散型属性的相似度计算方法多值离散型属性的相似度d为数据集中的属性个数,u为样本xi和xj取值相同的属性个数2023/2/1数据仓库与数据挖掘276.3.3多值离散型属性的相似度计算方法多值离散型属性的相似度序号年龄学历收入1青年研究生高2青年本科低3老年本科以下中4中年研究生高D(x1,x2)=
?D(x1,x3)=
?2023/2/1数据仓库与数据挖掘286.3.3多值离散型属性的相似度计算方法多值离散型转化为二值离散型序号年龄学历收入1青年研究生高2青年本科低序号老年青年中年专科本科研究生高中低101000110020100101002023/2/1数据仓库与数据挖掘296.3.4混合类型属性的相似度计算方法对于包含混合类型属性的数据集的相似度通常有两种计算方法:将属性按照类型分组,每个新的数据集中只包含一种类型的属性;之后对每个数据集进行单独的聚类分析把混合类型的属性放在一起处理,进行一次聚类分析简单的复习请你来识别下,如下的数据适合进行分类还是聚类操作?序号属性1属性2x113x216.5x31.54x44.57.5序号属性1属性2分类x113C1x216.5C2x31.54C3x44.57.5C1DataSet1DataSet2虚拟场景沈经理小王说:最近的产品销售额似乎成下降趋势!答:是啊,但是我们的市场策略并没有变啊!说:现在的企业啊,是越来越重视客户关系的处理啊!竞争越来越激烈了啊!对了,我们的市场营销策略有区别对待客户吗?答:没有啊,我们对所有的客户都一视同仁啊!说:哦,我想我知道我们的问题出在哪里了?虚拟场景沈经理小王说:小王啊,交给你一个任务!尽管我们的客户很多,但是我希望你能帮我把客户分分类!然后啊,告诉市场部的同事,针对不同的客户,我们要采取不同的客户策略,我要看到接下来我们的销售额是要增长的。客户答:经理,好的。但是,我应该怎么样进行客户分类啊?呜呜呜。。。?虚拟场景小王说:我应该怎么样进行客户分类啊?呜呜呜。。。?说:你看,我们好多好多的客户啊。。。虚拟场景小王?购买次数购买金额购买频率年龄。。。520003/月28。。。840001/月35。。。虚拟场景Q1:为什么要分成3类?如果分成K类呢?Q2:不同的类之间有何特征呢?Q3:这种相似度是什么来衡量呢?同类之间有着相同的特征,相似度较高!点与点之间的距离!+++所有点的平均值Means2023/2/1数据仓库与数据挖掘366.4k-means聚类算法6.4.1k-means聚类算法的基本概念6.4.2SQLserver2005中的k-means应用2023/2/1数据仓库与数据挖掘376.4.1k-means聚类算法的基本概念K-Means?K代表什么?Means代表什么?K-Means聚类算法将各个聚类子集内所有数据样本的均值作为该聚类的代表点.2023/2/1数据仓库与数据挖掘386.4.1k-means聚类算法的基本概念K-Means不适合处理离散型,对于连续型效果较好.K-Means算法的思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而生成的每个聚类内紧凑,类间独立.简单的演示2023/2/1数据仓库与数据挖掘396.4.1k-means聚类算法的基本概念划分聚类方法对数据集聚类时的三个要点:要点1:选定某种距离作为数据样本间的相似性度量欧氏距离
曼哈顿距离明考斯基距离2023/2/1数据仓库与数据挖掘406.4.1k-means聚类算法的基本概念划分聚类方法对数据集进行聚类时包含三个要点:要点2:选择评价聚类性能的准则函数K-Means选择误差平方和准则函数来评价聚类性能.2023/2/1数据仓库与数据挖掘416.4.1k-means聚类算法的基本概念假设数据集合X包含k个聚类子集X1,X2..Xk,各个聚类子集中的样本数量分别为n1,n2,…nk;各个聚类子集的均值代表点(聚类中心)分别为m1,m2…mk,则误差平方和准则函数公式为:E=∑(∑||p-mi||)其中mi=∑ppєXii=1kpєXiX1X2X32023/2/1数据仓库与数据挖掘426.4.1k-means聚类算法的基本概念划分聚类方法对数据集进行聚类时包含三个要点:显然,若E值越大,说明误差越大,聚类结果越不好。因此,我们应该寻求使E最小的聚类结果,即在误差平方和准则下的最优结果。这种聚类通常称为最小方差划分。2023/2/1数据仓库与数据挖掘436.4.1k-means聚类算法的基本概念划分聚类方法对数据集进行聚类时包
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国冷铁铸件项目投资可行性研究报告
- 数字经济智慧谷项目发展潜力与可行性分析
- 2025年正面吊项目可行性研究报告
- 2025年服饰印花斜台流水线项目可行性研究报告
- 2025年搪玻璃填料箱项目可行性研究报告
- 农资市场营销基本概念论述
- 2025工厂职工安全培训考试试题附参考答案(综合题)
- 2025年工厂职工安全培训考试试题【培优】
- 心理咨询师考试中的注意力训练技巧分析试题及答案
- 2025年新版车间安全培训考试试题完整
- 医护人员手卫生知识培训课件
- 2025届高考作文写作素材:6月时事热点素材(适用话题+运用示例)
- 《有机化学》课件-电子效应
- QCT457-2023救护车技术规范
- 公对公车辆租赁合同范本
- HYT 262-2018 海水中溶解甲烷的测定 顶空平衡-气相色谱法(正式版)
- 普通植物病理学智慧树知到期末考试答案章节答案2024年东北农业大学
- 人事档案转递通知单
- 《离散数学》试题带答案
- 2024年一级建造师之一建矿业工程实务题库附答案(完整版)
- 宁德时代入职测评试题答案
评论
0/150
提交评论