![第九届机器学习理解相似度度量各种方法与相互_第1页](http://file4.renrendoc.com/view/073770747034f7d2eae0c6dd965dee46/073770747034f7d2eae0c6dd965dee461.gif)
![第九届机器学习理解相似度度量各种方法与相互_第2页](http://file4.renrendoc.com/view/073770747034f7d2eae0c6dd965dee46/073770747034f7d2eae0c6dd965dee462.gif)
![第九届机器学习理解相似度度量各种方法与相互_第3页](http://file4.renrendoc.com/view/073770747034f7d2eae0c6dd965dee46/073770747034f7d2eae0c6dd965dee463.gif)
![第九届机器学习理解相似度度量各种方法与相互_第4页](http://file4.renrendoc.com/view/073770747034f7d2eae0c6dd965dee46/073770747034f7d2eae0c6dd965dee464.gif)
![第九届机器学习理解相似度度量各种方法与相互_第5页](http://file4.renrendoc.com/view/073770747034f7d2eae0c6dd965dee46/073770747034f7d2eae0c6dd965dee465.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本次目 DensityPeak密度最大值考虑谱聚类和PCA的关聚类的无监相似度/距离计算方法总闵可夫斯基距离Minkowski/欧式距
distX,YAA
xi
1p杰卡德相似系数
JA,B
A aTb余弦相似度(cosine
cos
an
Pearson相似系
XY
n
22
nn
相对熵(K-L距离
x
22
inger距
Dp||q
1
px
qx
inger
1
1
pxqx
2
DH
dx
ppxxqxqx
余弦相似度与Pearson相似系n
xT
xixnn xnn
xix
yiyn 2niXy2iYcovX,Y
EX Y
xi
X
YXY
X
XY这即解释了为何文档间求距离使用夹角余弦——因为这一物量表征了文档去均值化后的随机向量间相关系数聚类的每一个簇至少包含一个对每一个对象属于且仅属于一个将满足上述条件的k个簇称作一个合理划k-Means算假定输入样本为S=x1,x2,...,xm,则算法步骤为选择初始的k个类别中心对于每个样本xi,将其标记为距离类别中心最近的类别,即
xi将每个类别中心更新为隶属该类别的所有样本的均jj|cj
重复最后两步,直到类别中心的变化小于某阈值k-Means过
对k-Means的思改成求数组的中位数3,在该实例中更为稳妥这种聚类方式即k-Mediods聚类(K中值距离如何避免k-Means是初值敏感二分k-k-Means的公式化解记K个簇中心为12,
N1N2,NN
1
2,
2
xi j1N对关于12,kN
N令令
xi
N N如果使用其他相似度/距离度xT如:余弦相似度:cosx,
xx xx NN
1
2 1,
2,
2cos
j1N对关于12,kN
令令
j
j
j?Mini-batchk-Means算法描Mini-batchk-Means效k-Means适用范
k-Means++算法测k-Means聚类方法总优点缺可作为其他聚类方法的基础算法,如谱聚Canopy算 出色,算法描述如下,x1x2xm形成列表L;构造xj1jm的空列表Cj计算L中样本xj与c的距离d若djr1,则在Lxj,将Cj赋值为否则,若djr2,则将Cj增加Canopy的调
聚类的
ifHC
h
HC
一个簇只包含一个类别的样本,则满足均
ifHK
c
HK|CHK
同类别样本被归类到相同簇中,则满足完
v
1hh均一性和完整性 平CCsumX1Xn21n22XrnrssumNXX1,X2,XrYY1,Y2,Ys
nijCCi,2C 2i2aCbjC2ni12 2iC2j 2C22ijijij
XiARI
Index MaxIndex互信息/MIX,Y
rr
ssj
Pi,jPiPj
NMIX,Y
MIX,YHXHXHYij
minai,bi
ai!bj
a!Nb EMI
PXxMIX,Y
MI
x!Nab xmax1,aibiN
x
MIX,YEMIX,YmaxHX,HYEMIX,Y轮廓系数etter.Rousseeuw于1986提出。aiai说明样本越应该被聚类到该簇。将ai称为样本的。计算样本到其他某簇jbj,j簇间不相似度
bi1,i轮廓系数根据样本i的簇内不相似度ai和簇间不相似度bi,义样本i的轮廓系数
ai,
aisi
bi
si
ai
ais-1,则说明i近似为0,则说所有样本的i层次聚类方到某种条件满足为止。具体又可分为:凝聚的层次聚类:AGNES算的层次聚类:DIANA算AGNES和DIANA算AGNES(AGglomerativeNESting)算法最初将每个对DIANA(DIvisive 层次聚AGNES中簇间距离的不同定最小距最大距离平均距离方差密度聚类方于某阈值,则将该样本添加到最近的簇中。(凸)的聚类的缺点,可发现任意形状的聚类,DBSCAN算 DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)DBSCAN算法的若对象的ε-邻域:给定对象在半径ε内的区 邻域至少包含m个对象,则称该对象为对象的ε-邻域内,而q是一个对象,我们说对象p从DBSCAN算法的若pi∈D,(1≤in),pi+1是从pi关于ε和m直接密度可达的,则对DBSCAN算DBSCAN算法流程 寻找并合 有上述算法可知每个簇至少包含一 对象 参数
参数
密度最密度最大值聚类是一种简洁优美的聚类算法可以识别各种形状的类簇,并且参数很容易确定。定义:局部密度i
dij
其中,x
xdc是一个截断距离ρi即到对象i的距离小于dc的对象的个数。由于该算法只对ρi的相对值敏感,所以对dc的选择是定义:高局部密度点距离局部密度的其他定
其中,x
xj
2
i
exp ij
jIS
dci
KKjK
dij
di
di,K1高局部密度点距高局部密度点距离i
ijj:j簇中心的识DensityPeak与决策图Decision 的分布,右图是以ρ为横坐标,以δ为纵坐标绘制的决策图。可以看到,1和10边界和噪声的重认(borderregion),亦即划分给该簇但是距离其他簇的 不同数据下密度最大值聚类的效AffinityAP算法调复习:实对称阵的特征值是实首
Ax
Ax
x因从
xTAxxTAx
xTAxxTxTATxAx
xT
xxTxT
xT
xTx而xT
nn
xi
nx0inx0i所 0实对称阵不同特征值的特征向量正λ1λ2μ1μ2都是实数或是实向量
A
T
T
1
1 1ATT1
212T12
T 1222 T 1222
T
T111222T 111222谱和谱方阵的谱半径为最大的特征矩阵A的谱半径:(ATA)的最大特征样本数据的拉斯矩阵的特征向量进行聚谱分析的整体过形成相似度图(similaritygraph):G=(V,E)。若干概顶点的度di→度矩阵D对角阵若干概相似度图G的建立方xxix2高斯相似ε
,x
i i给定参数ε/如何选择k近邻图(k-nearestneighbor若vi的k最近邻包含vj,vj的k最近邻不一定包含vi:有忽略方向的图,往往简称“k近邻图两者都满足才连接的图,称作“互k近邻图相似度图G的举 斯矩阵及其性 斯矩阵:L=D– fTLffTDffTWfdf2
ff1
n
i,j22di
2
fifj
djf
i,j
j n21n2
wff i,jL是对称半正定矩阵,最小特征值是0向量。 斯矩阵的定计算点之间的邻接相似度矩阵W的第i行元素的和为vi的度。形成顶点度对角阵dii表示第i未正则的 斯矩阵LD正则 斯矩对称 斯矩
D
LD
ID
WD随 斯矩Random
D1L
谱聚类算法:未正则 斯矩输入:n个点{pi},簇的数目计算n×n的相似度矩阵W和度矩阵计算 斯矩阵L=D-计算L的前k个特征向量将k个列向量u1,u2,...,uk组成矩阵对于i=1,2,...,n,令yi∈Rk是U的第i行的向量使用k-means算法将点(yi)i=1,2,...,n聚类成输出簇A1,A2,...Ak,其中谱聚类算法:随 斯矩输入:n个点{pi},簇的数目计算n×n的相似度矩阵W和度矩阵计算正则 斯矩阵Lrw=D-1(D-计算Lrw的前k个特征向量将k个列向量u1,u2,...,uk组成矩阵U,U∈Rn×k对于i=1,2,...,n,令yi∈Rk是U的第i行的向量使用k-means算法将点(yi)i=1,2,...,n聚类成C1,C2,...Ck输出簇A1,A2,...Ak,其中谱聚类算法:对称 斯矩输入:n个点{pi},簇的数目 一个实
聚类效
聚类失进一步谱聚类中的K如何确定k
arg
k最后一步K-Means的作用是什么
k 未正则/对称/随机拉斯矩阵,首选哪个随机拉谱聚类可以用切割图/随机/扰动论等解释随 和 斯矩阵的关图论中的随机是一个随机过程,它从一图的一个划分,使得随机在相同的簇中停留而几乎不会到其他簇。
P传递算 传递算法(LabelPropagation传递过带宽/邻域影k- 谱聚类与图像切总降维、矩阵分解等内容的联系。在数据量极大的情况下,优先选择kMeans伸缩性好,时间复杂度为OtkN在需要给定Kelbow方法、轮廓系数、困惑度(perplexit等指标。聚类也有可能作为其他算法的实现,如矢量量参考文AlexRodriguez,AlessandroLaio.Clusteringbyfastsearchandfindofdensitypeak.Science.2014UlrikevonLuxburg.Atutorialonspectralclustering.LangK.Fixin oweaknessesofthespectralmethod.AdvancesinNeuralInformationProcessingSystems18,715–722.MITPress,Cambridge,2006BachF,JordanM.Learningspectralclustering.AdvancesinNeuralProcessingSystems16(NIPS).305–312.MITPress,AndrewRosenberg,JuliaHirschberg,V-Measure:Aconditionalentropy-basedclusterevaluationmeasure,W.M.Rand.Objectivecriteriafortheevaluationofclusteringmethods.JournaloftheAmericanSta
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 科技产品中的美学设计提升策略
- 2025年甲醇制烯烃项目项目风险识别与评估综合报告
- 《生物膜的流动镶嵌模型》教学设计
- 电竞酒店市场调研消费者需求与偏好分析
- 社交电商平台的营销策略与技巧
- 科技互动体验在校庆活动中的创新实践
- 石材养护服务合同范本
- 石墨烯技术助力汽车行业绿色发展
- 科技产品对提升电力工程安全管理效率的影响研究
- 2025年吡哌酸项目规划申请报告模范
- 2025年四川司法警官职业学院高职单招职业适应性测试近5年常考版参考题库含答案解析
- 山东省德州市2024-2025学年高三上学期1月期末生物试题(有答案)
- 本人报废车辆委托书
- 双减政策与五项管理解读
- 2025年道德与法治小学六年级下册教学计划(含进度表)
- 过桥资金操作流程
- 货物学 课件1.2货物的特性
- 新时代中国特色社会主义理论与实践2024版研究生教材课件全集2章
- 2024年公路水运工程施工企业主要负责人和安全生产管理人员安全生产考核试题库(含答案)
- (2023年最新版)医师执业、变更执业、多机构备案申请审核表
- 医疗器械临床试验质量管理规范培训课件
评论
0/150
提交评论