版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
小数据中谱聚类算法的研究
1谱聚类算法的主要结论聚类分析是机械学习和数据处理领域的一个重要理论。这是发现和揭示数据内部结构的常用技术。处理庞大数据量时,能在聚类分析研究上取得好的成果,对于数据分析具有十分重要的意义。传统的聚类算法,如k-means算法、EM算法等都建立在凸球型的样本空间上,当样本空间不为凸时,多数情况下算法会陷入局部最优。近年来提出的谱聚类算法是一种颇具竞争力的聚类算法。谱聚类是根据顶点之间的权值划分相应的无向图,即对相应权值图的矩阵进行特征向量提取,得到新的数据特征,通过矩阵谱分析理论导出聚类对象的新特征,并利用新数据特征对原数据进行聚类。谱聚类算法对数据的初始条件不做过多要求,它可以给出全局最优解,还可以使用经典的代数来解决聚类问题。但谱聚类算法的诸多优点目前只是限于小数据集。由于谱聚类算法涉及求解特征向量问题,计算复杂度和存储量都很大,无法适用于大规模数据学习,因此,研究高效、快速、适合大规模数据集的谱聚类算法势在必行。特征提取是谱聚类的关键问题之一。传统的特征分解方法需要非常大的内存,且计算量非常大。Weng等提出了一种增量的协方差无关的方法,它不像传统方法一样特征分解协方差矩阵,而是循环地输入样本向量。算法的空间复杂度只有O(n),计算复杂度也只有O(pkn)。其中n为全部样本数,p为迭代次数,k为聚类数。算法的收敛性也已经得到了证明。依据文献的思想,史卫亚等利用Gram矩阵特点,提出了一种解决大规模数据集问题的核主成分分析算法,它通过迭代求出核主成分。这种迭代方法虽然空间复杂度非常小,但对于大数据集而言,要满足一定的精度要求,迭代次数p就会非常大,甚至远远超过样本数n,导致速度根本满足不了需要,收敛速度较慢,因此该方法有待提高。本文根据正则Laplacian矩阵特点,重新构造了新的Gram矩阵,并使得新构造矩阵的特征值由大到小与原Laplacian矩阵的特征值由小到大所对应的特征向量相同。将一次选取的新构造矩阵的若干列,看成是迭代法的输入样本,利用Aitken向量加速迭代法,提出一种快速解决大规模数据集的谱聚类特征向量提取问题。本算法使迭代计算速度显著加快,所需存储量也相对很小。2主成分迭代公式Weng等利用统计学上的效能估计概念提出了一种增量的协方差无关的方法CCIPCA,算法要求所有样本序列u(n)具有零均值,令A=E{u(n)uT(n)}。该方法不是直接特征分解协方差矩阵(u1,…,un)(u1,…,un)T,而是循环地输入样本序列u(n)。设协方差矩阵的特征值为λ,特征向量为x,令v=λx,则x=v/‖v‖。第i步令x(i)=v(i-1)/‖v(i-1)‖,则得到文献主成分迭代公式:vi(n)=n-1nvi(n-1)+1nui(n)uΤi(n)vi(n-1)∥vi(n-1)∥(1)ui+1(n)=ui(n)-uΤi(n)vi(n)∥vi(n)∥vi(n)∥vi(n)∥(2)vi(n)=n−1nvi(n−1)+1nui(n)uTi(n)vi(n−1)∥vi(n−1)∥(1)ui+1(n)=ui(n)−uTi(n)vi(n)∥vi(n)∥vi(n)∥vi(n)∥(2)令An=u(n)uT(n),则A=E{A(n)}。令∏i(n)=i-1∏j=1[Ι-vj(n)vΤj(n)∥vj(n)∥2]∏i(n)=∏j=1i−1[I−vj(n)vTj(n)∥vj(n)∥2],则得到文献主成分迭代公式的统一表示:vi(n)=vi(n-1)+1n(∏i(n)A(n)∏i(n)∥vi(n-1)∥-Ι)vi(n-1)(3)vi(n)=vi(n−1)+1n(∏i(n)A(n)∏i(n)∥vi(n−1)∥−I)vi(n−1)(3)文献已证明当n→∞时,vi(n)→±λiei,其中ei为相应特征值λi的单位特征向量。实验证明,式(3)迭代一定次数之后收敛很慢,速度远远不够,需要加速提高。分析式(3)可知,若在有限步尽快获得满足需要的近似解,对于误差矩阵A(εn)=A(n)-A,若A(n)趋于A的速度越快,式(3)就越快趋于准确解。若A(n)趋于A较慢,则获得精度较高的近似解,迭代次数就会远远大于样本数n。若A(n)=A,式(3)迭代矩阵A(n)与矩阵A无误差,收敛速度最快。若取A(n)为A,则A(n)=A,迭代法收敛速度快,且可以使用加速方法加快迭代过程,但存储量过大。3aitken加速算法只要迭代算法的迭代过程收敛,迭代次数足够多,就可以使结果达到任意的精度。但是,若迭代过程收敛过于缓慢,计算量会变得非常大。因此,加速迭代过程是一个必要的选择。Aitken加速方法是数值计算学科领域的经典加速方法。对于收敛序列{xk},由微分中值定理可推出:ˉxk+1=xk-(xk+1-xk)2xk+2-2xk+1+xk=xk-(Δxk)2/Δ2xk(k=0‚1‚⋯)(4)式(4)称为AitkenΔ2加速方法。可以证明limk→∞ˉxk+1-x*xk-x*=0它表明序列{ˉxk}的收敛速度比{xk}的收敛速度快。将这种加速方法用于具体的迭代法上,可对原迭代法进行有效的加速,有时甚至能将发散的具体迭代格式通过这种加速后变成收敛。对于向量序列,Aitken又提出了一个加速向量收敛的方法,它也很有效。假定us,us+1,us+2是3个连续的迭代量,ˉui=u(s)i-(u(s)i-u(s+1)i)2u(s)i-2u(s+1)i+u(s+2)i,其中u(s)i表示u(s)的第i个分量。当分母等于0,该分量可以停止加速。Aitken过程给出的向量比已导出的向量更加接近准确值。4矩阵分析4.1《清拓孔连通序》中尾点的度值Laplacian矩阵有一个完整的研究领域,称为谱图理论。将数据集表示成各数据点间相似性的无向加权图G,并用加权矩阵W表示,其中权值wij=wji≥0。矩阵W的每行元素相加,得到该顶点的度。以所有度值为对角元素构成的对角矩阵即为度矩阵,用D表示。有如下定义。正则Laplacian矩阵:Lsym=D-1/2LD-1/2=I-D-1/2WD-1/2Lrw=D-1L=I-D-1W性质1Laplacian矩阵Lsym和Lrw有k重特征值0,当且仅当图G有k个连通分支;Lrw的特征值0对应特征向量常向量1,Lsym的特征值0对应特征向量D1/21。Gershgorin定理:n×n矩阵A的所有特征值包含在下面的圆盘的并集中:Κi={μ∈C||μ-aii|≤n∑k=1‚k≠i|aik||}圆盘Ki称为Gershgorin圆盘。4.2矩阵lll构造新的Gram矩阵,令:L=2I-Lsym=I+D-1/2WD-1/2,LG=L2/n定理1若L=2I-Lsym=I+D-1/2WD-1/2,则1)L与Lsym有相同的特征向量;2)L的特征值为λ(L)=2-λ(Lsym);3)L的特征值取值范围为λ(L)∈,L为对称半正定矩阵。证明:设λ(Lsym)、ω为矩阵Lsym的特征值和特征向量,有:Lsymω=λ(Lsym)ωLω=(2I-Lsym)ω=2Iω-Lsymω=2ω-λ(Lsym)ω=(2-λ(Lsym))ω故1)、2)得证。由Gershgorin圆盘定理知,Lsym的特征值为0≤λ1(Lsym)≤…≤λn(Lsym)≤2,L的特征值为λ(L)=2-λ(Lsym),则2≥λ1(L)≥…≥λn(L)≥0,故L的特征值取值范围为λ(L)∈,矩阵L对称显然。因为矩阵L的所有特征值均大于等于0,故L为半正定,即为Gram矩阵。由定理1可知,L的最大特征值对应的特征向量即为Lsym的最小特征值对应的特征向量,Lsym的前k个最小特征值对应的特征向量即为L的前k个最大特征值对应的特征向量。定理2若LG=L2/n,则LG与L有相同的特征向量、不同的特征值λ(LG)=λ(L)2/n,且LG对称半正定。定理3Gram矩阵LG与Lsym有相同的特征向量、不同的特征值λ(LG)=λ(L)2/n=(2-λ(Lsym))2/n。因此,只要解出矩阵LG的前k个最大特征值对应的特征向量,也即矩阵L的前k个最大特征值对应的特征向量,那么也就求解出了矩阵Lsym的前k个最小特征值对应的特征向量。由矩阵LG的定义可导出:矩阵LG的性质1:LG=LLΤ/n=1n(l11⋯l1n⋮⋱⋮ln1⋯lnn)(l11⋯l1n⋮⋱⋮ln1⋯lnn)Τ=1n(L(x1)‚⋯‚L(xn))(L(x1)‚⋯‚L(xn))Τ=1nn∑i=1L(xi)L(xi)Τ其中,L(xi)=(li1,li2,…,lin)T。定理4设L(xi)=(li1,li2,…,lin)T,i=1,…,n是矩阵L的列向量,任取m个列向量,依次将该m个列向量表示成L′(xi)=L(xj)=(lj1,lj2,…,ljn)T,其中i在1≤i≤m范围顺序取值,j在1≤j≤n范围任意取值,则矩阵1m(L′(x1)⋯L′(xm))(L′(x1)⋯L′(xm))Τ对称半正定,其中m≥1。证明:对称显然。因为1m(L′(x1)⋯L′(xm))(L′(x1)⋯L′(xm))Τ=1mm∑i=1L′(xi)L′(xi)Τ对于任意x=(x1,x2,…,xn)T,有xΤ1mm∑i=1L′(xi)L′(xi)Τx=1mm∑i=1xΤL′(xi)L′(xi)Τx=1mm∑i=1(xΤL′(xi))2≥0故矩阵1m(L′(x1)⋯L′(xm))(L′(x1)⋯L′(xm))Τ对称半正定。假设m整除n为k,由定理4可以导出矩阵LG的另一性质。任取m列,且不重复取任一列,依次将该m个列向量顺序表示成L′(xs×m+i)=L(xj)=(lj1,lj2,…,ljn)T,其中i在1≤i≤m范围顺序取值,s在0≤s≤k-1范围顺序取值,j在1≤j≤n范围任意取值,令LG*=1m(L′(x1)⋯L′(xm))(L′(x1)⋯L′(xm))Τ,则有:矩阵LG的性质2:LG=1kk-1∑s=01m(L′(xs×m+1)⋯L′(xs×m+m))(L′(xs×m+1)⋯L′(xs×m+m))Τ分析LG的性质2可知,当m=n,有LG=LG*。当m≠n,若每个式子1m(L′(xs×m+1)⋯L′(xs×m+m))(L′(xs×m+1)⋯L′(xs×m+m))Τ都相等,其中0≤s≤k-1,则:LG=1m(L′(xs×m+1)⋯L′(xs×m+m))(L′(xs×m+1)⋯L′(xs×m+m))Τ当LG*=1m(L′(x1)⋯L′(xm))(L′(x1)⋯L′(xm))Τ‚m≥1‚m<<n,其中n为样本数,m为选取的样本数,要求所选取的m个样本点能够按比例均匀地分布于所要划分的k个类中,即选取的m个列向量L(xi)能够按比例均匀分布于矩阵L中,则LG与LG*误差非常小,LG≈LG*。5本文件的方法5.1计算矩阵lsym的特征函数NJW算法是一种流行的谱聚类算法,是由Ng等人提出的一个简单而有效的多类聚类方法。该算法需要计算矩阵˜L=Ι-Lsym=D-1/2WD-1/2的前k个最大特征值对应的特征向量,也即计算矩阵Lsym的前k个最小特征值对应的特征向量。由定理3知,矩阵Lsym与LG有相同的特征向量,且特征值满足λ(LG)=(2-λ(Lsym))2/n,故计算Lsym的前k个最小特征值对应的特征向量,也即是求矩阵LG的前k个最大特征值对应的特征向量。5.2动态残留模型本文采用全连通图法构造相似矩阵Lsym。根据正则Laplacian矩阵的性质,图G只有1个连通分支,因此矩阵Lsym的特征值0只有1重。Lsym的最小特征值0对应的特征向量为D1/21,因此矩阵L和LG的最大特征值所对应的特征向量也为D1/21。设矩阵LG的特征向量和特征值分别为ω、λ(LG),令ψ=λ(LG)ω=LGω,则特征向量和特征值分别为ω=ψ/‖ψ‖,λ(LG)=‖ψ‖。设ψi(p)是第i个特征向量在第p次的迭代估计。根据文献及前面的迭代法分析,为加快计算速度,在p次迭代时,第i阶特征向量的估计ψi(p)计算可以表示为:ψi(p)=p-1pψi(p-1)+1pLGψi(p-1)∥ψi(p-1)∥=p-1pψi(p-1)+1p(LLΤ/n)ψi(p-1)∥ψi(p-1)∥=p-1pψi(p-1)+1p(1n(L(x1)⋯L(xn))(L(x1)⋯L(xn))Τ)ψi(p-1)∥ψi(p-1)∥(5)但式(5)所需存储量过大,因为LG≈LG*。故只要所选取的m个列向量L(xi)能够按比例均匀分布于矩阵L中,LG与LG*误差就会非常小。用LG*近似代替LG,则ψi(p)可近似表示为:ψi(p)=p-1pψi(p-1)+1p(1m(L′(x1)⋯L′(xm))(L′(x1)⋯L′(xm))Τ)ψi(p-1)∥ψi(p-1)∥(6)式中,m≥1,m<<n。可对式(5)使用Aitken加速,以最少迭代次数得到满足要求的解。令LL1=(L′(x1)…L′(xm)),其他高阶特征向量组可用残留的数据向量计算。残留的数据向量是用最初数据减去其在低阶特征向量的投影:LLi+1=LLi-(LLi)Τψi(p)∥ψi(p)∥ψi(p)∥ψi(p)∥(7)本文采用NJW算法思想。为避免初始向量对迭代计算特征向量影响过大,初始向量选择常向量1。算法如下:Step1计算1阶特征向量D1/21,使用常向量1初始化前2~k阶特征向量;Step2选择m,计算LL1,m<<n;Step3循环2:k进行下面计算;Step4利用式(7)计算LLk,输入向量LLk;Step5迭代1:p次进行下面计算;Step6计算式(6);Step7利用Aitken方法加速式(6);Step8转到Step5;Step9转到Step3;Step10用k-means对k个特征向量分类;Step11输出聚类集合。若谱聚类的其他方法生成的相似矩阵也能够重构成新的Gram矩阵,使之与原相似矩阵有相同的特征向量,且能保证新构成的矩阵的前k个最大特征值对应的特征向量即是所需的特征向量,则也可用上述算法解决特征向量提取问题。5.3aitken加速法输入L矩阵的m列,迭代过程Step2-Step9的空间复杂度为O(mn),时间复杂度为O(mkpn),其中p为迭代次数,n为总样本数,m为选取矩阵L的列数,k为特征向量个数,也即聚类数。因为使用了Aitken加速法,迭代次数p很小,m≪n,计算速度明显提高。算法可根据存储空间大小、收敛速度等要求,适当选取m值。6方差分析和聚类分布为验证本文算法的有效性,分别对小数据集、中等数据集及大数据集的相似矩阵Lsym用标准方法计算前k个特征向量,然后用本文算法计算前k个特征向量,并进行验证、比较。实验中选择高斯函数k(x,y)=exp(-‖x-y‖/2σ2)生成全连通图,构造相似矩阵Lsym。实验1二维人工数据集g1样本分别由3个正态分布函数生成,3个聚类样本数分别是30、20、10,均值分别为、4.5、,标准方差分别为[0.2,0;0,0.5]、0.1、[0.3,0;0,0.1],σ=1。数据集g1的样本分布如图1所示。本实验首先比较了当m=60、第2个特征向量加速与不加速时特征向量内积收敛速度的情况。如图3所示,其中最上方蓝色圆圈是用标准方法得到的第2特征向量对应的特征值,最下方绿色圆点是没有使用Aitken加速第2特征向量内积收敛的情况,中间一条红色圆点是使用了Aitken加速第2特征向量内积收敛的情况。可以看出,采用Aitken加速法,计算速度明显提高。然后比较了当m=20,m=30,m=40,迭代次数p=30时,第2、3特征向量的内积,如表1所列。其中第
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《梦回繁华》-八年级语文上册同步备课 教学设计(统编版)
- 江苏省金坛市七年级体育与健康上册 女生800长跑测验教案
- 八年级生物上册 5.1.3《软体动物和节肢动物》教案2 (新版)新人教版
- 2024-2025学年高中语文 第2单元 置身诗境缘景明情 9 梦游天姥吟留别教案 新人教版选修《中国古代诗歌散文欣赏》
- 2023三年级数学下册 六 走进天文馆-年、月、日信息窗1 24时计时法教案 青岛版六三制
- 2024-2025学年新教材高中政治 第一单元 探索世界与把握规律 1.3 科学的世界观和方法论教案 部编版必修4
- 二年级语文下册 课文1 4 邓小平爷爷植树第1课时教案 新人教版
- 2024-2025学年新教材高中生物 第五章 基因突变及其他变异 第3节 人类遗传病教案 新人教版必修第二册
- 出行带小孩委托书范文
- 人教A版河北省唐山市2023-2024学年高一上学期期末模拟数学试题
- 中班科学课件《动物的超级本领》
- 旧桥拆除监理细则
- 干部履历表填写范本(中共中央组织部1999年)
- 2024年湖南省高中学业水平合格考物理试卷真题(含答案详解)
- 统编版道德与法治二年级上册全册课件
- 河南省洛阳市2022-2023学年九年级上学期期末数学试题
- 2024年大学新生开学第一课-如何开启你的大学生活课件
- 新苏教版四年级上册科学全册知识点
- 养生馆转让合同协议书
- 电力专业数据传输(EPDT)通信系统 设备功能技术要求和测试方法
- 2023年高中学业水平考核美术试题
评论
0/150
提交评论