K-均值聚类算法报告_第1页
K-均值聚类算法报告_第2页
K-均值聚类算法报告_第3页
K-均值聚类算法报告_第4页
K-均值聚类算法报告_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、K-均值聚类算法报告算法思想K-均值算法也称C-均值算法,是根据函数准则进行分类的聚类算法,基于使聚类准则函数最小化。K-均值算法的主要思想是先在需要分类的数据中寻找K组数据作为初始聚类中心,然后计算其他数据距离这三个聚类中心的距离,将数据归入与其距离最近的聚类中心,之后再对这K个聚类的数据计算均值,作为新的聚类中心,继续以上步骤,直到新的聚类中心与上一次的聚类中心值相等时结束算法。准则函数:聚类集中每一样本点到该类中心的距离平方和。对于第j个聚类集,准则函数定义为:Z=刃X,XeSjNiijji二1Sj:第j个聚类集(域)聚类中心为Zj;Nj:第j个聚类集Sj中所包含的样本个数。对所有K个模

2、式类有:J=菖卩11X-ZIl2,XeSijijj=1i=1K-均值算法的聚类准则:聚类中心的选择应使准则函数J极小,即使Jj的值极小。即有:丄乞IIx-zii2=_L5L(x-z)t(x-z)=0宓ji=1#ijcZ1j1jji=1可解得:J=才11X-ZI|2,XeSjijiji=1上式表明,Sj类的聚类中心应选为该类样本的均值算法描述任选K个初始聚类中心:Zl(l),Z2(l),,ZK(1)括号内序号:迭代运算的次序号。按最小距离原则将其余样品分配到K个聚类中心中的某一个,即:min|XZ(k)|,i=1,2,K丄XZ(k)=D(k)ijj则XeS(k)计算各个聚类中心的新向量值:Z(k

3、+1)j=1,2,KjNj:Z(k+1)=j第j类的样本数。工XXeSj(k)j=12,K如果Z(k+1)丰Z(k)j=1,2,K则回到(2),将模式样本逐个重新分类,重复迭代计算。j如果Z(k+1)=Z(k)j=1,2,K,则算法收敛,计算完毕。算法讨论结果受到所选聚类中心的个数和其初始位置,以及模式样本的几何性质及读入次序等的影响。实际应用中需要试探不同的K值和选择不同的聚类中心起始值,一般可选择样本集中前K个样本作为初始聚类中心。计算流程本次程序计算过程严格按照算法描述,通过选取初始聚类中心、计算距离、计算新的聚类中心、判断结果的收敛性等迭代过程,最终得出聚类结果和聚类中心。具体流程如下

4、图:分类结果读取前50个数据时的两类聚类中心矢量Z1和Z2,以及对应的两类数据集合G1和G2聚类结果如下:读取前100个数据时的两类聚类中心矢量Z1和Z2,以及对应的两类数据集合G1和G2聚类结果如下:读取全部数据时的两类聚类中心矢量Z1和Z2,以及对应的两类数据集合G1和G2聚类结果如下:附:源代码#include#include#include#include#defineCOUNT150/数据个数structdatafloatdx;floatdy;floatdz;floatdm;intsymbol;/标号data150,Zdata2,Cz2;inttime=0;/记录迭代次数intjud

5、ge(floati,floatj)/判断数据属于哪个分类if(i=j)return1;elsereturn2;voidmain()intz1=0,z2=0;/存放每个聚类的元素个数floata=0,b=0,c=0,d=0,e2,t8;floatsum=0;intcount;fstreamoutputFile;outputFile.open(IrisData.txt,ios:in);/打开文件if(!outputFile)coutCantopentheFile!endl;exit(0);for(count=0;countdatacount.dx;outputFiledatacount.dy;ou

6、tputFiledatacount.dz;outputFiledatacount.dm;datacount.symbol=0;outputFile.close();for(count=0;count2;count+)/初始化聚类Zdatacount.dx=datacount.dx;Zdatacount.dy=datacount.dy;Zdatacount.dz=datacount.dz;Zdatacount.dm=datacount.dm;Zdatacount.symbol=datacount.symbol;do/初始化Cz0.dx=0;Cz0.dy=0;Cz0.dz=0;Cz0.dm=0;C

7、z1.dx=0;Cz1.dy=0;Cz1.dz=0;Cz1.dm=0;for(count=0;countCOUNT;count+)/判断每个元素属于哪个聚类a=(Zdata0.dx-datacount.dx);b=(Zdata0.dy-datacount.dy);c=(Zdata0.dz-datacount.dz);d=(Zdata0.dm-datacount.dm);e0=sqrt(a*a+b*b+c*c+d*d);/计算欧氏距离a=(Zdata1.dx-datacount.dx);b=(Zdata1.dy-datacount.dy);c=(Zdata1.dz-datacount.dz);d

8、=(Zdata1.dm-datacount.dm);e1=sqrt(a*a+b*b+c*c+d*d);datacount.symbol=judge(e0,e1);/比较到两个聚类中心的距离z1=0;z2=0;for(count=0;countvCOUNT;count+)计算每个聚类的兀素个数if(datacount.symbol=1)Cz0.dx+=datacount.dx;Cz0.dy+=datacount.dy;Cz0.dz+=datacount.dz;Cz0.dm+=datacount.dm;z1+;elseif(datacount.symbol=2)Cz1.dx+=datacount.

9、dx;Cz1.dy+=datacount.dy;Cz1.dz+=datacount.dz;Cz1.dm+=datacount.dm;z2+;Cz0.dx=Cz0.dx/z1;/计算新的聚类中心Cz0.dy=Cz0.dy/z1;Cz0.dz=Cz0.dz/z1;Cz0.dm=Cz0.dm/z1;Cz1.dx=Cz1.dx/z2;Cz1.dy=Cz1.dy/z2;Cz1.dz=Cz1.dz/z2;Cz1.dm=Cz1.dm/z2;+time;sum=0;t0=(Zdata0.dx-Cz0.dx)*(Zdata0.dx-Cz0.dx);/新的聚类中心与前一次中心比较t1=(Zdata0.dy-Cz0

10、.dy)*(Zdata0.dy-Cz0.dy);t2=(Zdata0.dz-Cz0.dz)*(Zdata0.dz-Cz0.dz);t3=(Zdata0.dm-Cz0.dm)*(Zdata0.dm-Cz0.dm);t4=(Zdata1.dx-Cz1.dx)*(Zdata1.dx-Cz1.dx);t5=(Zdata1.dy-Cz1.dy)*(Zdata1.dy-Cz1.dy);t6=(Zdata1.dz-Cz1.dz)*(Zdata1.dz-Cz1.dz);t7=(Zdata1.dm-Cz1.dm)*(Zdata1.dm-Cz1.dm);for(count=0;count8;count+)sum+

11、=tcount;Zdata0.dx=Cz0.dx;Zdata0.dy=Cz0.dy;Zdata0.dz=Cz0.dz;Zdata0.dm=Cz0.dm;Zdata1.dx=Cz1.dx;Zdata1.dy=Cz1.dy;Zdata1.dz=Cz1.dz;Zdata1.dm=Cz1.dm;while(sum!=0);/分类结果与前一次迭代结果不同,继续迭代coutvv下标从1到150分类成功!vvendl;coutvvendlvv第一类数据集合G1下标号为:vvendl;输出第一类结果for(count=0;countvCOUNT;count+)if(datacount.symbol=1)coutvvcount+1vv;coutvvendlvv共vvzlvv个元素vvendl;coutvv中心矢量Z1是:(vvZdata0.dxvvvvZdata0.dyvvvvZdata0.dzvvvvZdata0.dmvv)vvendl;coutvvendlvv第二类数据集合G2下标号为:vvendl;输出第二类结果for(count=0;countvCOUNT;count+)if(d

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论