版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、K-均值聚类算法报告算法思想K-均值算法也称C-均值算法,是根据函数准则进行分类的聚类算法,基于使聚类准则函数最小化。K-均值算法的主要思想是先在需要分类的数据中寻找K组数据作为初始聚类中心,然后计算其他数据距离这三个聚类中心的距离,将数据归入与其距离最近的聚类中心,之后再对这K个聚类的数据计算均值,作为新的聚类中心,继续以上步骤,直到新的聚类中心与上一次的聚类中心值相等时结束算法。准则函数:聚类集中每一样本点到该类中心的距离平方和。对于第j个聚类集,准则函数定义为:Z=刃X,XeSjNiijji二1Sj:第j个聚类集(域)聚类中心为Zj;Nj:第j个聚类集Sj中所包含的样本个数。对所有K个模
2、式类有:J=菖卩11X-ZIl2,XeSijijj=1i=1K-均值算法的聚类准则:聚类中心的选择应使准则函数J极小,即使Jj的值极小。即有:丄乞IIx-zii2=_L5L(x-z)t(x-z)=0宓ji=1#ijcZ1j1jji=1可解得:J=才11X-ZI|2,XeSjijiji=1上式表明,Sj类的聚类中心应选为该类样本的均值算法描述任选K个初始聚类中心:Zl(l),Z2(l),,ZK(1)括号内序号:迭代运算的次序号。按最小距离原则将其余样品分配到K个聚类中心中的某一个,即:min|XZ(k)|,i=1,2,K丄XZ(k)=D(k)ijj则XeS(k)计算各个聚类中心的新向量值:Z(k
3、+1)j=1,2,KjNj:Z(k+1)=j第j类的样本数。工XXeSj(k)j=12,K如果Z(k+1)丰Z(k)j=1,2,K则回到(2),将模式样本逐个重新分类,重复迭代计算。j如果Z(k+1)=Z(k)j=1,2,K,则算法收敛,计算完毕。算法讨论结果受到所选聚类中心的个数和其初始位置,以及模式样本的几何性质及读入次序等的影响。实际应用中需要试探不同的K值和选择不同的聚类中心起始值,一般可选择样本集中前K个样本作为初始聚类中心。计算流程本次程序计算过程严格按照算法描述,通过选取初始聚类中心、计算距离、计算新的聚类中心、判断结果的收敛性等迭代过程,最终得出聚类结果和聚类中心。具体流程如下
4、图:分类结果读取前50个数据时的两类聚类中心矢量Z1和Z2,以及对应的两类数据集合G1和G2聚类结果如下:读取前100个数据时的两类聚类中心矢量Z1和Z2,以及对应的两类数据集合G1和G2聚类结果如下:读取全部数据时的两类聚类中心矢量Z1和Z2,以及对应的两类数据集合G1和G2聚类结果如下:附:源代码#include#include#include#include#defineCOUNT150/数据个数structdatafloatdx;floatdy;floatdz;floatdm;intsymbol;/标号data150,Zdata2,Cz2;inttime=0;/记录迭代次数intjud
5、ge(floati,floatj)/判断数据属于哪个分类if(i=j)return1;elsereturn2;voidmain()intz1=0,z2=0;/存放每个聚类的元素个数floata=0,b=0,c=0,d=0,e2,t8;floatsum=0;intcount;fstreamoutputFile;outputFile.open(IrisData.txt,ios:in);/打开文件if(!outputFile)coutCantopentheFile!endl;exit(0);for(count=0;countdatacount.dx;outputFiledatacount.dy;ou
6、tputFiledatacount.dz;outputFiledatacount.dm;datacount.symbol=0;outputFile.close();for(count=0;count2;count+)/初始化聚类Zdatacount.dx=datacount.dx;Zdatacount.dy=datacount.dy;Zdatacount.dz=datacount.dz;Zdatacount.dm=datacount.dm;Zdatacount.symbol=datacount.symbol;do/初始化Cz0.dx=0;Cz0.dy=0;Cz0.dz=0;Cz0.dm=0;C
7、z1.dx=0;Cz1.dy=0;Cz1.dz=0;Cz1.dm=0;for(count=0;countCOUNT;count+)/判断每个元素属于哪个聚类a=(Zdata0.dx-datacount.dx);b=(Zdata0.dy-datacount.dy);c=(Zdata0.dz-datacount.dz);d=(Zdata0.dm-datacount.dm);e0=sqrt(a*a+b*b+c*c+d*d);/计算欧氏距离a=(Zdata1.dx-datacount.dx);b=(Zdata1.dy-datacount.dy);c=(Zdata1.dz-datacount.dz);d
8、=(Zdata1.dm-datacount.dm);e1=sqrt(a*a+b*b+c*c+d*d);datacount.symbol=judge(e0,e1);/比较到两个聚类中心的距离z1=0;z2=0;for(count=0;countvCOUNT;count+)计算每个聚类的兀素个数if(datacount.symbol=1)Cz0.dx+=datacount.dx;Cz0.dy+=datacount.dy;Cz0.dz+=datacount.dz;Cz0.dm+=datacount.dm;z1+;elseif(datacount.symbol=2)Cz1.dx+=datacount.
9、dx;Cz1.dy+=datacount.dy;Cz1.dz+=datacount.dz;Cz1.dm+=datacount.dm;z2+;Cz0.dx=Cz0.dx/z1;/计算新的聚类中心Cz0.dy=Cz0.dy/z1;Cz0.dz=Cz0.dz/z1;Cz0.dm=Cz0.dm/z1;Cz1.dx=Cz1.dx/z2;Cz1.dy=Cz1.dy/z2;Cz1.dz=Cz1.dz/z2;Cz1.dm=Cz1.dm/z2;+time;sum=0;t0=(Zdata0.dx-Cz0.dx)*(Zdata0.dx-Cz0.dx);/新的聚类中心与前一次中心比较t1=(Zdata0.dy-Cz0
10、.dy)*(Zdata0.dy-Cz0.dy);t2=(Zdata0.dz-Cz0.dz)*(Zdata0.dz-Cz0.dz);t3=(Zdata0.dm-Cz0.dm)*(Zdata0.dm-Cz0.dm);t4=(Zdata1.dx-Cz1.dx)*(Zdata1.dx-Cz1.dx);t5=(Zdata1.dy-Cz1.dy)*(Zdata1.dy-Cz1.dy);t6=(Zdata1.dz-Cz1.dz)*(Zdata1.dz-Cz1.dz);t7=(Zdata1.dm-Cz1.dm)*(Zdata1.dm-Cz1.dm);for(count=0;count8;count+)sum+
11、=tcount;Zdata0.dx=Cz0.dx;Zdata0.dy=Cz0.dy;Zdata0.dz=Cz0.dz;Zdata0.dm=Cz0.dm;Zdata1.dx=Cz1.dx;Zdata1.dy=Cz1.dy;Zdata1.dz=Cz1.dz;Zdata1.dm=Cz1.dm;while(sum!=0);/分类结果与前一次迭代结果不同,继续迭代coutvv下标从1到150分类成功!vvendl;coutvvendlvv第一类数据集合G1下标号为:vvendl;输出第一类结果for(count=0;countvCOUNT;count+)if(datacount.symbol=1)coutvvcount+1vv;coutvvendlvv共vvzlvv个元素vvendl;coutvv中心矢量Z1是:(vvZdata0.dxvvvvZdata0.dyvvvvZdata0.dzvvvvZdata0.dmvv)vvendl;coutvvendlvv第二类数据集合G2下标号为:vvendl;输出第二类结果for(count=0;countvCOUNT;count+)if(d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度地基基础施工质量保修合同范本6篇
- 2025版新能源汽车密封胶生产与应用合同样本3篇
- 2024年跨境电子商务货运代理合同样本3篇
- 2024投资理财协议
- 2025年度影视基地场地租用专项协议3篇
- 2024年风险投资协议书:共赢未来3篇
- 2025年度生物质能发电厂安装施工合同3篇
- 2024年石油化工企业消防工程合同6篇
- 2024年精准医疗技术服务协议模板版B版
- 2025年度校园食堂餐具租赁及采购合同3篇
- 水工混凝土规范
- 图书馆室内装修投标方案(技术标)
- 2023蔬菜购销合同
- 脑梗塞健康管理脑血管疾病冠心病
- 二年级数学上册填空和判断题100
- 人教精通版5年级(上下册)单词表(含音标)
- 大厦物业管理保洁服务标准5篇
- 反面典型案例剖析材料范文(通用6篇)
- 水利混凝土试块强度计算评定表
- 人教版数学五年级上册期末复习操作题专项集训(含答案)
- 通达信公式编写学习资料
评论
0/150
提交评论