20131910084-陈国静-实验4--Chimerge技术_第1页
20131910084-陈国静-实验4--Chimerge技术_第2页
20131910084-陈国静-实验4--Chimerge技术_第3页
20131910084-陈国静-实验4--Chimerge技术_第4页
20131910084-陈国静-实验4--Chimerge技术_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、云南大学数学与统计学院数学系信息与计算科学专业云南大学数学与与统计学院上机实践报告课程名称:数据挖掘年级:2013上机实践成绩:指导教师:彭程姓名:陈国静上机实践名称:Chimege技术学号:20131910084上机实践日期: 2016/4/18上机实践编号:No.4上机实践时间: 15:50一、实验目的熟悉Chimege技术,对数据挖掘有一个了解。二、实验内容1、 最简单的离散算法是: 等宽区间。 从最小值到最大值之间,,均分为N等份, 这样, 如果A, B为最小最大值, 则每个区间的长度为w=(B-A) / N,则区间边界值为A+W, A+2W,. A+(N-1)W.2、 还有一种简单算

2、法,等频区间。区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。比如说N=10,每个区间应该包含大约10%的实例。3、 以上两种算法有弊端:比如,等宽区间划分,划分为5区间,最高工资为50000,则所有工资低于10000的人都被划分到同一区间。等频区间可能正好相反,所有工资高于50000的人都会被划分到50000这一区间中。这两种算法都忽略了实例所属的类型,落在正确区间里的偶然性很大。4、 C4、CART、PVM算法在离散属性时会考虑类信息,但是是在算法实施的过程中间,而不是在预处理阶段。例如,C4算法(ID3决策树系列的一种),将数值属性离散为两个区间,而取这两个区间时,该属性的信

3、息增益是最大的。5、 评价一个离散算法是否有效很难,因为不知道什么是最高效的分类。6、 离散化的主要目的是:消除数值属性以及为数值属性定义准确的类别。7、 高质量的离散化应该是:区间内一致,区间之间区分明显。8、 ChiMerge算法用卡方统计量来决定相邻区间是否一致或者是否区别明显。如果经过验证,类别属性独立于其中一个区间,则这个区间就要被合并。9、 ChiMerge算法包括2部分:1、初始化,2、自底向上合并,当满足停止条件的时候,区间合并停止。第一步:初始化 根据要离散的属性对实例进行排序:每个实例属于一个区间 第二步:合并区间,又包括两步骤 (1)计算每一对相邻区间的卡方值(2)将卡方

4、值最小的一对区间合并预先设定一个卡方的阈值,在阈值之下的区间都合并,阈值之上的区间保持分区间。 卡方的计算公式:参数说明;m=2(每次比较的区间数是2个)k=类别数量 Aij=第i区间第j类的实例的数量Ri=第i区间的实例数量Cj=第j类的实例数量N=总的实例数量Eij= Aij的期望频率10、卡方阈值的确定:先选择显著性水平,再由公式得到对应的卡方值。得到卡方值需要指定自由度,自由度比类别数量小1。例如,有3类,自由度为2,则90%置信度(10%显著性水平)下,卡方的值为4.6。阈值的意义在于,类别和属性独立时,有90%的可能性,计算得到的卡方值会小于4.6,这样,大于阈值的卡方值就说明属性

5、和类不是相互独立的,不能合并。如果阈值选的大,区间合并就会进行很多次,离散后的区间数量少、区间大。用户可以不考虑卡方阈值,此时,用户可以考虑这两个参数:最小区间数,最大区间数。用户指定区间数量的上限和下限,最多几个区间,最少几个区间。11、 ChiMerge算法推荐使用.90、.95、.99置信度,最大区间数取10到15之间.三、实验环境个人计算机,MATLAB平台四、实验记录与实验结果分析(注意记录实验中遇到的问题。实验报告的评分依据之一是实验记录的细致程度、实验过程的真实性、实验结果的解释和分析。如果涉及实验结果截屏,应选择白底黑字。)程序如下:%ChiMerge.m:This Progr

6、am will achieve the ChiMeige function! %File Read Part:%格式化读文件: a,b,p,q,class = textread( Iris.txt,%f,%f,%f,%f,%s );%Data Processing %处理字符串:t=size(class); for i=1:t(1,1) if strcmp(class(i,1),Iris-setosa)=1 c(i,1)=1; elseif strcmp(class(i,1),Iris-versicolor)=1 c(i,1)=2; elseif strcmp(class(i,1),Iris-

7、virginica)=1 c(i,1)=3; endend%具体运行 h1=a c; h2=b c; h3=p,c; h4=q,c; disp(Case 1:); chime(h1); disp(End!); disp(Case 2:); chime(h2); disp(End!); disp(Case 3:); chime(h3); disp(End!); disp(Case 4:); chime(h4); disp(End!);%建立chime函数用于卡方值的计算及数据离散化操作 function m=chime(h)%进行chimerge核心操作,建立区间矩阵,然后通过卡方检验离散化数据

8、! y=sortrows(h,1);%排序操作 ty=size(y); leny=ty(1,1); x=y(:,1) y(:,1);%初始化区间矩阵 tx=size(x); lenx=tx(1,1); while lenx6 %外层循环,用于结束条件判定 min=9999; for j=1:lenx-1 %内层循环,用于找出具有最小卡方值的相邻区间 ans=0; m=zeros(3,7);%此(卡方表)矩阵用于保存计算卡方值的相关数据 %后面4个for循环用于卡方表数据的设置 for i=1:leny if y(i,1)=x(j,1)&y(i,1)=x(j+1,1)&y(i,1)=x(j+1,

9、2) m(2,y(i,2)=m(2,y(i,2)+1; end end end for i=1:3 m(3,i)=m(1,i)+m(2,i); end for i=1:3 m(i,7)=m(i,1)+m(i,2)+m(i,3); end for i=1:2 for k=4:6 m(i,k)=m(i,7)*m(3,k-3)/m(3,7); if m(i,k)=0 m(i,k)=0.1; end end end %计算出这两个相邻区间的卡方值 for i=1:2 for k=1:3 ans=ans+(m(i,k)-m(i,k+3)2)/m(i,k+3); end end %找出最小卡方值 if a

10、ns=min min=ans; key=j; end end %相邻区间合并步骤 x(key,2)=x(key+1,2); x(key+1,:)=; lenx=lenx-1; endxIris.txt5.1 3.5 1.4 0.2 Iris-setosa4.9 3.0 1.4 0.2 Iris-setosa4.7 3.2 1.3 0.2 Iris-setosa4.6 3.1 1.5 0.2 Iris-setosa5.0 3.6 1.4 0.2 Iris-setosa5.4 3.9 1.7 0.4 Iris-setosa4.6 3.4 1.4 0.3 Iris-setosa5.0 3.4 1.5

11、 0.2 Iris-setosa4.4 2.9 1.4 0.2 Iris-setosa4.9 3.1 1.5 0.1 Iris-setosa5.4 3.7 1.5 0.2 Iris-setosa4.8 3.4 1.6 0.2 Iris-setosa4.8 3.0 1.4 0.1 Iris-setosa4.3 3.0 1.1 0.1 Iris-setosa5.8 4.0 1.2 0.2 Iris-setosa5.7 4.4 1.5 0.4 Iris-setosa5.4 3.9 1.3 0.4 Iris-setosa5.1 3.5 1.4 0.3 Iris-setosa5.7 3.8 1.7 0.

12、3 Iris-setosa5.1 3.8 1.5 0.3 Iris-setosa5.4 3.4 1.7 0.2 Iris-setosa5.1 3.7 1.5 0.4 Iris-setosa4.6 3.6 1.0 0.2 Iris-setosa5.1 3.3 1.7 0.5 Iris-setosa4.8 3.4 1.9 0.2 Iris-setosa5.0 3.0 1.6 0.2 Iris-setosa5.0 3.4 1.6 0.4 Iris-setosa5.2 3.5 1.5 0.2 Iris-setosa5.2 3.4 1.4 0.2 Iris-setosa4.7 3.2 1.6 0.2 I

13、ris-setosa4.8 3.1 1.6 0.2 Iris-setosa5.4 3.4 1.5 0.4 Iris-setosa5.2 4.1 1.5 0.1 Iris-setosa5.5 4.2 1.4 0.2 Iris-setosa4.9 3.1 1.5 0.1 Iris-setosa5.0 3.2 1.2 0.2 Iris-setosa5.5 3.5 1.3 0.2 Iris-setosa4.9 3.1 1.5 0.1 Iris-setosa4.4 3.0 1.3 0.2 Iris-setosa5.1 3.4 1.5 0.2 Iris-setosa5.0 3.5 1.3 0.3 Iris

14、-setosa4.5 2.3 1.3 0.3 Iris-setosa4.4 3.2 1.3 0.2 Iris-setosa5.0 3.5 1.6 0.6 Iris-setosa5.1 3.8 1.9 0.4 Iris-setosa4.8 3.0 1.4 0.3 Iris-setosa5.1 3.8 1.6 0.2 Iris-setosa4.6 3.2 1.4 0.2 Iris-setosa5.3 3.7 1.5 0.2 Iris-setosa5.0 3.3 1.4 0.2 Iris-setosa7.0 3.2 4.7 1.4 Iris-versicolor6.4 3.2 4.5 1.5 Iri

15、s-versicolor6.9 3.1 4.9 1.5 Iris-versicolor5.5 2.3 4.0 1.3 Iris-versicolor6.5 2.8 4.6 1.5 Iris-versicolor5.7 2.8 4.5 1.3 Iris-versicolor6.3 3.3 4.7 1.6 Iris-versicolor4.9 2.4 3.3 1.0 Iris-versicolor6.6 2.9 4.6 1.3 Iris-versicolor5.2 2.7 3.9 1.4 Iris-versicolor5.0 2.0 3.5 1.0 Iris-versicolor5.9 3.0 4

16、.2 1.5 Iris-versicolor6.0 2.2 4.0 1.0 Iris-versicolor6.1 2.9 4.7 1.4 Iris-versicolor5.6 2.9 3.6 1.3 Iris-versicolor6.7 3.1 4.4 1.4 Iris-versicolor5.6 3.0 4.5 1.5 Iris-versicolor5.8 2.7 4.1 1.0 Iris-versicolor6.2 2.2 4.5 1.5 Iris-versicolor5.6 2.5 3.9 1.1 Iris-versicolor5.9 3.2 4.8 1.8 Iris-versicolo

17、r6.1 2.8 4.0 1.3 Iris-versicolor6.3 2.5 4.9 1.5 Iris-versicolor6.1 2.8 4.7 1.2 Iris-versicolor6.4 2.9 4.3 1.3 Iris-versicolor6.6 3.0 4.4 1.4 Iris-versicolor6.8 2.8 4.8 1.4 Iris-versicolor6.7 3.0 5.0 1.7 Iris-versicolor6.0 2.9 4.5 1.5 Iris-versicolor5.7 2.6 3.5 1.0 Iris-versicolor5.5 2.4 3.8 1.1 Iris

18、-versicolor5.5 2.4 3.7 1.0 Iris-versicolor5.8 2.7 3.9 1.2 Iris-versicolor6.0 2.7 5.1 1.6 Iris-versicolor5.4 3.0 4.5 1.5 Iris-versicolor6.0 3.4 4.5 1.6 Iris-versicolor6.7 3.1 4.7 1.5 Iris-versicolor6.3 2.3 4.4 1.3 Iris-versicolor5.6 3.0 4.1 1.3 Iris-versicolor5.5 2.5 4.0 1.3 Iris-versicolor5.5 2.6 4.

19、4 1.2 Iris-versicolor6.1 3.0 4.6 1.4 Iris-versicolor5.8 2.6 4.0 1.2 Iris-versicolor5.0 2.3 3.3 1.0 Iris-versicolor5.6 2.7 4.2 1.3 Iris-versicolor5.7 3.0 4.2 1.2 Iris-versicolor5.7 2.9 4.2 1.3 Iris-versicolor6.2 2.9 4.3 1.3 Iris-versicolor5.1 2.5 3.0 1.1 Iris-versicolor5.7 2.8 4.1 1.3 Iris-versicolor

20、6.3 3.3 6.0 2.5 Iris-virginica5.8 2.7 5.1 1.9 Iris-virginica7.1 3.0 5.9 2.1 Iris-virginica6.3 2.9 5.6 1.8 Iris-virginica6.5 3.0 5.8 2.2 Iris-virginica7.6 3.0 6.6 2.1 Iris-virginica4.9 2.5 4.5 1.7 Iris-virginica7.3 2.9 6.3 1.8 Iris-virginica6.7 2.5 5.8 1.8 Iris-virginica7.2 3.6 6.1 2.5 Iris-virginica

21、6.5 3.2 5.1 2.0 Iris-virginica6.4 2.7 5.3 1.9 Iris-virginica6.8 3.0 5.5 2.1 Iris-virginica5.7 2.5 5.0 2.0 Iris-virginica5.8 2.8 5.1 2.4 Iris-virginica6.4 3.2 5.3 2.3 Iris-virginica6.5 3.0 5.5 1.8 Iris-virginica7.7 3.8 6.7 2.2 Iris-virginica7.7 2.6 6.9 2.3 Iris-virginica6.0 2.2 5.0 1.5 Iris-virginica

22、6.9 3.2 5.7 2.3 Iris-virginica5.6 2.8 4.9 2.0 Iris-virginica7.7 2.8 6.7 2.0 Iris-virginica6.3 2.7 4.9 1.8 Iris-virginica6.7 3.3 5.7 2.1 Iris-virginica7.2 3.2 6.0 1.8 Iris-virginica6.2 2.8 4.8 1.8 Iris-virginica6.1 3.0 4.9 1.8 Iris-virginica6.4 2.8 5.6 2.1 Iris-virginica7.2 3.0 5.8 1.6 Iris-virginica

23、7.4 2.8 6.1 1.9 Iris-virginica7.9 3.8 6.4 2.0 Iris-virginica6.4 2.8 5.6 2.2 Iris_virginica6.3 2.8 5.1 1.5 Iris_virginica6.1 2.6 5.6 1.4 Iris-virginica7.7 3.0 6.1 2.3 Iris-virginica6.3 3.4 5.6 2.4 Iris-virginica6.4 3.1 5.5 1.8 Iris-virginica6.0 3.0 4.8 1.8 Iris-virginica6.9 3.1 5.4 2.1 Iris-virginica

24、6.7 3.1 5.6 2.4 Iris-virginica6.9 3.1 5.1 2.3 Iris-virginica5.8 2.7 5.1 1.9 Iris-virginica6.8 3.2 5.9 2.3 Iris-virginica6.7 3.3 5.7 2.5 Iris-virginica6.7 3.0 5.2 2.3 Iris-virginica6.3 2.5 5.0 1.9 Iris-virginica6.5 3.0 5.2 2.0 Iris-virginica6.2 3.4 5.4 2.3 Iris-virginica5.9 3.0 5.1 1.8 Iris-virginica

25、运行结果:Case 1: x = 4.3000 4.8000 4.9000 4.9000 5.0000 5.4000 5.5000 5.7000 5.8000 7.0000 7.1000 7.9000 End! Case 2: x = 2.0000 2.2000 2.3000 2.4000 2.5000 2.8000 2.9000 2.9000 3.0000 3.3000 3.4000 4.4000 End! Case 3: x = 1.0000 1.9000 3.0000 4.4000 4.5000 4.7000 4.8000 4.9000 5.0000 5.1000 5.2000 6.9000 End! Case 4: x = 0.1000 0.6000 1.0000 1.3000 1.4000 1.6000 1.7000 1.7000 1.8000 1.8000 1.9000 2.5000 End!结论:最后区间: a: 4.3 , 4.8,4.9 , 4.9, 5.0 , 5.4, 5.5 , 5.7, 5.8 , 7.0, 7.1 , 7.9. b: 2.0 , 2.2, 2.3 , 2.4, 2.5 , 2.8, 2.9 , 2.9, 3.0 , 3.3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论