




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一、数据挖掘的目的数据挖掘(DataMining)阶段首先要确定挖掘的任务或目的。数据挖掘的目的就是得出隐藏在数据中的有价值的信息。数据挖掘是一门涉及面很广的交叉学科,包括器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。它也常被称为“知识发现”。知识发现(KDD)被认为是从数据中发现有用知识的整个过程。数据挖掘被认为是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patter,如数据分类、聚类、关联规则发现或序列模式发现等。数据挖掘主要步骤是:数据准备、数据挖掘、结果的解释评估。二、数据挖掘算法说明确定了挖掘任务后,就要决定使用什么样的挖掘算法。由于条件属
2、性在各样本的分布特性和所反映的主观特性的不同,每一个样本对应于真实情况的局部映射。建立了粗糙集理论中样本知识与信息之间的对应表示关系,给出了由属性约简求约简决策表的方法。基于后离散化策略处理连续属性,实现离散效率和信息损失之间的动态折衷。提出相对值条件互信息的概念衡量单一样本中各条件属性的相关性,可以充分利用现有数据处理不完备信息系统。本次数据挖掘的方法是两种,一是找到若干条特殊样本,而是找出若干条特殊条件属性。最后利用这些样本和属性找出关联规则。(第四部分详细讲解样本和属性的选择)三数据预处理过程数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值数据转换
3、为离散型数据,以便于符号归纳,或是把离散型数据转换为连续)。本文使用的数据来源是名为“CardiologyCategorical”的excel文件中的“源数据”。该数据表共303行,14个属性。即共有303个样本。将该数据表的前200行设为训练样本,剩下后的103行作为测试样本,用基于粗糙集理论的属性约简的方法生成相应的规则,再利用测试样本对这些规则进行测试。首先对源数据进行预处理,主要包括字符型数据的转化和数据的归一化。数据预处理的第一步是整理源数据,为了便于matlab读取数据,把非数字数据转换为离散型数字数据。生成lisanhua.xsl文件。这一部分直接在excel工作表中直接进行。步
4、骤如下:将属性“sex”中的“Male”用“1”表示,“Female”用“2”表示;将属性"chestpaintype”中的“Asymptomatic”用“1”表示,“AbnormalAngina”用“2”表示,“Angina”用“3”表示,“NoTang”用“4”表示;将属性"Fastingbloodsuga<120”与属性"angina”中的“FALSE”用“1”表示,“TRUE”用“2”表示;将属性"restingecg”中的“Hyp”用“1”表示,“Normal”用“2”表示,“Abnormal”用“3”表示;将属性"slope”
5、中的“Down”用“1”表示,“Flat”用“2”表示,“Up”用“3”表示,;将属性“thal”中的“Rev”用“1”表示,“Normal”用“2”表示,“Fix”用“3”表示;将属性"class”中的“Healthy”用“1”表示,“Sick”用“2”表示;数据预处理的第二步:使用dm=xlsread('lisanhua');导入lisanhua'.xls文件,在MATLAB中对一些连续属性值离散化。如下:1、29,48=1,48,62=2,62,77=34、94,110=1,110,143=2,143,200=35、126,205=1,205,293=2
6、,293,564=38、71,120=1,120,175=2,175,202=310、0,1.5=1,1.5,2.5=2,2.5,6.2=3。然后对数据进行归一化处理:由于不同属性之间的属性值相同,所以利用下面语句对一共13个条件属性中的38个属性进行如下赋值,使每条属性唯一确定。从而得到38个条件属性,只不过38个里面有且只能出现13个。程序如下:m1=0,3,2,4,3,3,2,3,3,2,3,3,4,3;k=1;w=m1(k);dm3=dm2;fori=1:3939dm3(i)=dm2(i)+w;ifrem(i,303)=0k=k+1;w=w+m1(k);endend从而得到dm(3)矩
7、阵。而且决策属性分为1:healthy;2:sick。并且在38个条件属性中没有值为0o四、挖掘算法1、特殊样本首先在前200条样本中分别找出三条对应两种决策属性的重要样本,样本必须满足在同类决策属性下其他199条的13条决策属性中和它的13条条件属性数目大于等于10的前3条样本。2、特殊条件属性值其次分别对应两条决策属性值的5条重要条件属性值(在38个条件属性里找),特殊属性值必须满足:(1)在对应相同决策属性下,此决策属性支持率必须在前五,(2)而且如果不同决策属性出现相同条件属性。如果相同决策属性同时出现在不同决策属性中,删除这条后找支持率第六的条件属性,以此类推。挖掘算法在MATLAB
8、里列出并做了标注。五、验证程序1、预处理在验证程序里面分别对测试数据和六条样本做了对比,又对其属性值和特殊属性值做了对比,最后利用加权求和算法判断测试样本的决策属性正确率。其中:nc,mc代表测试数据分别和两类样本属性中相同数是否大于等于9时的加权值。ncc,mcc代表测试数据分别和两类特殊属性满足几条数目的加权值。2、关联规则得到决策属性healthy(1)、如果(nc>=0.9&ncc>=8)|(ncc>=10&nc>=0.6)(2)、不满足以上条件的话到决策属性sick。(3)、不满足以上条件的话healthy。如果(mc>=0.9|mcc&
9、gt;=8)|(mcc>=9&mc>=0.6)如果nc>=(mc+0.3)|ncc>=(mcc+2)得到决策属性、(5)、(6)、不满足以上条件的话不满足以上条件的话不满足以上条件的话不满足以上条件的话如果如果如果mc>nc得到决策属性为sick。ncc>mcc得到决策属性为healthy。mcc>ncc得到决策属性为sick。得到决策属性为sick。六、正确率及结果分析正确率为82.5%结果分析:由于采用了两类约束方法,所以效果还可以。七、程序如下页所示clear;%数据预处理程序%dm=xlsread('lisanhua')
10、;%载入数据%fori=1:303z1=dm(:,1);%离散化第一列数据ifz1(i)>=29&z1(i)<48z1(i)=1;elseifz1(i)>=48&z1(i)<62z1(i)=2;elsez1(i)=3;endendz2=dm(:,2);fori=1:303ifz2(i)=0z2(i)=1;elsez2(i)=2;endendz3=dm(:,3);fori=1:303z3(i)=z3(i)+1;endz4=dm(:,4);fori=1:303ifz4(i)>=94&z4(i)<110z4(i)=1;elseifz4(i)
11、>=110&z4(i)<143z4(i)=2;elsez4(i)=3;endendz5=dm(:,5);fori=1:303ifz5(i)>=126&z5(i)<205z5(i)=1;elseifz5(i)>=205&z5(i)<293z5(i)=2;elsez5(i)=3;endendz6=dm(:,6);fori=1:303z6(i)=z6(i)+1;endz7=dm(:,7);fori=1:303z7(i)=z7(i)+1;endz8=dm(:,8);fori=1:303ifz8(i)>=71&z8(i)<1
12、20z8(i)=1;elseifz8(i)>=120&z8(i)<175z8(i)=2;elsez8(i)=3;endendz9=dm(:,9);fori=1:303z9(i)=z9(i)+1;endz10=dm(:,10);fori=1:303ifz10(i)>=0&z10(i)<1.5z10(i)=1;elseifz10(i)>=1.5&z10(i)<2.5z10(i)=2;elsez10(i)=3;endendz11=dm(:,11);fori=1:303z11(i)=z11(i)+1;endz12=dm(:,12);fori=
13、1:303z12(i)=z12(i)+1;endz13=dm(:,13);fori=1:303z13(i)=z13(i)+1;endz14=dm(:,14);fori=1:303z14(i)=z14(i)+1;enddm2=z1,z2,z3,z4,z5,z6,z7,z8,z9,z10,z11,z12,z13,z14;%m1=0,3,2,4,3,3,2,3,3,2,3,3,4,3;k=1;w=m1(k);dm3=dm2;fori=1:3939dm3(i)=dm2(i)+w;ifrem(i,303)=0k=k+1;w=w+m1(k);endend%预处理结束%挖掘算法%找6条样本前的预处理dm4=
14、zeros(200,14);dm5=zeros(200,14);fori=1:200ifdm3(i,14)=1dm4(i,1:13)=dm3(i,1:13);elsedm5(i,1:13)=dm3(i,1:13);endenda1=zeros(38,1);a2=zeros(38,1);fork=1:38fori=1:13forj=1:200ifdm4(j,i)=k&dm4(j,i)=0a1(k)=a1(k)+1;endifdm5(j,i)=k&dm5(j,i)=0a2(k)=a2(k)+1;endendendenda5=a1;a6=a2;a3=zeros(5,1);a4=zer
15、os(5,1);j=1;whilej<6a11=0;a11=max(a1);fori=1:38ifa1(i)=a11a3(j)=a11;j=j+1;ifj>5break;enda1(i)=0;endendendj=1;whilej<6a22=0;a22=max(a2);fori=1:38ifa2(i)=a22a4(j)=a22;j=j+1;ifj>5break;enda2(i)=0;endendend%构造h1h2矩阵h1=zeros(200,14);h2=zeros(1,200);y1=0;y2=0;y3=0;y4=0;forj=1:200x=0;fori=1:200
16、h1(i,1:13)=dm3(j,1:13)=dm3(i,1:13);h1(i,14)=dm3(j,14)=dm3(i,14);ifsum(h1(i,1:13)>=10&h1(i,14)=1x=x+1;endendh2(j)=x;end%筛选h2矩阵得到h3h4矩阵h3=zeros(1,200);h4=zeros(1,200);fori=1:200ifz14(i)=1h3(i)=h2(i);elseh4(i)=h2(i);endend%h5=h3;h6=h4;%找六条重要样本%y1=max(h5);fori=1:200ifh5(i)=y1h5(i)=0;t1=i;endendy2
17、=max(h5);fori=1:200ifh5(i)=y2h5(i)=0;t2=i;endendy3=max(h5);fori=1:200ifh5(i)=y3h5(i)=0;t3=i;endendy4=max(h6);fori=1:200ifh6(i)=y4h6(i)=0;t4=i;y5=max(h6);fori=1:200ifh6(i)=y5h6(i)=0;t5=i;endendy6=max(h6);fori=1:200ifh6(i)=y6h6(i)=0;t6=i;endend%找特殊样本结束%找特殊属性值dm4=zeros(200,14);dm5=zeros(200,14);fori=1:
18、200ifdm3(i,14)=1dm4(i,1:13)=dm3(i,1:13);elsedm5(i,1:13)=dm3(i,1:13);endenda1=zeros(38,1);a2=zeros(38,1);fork=1:38fori=1:13forj=1:200ifdm4(j,i)=k&dm4(j,i)=0a1(k)=a1(k)+1;endifdm5(j,i)=k&dm5(j,i)=0a2(k)=a2(k)+1;endenda5=a1;a6=a2;a3=zeros(6,1);a4=zeros(6,1);j=1;whilej<7a11=0;a11=max(a1);fori
19、=1:38ifa1(i)=a11a3(j)=a11;j=j+1;ifj>6break;enda1(i)=0;endendendj=1;whilej<7a22=0;a22=max(a2);fori=1:38ifa2(i)=a22a4(j)=a22;j=j+1;ifj>6break;enda2(i)=0;b1=zeros(6,1);b2=zeros(6,1);forj=1:6fori=1:38ifa5(i)=a3(j)b1(j)=i;endendendforj=1:6fori=1:38ifa6(i)=a4(j)b2(j)=i;endendendb3(1:5,1)=b1(2:6,1
20、);b4(1:5,1)=b2(1:5,1);%寻找结束%验证程序开始h7=zeros(103,14);h8=zeros(103,14);tc=0;fori=1:103h7(i,1:13)=dm3(200+i,1:13);end%特殊样本fori=1:103nc=0;mc=0;ncc=0;mcc=0;h8(i,1:13)=h7(i,1:13)=dm3(t1,1:13);ifsum(h8(i,1:13)>=9nc=nc+0.3;endh8(i,1:13)=h7(i,1:13)=dm3(t2,1:13);ifsum(h8(i,1:13)>=9nc=nc+0.3;endh8(i,1:13)
21、=h7(i,1:13)=dm3(t3,1:13);ifsum(h8(i,1:13)>=9nc=nc+0.3;endh8(i,1:13)=h7(i,1:13)=dm3(t4,1:13);ifsum(h8(i,1:13)>=9mc=mc+0.3;endh8(i,1:13)=h7(i,1:13)=dm3(t5,1:13);ifsum(h8(i,1:13)>=9mc=mc+0.3;endh8(i,1:13)=h7(i,1:13)=dm3(t6,1:13);ifsum(h8(i,1:13)>=9mc=mc+0.3;end%样本结束%特殊属性值ncc=0;mcc=0;forj=1:1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 五年级上册数学教学设计-第三单元第1课时 因数与倍数 北师大版
- 一年级下册数学教案-综合实践 趣味拼摆| 青岛版(五四学制)
- 学习2025年雷锋精神六十二周年主题活动实施方案 (3份)-54
- 2025年河南测绘职业学院单招职业适应性测试题库带答案
- 2025年广西安全工程职业技术学院单招职业技能测试题库含答案
- 2025年广东金融学院单招职业适应性测试题库完整
- 2025年贵州航天职业技术学院单招职业技能测试题库一套
- 2025福建省安全员考试题库及答案
- 2025年度幼儿园教职工被辞退劳动权益保护合同
- 2025年度幼儿园实习教师培养与就业服务协议
- 二年级下册计算小能手带答案
- 2024年临沧市工业产业发展集团限公司招聘2名公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版
- 2023年3月云南专升本大模考《旅游学概论》试题及答案
- 一年级趣味数学几和第几
- 2024年西安电力高等专科学校单招职业技能测试题库及答案解析
- 2024年中国科学技术大学创新班物理试题答案详解
- 方案优缺点对比表模板
- 中职数学基础模块上册学业水平考试第四章三角函数单元测试及参考答案
- 数据真实性承诺书
- 山东信息职业技术学院单招职业技能测试参考试题库(含答案)
- 充电站风险管理的法律法规研究
评论
0/150
提交评论