




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一、数据挖掘的目的数据挖掘(Data Mining)阶段首先要确定挖掘的任务或目的。数据挖掘的目 的就是得出隐藏在数据中的有价值的信息。 数据挖掘是一门涉及面很广的交叉学 科,包括器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学 等相关技术。它也常被称为“知识发现” 。知识发现 (KDD) 被认为是从数据中发 现有用知识的整个过程。数据挖掘被认为是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式 (patter ,如数据分类、聚类、关联规则发现或序列 模式发现等。数据挖掘主要步骤是:数据准备、数据挖掘、结果的解释评估。 二、数据挖掘算法说明确定了挖掘任务后, 就要决定使用
2、什么样的挖掘算法。 由于条件属性在各样 本的分布特性和所反映的主观特性的不同 , 每一个样本对应于真实情况的局部 映射。建立了粗糙集理论中样本知识与信息之间的对应表示关系 , 给出了由属性 约简求约简决策表的方法。 基于后离散化策略处理连续属性 , 实现离散效率和信 息损失之间的动态折衷。 提出相对值条件互信息的概念衡量单一样本中各条件属 性的相关性 , 可以充分利用现有数据处理不完备信息系统。本次数据挖掘的方法是两种, 一是找到若干条特殊样本, 而是找出若干条特 殊条件属性。最后利用这些样本和属性找出关联规则。 (第四部分详细讲解样本 和属性的选择)三 数据预处理过程数据预处理一般包括消除噪
3、声、 推导计算缺值数据、 消除重复记录、 完成数 据类型转换 (如把连续值数据转换为离散型数据,以便于符号归纳,或是把离散 型数据转换为连续 )。本文使用的数据来源是名为“CardiologyCategorical”的excel文件中的“源数据”。该数据表共 303 行, 14个属性。即共有 303个样本。将该数据表的前 200 行设为训练样本,剩下后的 103 行作为测试样本,用基于粗糙集理论的属性约简 的方法生成相应的规则,再利用测试样本对这些规则进行测试。首先对源数据进行预处理,主要包括字符型数据的转化和数据的归一化。数据预处理的第一步是整理源数据,为了便于 matlab 读取数据,把非
4、数字 数据转换为离散型数字数据。生成 lisanhua.xsl 文件。这一部分直接在 excel 工 作表中直接进行。步骤如下:将属性“ sex”中的“ Male ”用“1 ”表示,“Female ”用“ 2”表示;将属性 “ chest pain type ” 中的 “ Asymptomatic ”用 “ 1” 表示,“AbnormalAngina ”用 “2” 表示,“ Angina ”用“ 3 ” 表示,“ NoTa ng ”用“ 4 ” 表示;将属性“ Fasting blood suga<120“ 1”表示,“ TRUE ”用“2”表示;将属性“ resting ecg ”中的
5、“ Hyp 表示, “Abnormal ”用“ 3”表示;将属性“ slope ”中的“ Down ”用 用“ 3 ”表示 ,;将属性“ thal ”中的“ Rev”用 用“ 3”表示;将属性“ class”中的“ Healthy”与属性“ angina” 用“1” 表示,1 ”表示,“ Flat”1 ”表示,“ Normal ”中的“ FALSE”用Normal ”用用“ 2”表示,用“ 2”表示,2”a I I ”Up”“ L”Fix”用“1”表示,“Sick”用“ 2”表示;数据预处理的第二步:使用dm=xlsread('lisanhua');导入' lisanh
6、ua '.xls 文件,在 如下:MATLAB 中对一些连续属性值离散化。1、4、5、8、29,48=1 , 48,62=2 , 62,77=394,110=1 , 110,143=2 , 143,200=3126,205=1 , 205,293=2 , 293 , 564=371,120=1 , 120,175=2 , 175,202=310 、 0,1.5=1 , 1.5,2.5=2 , 2.5,6.2=3 。 然后对数据进行归一化处理: 由于不同属性之间的属性值相同,所以利用下面语句对一共 13 个条件属性中的 38 个属性进行如下赋值, 使每条属性唯一确定。 从而得到 38 个
7、条件属性, 只不 过 38 个里面有且只能出现 13 个。程序如下:m1=0,3,2,4,3,3,2,3,3,2,3,3,4,3;k=1;w=m1(k);dm3=dm2;for i=1:3939dm3(i)=dm2(i)+w;if rem(i,303)=0 k=k+1;w=w+m1(k); endend 从而得到 dm(3) 矩阵。而且决策属性分为 1:healthy ;2 :sick 。 并且在 38 个条件属性中没有值为 0。四、挖掘算法1、特殊样本首先在前 200 条样本中分别找出三条对应两种决策属性的重要样本,样本 必须满足在同类决策属性下其他 199 条的 13 条决策属性中和它的
8、13 条条件属 性数目大于等于 10 的前 3 条样本。2、特殊条件属性值其次分别对应两条决策属性值的 5 条重要条件属性值 (在 38 个条件属性里 找),特殊属性值必须满足: (1)在对应相同决策属性下,此决策属性支持率必须 在前五, (2) 而且如果不同决策属性出现相同条件属性。如果相同决策属性同时 出现在不同决策属性中,删除这条后找支持率第六的条件属性,以此类推。挖掘算法在 MATLAB 里列出并做了标注。五、验证程序1、预处理在验证程序里面分别对测试数据和六条样本做了对比, 又对其属性值和特殊 属性值做了对比,最后利用加权求和算法判断测试样本的决策属性正确率。其中: nc,mc 代表
9、测试数据分别和两类样本属性中相同数是否大于等于 9 时的加权值。 ncc,mcc 代表测试数据分别和两类特殊属性满足几条数目的加权 值。2、关联规则(1)、如果 (nc>=0.9&ncc>=8)|(ncc>=10&nc>=0.6)得到决策属性 healthy如果 (mc>=0.9|mcc>=8)|(mcc>=9&mc>=0.6)得(2)、不满足以上条件的话 到决策属性 sick 。(3)、不满足以上条件的话 healthy 。(4)、(5)、(6)、(7)、不满足以上条件的话 不满足以上条件的话 不满足以上条件的话 不满足
10、以上条件的话如果 nc>=(mc+0.3)|ncc>=(mcc+2)得到决策属性mc>nc 得到决策属性为 sick 。 得到决策属性为 healthy 。 得到决策属性为 sick 。 sick 。如果如果如果 得到决策属性为ncc>mccmcc>ncc六、正确率及结果分析 正确率为 82.5% 结果分析:由于采用了两类约束方法,所以效果还可以。七、程序如下页所示clear;% 数据预处理程序 %dm=xlsread('lisanhua');% 载入数据%z1=dm(:,1); for i=1:303% 离散化第一列数据if z1(i)>=
11、29&z1(i)<48 z1(i)=1;elseif z1(i)>=48&z1(i)<62 z1(i)=2;else z1(i)=3;end end z2=dm(:,2); for i=1:303if z2(i)=0z2(i)=1; else z2(i)=2; endend z3=dm(:,3); for i=1:303z3(i)=z3(i)+1;end z4=dm(:,4); for i=1:303if z4(i)>=94&z4(i)<110z4(i)=1;elseif z4(i)>=110&z4(i)<143 z4(
12、i)=2;else z4(i)=3;end end z5=dm(:,5); for i=1:303if z5(i)>=126&z5(i)<205 z5(i)=1;elseif z5(i)>=205&z5(i)<293 z5(i)=2;else z5(i)=3;end end z6=dm(:,6); for i=1:303z6(i)=z6(i)+1;end z7=dm(:,7); for i=1:303 end z8=dm(:,8); for i=1:303z7(i)=z7(i)+1;if z8(i)>=71&z8(i)<120 z8(
13、i)=1;elseif z8(i)>=120&z8(i)<175 z8(i)=2;else z8(i)=3;end end z9=dm(:,9); for i=1:303z9(i)=z9(i)+1;end z10=dm(:,10);for i=1:303if z10(i)>=0&z10(i)<1.5 z10(i)=1;elseif z10(i)>=1.5&z10(i)<2.5 z10(i)=2;else z10(i)=3;end end z11=dm(:,11);for i=1:303z11(i)=z11(i)+1;end z12=d
14、m(:,12);for i=1:303 end z13=dm(:,13);z12(i)=z12(i)+1;for i=1:303z13(i)=z13(i)+1;end z14=dm(:,14);for i=1:303z14(i)=z14(i)+1;end dm2=z1,z2,z3,z4,z5,z6,z7,z8,z9,z10,z11,z12,z13,z14;% % m1=0,3,2,4,3,3,2,3,3,2,3,3,4,3;k=1;w=m1(k);dm3=dm2; for i=1:3939dm3(i)=dm2(i)+w;if rem(i,303)=0 k=k+1; w=w+m1(k);end
15、end % 预处理结束 % % 挖掘算法 % % 找 6 条样本前的预处理 dm4=zeros(200,14);dm5=zeros(200,14);for i=1:200if dm3(i,14)=1dm4(i,1:13)=dm3(i,1:13); else dm5(i,1:13)=dm3(i,1:13); endend a1=zeros(38,1);a2=zeros(38,1);for k=1:38 for i=1:13for j=1:200if dm4(j,i)=k&dm4(j,i)=0 a1(k)=a1(k)+1;endif dm5(j,i)=k&dm5(j,i)=0 a2
16、(k)=a2(k)+1;endend end end a5=a1;a6=a2; a3=zeros(5,1);a4=zeros(5,1); j=1;while j<6a11=0;a11=max(a1);for i=1:38if a1(i)=a11 a3(j)=a11; j=j+1;if j>5break;end a1(i)=0;endend end j=1;while j<6a22=0;a22=max(a2);for i=1:38if a2(i)=a22 a4(j)=a22; j=j+1;if j>5 break;end a2(i)=0;endend end% 构造 h1
17、 h2 矩阵 h1=zeros(200,14);h2=zeros(1,200); y1=0;y2=0;y3=0;y4=0;for j=1:200x=0;for i=1:200h1(i,1:13)=dm3(j,1:13)=dm3(i,1:13);h1(i,14)=dm3(j,14)=dm3(i,14);if sum(h1(i,1:13)>=10&h1(i,14)=1x=x+1;end end h2(j)=x;end % % 筛选 h2 矩阵 得到 h3 h4 矩阵 h3=zeros(1,200);h4=zeros(1,200);for i=1:200if z14(i)=1h3(i)
18、=h2(i); else h4(i)=h2(i); endend%h5=h3;h6=h4;% 找六条重要样本 %y1=max(h5); for i=1:200if h5(i)=y1 h5(i)=0;t1=i;endendy2=max(h5); for i=1:200if h5(i)=y2 h5(i)=0;t2=i;endendy3=max(h5); for i=1:200if h5(i)=y3 h5(i)=0;t3=i;endendy4=max(h6); for i=1:200if h6(i)=y4 h6(i)=0;t4=i;y5=max(h6); for i=1:200if h6(i)=y5
19、 h6(i)=0;t5=i;endendy6=max(h6); for i=1:200if h6(i)=y6 h6(i)=0;t6=i;endend% 找特殊样本结束找特% 殊属性值dm4=zeros(200,14);dm5=zeros(200,14);for i=1:200if dm3(i,14)=1dm4(i,1:13)=dm3(i,1:13); else dm5(i,1:13)=dm3(i,1:13); endenda1=zeros(38,1);a2=zeros(38,1);for k=1:38for i=1:13for j=1:200if dm4(j,i)=k&dm4(j,i)
20、=0 a1(k)=a1(k)+1;endif dm5(j,i)=k&dm5(j,i)=0 a2(k)=a2(k)+1;endendendenda5=a1;a6=a2; a3=zeros(6,1);a4=zeros(6,1); j=1;while j<7a11=0;a11=max(a1);for i=1:38if a1(i)=a11 a3(j)=a11; j=j+1;if j>6 break;end a1(i)=0;endendendj=1;while j<7 a22=0; a22=max(a2); for i=1:38if a2(i)=a22 a4(j)=a22; j
21、=j+1;if j>6break;end a2(i)=0;endendendb1=zeros(6,1);b2=zeros(6,1);for j=1:6for i=1:38if a5(i)=a3(j) b1(j)=i;endendendfor j=1:6for i=1:38if a6(i)=a4(j) b2(j)=i;endendendb3(1:5,1)=b1(2:6,1);b4(1:5,1)=b2(1:5,1);% 寻找结束% 验证程序开始h7=zeros(103,14);h8=zeros(103,14);tc=0;for i=1:103h7(i,1:13)=dm3(200+i,1:13
22、);end% 特殊样本for i=1:103nc=0;mc=0;ncc=0;mcc=0;h8(i,1:13)=h7(i,1:13)=dm3(t1,1:13);if sum(h8(i,1:13)>=9nc=nc+0.3;end h8(i,1:13)=h7(i,1:13)=dm3(t2,1:13);if sum(h8(i,1:13)>=9nc=nc+0.3;00+oehoe6h 八(eu 二)8u)£ns 七 0 三 ©)c£PHH(e U 二)ehk二)s00+oehoe6夬(e二)8匸)Ens七-(eL-ecephhk二)卜(e二)200+oehoe6
23、夬(Ku 二)s)Ens 七 yeL-寸二cephhk二)卜(e二)2pu mo+ouhou 6h 八(eu 二)8u)£ns 七 yeL-scephhk二)卜(e二)2Z+OOUHOOU(g)eqHH(rD2 七 s_eZ+OOUHOOU(寸)2HH(rD2± s_eZ+OOUHOOU seqHHnu 七 s_em+oouhoous2HH(rD2 七s_e&+OOUHOOU(L)cqHH(s2±"L匸04-OHOOUOHOOU&&&&&&&&&&&&
24、&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&-+ooehooe(g)寸qHH(rILU一 s_ez+ooluhoolu(寸)寸qHH(rD2七s_ez+ooluhoolus寸qHH(rD2 七s_ek+ooluhoolu(0)寸qHH(rD2 七s_em+ooluhoolu(L)寸qHH(rILU一 s_eouaolu七s-匚(寸二)2(0+OOLU)HAOOU-(e o+OE)HAOU 七S-ZH (寸二)2O OHAOEOHAOOE-raHAOOE-O OHAOE 七 s_ 匚(寸二)2O OHAOCS VAOOS-raHAOOCO OHAOS&am
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 度商业店铺租赁合同协议
- 亲子互动游乐设施安全标准与培训服务考核试卷
- 建筑搪瓷制品的耐冲击性能提升考核试卷
- 塑料鞋的抗冲击性能研究考核试卷
- 动物药品运输与配送考核试卷
- D打印技术在个性化教育资源的开发考核试卷
- 期刊出版论文的开源出版趋势考核试卷
- 教育音像制品策划与制作考核试卷
- 文具行业个性化服务考核试卷
- 工业园区电动汽车充电需求分析考核试卷
- GB/T 15934-2008电器附件电线组件和互连电线组件
- GA/T 765-2020人血红蛋白检测金标试剂条法
- 第2章-西周-春秋战国时期的音乐-1-3节课件
- 提高白云石配比对烧结生产的影响
- 公安基础知识考试题库(含各题型)
- 选矿试车方案
- 小课题专题研究参考题目
- 《最好的未来》合唱曲谱
- GB∕T 8081-2018 天然生胶 技术分级橡胶(TSR)规格导则
- 教学课件个人理财-2
- 航空航天概论(课堂PPT)
评论
0/150
提交评论