版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、题 目 iris数据集的KDD实验 学院名称 信息科学与技术学院 专业名称 计算机科学与技术 学生姓名 何东升 学生学号 9 指导教师 实习地点 成都理工大学 实习成绩 二 一六年 9月 iris数据集的KDD实验第1章 、实验目的及内容1.1 实习目的 知识发现(KDD:Knowledge Discovery in Database)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。该术语于1989年出现,Fayyad定义为KDD是从数据集中识别出有效的、新颖的、潜在有
2、用的,以及最终可理解的模式的非平凡过程”。KDD的目的是利用所发现的模式解决实际问题,“可被人理解”的模式帮助人们理解模式中包含的信息,从而更好的评估和利用。1.2 算法的核心思想 作为一个KDD的工程而言,KDD通常包含一系列复杂的挖掘步骤. Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年合作发布的论文中总结出了KDD包含的5个最基本步骤(如图).1: selection: 在第一个步骤中我们往往要先知道什么样的数据可以应用于我们的KDD工程中.2: pre-processing: 当采集到数据后,下一步必须要做的事情是对数据进行预处理,尽量消除数据中存在的
3、错误以及缺失信息.3: transformation: 转换数据为数据挖掘工具所需的格式.这一步可以使得结果更加理想化.4: data mining: 应用数据挖掘工具.5:interpretation/ evaluation: 了解以及评估数据挖掘结果. 1.3 实验软件:Weka3-9.数据集来源:/ml/datasets/Iris第2章、实验过程 2.1数据准备1.从uci的数据集官网下载iris的数据源2.抽取数据,清洗数据,变换数据3.iris的数据集如图Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,
4、花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。 2.2 实验过程 2.2.1.建模(1)C4.5数据挖掘算法使用weka进行有指导的学习训练,选择C4.5数据挖掘算法,在Weka中名为J48,将test options 设置为 Percentage split ,使用默认百分比66%。选择class作为输出属性。如图所示:2.设置完成后点击start开始执行(2)Simple KMeans算法1加载数据到Weka,切换到Cluster选项卡,选择Simple KMeans算法、 2.设置算法参数,显示标准差,迭代次数设
5、为5000次,其他默认。簇数选择3,因为花的种类为3。如下图所示3.在Cluster Mode 面板选择评估数据为Use trainin set,并单击Ignore attribu,忽略class属性。4.点击start按钮,执行程序 第三章 实验结果及分析3.1 C4.5结果分析1.运行结果= Run information =Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2Relation: irisInstances: 150Attributes: 5 sepal length sepal width petal length petal w
6、idth classTest mode: split 66.0% train, remainder test= Classifier model (full training set) =J48 pruned tree-petal width 0.6| petal width = 1.7| | petal length 4.9| | | petal width 1.5: Iris-versicolor (3.0/1.0)| petal width 1.7: Iris-virginica (46.0/1.0)Number of Leaves : 5Size of the tree : 9Time
7、 taken to build model: 0.01 seconds= Evaluation on test split =Time taken to test model on training split: 0 seconds= Summary =Correctly Classified Instances 49 96.0784 %Incorrectly Classified Instances 2 3.9216 %Kappa statistic 0.9408Mean absolute error 0.0396Root mean squared error 0.1579Relative
8、absolute error 8.8979 %Root relative squared error 33.4091 %Total Number of Instances 51 = Detailed Accuracy By Class = TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class 1.000 0.000 1.000 1.000 1.000 1.000 1.000 1.000 Iris-setosa 1.000 0.063 0.905 1.000 0.950 0.921 0.969 0.905 I
9、ris-versicolor 0.882 0.000 1.000 0.882 0.938 0.913 0.967 0.938 Iris-virginicaWeighted Avg. 0.961 0.023 0.965 0.961 0.961 0.942 0.977 0.944 = Confusion Matrix = a b c - classified as 15 0 0 | a = Iris-setosa 0 19 0 | b = Iris-versicolor 0 2 15 | c = Iris-virginica 从上述结果可以看出正确率为96.0784 %所以petal width和
10、petal length 可以很好的判断花的类别。 3.1 Simple KMeans 算法结果= Run information =Scheme: weka.clusterers.SimpleKMeans -init 0 -max-candidates 100 -periodic-pruning 10000 -min-density 2.0 -t1 -1.25 -t2 -1.0 -V -N 3 -A weka.core.EuclideanDistance -R first-last -I 500 -num-slots 1 -S 10Relation: irisInstances: 150At
11、tributes: 5 sepal length sepal width petal length petal widthIgnored: classTest mode: evaluate on training data= Clustering model (full training set) =kMeans=Number of iterations: 6Within cluster sum of squared errors: 6.6762Initial starting points (random):Cluster 0: 6.1,2.9,4.7,1.4Cluster 1: 6.2,2
12、.9,4.3,1.3Cluster 2: 6.9,3.1,5.1,2.3Missing values globally replaced with mean/modeFinal cluster centroids: Cluster#Attribute Full Data 0 1 2 (150.0) (61.0) (50.0) (39.0)= sepal length 5.8433 5.8885 5.006 6.8462 +/-0.8281 +/-0.4487 +/-0.3525 +/-0.5025sepal width 3.054 2.7377 3.418 3.0821 +/-0.4336 +
13、/-0.2934 +/-0.381 +/-0.2799 petal length 3.7587 4.3967 1.464 5.7026 +/-1.7644 +/-0.5269 +/-0.1735 +/-0.5194petal width 1.1987 1.418 0.244 2.0795 +/-0.7632 +/-0.2723 +/-0.1072 +/-0.2811Time taken to build model (full training data) : 0 seconds= Model and evaluation on training set =Clustered Instance
14、s0 61 ( 41%)1 50 ( 33%)2 39 ( 26%)从实验结果可以看出分出的类为3个且比例与元数据的class的比例1:1:1的比例不是很相近。从C4.5的结果来看pental width和pental length 更加符合,重新选择属性,仅选择pental width和pental length 结果如下= Run information =Scheme: weka.clusterers.SimpleKMeans -init 0 -max-candidates 100 -periodic-pruning 10000 -min-density 2.0 -t1 -1.25 -t
15、2 -1.0 -V -N 3 -A weka.core.EuclideanDistance -R first-last -I 5009 -num-slots 1 -S 10Relation: irisInstances: 150Attributes: 5 petal length petal widthIgnored: sepal length sepal width classTest mode: evaluate on training data= Clustering model (full training set) =kMeans=Number of iterations: 6Wit
16、hin cluster sum of squared errors: 1.25123Initial starting points (random):Cluster 0: 4.7,1.4Cluster 1: 4.3,1.3Cluster 2: 5.1,2.3Missing values globally replaced with mean/modeFinal cluster centroids: Cluster#Attribute Full Data 0 1 2 (150.0) (52.0) (50.0) (48.0)= petal length 3.7587 4.2962 1.464 5.5667 +/-1.7644 +/-0.5053 +/-0.1735 +/-0.549petal width 1.1987 1.325 0.244 2.0562 +/-0.7632 +/-0.1856 +/-0.1072 +/-0.2422Time taken to build model (full training data) : 0.02 seconds= Model and evaluation on traini
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 散客旅游合同范本在线查看
- 企业车辆交易协议书模板
- 2024体育赛事场地租赁合同
- 2024版土石方运输合同
- 农村个人购房合同范例
- 合伙协议书范例
- 如何签订借款合同避免风险
- 个人汽车买卖合同样本模板
- 2023年高考地理专题复习新题典题精练-洋流(原卷版)
- 致大海选择性必修中册 第四单元课件
- (必练)广东省军队文职(经济学)近年考试真题试题库(含答案)
- 含羞草天气课件
- 2024年安全生产知识竞赛考试题库及答案(共五套)
- 22《鸟的天堂》课件
- 农业灌溉装置市场环境与对策分析
- 新疆乌鲁木齐市第十一中学2024-2025学年八年级上学期期中道德与法治试卷
- 2024年江西省高考地理真题(原卷版)
- 部编版小学五年级上册道法课程纲要(知识清单)
- 经济法学-计分作业一(第1-4章权重25%)-国开-参考资料
- 山东省临沂市(2024年-2025年小学四年级语文)人教版期中考试(上学期)试卷及答案
- 护士2024思想汇报5篇
评论
0/150
提交评论