




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本文格式为Word版,下载可任意编辑——数据挖掘WEKA试验报告优秀课程设计
数据挖掘-WAKA试验报告数据挖掘-WAKA试验报告
数据挖掘-WAKA试验报告一、WEKA软件简介
在我所从事的证券行业中,存在着海量的信息和数据,但是这些数据日常知识发挥了一小部分的作用,其包含了大量的隐性的信息并不为所用,但是却可以为一些公司的决策和对客户的服务提供不小的价值。因此,我们可以通过一些数据采集、数据挖掘来获得潜在的有价值的信息。
数据挖掘就是通过分析存在于数据库里的数据来解决问题。在数据挖掘中计算机以电子化的形式存储数据,并且能自动的查询数据,通过关联规则、分类于回归、聚类分析等算法对数据进行一系列的处理,寻觅和描述数据里的结构模式,进而挖掘出潜在的有用的信息。数据挖掘就是通过分析存在于数据库里的数据来解决问题。WEKA的出现让我们把数据挖掘无需编程即可轻松搞定。
WEKA是由新西兰怀卡托大学开发的开源项目,全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis)。WEKA是由JAVA编写的,它的源代码可通过http://.cs.waikato.ac.nz/ml/WEKA得到,并且限制在GBU通用公众证书的条件下发布,可以运行在所有的操作系统中。是一款免费的,非商业化的机器学习以及数据挖掘软件
WEKA作为一个公开的数据挖掘工作平台,集合了大量能承受数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。假使想自己实现数据挖掘算法的话,可以看一看WEKA的接口文档。在WEKA中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。
安装WEKA也十分简单,首相要下载安装JDK环境,JDK在这个页面可以找到它的下载/javase/downloads/index.jsp。点击JDK6之后的
Download按钮,转到下载页面。选择Accepct,过一会儿页面会刷新。我们需要的是这个WindowsOfflineInstallation,Multi-languagejdk-6-windows-i586.exe53.16MB,点击它下载。也可以右键点击它上面的链接,在Flashget等工具中下载。安装它和一般软件没什么区别。不过中间会中断一下提醒你安装JRE,一并装上即可。之后就是安装WEKA软件,这个在网上好多地方都有。同样简单地按默认方法安装后即可使用。
点击启动运行WEKA软件后,我门发现WEKA存储数据的格式是ARFF数据挖掘-WAKA试验报告
(Attribute-RelationFileFormat)文件,这是一种ASCII文本文件。我们如图1通过软件的Tools菜单进入ArffViewer可以在安装目录下查看软件自带的几个ARFF文件。图1图2
数据挖掘-WAKA试验报告
如图2,开启文件后选择data自目录下的任意一张表,我们都可以看到如图3所示的二维表格存储在如下的ARFF文件中。这也就是WEKA自带的
“contact-lenses.arff〞文件。这里我们要介绍一下WEKA中的术语。表格里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数据库中的一条记录。竖行称作一个属性(Attrbute),相当于统计学中的一个变量,或者数据库中的一个字段。这样一个表格,或者叫数据集,在WEKA看来,浮现了属性之间的一种关系(Relation)。图1中一共有22个实例,5个属性,关系名称为“contact-lenses〞。
除了ARFF格式,WEKA还支持另外一种常见格式,CSV格式。CSV同样是一种二进制保存的文本格式,我们可以在WEKA中直接开启CSV格式的文件,并
保存为ARFF格式。这样就给我提供了把常见的数据格式转换为ARFF格式的方法,如对于Excel文件,我们可以通过把每张表保存为CSV格式,进而保存为ARFF格式,与此同时,我们可以利用filter对数据进行相应的预处理。而对于Matlab格式的数据,我们可以通过命令csvwrite把数据转化成CSV格式的文件,进而转化为ARFF格式文件。对于海量数据,一般保存在数据库中,WEKA同时支持JDBC访问数据库。图3
数据挖掘-WAKA试验报告
开启WEKA,首先出现一个命令行窗口。原以为要在这个命令行下写java语句呢,不过稍等一秒,WEKAGUIChooser的出现了。这是一个很简单的窗体,提供四个按钮:SimpleCLI、Explorer、Experimenter、KnowledgeFlow。SimpleCLI应当是一个使用命令行的界面,有点像SAS的编辑器;Explorer是则是视窗模式下的数据挖掘工具;Experimenter和KnowledgeFlow的使用有待进一步摸索图4
(1)Explorer
使用WEKA摸索数据的环境。在这个环境中,WEKA提供了数据的预处理,数据格式的转化(从CSV格式到ARFF格式的转化),各种数据挖掘算法(包括分类与回归算法,聚类算法,关联规则等),并提供了结果的可视化工具。对于一个数据集,通过简单的数据的预处理,并对数据挖掘算法进行选择(在
WEKA3.5版本之后,参与了算法的过滤功能,可以过滤掉那些不适合当前数据集类型的算法),接着通过窗口界面对算法的参数进行配置。可视化工具分为对
数据集的可视化和对部分结果的可视化,并且我们可以通过属性选择工具(SelectAttribute),通过探寻数据集中所有属性的可能组合,找出预计效果最好的那一组属性。
Explorer是普通用户最常用的一个界面。用户可以从ARFF文件(Weka使用的一种文本文件格式)、网页或数据库中读取数据集。开启数据文件后,可以选择算法对数据进行预处理。这时窗体上给出了这个数据集的一些基本特征,如含有多少属性,各属性的一些简单统计量,右下方还给出一些可视化效果图。这些都是比较直观的分析,假使想发现隐蔽在数据集背后的关系,还需要选择
Weka
数据挖掘-WAKA试验报告
提供的各种分类、聚类或关联规则的算法。所有设置完成后,点击Start按钮,就可以安心地等待weka带来最终的结果。哪些结果是真正有用的还要靠经验来判断。
(2)Experimenter
运行算法试验、管理算法方案之间的统计检验的环境。Experiment环境可以让用户创立,运行,修改和分析算法试验,这可能比单独的分析各个算法更加便利。例如,用户可创立一次试验,在一系列数据集上运行多个算法(schemes),然后分析结果以判断是否某个算法比其他算法(在统计意义下)更好。
Explorermenter主要包括简单模式,繁杂模式和远程模式。繁杂模式是对简单模式的基本功能的扩展,而远程模式允许我们通过分布式的方法进行试验。就功能模块而言,分为设置模块,运行模块和分析模块。在设置模块中我们可以自定义试验,参与多个算法和多方的源数据(支持ARFF文件,CSV文件和数据库),在运行模块中我们可以运行我们的试验,而在分析模块中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- T-ZSA 271-2024 高强度高弹性高导电率钛铜合金
- 二零二五年度私募股权基金股权转让及代持管理协议
- 二零二五年度农副产品电商平台用户增长合作合同
- 二零二五年度体育场馆委托代理出租服务合同
- 二零二五年度海洋工程电焊工劳动合同(海洋平台焊接)
- 二零二五年度临时工兼职合同
- 二零二五年度全屋定制家居装修合同
- 二零二五年度科研实验室租赁合同转让及设备维护协议
- 二零二五年度音乐节现场安全员聘请合同
- 二零二五年度乡村民宿房东与游客租赁合同
- 肺部感染临床路径
- 电商平台定价策略优化
- 人美版美术 二年级下册全册教学设计(表格式)
- 保险经纪人考试题库含答案
- 2024-2030年中国骨传导耳机行业销售渠道及供需前景预测报告
- 2024年导游服务技能大赛《导游综合知识测试》题库及答案
- 专项训练-解决问题训练(专项训练) 六年级下册数学人教版
- 心肺复苏技能操作考核表
- SHT 3060-2013 石油化工企业供电系统设计规范
- 2024年俄罗斯高空作业平台车行业应用与市场潜力评估
- 芜湖2024年安徽芜湖传媒中心招聘编外工作人员5人笔试历年典型考题及考点附答案解析
评论
0/150
提交评论