数据挖掘实验报告-实验1-Weka基础操作_第1页
数据挖掘实验报告-实验1-Weka基础操作_第2页
数据挖掘实验报告-实验1-Weka基础操作_第3页
数据挖掘实验报告-实验1-Weka基础操作_第4页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、学生实验报告学院:信息管理学院课程名称:数据挖掘教学班级:B01姓名:学号:实验报告课程名称数据挖掘教学班级B01指导老师学号姓名行政班级实验项目实验一: Weka的基本操作组员名单独立完成实验类型操作性实验验证性实验综合性实验实验地点H535实验日期1. 实验目的和要求:( 1) Explorer 界面的各项功能;注意不能与课件上的截图相同,可采用打开不同的数据文件以示区别。( 2) Weka的两种数据表格编辑文件方式下的功能介绍;Explorer-Preprocess-edit,弹出 Viewer 对话框;Weka GUI选择器窗口 -Tools | ArffViewer,打开 ARFF-

2、Viewer 窗口。( 3) ARFF文件组成。2实验过程(记录实验步骤、分析实验结果)2.1 Explorer界面的各项功能初始界面示意其中: explorer 选项是数据挖掘梳理数据最常用界面,也是使用weka 最简单的方法。Experimenter :实验者选项,提供不同数值的比较,发现其中规律。KnowledgeFlow :知识流,其中包含处理大型数据的方法,初学者应用较少。Simple CLI:命令行窗口,有点像cmd 格式,非图形界面。进入 Explorer界面功能介绍(1)任务面板Preprocess(数据预处理) :选择和修改要处理的数据。Classify (分类):训练和测试

3、分类或回归模型。Cluster(聚类):从数据中聚类。聚类分析时用的较多。Associate(关联分析) :从数据中学习关联规则。Select Attributes (选择属性):选择数据中最相关的属性。Visualize (可视化):查看数据的二维散布图。(2)常用按钮Openfile :打开文件Open URL :打开 URL 格式文件Open DB :打开数据库文件Generate:数据生成Undo:撤销操作Edit :编辑数据Save:保存数据文件,可实现文件格式的转换,比如csv 格式文件向ARFF 格式文件转换等等。(3)筛选数据Choose:从这个按钮进去可以选择某个过滤器对数据

4、进行筛选,数据预处理一般使用这个。Apply :处理完成后,点击这个按钮,处理生效。( 4)数据集的属性关系和操作current relation :展示了属性的(relation )关系名称 ,(attributes) 属性数, (Insetances)实例数, (sum ofweights) 权重的总和等多种属性关系。Attributes :展示了属性的所有列, 上边的四个按钮是对属性列的快捷选择按钮,包括 (all) 全选,(none)全不选, (Ivert) 反选,(patern)模式,选择符合某一条件的属性列。最下边的remove 按钮可以删除选中的属性列,如果想撤回,可以使用上边提

5、到的undo 按钮 ( 5)属性摘要和直方图Selected attributes:如果是数值属性:属性名(Name)、属性类型( Type)、缺失值( Missing )个数及百分比、不同值(Distinct )数、唯一值(Unique )数及百分比等等。对于数值属性和标称属性,摘要的方式是不一样的。图中显示的是标签的取值及相应取值的实例数。选中属性的直方图。若数据集的最后一个属性是类标变量(这是分类或回归任务的默认目标变量,如 “play ”),直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。要想换个分段的依据,在上方的下拉框中选个不同的分类属性就可以了。下拉框里选上“No Cl

6、ass或”者一个数值属性会变成黑白的直方图。Visualize :展示所有的属性的直方图( 6)状态栏( status)显示一些信息让你知道正在做什么。在状态栏中的任意位置右击鼠标将会出现一个小菜单。有两个选项:Memory Information- 显示 WEKA 可用的内存量。Run garbage collector- 强制运行Java 垃圾回收器,搜索不再需要的内存空间并将之释放,从而可为新任务分配更多的内存。Log :按钮可以查看以weka 操作日志。没有任务时,右边的小鸟是坐着的,任务运行时,小鸟会站起来左右摇摆。若小鸟站着但不转动,表示任务出了问题。引例操作显示功能( 1)2.2

7、 weka 的两种数据表格编辑方式下的功能介绍Explorer-Preprocess-edit,弹出 Viewer 对话框;1、 双击鼠标可以对数据进行修改,2、 在数据上使用右键可以对数据修改进行撤回(undo)3、 对数据修改之后,如果想保存,点击下方的ok,撤回点击undo,不保存直接点击cancelWeka GUI选择器窗口 -Tools | ArffViewer,打开 ARFF-Viewer 窗口。1、 在最开始进入界面点击上边的tools,进入arffviewer 。2、 点击打开不同的文件,会在上沿像浏览器一样挨个展示arff文件的内容。3、 鼠标移动到属性名称旁边是会显示对属性

8、列操作的格式,单机左键会对所有数据按照这个属性按照升序排列, ( shift + 左键)会对属性按照这个属性进行降序排列,( Alt+ 左键)或者直接右键出现对数据进行操作的菜单,对属性列进行重命名,所有数据相加之类的操作都可以在菜单中找到。4、 鼠标定在某行时,可以删除某一行5、 有点像 excel 中的操作2.2ARFF 文件组成、对文件格式介绍WEKA 存储数据的格式是ARFF ( Attribute-Relation File Format )文件1、 这是一种 ASCII 文本文件2、 文件的扩展名为.arff3、 可以用写字板打开、编辑ARFF 文件。建议用UltraEdit 等编

9、辑器使用写字板打开时如下“%”表示注释, WEKA 将忽略这些行。除去注释后,整个ARFF 文件可以分为两个部分:( a)第一部分给出了头信息(Head information),包括了对关系的声明和对属性的声明。( b)第二部分给出了数据信息( Data information),即数据集中给出的数据。从 “data”标记开始,后面的就是数据信息了。关系名称在ARFF 文件的第一个有效行来定义,格式为:relation < 关系名 ><关系名 >是一个字符串。如果这个字符串包含空格,它必须加上引号(指英文标点的单引号或双引号) 。属性声明用一列以“attribute

10、开”头的语句表示。数据集中的每一个属性都有对应的“attribute 语”句,来定义它的属性名称和数据类型( datatype):attribute < 属性名 > <数据类型 >其中 <属性名 >必须以字母开头的字符串。和关系名称一样,如果这个字符串包含空格,它必须加上引号。属性声明语句的顺序很重要,它表明了该项属性在数据部分的位置。最后一个声明的属性被称作class 属性,在分类或回归任务中,它是默认的目标变量。WEKA 一共支持五种数据类型numeric数值型nominal标称( nominal )型string字符串型date <date-fo

11、rmat>日期和时间型Relational关系型还可以使用两个类型“integer和”“real,”但是 WEKA 把它们都当作 “numeric 看”待。注意: “integer,”“real,”“numeric,”“date,”“string这”些关键字是区分大小写的,而 “relation、”“ attribute 和 “ ”data则”不区分。每个实例占一行,实例的各属性值用逗号“,隔”开。如果某个属性的值是缺失值( missing value ),用问号 “?表”示,且这个问号不能省略。文件转 arff 文件(1)创建 xls 文件,保存为csv 文件(2)weka中打开 csv 格式的文件, 另存为 arff 文件,因为在数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论