版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
实验3数据预处理信息管理学院2023/2/2江西财经大学信息管理学院数据挖掘课程组1去除无用属性通常对于数据挖掘任务来说,像ID这样的信息是无用的,可以将之删除。选中属性,点击“Remove”。将新的数据集保存,并重新打开。2023/2/2江西财经大学信息管理学院数据挖掘课程组2数据预处理preprocess——过滤器在WEKA中数据预处理工具称作过滤器,也称为筛选器(filters)。所有的过滤器都是将输入数据集进行某种程度的转换,转换为适合数据挖掘的形式。选择某个过滤器之后,过滤器的名字及默认参数会出现在Choose按钮旁的输入框内,通过单击该框可以在通用对象编辑器中设置其属性。过滤器以及参数都会以命令行的方式显现在输入框,仔细观察和研究这些过滤器和参数设置,是学习如何直接使用Weka命令的好方法。Weka将无监督和有监督两种过滤方法分开处理,每种类型又细分为属性过滤器和实例过滤器。使用有监督的过滤器时,如果将训练得到的良好间隔施加到测试集中,可能会使结果出现偏倚,必须非常小心,以确保评估结果的公平性。然而,由于无须经过训练,无监督过滤器就不会出现这个问题。预处理使用较多的是无监督的过滤器。在Filter标签之下有一个Choose(选择)按钮,点击该按钮可以选择一个过滤器,如下图所示。按钮的右侧是过滤器输入框,用于设置所选择的过滤器的参数。一旦选定过滤器后,其名称和参数都会显示在过滤器输入框内。在框内单击鼠标左键会弹出一个通用对象编辑器对话框一旦选择并配置一个过滤器后,就可以将其应用到数据集。点击位于预处理面板中Filter子面板右端的Apply按钮,预处理面板会显示转换后的数据信息。如果对结果不满意,可以点击Undo按钮撤消转换,还可以点击“Edit...”按钮在数据集编辑器里手动修改数据。如果满意修改后的结果,可以点击预处理面板右上角的“Save...”按钮,将当前关系以文件格式进行保存,以供将来使用。一旦选定过滤器后,其名称和参数都会显示在过滤器输入框内。在框内单击鼠标左键会弹出一个通用对象编辑器对话框一旦选择并配置一个过滤器后,就可以将其应用到数据集。点击位于预处理面板中Filter子面板右端的Apply按钮,预处理面板会显示转换后的数据信息。如果对结果不满意,可以点击Undo按钮撤消转换,还可以点击“Edit...”按钮在数据集编辑器里手动修改数据。如果满意修改后的结果,可以点击预处理面板右上角的“Save...”按钮,将当前关系以文件格式进行保存,以供将来使用。2023/2/2江西财经大学信息管理学院数据挖掘课程组8为数据库添加一个新的属性,新的属性将会包含所有缺失值。可选参数:attributeIndex:属性位置,从1开始算,last是最后一个,first是第一个attributeName:属性名称attributeType:属性类型,一般是4选1dateFormat:数据格式,参考ISO-8601nominalLabels:标称标签,多个值用逗号隔开示例:Add2023/2/2江西财经大学信息管理学院数据挖掘课程组9ADD添加一个新属性2023/2/2江西财经大学信息管理学院数据挖掘课程组10ADD添加一个新属性注意:这里修改的内存中的文件,可用Undo撤销,要想修改外存中保存的文件,则必须点Save保存或另存为。2023/2/2江西财经大学信息管理学院数据挖掘课程组11AddUserFields添加属性(可添加多个)2023/2/2江西财经大学信息管理学院数据挖掘课程组12AddValues2023/2/2江西财经大学信息管理学院数据挖掘课程组13通过Edit为新添加的属性赋值2023/2/2江西财经大学信息管理学院数据挖掘课程组14AddID2023/2/2江西财经大学信息管理学院数据挖掘课程组15Remove在区域5选中属性,然后点击下面的Remove按钮。2023/2/2江西财经大学信息管理学院数据挖掘课程组16Reorder数据离散化有些算法(如关联分析),只能处理标称型属性,这时候就需要对数值型的属性进行离散化。对取值有限的数值型属性可通过修改.arff文件中该属性数据类型实现离散化。例如,在某数据集中的“children”属性只有4个数值型取值:0,1,2,3。我们直接修改ARFF文件,把
@attributechildrennumeric
改为
@attributechildren{0,1,2,3}
就可以了。在“Explorer”中重新打开“bank-data.arff”,看看选中“children”属性后,区域6那里显示的“Type”变成“Nominal”了。2023/2/2江西财经大学信息管理学院数据挖掘课程组17数据离散化对取值较多的数值型属性,离散化可借助WEKA中名为“Discretize”的Filter来完成。在区域2中点“Choose”,出现一棵“Filter树”,逐级找到“weka.filters.unsupervised.attribute.Discretize”,点击。现在“Choose”旁边的文本框应该显示“Discretize-B10-M-0.1-Rfirst-last”。点击这个文本框会弹出新窗口以修改离散化的参数。2023/2/2江西财经大学信息管理学院数据挖掘课程组18数据离散化(1)attributeIndices:属性下标。选择要离散化的属性,将其下标号以逗号隔开;(2)bins:决定将数据离散化为几段;(3)desiredweightofinstancesperinterval:对等频离散化来说每个间隔所需的实例权重(个数);(4)findNumBins:如果设置为True,则对于等距离离散化找到最优的段数,对等频离散化无作用;(5)ignoreClass:如果设置为True,则过滤器使用之前,没有设置class属性;(6)InvertSelection:集属性选择模式。如果设置为False,只有选择(数字)范围内的属性将被离散的,否则只有非选定的属性将被离散;(6)MakeBinary:如果设置为True,则变为二进制;(7)UseEqualFrequency:等频离散化,如果设置为true,则使用等频离散化,否则使用等距离离散化。2023/2/2江西财经大学信息管理学院数据挖掘课程组19标准化、归一化weka.filters.unsupervised.attribute.Normalize2023/2/2江西财经大学信息管理学院数据挖掘课程组202023/2/2江西财经大学信息管理学院数据挖掘课程组21Normalize(weather.numeric.arff)2023/2/2江西财经大学信息管理学院数据挖掘课程组22Normalize结果2023/2/2江西财经大学信息管理学院数据挖掘课程组23MakeIndicator标称属性转换为二元属性2023/2/2江西财经大学信息管理学院数据挖掘课程组24Add:添加属性AddID:插入一个数字序号标识符属性,标识符主要是便于跟踪。Remove:删除属性AddExpression:过滤器通过将一个数学函数应用于数值型属性而生成一个新的属性,支持运算符如下:+,-,*,/,pow,log,abs,cos,exp,sqrt,tan,sin,ceil,floor,rint,(,),A,MEAN,MAX,MIN,SD,COUNT,SUM,SUMSQUARED,ifelse。MathExpression:类似于AddExpression,支持的运算更多。AddCluster:先将一种聚类算法应用于数据,然后进行过滤。用户通过编辑器选择聚类算法。无监督属性过滤器:添加和删除属性2023/2/2江西财经大学信息管理学院数据挖掘课程组25Reorder:重新排列属性,输入2-last,1可以让第一项排到最后,如果输入1,3,5的话…其他项就没有了。InterquartileRange:过滤器添加新属性,以指示实例的值是否可以视为离群值或者极端值。无监督属性过滤器:重新排序2023/2/2江西财经大学信息管理学院数据挖掘课程组26SwapValue:交换同一个标称属性的两个值的位置。MergeTwoValues:将一个标称属性的两个值合并为一个单独的类别,新的名称是两个原有值的字符串的链接。ReplaceMissingValues:替代缺失值。NumbericCleaner:使用默认的值取代数值属性中值太大、太小或者接近于某一个特定值。无监督属性过滤器:改变值2023/2/2江西财经大学信息管理学院数据挖掘课程组27MakeIndicator:将标称属性转换为二元指示符属性,将用于多个数据集转换为多个类别的数据集。StringToNominal:用一组值将其转换为标称型。ChangeDateFormat:更改用于解析日期属性的格式化字符串,可以指定Java的SimpleDateFormat类支持的所有类型的格式。无监督属性过滤器:转换2023/2/2江西财经大学信息管理学院数据挖掘课程组28Center:将数值化属性的平均化为0。Standardize:这个和Center功能大致相同,多了一个标准化单位变异数。Normalize:规范化整个实例集。无监督属性过滤器:规范化2023/2/2江西财经大学信息管理学院数据挖掘课程组29Discretize:简单划分的离散化处理。参数:attributeIndices:属性范围,如1-5,first-lastbins:桶的数量无监督属性过滤器:离散化2023/2/2江西财经大学信息管理学院数据挖掘课程组30Resample:随机抽样,从现有样本产生新的小样本Randomize:用于将数据中实例进行随机重排。RemovePercentage:删除数据集中给定百分比的实例。RemoveFrequentValues:删除满足某个标称型属性值最经常或者最不经常使用的对应的实例。SubsetByExpression:满足用户提供的表达式的所有实例。无监督实例过滤器:采样2023/2/2江西财经大学信息管理学院数据挖掘课程组31NonSparseToSparse:全部输入实例转换为稀疏格式。SparseToNonSparse:将稀疏格式的实例转换为非稀疏格式。无监督实例过滤器:稀疏矩阵有监督属性过滤器:离散化weka.filters.supervised.attribute.DiscretizeDiscretizationisbyFayyad&Irani'sMDLmethod(thedefault)Or
UseKononenko'sMDLcriterion.2023/2/2江西财经大学信息管理学院数据挖掘课程组32UsamaM.Fayyad,KekiB.Irani:Multi-intervaldiscretizationofcontinuousvaluedattributesforclassificationlearning.In:ThirteenthInternationalJointConferenceonArticialIntelligence,1022-1027,1993.IgorKononenko:OnBiasesinEstimatingMulti-ValuedAttributes.In:14thInternationalJointConferenceonArticialIntelligence,1034-1040,1995.相关性分析Excel卡方检验Pearson相关系数2023/2/2江西财经大学信息管理学院数据挖掘课程组33CHITEST用于从分类变量资料直接求得相应的频率分布,即我们所追求的P值,已经包含了分类变量资料的频数和自由度(degreesoffreedom,简称df,等于(r-1)(c-1)),所以可以直接判定检验假设是否成立。CHIINV则是一个逆运算,其作用是从频率分布反求相应的χ2值,所以除了频率分布参数外,必须使用自由度参数df。CHIDEST与CHITEST则有异曲同工之妙,所不同的是它是由统计量χ2值求取频率分布,所以也要用到自由度2023/2/2江西财经大学信息管理学院数据挖掘课程组34实验任务
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园后勤工作计划024年
- 小学第一学期体育教学工作计划
- 2025员工个人年终工作总结及计划
- 《塑胶模具知识》课件
- 《塑料模具与设备》课件
- 航天智慧农业 人才合同
- 工地买保险的劳务合同
- 《外科护理复习要点》课件
- 2025年贵港货运资格证模拟考试
- 2025年果洛货运资格证模拟考试题库下载
- 国开本科《城市管理学》期末考试题库及答案
- 进修骨科汇报课件
- 中职班级建设方案课件
- 2023年广东能源集团校园招聘考试真题及答案
- 【良品铺子应收账款现状及其风险分析(论文10000字)】
- 高中物理必修一前两章测试题(含答案)
- 高三一模考试动员主题班会
- TB-T 3356-2021铁路隧道锚杆-PDF解密
- MOOC 基础生物化学-西北农林科技大学 中国大学慕课答案
- 2025届“新课程标准”下的中考道德与法治复习策略 课件
- 农村网格化矛盾纠纷
评论
0/150
提交评论