![数据挖掘实验报告六_第1页](http://file4.renrendoc.com/view/e5da438d566521f0fe0437664a6e99c5/e5da438d566521f0fe0437664a6e99c51.gif)
![数据挖掘实验报告六_第2页](http://file4.renrendoc.com/view/e5da438d566521f0fe0437664a6e99c5/e5da438d566521f0fe0437664a6e99c52.gif)
![数据挖掘实验报告六_第3页](http://file4.renrendoc.com/view/e5da438d566521f0fe0437664a6e99c5/e5da438d566521f0fe0437664a6e99c53.gif)
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
实验六:文本分类及分析实验步骤1.学习并掌握命令行调用Weka。如:相关语句,流程等打开“SimpleCLI”模块或cmd窗口下将路径切换到weka安装目录下,我们以BP神经网络为例:javaweka.classifiers.functions.MultilayerPerceptron后跟参数,以下为每个参数的说明:-t:训练集文件-T:测试集文件-X:交叉验证时,将训练集分成的份数N,N-1作为训练集,一份作为测试集-d:将模型保存到的文件-1:使用的现有模型的路径文件-A:设置是否自动创建隐藏层-B:是否将norminal转为二进制-I:设置是否对输入属性值进行归一化处理-G:是否GUI显示-H:隐藏层节点个数设置-S:随机值种子-N:循环次数,即对所有训练集数据做的循环-M:momentum值-L:学习率-E:threshold,用于控制当连续threshold次误差都比上次误差大时,停止迭代-D:用于设置随着循环次数的增加时降低学习率值-R:是否重置网络-0:不打印模型-xml:从xml文件中加载参数2.给定路透社新闻语料文本,对其进行文本分类。要求:看懂数据集;选择合适分类器;正确分类我的包含数据的文件夹名为test和training,其中包含10个子文件夹,就是10个分类的类名(如果是3个分类就3个子文件夹)。每个子文件夹中包含多个文件,每个文件中的内容就是一条语料。在Weka的SimpleCLI中运行下面这条命令,我的文件夹是在d盘根目录下,运行成功后,将生成d:/test.arff与d:/training.arff这个文件。javaweka.core.converters.TextDirectoryLoader-dird:/test>d:/test.arffjavaweka.core.converters.TextDirectoryLoader-dird:/training>d:/training.arff打开training.arff文件,并在分类器里选择使用测试集,并选择test.arff,选择分类器为FilteredClassifier,并在其中设置过滤器为StringToWordVector进行分类;
Qweka.gui.GenericObjectEditor X^eka.classifiers.meta.FilteredClasEifierAboutClassforrunninganarbitraryclassifierondatathathasbeenpassedthroughanarbitraryfilter.MoreCapabilitiesOpen...Save...OKCancel实验结果如下:limetakentctestmodelonsuppliedtests-et:0.74seconds===SmundEy===Cor-rectlyC^lassizziedInstancesIncorrectlyCLassiziedInat日nue日Kappastatistic.MeanabacluteerrorRoot皿亡bfl日quBrEderrorRelatiYEabaeluteerrorRootrelative 亡匚ui□匚lotalITuiribercfIns
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 服装纺织行业的顾问工作总结
- 2025年全球及中国无人值守汽车衡亭行业头部企业市场占有率及排名调研报告
- 2025年全球及中国化学镀镍 PTFE 涂层行业头部企业市场占有率及排名调研报告
- 2025年全球及中国一体式旋转变压器行业头部企业市场占有率及排名调研报告
- 2025-2030全球软组织水平种植体行业调研及趋势分析报告
- 2025-2030全球保险业的低代码和无代码 (LCNC) 平台行业调研及趋势分析报告
- 2025年全球及中国加热架式食物加热器行业头部企业市场占有率及排名调研报告
- 2025年全球及中国商用车气制动防抱死制动系统行业头部企业市场占有率及排名调研报告
- 2025年全球及中国热水浴缸用换热器行业头部企业市场占有率及排名调研报告
- 2025年全球及中国变电站智能巡视解决方案行业头部企业市场占有率及排名调研报告
- 2025年人教五四新版八年级物理上册阶段测试试卷含答案
- 2025新人教版英语七年级下单词表(小学部分)
- 2025年春季1530安全教育记录主题
- 矿山2025年安全工作计划
- 基本药物制度政策培训课件
- 2025年包装印刷项目可行性研究报告
- 2025年九年级物理中考复习计划
- 企业融资报告特斯拉成功案例分享
- 合资经营工厂合同范本
- 2024年新疆(兵团)公务员考试《行测》真题及答案解析
- 2024年《论教育》全文课件
评论
0/150
提交评论