下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于mbnc的贝叶斯分类器实验平台的构建
1实验平台建设贝叶斯分类器是当前数据提取和研究的热点之一。贝叶斯分类器是一种特殊的贝叶斯网络。选择变量作为类变量,其他变量作为属性变量。为了测试和评估贝叶斯分类器的性能,需要对不同的数据集进行比较和试验。贝叶斯网络学习软件包通常用于特定的目的和算法,并且往往无法满足研究的需要。为了对不同数据集进行处理,需要建立一个完整的平台。在该平台上,不同的贝叶斯分类器需要实现,其他应用程序研究任务必须扩展到平台上。使用实验平台,研究人员可以主要关注贝叶斯网络学习算法的设计,而不考虑底层内容,提高研究效率。2mbrc实验平台MBNC(BayesianNetworksClassifierusingMatlab)实验平台在BNT提供的基本函数的基础上开发,可以完成数据的预处理、贝叶斯分类器结构学习和参数学习算法的研究实验、分类算法的准确性评估,并可以进一步研究分类算法的优化.MBNC实验平台包含如下5个模块.2.1数据集的整理标准测试数据集的格式是多样的,需要进行数据预处理.例如,删除或补齐缺失数据的记录,连续属性的值的离散化处理,忽略明显对分类的作用微小的属性等.数据预处理还包括识别各种格式的数据集,并转换为实验平台统一的格式,以及打乱数据集记录的次序等.2.2基于最大权重的学习算法贝叶斯分类器结构学习的目标是通过数据集训练,得到贝叶斯分类器的结构拓扑.其中,朴素贝叶斯分类器NBC(Na¿veBayesianClassifier)不需要进行结构学习;树扩展朴素贝叶斯分类器TANC(TreeAugmentedNa¿veBayesianClassifier)利用求最大权生成树算法,学习属性对之间的最大权重跨度树;贝叶斯网络分类器BNC(BayesianNetworkClassifier)的结构学习比较复杂,完全学习贝叶斯网络的结构是NP难问题,只能牺牲精度,采用启发式搜索来进行学习.例如,用K2算法,贪婪搜索GS算法等等.对于缺失数据处理,有EM算法和MCMC算法等.模型选择平均技术可解决选择单个结构而忽略模型结构的不确定性.MBNC实验平台的贝叶斯分类器结构用邻接矩阵表示.调用graphhviz图形可视化软件包,可以方便地显示贝叶斯分类器拓扑结构,还可分别以顶点和边的形式保存到文件中.2.3对mbrc实验平台的评价在确定贝叶斯分类器的拓扑结构基础上,参数学习模块进一步学习贝叶斯分类器结点的联合概率分布.MBNC实验平台的参数学习分为处理完整数据和处理缺失数据两类.对于完整数据,学习参数的方法主要有两种:最大似然性估计和贝叶斯方法;对于缺失数据,如果已知网络拓扑结构,用EM算法来计算参数,倘若未知网络拓扑结构,可以用的方法是SEM(StructuralEM)算法.2.4不同类型的互联网算法及其推理特性通过训练得到贝叶斯分类器的结构和参数后,分类模块根据已知证据节点,计算出所感兴趣的查询节点发生的概率.按推理方向划分有四种推理,分别是因果推理、诊断推理、支持推理和混合推理.NBC和TANC的结构是由类节点指向属性节点,其推理形式是诊断推理.而对于BNC,由于可以允许从属性节点到类节点有弧连接,其推理形式是混合推理.在MBNC实验平台上,有四种贝叶斯网络推理引擎,分别是联合树推理引擎、联合树全局推理引擎、信念传播推理引擎和变量消失推理引擎.其中,联合树全局推理的速度最快.2.5学习和测试场景在MBNC实验平台上实现了以下多种准确性评估方法.k叠交叉验证CVk(kfoldCrossValidation):一般用在最终建立的分类器中,或者数据集的规模较小的情况.CVk将初始数据集随机划分成k个互不相交的相同子集S1,…,Sk.学习和测试分别进行k次.在第i次迭代,Si集用作测试集,其余的子集合并用于训练分类器.保留验证方法(Holdout):用在最初实验性的场合,或者多于5000条记录的数据集中.保留验证将数据集随机分为训练集和测试集两个独立的集合.通常训练集取2/3的数据.局部标准尺度验证LC(LocalCriterion)和留一交叉验证LOO(LeaveOneOutCrossValidation)是特殊形式的CVk方法.LC依次训练前k-1个例子,然后测试第k个例子.LOO每次使用一个样本作为测试样本,其余的作为训练样本,是最严格最精确的评估方法之一.3实验结果的预处理为了验证MBNC实验平台的性能,对MBNC所建构的贝叶斯分类器家族的3类分类器NBC,TANC和BNC进行分类准确性评估.其中,NBC只需要学习参数.TANC结构学习的核心是由最大权重跨度树确定扩展弧.学习最大权跨度树采用基于互信息MI(MutualInformation)测度和基于条件互信息CMI(ConditionalMutualInformation)测度的两种算法.BNC采用K2结构学习算法和GS结构学习算法.采用基于打分的K2启发式搜索算法进行贝叶斯网络的结构学习.K2算法要求输入结点的次序,实现时取结点序列的倒序.求得网络结构后,再进行参数学习和分类器准确性评估.参数学习均采用BDeu(likelihoodequivalentuniformBayesianDirichlet)先验,采用全局联合树推理算法.数据集从UCI(UniversityofCaliforniainIrvine)下载.表1列出了经过预处理后的数据集概况(打*号的数据集表示与文献相同).不同的数据集是在相同的环境下进行运算的,结果见表2.第2行是与文献中相同的数据集比较,第3行是全部的24个数据集的平均结果.限于篇幅,详细数据略去.由表2第2行可知,MBNC实验平台的NBC分类准确率比文献相关数据集结果的平均值高1.59%,TANC-CMI比文献高2.97%,TANC-MI比文献高2.02%.综合表2可得:1)NBC和TANC的准确率均比相应文献的高;2)TANC的两种分类算法的准确率差不多,TANC-CMI高于TANC-MI;3)BNC介于NBC和TANC之间.实验结果与理论分析一致,表明基于MBNC实验平台设计的贝叶斯分类器是有效和正确的.图1从左到右依次列出了NBC,TANC-CMI,TANC-MI,BNC-K2和BNC-GS算法学习corral数据集得出的贝叶斯分类器的网络结构.Corral数据集是有6个属性的人工数据集,属性A跟B有关,C跟D有关,属性E与类结点不相关,属性F与类结点相关.NBC的分类准确率是86.4%.TANC-CMI算法考虑了类节点,能够比较准确地学习到网络的结构,其分类准确率是99.2%.未考虑类节点的TANC-MI算法分类准确率是84.0%.BNC的两种算法学习得到的网络结构虽然相差一条弧,但是均正确得到了节点间的依赖关系,其分类准确率都是100%.4实验结果和分析本文介绍了基于Matlab构建的贝叶斯分类器平台MBNC的系统结构、功能和特性,并在实验平台上实现了NBC,TANC以及BNC的结构学习和参数学习.经过测试,取得了较为理想的实验结果.针对同样的数据集,与以往文献使用的算法构建的贝叶斯分类器相比较,MBNC
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版ERP系统用户权限管理与审计合同3篇
- 基于二零二五年度计划的工业级无人机采购合同3篇
- 二零二五版电商产品包装设计与营销方案合同3篇
- 二零二五年港口集装箱租赁及维护服务合同规范3篇
- 二零二五版驾驶员与货运配送服务企业劳动合同3篇
- 二零二五年矿山企业矿产品环保评价采购合同3篇
- 二零二五版CFG桩施工质量保障合同协议2篇
- 二零二五版区块链技术应用定金及借款合同2篇
- 二零二五版出租车驾驶员权益保障合同3篇
- 二零二五年度遮阳棚安装与户外照明系统设计合同4篇
- 新概念英语第二册考评试卷含答案(第49-56课)
- 商业伦理与企业社会责任(山东财经大学)智慧树知到期末考试答案章节答案2024年山东财经大学
- 【奥运会奖牌榜预测建模实证探析12000字(论文)】
- (完整版)译林版英语词汇表(四年级下)
- 阻燃壁纸汇报
- 8 泵站设备安装工程单元工程质量验收评定表及填表说明
- 企业年会盛典元旦颁奖晚会通用PPT模板
- 污水管道工程监理控制要点
- 潮流能发电及潮流能发电装置汇总
- (高清正版)T_CAGHP 066—2019危岩落石柔性防护网工程技术规范(试行)
- 支票票样-样版
评论
0/150
提交评论