基于加权策略的SVM多元分类器_第1页
基于加权策略的SVM多元分类器_第2页
基于加权策略的SVM多元分类器_第3页
基于加权策略的SVM多元分类器_第4页
基于加权策略的SVM多元分类器_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于加权策略的SVM多元分类器

华南理工大学信息网络工程研究中心广东省计算机网络重点实验室

曹鸿董守斌张凌全国搜索引擎与网上信息学术研讨会目录算法描述传统一对多(OVA)方法加权阈值策略(OVA-WWT)系统模块实验结果结论传统OVA(One-Vs-All)方法:主要思路主要思路训练N个不同的二元分类器,第i个分类器用第i类中的训练样本作为正的训练样本,而将其他样本作为负的训练样本当对一个新文档进行分类时,分别运行N个二元分类器,选择输出相似度值最大的那个分类器的结果传统一对多(OVA)方法:形式化描述给定个l训练样例(,),…(,),其中,i=1,…l,且是xi的类标签,则第i个SVM分类器要解决下面的最优化问题:

用下面的k个决策方程计算x与k个类别的相似度:

最终判定x隶属于决策方程输出相似度最高的那个类别:Classofx=阈值策略阈值策略:把一篇文档归属到某些相关类别中的方法RCut、PCut和SCut传统OVA使用的是RCut策略传统一对多(OVA)方法:缺点1)比较文档对N个类别的相似度,简单地取相似度最大的那个类别,由于这N个相似度是由N个不同的分类器产生,简单地取最大值作为阈值策略并不合适;2)对所有类别一视同仁,而实际上,有些类别属于“弱势类”,其类别信息容易被“强势类”所淹没,导致“弱势类”文档被误分到“强势类”中的不公平现象。本文对OVA的改进提出加权阈值策略(WeightedRCut:WRCut)通过给不同类别的相似度结果赋以一定的权重值后再进行比较,实现“弱势类”和“强势类”之间的势力均衡,以消除使用单一的RCut策略所造成的不公平现象目录算法描述传统一对多(OVA)方法加权阈值策略(OVA-WWT)系统模块实验结果结论加权阈值策略(OVA-WWT)算法描述:先解SVM最优化问题,用决策方程计算出文档对N个类别的相似度,再对各类别运用WRCut阈值策略,文档x属于加权相似度最大的类别Classofx=

ai也可以通过对训练集的学习而得。目录传统一对多(OVA)方法加权阈值策略(OVA-WWT)系统模块实验结果结论系统模块结构构目录算法描述传统一对多((OVA)方方法加权阈值策略略(OVA-WWT)系统模块实验结果结论实验结果数据集:北京京大学网络实实验室提供的的CWT100G数据集集之200M训练集(11个类别))模型:200M数据的2/3用于构构建分类器模模型,剩余1/3作开放放测试集进行行分类测试。。SVM使用用线性核函数数。评测标准:微微平均准确率率、宏平均准准确率、宏平平均召回率、、宏平均F1值和时间,,其中时间是是包括训练和和分类的总时时间实验结果1::分类器的比比较(1)分类方法微平均准确率(%)宏平均准确率(%)宏平均召回率(%)宏平均F1(%)时间(s)SVMmultic64.3527.1925.6526.401795.53SVMTorch44.3575.6135.9548.7325034.3RainbowSVM80.1376.9575.7376.3313205.5MSVMlight88.6490.7085.9988.311108.5实验结果1::分类器的比比较(2)性能曲线图时时间柱状图图实验2:阈值值策略的比较较(1)对WRCut中各类别的的权重值,本本文将训练集集随机划分为为训练-训练练集(占3/4)和训练练-测试集((占1/4)),从经验值值出发,在反反复训练的过过程中自动调调整权重值。。权重调整范围围为0.9~1.9,每每个类的权重重分别递增0.1,当权权重的增加使使得精度下降降时,该权重重减0.1,,取宏观F1达到最大值值时各类别所所得权重,总总训练时间为为58.587秒,这个个时间对总训训练时间而言言是可忽略的的。实验2:阈值值策略的比较较(2)类别编号类别权重值01人文与艺术1.903商业与经济1.704娱乐与休闲1.905计算机与因特网1.907教育1.908各国风情0.910自然科学0.911政府与政治1.912社会科学1.913医疗与健康1.914社会与文化1.1经过学习得到到的11个类类别各自的权权重值实验2:阈值值策略的比较较(3)RCut策略略与WRCut策略精度度比较曲线目录算法描述传统一对多((OVA)方方法加权阈值策略略(OVA-WWT)系统模块实验结果结论结论本文提出了一一对多算法的的改进版本OVA-WWT算法基于OVA-WWT和SVMlight二元分分类算法,实实现了SVMlight的多元分类类器MSVMlight。在CWT100G上进行行了一系列开开放性实验,,通过与多种种分类器进行行性能比较,,证明对CWT100G数据集而言言,MSVMlight在准确率和和时间性能要要优于其他三三种分类器。。针对CWT100G数据据集进行阈值值策略选择实实验,结果表表明,OVA-WWT算算法比OVA算法精度要要高缺点:类别权权重的训练需需要花费额外外时间,但是是对于大规模模数据的训练练和分类而言言,以可忽略略的时间换来来精度的显著著提高是值得得的谢谢大家!9、静夜四无无邻,荒居居旧业贫。。。12月-2212月-22Friday,December23,202210、雨中黄叶叶树,灯下下白头人。。。05:16:5505:16:5505:1612/23/20225:16:55AM11、以我独沈久久,愧君相见见频。。12月-2205:16:5505:16Dec-2223-Dec-2212、故人江海别别,几度隔山山川。。05:16:5505:16:5505:16Friday,December23,202213、乍见翻翻疑梦,,相悲各各问年。。。12月-2212月-2205:16:5505:16:55December23,202214、他乡生生白发,,旧国见见青山。。。23十十二月20225:16:55上午午05:16:5512月-2215、比不不了得得就不不比,,得不不到的的就不不要。。。。。十二月月225:16上上午午12月月-2205:16December23,202216、行动动出成成果,,工作作出财财富。。。2022/12/235:16:5605:16:5623December202217、做前前,能能够环环视四四周;;做时时,你你只能能或者者最好好沿着着以脚脚为起起点的的射线线向前前。。。5:16:56上上午5:16上上午午05:16:5612月月-229、没有有失败败,只只有暂暂时停停止成成功!!。12月月-2212月月-22Friday,December23,202210、很很多多事事情情努努力力了了未未必必有有结结果果,,但但是是不不努努力力却却什什么么改改变变也也没没有有。。。。05:16:5605:16:5605:1612/23/20225:16:56AM11、成功就是是日复一日日那一点点点小小努力力的积累。。。12月-2205:16:5605:16Dec-2223-Dec-2212、世间成事,,不求其绝对对圆满,留一一份不足,可可得无限完美美。。05:16:5605:16:5605:16Friday,December23,202213、不知香积积寺,数里里入云峰。。。12月-2212月-2205:16:5605:16:56December23,202214、意意志志坚坚强强的的人人能能把把世世界界放放在在手手中中像像泥泥块块一一样样任任意意揉揉捏捏。。23十十二二月月20225:16:56上上午午05:16:5612月月-2215、楚塞三湘湘接,荆门门九派通。。。。十二月225:16上上午12月-2205:16December23,202216、少少年年十十五五二二十十时时,,步步行行夺夺得得胡胡马马骑骑。。。。2022/12/235:16:5605:16:5623December202217、空山新雨后后,天气晚来来秋。。5:16:56上午5:16上上午05:16:5612月-229、杨柳柳散和和风,,青山山澹吾吾虑。。。12月月-2212月月-22Friday,December23,202210、阅读一切切好书如同同和过去最最杰出的人人谈话。05:16:5605:16:5605:1612/23/20225:16:56AM11、越是没有有本领的就就越加自命命不凡。12月-2205:16:5605:16Dec-2223-Dec-2212、越是无能能的人,越越喜欢挑剔剔别人的错错儿。05:16:5605:16:5605:16Friday,December23,202213、知人者智,,自知者明。。胜人者有力力,自胜者强强。12月-2212月-2205:16:5605:16:56December23,202214、意志坚坚强的人人能把世世界放在在手中像像泥块一一样任意意揉捏。。23十十二月20225:16:56上上午05:16:5612月月-2215、最具具挑战战性的的挑战战莫过过于提提升自自我。。。十二月月225:16上上午午12月月-2205:16December23,202216、业余余生活活要有有意义义,不不要越越轨。。2022/12/235:16:5605:16:5623December202217、一个人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论