设计基于SVM文本分类器_第1页
设计基于SVM文本分类器_第2页
设计基于SVM文本分类器_第3页
设计基于SVM文本分类器_第4页
设计基于SVM文本分类器_第5页
免费预览已结束,剩余30页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于SVM互联网的飞速发展使得人们对信息的速度和规模达到史无前例文本分类技术是数据挖掘领域中的一项非常重要的任务,它能够帮助用户从SVM了。:文本分类,SVM算法,统计学习理论,分类DesignoftextclassifierbasedonTherapiddevelopmentoftheInternetmakespeopleofinformationcollection,disseminationspeedandscalereachedunprecedentedlevels,toachievetheglobalinformationsharingandinteraction.However,italsobringsmanysideeffects,suchasmassiveinformationsometimesmakepeoplefeelatlooseends,howtointheshortestpossibletimegettousersthemostusefulinformationhas ethehotspotofcurrentresearch.Textclassificationtechnologyofdatamininginthefieldofaveryimportanttask,itcanhelpusersfromthenumerousandcomplicatedinformationquicklyandccuraypositioningtheneededinformation.Thispaperwithtextclassifierfortheoverallmodel,mainlyincludingtextpreprocessing,featureselection,featurevectorextraction,classifiertrainingandtestandevaluationoftheclassificationperformance.Focusonfeatureselection,featurevectorextraction,textclassificationalgorithm.Secondly,themaincontentofstatisticallearningtheory,thebasicprincipleofSVMalgorithmanditsadvantages,andthecorefunctionsandotherhotissuesare识工程技术的方法;801.2.2国内对于文本分类的研究起步较晚。1980年,候汉清教授从计算机管理分朱兰娟等教授对基于词典法的分类系统进行了研究邓要武等教授对基于系n-gram19901998Joachims(SVM),SVM的发展现出现贝叶斯理论稀近理论等对于支持向量机模型的性能完善有了很大帮助算法、One-classSVMRSVMWSVMLSSVM文本组织本主要对基于SVM的文本分类系统中的特征选择和特征向量提取进行第二章支持向量机的发展应用以及整个的组织结构文本分类文本分类预处理(预处理(去停用文本分类训练过 文本分类测试过2.1文本的预到结构作用而没有什么实际含义。比如the、a、an、that、those帮助描述名词的限定词,over、under、above、in、on排序,词频(termfrequency,TF),是指给定单词在该文件中出现的次数,使用出现频率较高的NNBFS和模式串T,利用计数指针ij前字符位置。从主串Sn1;1。这种方法易操作、直观、简单,每次只处理一个单词占用空间小且稳定但其消耗的时间与集合的大小成正比,2,树的每个节点不是包含一个或几个关键字,而是含有组成关键字的符号。词频统计时,对集合中的每个各个词的相关信息。此方法的分为两部分:树的构造算法和词频统计算法文本的特征表对模型和向量空间模型这两种特征表示的方法做一简单介绍。(Boolean)模型是基于集合论和代数的一种比较简单的文本表示1,0。缺点是对于一篇待分类的样本,只有相关和不相关两种状态,限制了文本的检索性能。另外,很难将用户所需的查询信息转换成表达式。、一个文本所属的类型只与其出现的频率有关而与它出现的先后次序的没有关系的,文本的长度、上下文关系位置以及出现的顺序都、目前文本表示最常用的方法是向量空间模型(VectorSpaceModel,简称VSM(featureterm):能准确表示文本特征的单词。一个文章可以被看特征项权重 weight):表示该特征项对于文本分类的重要程度D(,)),wk。2.11word word…wordFile…File…File……… ……File 在词频矩阵中,word第ij文本的特征选增加了分类时间,并且很大程度降低了文本分类的性能。在高中,一部分文本的特征向量TF-IDF(termfrequency-inversefrequency)词频-反转文件频率,的能力越强。TFtdIDFtIDFt(2-(2-(2-反应文本信息的能力越重就越大,反之,越小文本分类是基于机器学习的方法。大致可分为三类:1.基于统计的方法,如K近邻,朴素KK(K-NearestNeighbor,KNN)分类算法,是数据挖掘分类技术中这K0。KNN算法的思想是:如果一个样本在特征空间中的k个最相邻的样本,KNNKNN定其所属类别因此对于类域的交叉或者较多的待分类样本集来说KNN方法较其他方法更为适合。x、的pxp(x)p()SVMVapnik使得正例和反例之间的边缘被最大化该算法以统计学习理论(即泛化误差率以训练误差率和一VCSVMx(i)和输入空间抽取的向量x输出输入2.2决策(decisiontree)是一个模型运用树状图表示各决策的期望值,T1 F2.3人工神经网络(ArtificialNeuralNetworksANNs),也简称为神经网络(NNs)或称作连接模型(ConnectionModel),它是一种模仿动物神经网连接权值连接而成,具有大规模并行处理、分布式信息、良好的自组织自输入 隐含 输出图 性能评价指性能评价是文本分类中的重要环节。主要是率(recall)、准确(precision)、以及用于评价全局性能的宏平均(macro-average)(micro-average)10,2.21AB标记为0的文 率R准确率P指标是互补的,想要提高准确率,率就会将低,反之亦然。宏平均是每一类的分类性能指标的算术平均值宏平均用MP和MR表示宏观均用mP和mR表示微观查准率和微观查全率,用代表类别i中所检索到的文本数,代表被分类器错分给类别ii1统计学习VCVC维是统计学习理论的一个概念,它描述了函数集或学习器的复杂或者学习能力的一个重要指标。VC就越强。VCVCh2^hhh+1VC维就是h。若对于任意的样本VC3.33.1R^23.2R^2R^2VC其中h是函数集的VC,nVCVC如果一个学习器的函数集的维数为h,训练样本的数量为n,当较小时以通过式3.1和式3.2来证明。当样本较多,即较大时,置信范围就会很小,经在结构风险最小化中,先把函数集支持向量1,如果属于负类,大化。SVM3.3存在最优超平面,使得令到该超平面的最小距离为。SVM量和偏置b,3.7VapnikVC式中rSVMVC一组新的非负变量来处理不可分的样本点,也称为松弛变量。把样本特征到高维特征空间中,如下图:令为输入空间的向量,则通过事先确定好的非线性函数,Lagrange3.43.4在支持向量机中,需要选择核函数K(),或者是一个(),把样本空间到一个高维甚至无穷维的特征空间中(Hilbert),使得在原来的样本是升维和线性化。选择不同的核函数或者不同的以及相应的Hilbert空间,相当于选择了不同的内积核函数将高的內积运算转化为低的核函数计算,巧妙地解决了“维数”等问题,并且核函数的运用,无需知道非线为了用线性的学习器学个非线性的关系,需要选择一个非线性特征集,其中,是从输入空间到某个特征空间的。所以,建立非学习器分两步,首先使用一个非线性将数据变换到新的特征空间H中,然后,在这个特征空间线性核函数径向基核函数:K(x,y)=exp(-|x-多分类问该方法是通过构造一系列二分类器来解决多分类问题的。对于k类分类问题构造kSVM分类器,其中iSVM器是通过将属于第i类的样本视为第i的第i的第i为了解决离散的不可分区域问题,Inoue和Abe提出了基于模糊决策函数的在给定的样本中,任意选取两个样本,构造一个二值的SVM分类器。K类问题将有k(k-1)/2SVM子分类器。将选取属于类别i和类别j的样本数据作为负。第ij那么就把归为第k类。如果有多个k值相等,则是不可分的。该算法存在的不可SVM在文本分类中的优势和VCSVM用内积的回旋巧妙地构造核函数,克服了特征空间中的维数问题,通过尽管在文本分类领域中,SVMSVM在训练分类器时,SVM们的存在还可能造成过学习,使泛化能力减弱。4、文本分类系统的设计与系统运行LIBSVM系统运行191其中高考45经济51军事50体育45四个类别各成一40篇,放在名为测试集的文件夹中,方便系统进试。所有语料库样本为英文文本,文本的格式为.txtLIBSVM工具箱的介LIBSVM是大学林智仁(LinChih-Jen)等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的包里面不但提供了编译好的Windows它操作系统上应用;该还有一个特点,就是对SVM所涉及的参数调节相对比供了交互检验(CrossValidation)的功能。该可以解决C-SVM分类、-SVMSVMSVM通过综合考虑,我决定采用该作为工作。SVM用于模式识别或回归时,SVM方法及其参数、核函数及其参数的选择,目前国际上还没有形成一个LIBSVM的使用步按照LIBSVM包所要求的格式准备数据集RBF采用交叉验证选择最佳参数Cg采用最佳参数Cg利用获取的模型进试与LIBSVM使用的数据格该使用的训练数据和检验数据文件格式如下<label><index1>:<value1><index2>:<value2>续的;<value>;为实数,也就是常说的自变量。检验数据文件中的label杜,.支持向量机及其算法研究[J].与信息化,SVM[D].陶兰,申军霞.文本信息自动分类系统ITC98(Ⅰ):ITC系统[J].中国学报,1999,4(4):74-侯汉清.分类法的发展趋势简论[J].科学,1981(1):58-于.中文文本分类相关算法的研究与实现[D].西学,叶志刚.SVM[D].哈尔滨工程大学,瓦普.统计学习理论的本质[M].,SVM[J].学术交流,2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论