




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SVMTherapiddevelopmentoftheInternetmakespeopleofinformationcollection,disseminationspeedandscalereachedunprecedentedlevels,toachievetheglobalinformationsharingandinteraction.However,italsobringsmanysideeffects,suchasmassiveinformationsometimesmakepeoplefeelatlooseends,howtointheshortestpossibletimegettousersthemostusefulinformationhas ethehotspotofcurrentresearch.Textclassificationtechnologyofdatamininginthefieldofaveryimportanttask,itcanhelpusersfromthenumerousandcomplicatedinformationquicklyandccuraypositioningtheneededinformation.Thispaperwithtextclassifierfortheoverallmodel,mainlyincludingtextpreprocessing,featureselection,featurevectorextraction,classifiertrainingandtestandevaluationoftheclassificationperformance.Focusonfeatureselection,featurevectorextraction,textclassificationalgorithm.Secondly,themaincontentofstatisticallearningtheory,thebasicprincipleofSVMalgorithmanditsadvantages,andthecorefunctionsandotherhotissuesare:textclassification,SVMalgorithm,statistical,learningSVM的研究现状以及应用做了简要说明,最后,对本的组织结构做了详细规目的及意、文本分类是基于内容的自动信息管理的技术。应用于信息过滤、信息检索、搜索引擎、文本数据库、数字管等领域,有着广泛的应用前景。而SVM是基于统计学习理论的新一代机器学习技术,能很好地处理非线性数、局决,降低了算法的复杂度。现有的文本分类模型主要有决策树(DecisionTree,DT)、支持向量机(SupportVectorMachineSVM)、神经网络算法、、文本分类的国内外的发展状国外对于文本分类的研究起步比较早,19世纪50年代末,H.P.Luhn提出词频思想并应用于文本分类中。1960年,Maron教授了一篇《onrelevance,probabilisticindexingandinformationretrieval》,该对文本的自动分类技术做了深入探讨。1962年,H.Borko等人提出因子分析法,并用于文献的自动分类。1970,Salton(VectorSpaceModel,识工程技术的方法;80国内对于文本分类的研究起步较晚。1980年,候汉清教授从计算机管理分等教授对基于词典法的分类系统进行了研究要武等教授对基于专家系统的自动分类系统进行了研究。等人用了n-gram方法对英文文本进行分19901998Joachims(SVM),SVM的发展现的出现,理论,稀近理论等对于支持向量机模型的性能完善有了很大帮助。一系列小的二次规划问题,简化了算法的运行成本。C-SVM系列算法、υ-SVM系列算法、One-classSVM算法、RSVM算法、WSVM算法和LSSVM算法等变形算文本组织本主要对基于SVM的文本分类系统中的特征选择和特征向量提取进行况,支持向量机的发展应用以及整个的组织结构。第三章:本的部分,主要介绍了支持向量机算法的基本概念和理第四章:设计并实现一个英文文本的自动分类系统,并对该系统进试文本分类文本分类(Textcategorization)就是在给定分类类别的情况下,将未文本分类预处理预处理去停用词词频统预处理(去停用特征项选特征向量提文本分类训练过 文本分类测试过2.1文本的预停用词(StopWords)指虽然在文本中出现的频率很高,但是对文本分类没有起到任何帮助作用的词。它的存在只会增大特征向量的维数,增加分类运算的复杂程度。通常意义上,停用词基本可分为两类。一类是功能词,只在文本中起到结构作用而没有什么实际含义。比如the、a、an、that、those文本中帮助描述名词的限定词,over、under、above、in、on相对位置的介词。另一类词是词汇词,在整个语料库中出现的频率与在每篇文档中出现的频率大致相等的词,对分类来说作用不大。息)、句则(以词类的各种组合方式来描述词的聚合现象)以及有关词和词频并按出现的频率排序,词频(termfrequency,TF),是指给定单词在该文件中出现的次数,使用出现频率较高的NNBFST,利用计数指针ij前字符位置。从主串Sn1;1。这种方法易操作、直观、简单,每次只处理一个单词,占用空间小且稳定,但其消耗的时间与集合的大小2,树的每个节点不是包含一个或几个关键字,而是含有组成关键字的符号。词频统计时,对集合中的找、计算各个词的相关信息。此方法的分为两部分:树的构造算法和词频文本的特征表下面对模型和向量空间模型这两种特征表示的方法做一简单介绍。(Boolean)模型是基于集合论和代数的一种比较简单的文本表示1,0。缺点是对于一篇待分类的样本,只有相关和不相关两种状态,限制了文本的检索性能。另外,很难将用户所需的查询信息转换成表达式。一个文本所属的类型只与其出现的频率有关,而与它出现的先后次序的没有关系的,文本的长度、上下文关系、位置以及出现的顺目前文本表示最常用的方法是向量空间模型(VectorSpaceModel,简称VSM),它是由G.Salton于1988年,SMART系统就是该模型的成功应VSM文本():是由训练集、测试集组成的语料库中的任意一篇文章,(featureterm):能准确表示文本特征的单词。一个文章可以被看特征项权重 weight):表示该特征项对于文本分类的重要程度在向量空间模型中,每篇文档都被表示成向量形式,对于含有n个特征项D(,)),wk。2.12.1word word word word1…2…3……m………………在词频矩阵中,word第ij文本的特征选特征空间具有稀疏性、性等特点,这大大提高了文本分类的复杂程度,增加了分类时间,并且很大程度降低了文本分类的性能。在空间中,文本的特征向量TF-IDF(termfrequency-inversefrequency)词频-反转文件频区别与其他文本的能力越强。TF表示一个单词t在文本d中出现的频率,即词频。IDF是逆向文件频率,表示在所有文本中,包含单词t的文本越少,即IDF越大。说明该单词t(2-(2-(2-文本分类都是基于机器学习的方法。大致可分为三类:1.KKK近邻(K-NearestNeighbor,简称KNN)分类算法,是数据挖掘分类技术中文档集中各个文档的向量的相似度,得到K档,根据这K0。KNN算法的思想是:如果一个样本在特征空间中的k个最相邻的样本,别中样本的特性。KNNKNN来说,KNN朴素算pxp(x),p()。一般情况下x为观测向量,是未知参数向量,通过观测向量获得未知参数向量的统计,2.1SVMVapnikVC一项的值为零,并且使第二项最小化。SVMx(i)x偏置偏置2.2决策树(decisiontree)是一个预测模型,运用树状图表示各决策的期望T1 F2.3一种是人工神经网络(ArtificialNeuralNetworksANNs),也简称为神经网络(NNs)或称作连接模型(ConnectionModel),它是一种模仿动物元可调的连接权值连接而成,具有大规模并行处理、分布式信息、良好的输入 隐含 输出图 性能评价指性能评价是文本分类中的重要环节。主要是率(recall)、准确(precision)、以及用于评价全局性能的宏平均(macro-average)(micro-average)10,2.21AB标记为0的文 率R准确率P个指标是互补的,想要提高准确率,率就会将低,反之亦然。MP和MRmPmRi本数,代表被分类器错分给类别ii1统计学习VCVC维是统计学习理论的一个概念,它描述了函数集或学习器的复杂或者学习能力的一个重要指标。VC就越强。VCVCh2^hh打散,而不能把h+1的样本集打散,则函数集的VC维就是h。若对于任意的样本数,总能找到一个样本集能够被这个函数集打散,则函数集的VC维就是无穷若在二维实数空间R^2中,函数集为有向直线集,则对一给定有向直线,空间中的数据点被直线分为两类。直线方向如图3.1中箭头所示,位于直线正数空间R^2中,找不到有向直线集不能够打散的由三个数据点构成的点集,如3.23.3 3.1R^23.2R^2R^2VC其中hVC,nVCVCh,n,3.13.2n/h在结构风险最小化中,先把函数集支持向量则记为-1。若训练集,这里或,样本数为。支持向量机首先将向量映射到一个更的空间里,在其中建立最大间隔超平面,将数据分开;然后,在超平面距离最大化。SVM可以碰到某个训练点的输入,这样就得到了两个的超平面和,称这两个超3.3 3.3即存在最优超平面,使得只需令到该超平面的最小距离为。SVM权值向量和偏置b,3.7VapnikVC式中rSVMVC引入一组新的非负变量来处理不可分的样本点,也称为松弛变量。给定训练样本,寻找权值向量和偏置b条件:函数概念,就可以避免在特征空间中的运算。要解决非线性可分的情况,就是 ,把映射到一个特征空间(Hilbert空间)中,然后在空间H中寻求最优分类LagrangeSVMm3.43.4K(),或者是一个映射(),把样本空间映射到一个甚至无穷维的特征空间中(Hilbert空间),使得在原来的Hilbert空间,相当于选择了不同的内积。核函数将空间的內积运算转化为低的核函数计算,巧妙地解决了“维数”等问题,并且核函数的为了用线性的学习器学个非线性的关系,需要选择一个非线性特HSVM,4线性核函数径向基核函数:K(x,y)=exp(-|x-多分类问SVMk构造kSVMiSVMi第i的第i的第i为了解决离散的不可分区域问题,InoueAbeSVMKk(k-1)/2SVMij为训练样本数据集,并将属于类别ij负。第ij那么就把归为第kkSVM在文本分类中的优势和Vapnik1995VC法相比,SVM用内积的回旋巧妙地构造核函数,克服了特征空间中的维数问题,通过尽管在文本分类领域中,SVMSVM的存在还可能造成过学习,使泛化能力减弱。4、文本分类系统的设计与系统运行LIBSVM系统运行篇,放在名为测试集的文件夹中,方便系统进试。所有语料库样本为英文文本,文本的格式为.txtLIBSVM工具箱的介LIBSVM是大学(LinChih-Jen)等开发设计的一个简单、SVMWindowsSVM供了交互检验(CrossValidation)C-SVMSVM类、-SVMSVM通过综合考虑,我决定采用该软件作为工作软件。SVMSVM方法及其参数、核函数及其参数的选择,目前国际上还没有形成一个统一LIBSVM的使用步LIBSVMRBF采用交叉验证选择最佳参数Cg采用最佳参数Cg利用获取的模型进试与预测LIBSVM使用的数据格<label><index1>:<value1><index2>:<value2>持多个类);对于回归,是任意实数。<index>是以1开始的整数,可以是不连续的;<value>;为实数也就是我们常说的自变量检验数据文件中的label只[1],.支持向量机及其算法研究[J].与信息化[2].基于SVM的中文文本分类系统的研究与实现[D].吉林大学,[3],.文本信息自动分类系统ITC98(Ⅰ):ITC总体结构与编码子系统[J].中国学报,1999,4(4):74-77.[4].分类法的发展趋势简论[J].科学,1981(1):58-[5].中文文本分类相关算法的研究与实现[D].西学,[6].SVM在文本分类中的应用[D].哈尔滨工程大学,[7]瓦 .统计学习理论的本质 ,[8],吕宏伟.基于SVM的文本多类分类方法研究[J].电脑知识与技术:学术交流,2006(3):162-162.[9].基于SVM的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 白乃贞《慭斋存稿》研究
- 阳离子脂质体递送miR-103a-2-5p治疗急性髓系白血病的研究
- 宁南山区不同植被类型生态化学计量特征与土壤碳储量研究
- 结构健康诊断方法-洞察及研究
- 建筑领域设计施工合作合同
- 教师指导抗击新冠肺炎疫情范文
- 2024-2025高三物理实验技能强化计划
- 仓储企业盘点制度及流程整体方案
- 生鲜电商仓库作业八大流程
- 交通运输行业学习信访条例心得体会
- 中医治未病课件培训课件
- 2023年湖北农谷实业集团有限责任公司招聘笔试模拟试题及答案解析
- 急性心梗后机械并发症课件整理
- 药理学课件(全)
- 疯狂说英语句型系列120集笔记
- 声律启蒙课件《二冬》课件
- 装修改造工程施工总平面图6
- 《小企业会计准则》相关二级科目设置
- 带状疱疹病例讨论
- 广州小升初-学籍表打印版
- 天津市-解除劳动合同证明书
评论
0/150
提交评论