![设计分类就是根据预先定义好类别按照一定规则将集合中未知_第1页](http://file4.renrendoc.com/view/ec901a5de7e1868d7d1d5abdd6d6d950/ec901a5de7e1868d7d1d5abdd6d6d9501.gif)
![设计分类就是根据预先定义好类别按照一定规则将集合中未知_第2页](http://file4.renrendoc.com/view/ec901a5de7e1868d7d1d5abdd6d6d950/ec901a5de7e1868d7d1d5abdd6d6d9502.gif)
![设计分类就是根据预先定义好类别按照一定规则将集合中未知_第3页](http://file4.renrendoc.com/view/ec901a5de7e1868d7d1d5abdd6d6d950/ec901a5de7e1868d7d1d5abdd6d6d9503.gif)
![设计分类就是根据预先定义好类别按照一定规则将集合中未知_第4页](http://file4.renrendoc.com/view/ec901a5de7e1868d7d1d5abdd6d6d950/ec901a5de7e1868d7d1d5abdd6d6d9504.gif)
![设计分类就是根据预先定义好类别按照一定规则将集合中未知_第5页](http://file4.renrendoc.com/view/ec901a5de7e1868d7d1d5abdd6d6d950/ec901a5de7e1868d7d1d5abdd6d6d9505.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(个学科,是自然语言处理的一个重要应用领域。目前,越来越多的统计分类方SVMSVM(QuadrupleProgramming,指目标函数为二次函数,约束条件为线性约束的最越性。SVMSVM训SVM的训练速度ChunkingOsunaSMO法和交互SVM等。SVM分类器的优点在于通用性较好,且分类精度高、分类速度快、分类速度与训练样本个数无关,查准和查全率方面都略优于kNN及朴素贝叶如下图:横轴上端点ab决策如何选择特征作为测试节点。通常做法是计算各个特征的信息增益或者嫡的值,然后根据这些值的大小顺次选这样的方法建立的决策树一般都存在对训练数据过度(overfittnig)的问题,所以大多数的决策树学习算法都包含有一个剪枝过程所谓过度拟合(overfitting)问题,是指经过过分训的能最佳往往只是针对训练集而言,应用到非训练集对象时,分类器性能可能会下降。即训练得到的分类器推广性能不强对决策树剪枝有两种方法:前剪枝(prepruning)和后剪(postPrunnig决策树完全构造好后进西南交通大学第9然而由于文本分类的性比如一个文本是否属于某一类别带有很大的主观性,两个不同的专家可能将其归类到不同的类别中),在本质上不能给出一个形式化的表达,所以要分析性地对分类器进行评价(比如证明这个分类器是正确的)目前难度较通常对一个文本分类器进行评价主要是针对它的效果(E伍戈itveness)性能(Pedbnr田`e),即这个分类器在多大程度上能够的不是它的效率(Efficiency有两种方法:训练测试法和k折交叉验证法(卜ofdl。orssvali山鱿ion)[,4],这两种方文本分类器的评价标准在文本分类中,对分类器性能的评价标准,的是经验性的,不分析性的P0l。这是因为要分析性地评价一个系统,比如证明一性和完备性,必须能够对这个系统所要解决的问题给出一个形式化的表述,训练集和测试现在的文本自动分类,大多采用的是机器学习的方法,机器学习的方分好类的文本。文本分类,即提出一个把新文本归类到文本所属类别的任务。为了衡量文本分类的效果,我们经常把语料库分成两个不相交的集合,这两个集合不一定相等:训练集,这个集合的目的是用于归纳出各个类别的特性以构建分类器。测试集,这个集合用于测试分类器的分类效果。测试集的每个文本都通过分类器分类,然后与正确决策的分类结果相对比,分类器的效果就是比较通过分类器获得的类别与正确决策的类别的相符的情向量空间模型的最大优点在于它在知识表示方法上的巨大优势。在该模型中,文本内容被形式化为空间中的一个点,通过向量的形式给出,把对文本内容的处理简化为向量空间中向量的运算,使问题的复杂性大为降低。而权重的计算既可以用规则的方法手工完成,又可以通过统计的方法自动完成,便于融合统计和规则两种方法的优点,也正是因为把文本以向量的形式定义到实数领域中,才使得模式识别和其他领域中的各种成计算方法得以应用,极大提高了自然语言文本的可计算性和可操作性。所以说,文本的形式化表示方法一一向量空间模型是基于文本处理的各种应用得以实现的基础和前其中:At与文档c同时出现的次数;Bt出现c类文档出现的次数;Cc文档出现而t不出现的次数;N为文档总数。如果t与c相互之间独立,那么Ml(t,c)为零互信息的缺点是受临界特征的概率影响较大,从中可以看出当征的P(tIc差太大的文本特征互信息值不具有可比性它与期望交叉嫡的本质不同在于它没有考虑单词发生的频度,这是互信息一个很大的缺点,因为它造成了互信息评估函数经常倾向于选择稀有单词。在一些特征词选择算法的研究中发现网,如果用互信息进行特征选择,它的精度极低(只有约3既),其原因是它删掉了很多高频的有用xZ估计它也用于表征两个变量的相关性。对特征进行打分时,认为特tc文档之间非独立关系,类似于具有一维自由度的z的是特征t与c类之间的依赖关系。特征t与c类文档之间的了统计(t,c)计算如下2(t,c)二Nx(AxDCxB)2(3B、CN的含义与前面相互信息M()I所介绍的相应参量为特征tc类文档均不出现的次tC之间相互立,那么文本特征t的22估计值为o。I’估计与互信息的主要区别是xZ标准值,因此同类中的特征的z“是可比的优势率西南交通大学第信息增益的不足之处在于它考虑了单词未发生的情况,即在式的。工:_、,P(t,,c,`,、`:二二.,,,山二,,,:`11P(kt,c,)ofg有贡献,但实验证明网,这种贡献往往远小于考虑单词不出现情况所带来的干扰。特别是在类分布和特征分布高度不平衡的情况下,绝大多数类都是负要是信息增 中后一部分(代表单词不出现情况)大,而非前一部(代表单现情况)大,信息增益的效果就会大大降低了期望交叉摘(cossentCroEnsstrTx`(`)==p(`p(Cjl`)109P(cj})tp(Cz)(3与信息增益相似35[],期望交叉嫡也是一种基于概率的方法。所信息增益要求计算所有特征属性的值,而期望交叉嫡则只计算出现在文档中的单词。其中P(qI)t表示文本中出现t文本Cj的概是类别出现的概率。如果词和类别强相关,也就是P(q})t大,且出现概率又小的讯则说明词对分类的影响大,相应的函数值就大,就很可现了某个特定词的条件下文本类别的概率分布之间的距离,属性词t的交叉文本类别分布的影响嫡与信息增益唯一的之处在交叉嫡法的精度始终优于信息增益法口刀互信息仍在统计学中,它用于表征两个变量的相关性,常被用来作为文本特征相关的统计模型及其相关应用恤与c类文档之间的相互c)的定义如下P(t,c)(3常用特征选择算法及文档频率价它是最简单的评估函数,其值为出现某特征的文档数与文档总数之比。特征的DF计算为(出现特征t的文档数/文档总数):DF较小被忽略DF评估函数的理论假设是稀有单词要么不含有用信息,要么太而量上比其它评估函数小得多,但在实际运用中它的效果却出奇地好。DF也因为稀有单词可能在某一类文本中并不稀有,而且包含着重要的判断信息。我们在实际运用中一般并不直接使用DF,而常把它作为评判其它的标准信息增益任信息论角度出发,根据各特征取值情况来划分学习样本空间时,所获信息增益的多寡,来选择相应的特征。对于特征t文档类别。,GI现的文档频数来衡量对于c信息增益。特征t对于文档类别的信增益IG(切)计算如下:其中:C一类文档集合;t示特征t不出现。西南交通大学第2页、sRati。t,Pos)=109(孕粤单理少哗l尹妙IPos)t!月给)(3)其中:pos表示目标类,neg表示非目标类。优势率不是象前评估函数那样将所有类同等对待,而是只关心目标类值。这使得优势率特别适而不关心识别出负类,而实际的训练集中负类往往占9任汤以上的这时优势率对于其它信息测度来说有额外的优训练过程描述如下S却1:输入训练文本(此时所有训练文本不区分类别),获得文本词,计算词频矩阵(包括词频和文档高频低频词,去.停用词列表中的词,用卯血rstenirner算法将词取词干(去除前S均P2:根据词频矩阵计算所得的权重矩阵计算预处理文本的相度,根据(3一7),(3一8)计算上一步得到的所有词分值,根据分辨值将符合标准的保存SetP3:再次输入训练文本(此时按类别输入),对上一步得到的键词,类别计算词频,根据贝叶斯算法(2一5)计算属于类概率.将分类器特征项属性表(及其属于各类的概率)输保存2.分类分类过程描述stepl:输入新文本,进行文本预处理sPetZ:根据训练过程得到的特征项属性表获得文本中含有的关键词并计算其在新文本中的词s娜3:根据属于各类概率用(2一5)计算文本所属类出类别s峋时:比较文本的分类类别和实际类别,计算分类精度s5:使用评价函数对分类精度进行评价,反馈给系统。分类过程如图.43示。西南交通大学第24项对文档内容的贡献,经过多次统计学习完成。我们(217)的征项权值评价函数来 理谧=扩*甲109(一+u.ul)月其中,叽表示项kt在文本压中的文本内频数,其值即词频矩阵中d`,N示全部训练集的文本数,”`表示训练文本中出现项kt示项kt在文本Di矩阵后我们利用相似度计算(2一15)月艺(叽宝,2、W.)飞f_L名山rr夕一名山r,二计算出每对文档之间的相似度,获得相似度矩阵。sij是文档与文Dj之间的相似度,如图.46相似度矩阵所示根据文献[32定义,在文本分类中,某一类文档的密度,可用该文的每对文档间的相似性总和(3一7)来表示。丽治下客客mSiD(,,众,k价其中,sim(Di,氏)表示文档Di和文档认的相似度。Q表示该类档类的密本系统中,我们根据计算得到的相似度矩阵,计算出类的整体密度,然后针对每一个单词,计算单词存在类中时类的整体密度Q该类中时类的整体密度Q,,进行前后密度对比,获得单词的分辨值dv(38:)dv,二Q一一个索引词区分文档的能力,如果可以用该索引词对该类文档的相下叨度的贡献来代表的话,那么,一个索引词的分辨值大小,则可以作为该索引词的区分文档的重要度。所以,在本模块中,本文根据以上,通过计算单词的分辨值的大小,选取分辨值大的单词作为。该模块最后形成一个文件并保存到硬盘中Tl.~.不lee.…、DlTl.…不WZIW22…M勒Dl图.46相似度矩(Tl,几,…Tt)是单词,(dil,咬,…dit)是(TI,几,…Tt)对应于文档Di的词频,如图.44词频矩阵所示。得到词频后,根据词频可计算单词权重。如图.45重矩阵所几,…Tt)是单词,(wi,,哑,…叭)是(T,,几,…Tt)对应于文档的据各特征文本处理模这个模块主要是对文本进行预处理。主要包括获取有效词,去除停止词,的n凶、ehwes分类算法,是基于“词袋”(bgaof认心risl)模型,即文档互无关的单词构成的集合,不考虑单词之间的上下文关系,单词出现的顺序,位置以及文章的长度等。在文本分类中,对于分类有效的词通常是名词。在预处理过程,进行文法分析后,我们先将有效单词提取出来,再使用一个预先准备好的停止词列表过滤掉对分类没有意义的词,如等副词,“I”,“丫bu”等常用代词。在本系统中,我们用专门的词和获取有效英文单词。该函数按空格分出各个单词,并去除其中的标点符号在自然语言中,有些词是某些词干加上一些前缀和后缀,后缀比如gnnier,可以将ner去除,前缀比如~ofssil,抽取其词干ofssil,总的来说,这些词与其词干代表相同的意思。在本系统中,我训心rste比止ner入本系统,设计了一个引匕n4.2.2特征项提取主要包括计算词的分辨力,构建文件等小模块。在该模块中,本文使用了作者基于类别的索引词选择方法对于文本处模块中获得在所有文矩阵是文本分类算法建立分类模型的数据基础,训练集通过文法分析统计出词频矩阵,统计出该单词出现的文本频数,即训练集中出现了该单词的文本个7.1样做文本分类的实验我在这里博士在中文自然语言处理开放平台上发布的一份中文文本分类语料库作为实验的基本数。在这个语料库中,有交通、体育、军事 、政治、教育、境经济、艺术和计算机十个类别。在训练样本中每类的统7.14山馆,莫少强);基于神经网络优化算法的中文自动分类系统(交通大学,成等);西风文本自动分类系统(西风)等。在这些众多的系统中,值得一提是大学的邹涛等人运用VSM设计了一个中文文档自动分类系统CTDCS,封闭性测试效果最好,准确率有100%,查全率也有93%,开放性测试的结果,查全率有96%,查准率也高达99%类的一些经典算法分类技术在各个方面的于词或短语,同时还引获取这些特征还有待进尽管着巨大的但是已经从可行性探索逐步向实用化阶段开始转变。令人欣喜的是,有的科研成果因此还需要大家共同的努力。几乎是相同的,唯想实现中文文本的自动分类,首先需要进行中文的分词处1.3SVM研究现自从Vapnik提出SVM以后,由于其显著的优点和推广能力,用方面均已取得了很大的进展。归纳起来主要有以下几个方:对于各种SVM方法的研究。标准的SVM方法经过增加函势。再者,SVM最初针对应用范围的扩大,置也有很大的差别,因究的问题而定具体的模型,这在很大程度上阻碍了SVM能力,这也是SVM法于理论研究的一个重要原因SVM算法的研究。虽然许多算法在实际应用中十分有效,缺乏理论意义上的证SVM是为了解决两类分类问题但是我们在实际应用过程法的训练时间,必须采用一种高效的特征样本的选择方法。正是因为SVM表现出的良好的推广能力,在应用领域得到广泛目前,对SVM的研究方向主要有以下五个方面基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2031年中国圆底计量罐行业投资前景及策略咨询研究报告
- 2025至2031年中国内扣式闷盖行业投资前景及策略咨询研究报告
- 技术共享合同书范例
- 工程水电班组承包合同模板
- 品牌授权非独占使用合同模板
- 合同约束下特许经营显失公平案剖析
- 正规借款合同
- 混凝土泵车租赁服务合同书
- 数学游戏 在校园里找一找(说课稿)-2024-2025学年一年级上册数学人教版
- 跨国技术交流合作合同示例
- 第二章共混改性基本原理
- 乳腺专业知识课件
- 碳纳米管及其应用课件
- 人教版九年级化学全一册第八单元集体备课教学课件PPT
- 医院各委员会职责制度
- 塔吊附墙及顶升安全技术交底
- 改良经皮经肝胆道镜术New
- 服饰品设计PPT完整全套教学课件
- 安捷伦N9020A频谱仪操作说明
- 小学六年级数学计算题100道(含答案)
- 室外工程小市政监理实施细则
评论
0/150
提交评论