文本分类综述1_第1页
文本分类综述1_第2页
文本分类综述1_第3页
文本分类综述1_第4页
文本分类综述1_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本文格式为Word版,下载可任意编辑——文本分类综述1文本分类综述

1.引言

1.1文本分类的定义

文本分类用电脑对文本集依照一定的分类体系或标准进行自动分类标记,与文本分类相近的概念是文本聚类。文本聚类是指,由机器将相像的文档归在一起。与文本分类的区别在于,文本分类是监视学习,类别是事先规定好的,文本聚类是无监视学习,由计算机把类似文本归在一起,事先并不划定好类别。

基于统计的文本分类算法进行文本分类就是由计算机自己来观测由人提供的训练文档集,自己总结出用于判别文档类别的规则和依据。

文本分类的基本步骤是:文本表示->特征降维->分类器训练>文本分类

1.2文本分类的基本思路

文本分类基本方法可以归结为根据待分类数据的某些特征来进行匹配,选择最优的匹配结果,从而实现分类。

计算机并不认识文档,因此首先就要设法如何转化一篇文档为计算机所接受,转化方法要与文本有对应关系。对于计算机文本分类而言,这是最重要的步骤。

其次要制定出一定的评判标准,根据文档表示结果对文本进行分类

1.3文本分类目前的研究热点

2.文本表示

利用计算机来解决问题,首先就是要找到一种使计算机能够理解方法来表述问题,对文本分类问题来说,就是要建立一个文档表示模型。

一般来说,利用文档中的语义信息来表示文档比较困难,因此直接采用词频来表示文档,不过也出现了大量利用语义的文档表示方法。

2.1向量空间模型(VSM)

VSM模型是目前所用的较多的文本表示模型,这种模型把文本看作是一个特征项的集合。特征项可以是词,也可以是人为所构造的合理的特征。

2.2词袋模型

词袋模型是VSM模型在文本分类问题中的一个最简单的应用。对于一篇文档,最直观的方法就是使用词和短语作为表示文本的特征。对于英文文章来说,各个单词之间己经用空格分开,可以直接获取特征词,不过由于英语中存在词形的变化,如:名词的单复数、动词的时态变化、词的前缀和后缀变化等,所以会需要一个抽取词干的过程。对于中文来说,由于词和词之间没有停顿,所以需要借助于词典来统计特征词。对于文本分类来说,常用的方法为TF即词频法。

具体操作为:

对文本,北京理工大学计算机专业创立于1958年,是中国最早设立的计算机专业的大学之一。对于该文档,词袋为{北京、理工、大学、计算机、专业、创立、1958、中国、最早、设立}相应的向量为{1,1,2,2,2,1,1,1,1},这种统计特征词词频当作文档特征的方法也称为TF法,为了防止这种方法统计出的特征使得文本长度影响到分类结果,要把它做归一化处理,最简单想到的归一化做法是除以文本长度。

另外还有另一个指标IDF指标,衡量词的重要性,一个词在一篇文本中出现的频率越高,同时在总的训练文本中出现的频率越低,那么这个词的IDF值越高。

操作:

总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到,公式表示为

idf?log(|D|)|j:ti?dj|,idf衡量了一个词的重要程度,因此tf×idf可以更好的来表示文本。

2.3其他模型

3.特征降维

文本所形成的不加处理的特征向量维数很高,以词袋模型为例,一方面,好多文章只有几千词,而一个分词词典所包含的词有数万个,假使不加处理,把所有词都表示出来,是极大的浪费,另一方面,若依照分词词典建立向量,事实上是无法使用的,因此需要对文档特征进行降维处理。把不用的特征去掉,保存区分度高的词语。特侦降维可以有两种思路,特征选择和特征提取,其中,特征选择是指在原有特征的基础上,选择一部分特征来表示文本,特征性质不变,例如

对于词袋模型,只是从原先的词袋中选择一部分区分度高的词语,选择结果依旧是词。特征抽取是指一种特征通过一定的方法变换,得到的特征与原来的特征完全不同。

3.1特征选择

对于特征选择来说,主要是把原先区分度低的词去掉。

2.2节所述的idf方法也可以作为一种特征选择的方法。除此之外,也有使用方差来筛选特征词的程序。3.1.1信息增益

在文本分类系统中,关于类别的信息量可以用如下式子来衡量,

H(C)??P(Ci)?log2P(Ci)i?1n其中P(Ci)是指类别Ci出现的概率

信息增益选择特征这种方法是指,在一个文本分类系统中,对于一个特征t,当考虑t时,文本分类系统的信息量记为H1,当不考虑时记为H2,那么H=H1-H2就称为t的信息增益,当差值越大,那么说明这个特征越重要。

计算信息增益的公式为

IG(t)???P(Ci)log2P(Ci)?P(t)?P(Ci|t)log2P(Ci|t)?P(t)?P(Ci|t)log2P(Ci|t)i?1i?1i?1nn?n???H(C)?H(C|t)

公式说明:公式目的要计算出系统中特征t存在与否对系统的信息量的影响,所以要取得有无特征t这两种状态的差值即可,系统在存在t时,有两种可能,t存在和不存在。既式子的最终部分。

具体做法:

P(C1)即是C1所包含的文本数/文本总数,P(C1|t)即C1类中包含t的文本数/包含t的文本总数;最终一项即是C1类中不包含t的文本数/不包含t的文本总数。

3.1.2开方检验3.1.3互信息法

互信息用MI(t,Ci)来表示,含义为特征t与类别Ci的相关程度,值越大,

表示相关程度越大。也是特征选择的目标。互信息的量化方法为下式。

P(t,Ci)MI(t,Ci)?logP(t)P(Ci)由此,为了统一衡量特征t的互信息,其全局互信息可以定义为

MI(t)??P(Ci)?MI(t,Ci)

ni?1说明和操作:

分母为类Ci中出现特征t的文本数除以总文本数,分子中,P(t)是出现特征t的文本数除以总的文本数。P(Ci)是属于类Ci的文本数除以总的文本数。

3.2特征提取

4.文本分类算法

4.1向量中心算法

这种算法把一个类别里的样本文档各项取个平均值(例如把所有“体育〞类文档中词汇“篮球〞出现的次数取个平均值,再把“裁判〞取个平均值,依次做下去),可以得到一个新的向量,即一个类别的中心,这个中心就是这个类别最具代表性的向量表示。再有新文档需要判断的时候,比较新文档和中心的距离,从而可以新文档属不属于这个类。

4.2K近邻算法

一个文本采用TF法来表示,形成一个文本的特征向量,从而一个文本可以用特征空间的一个点来表示,在训练阶段存入一批代表文本的样本点,对于一个待分类文本,该算法探寻与该文本最接近的k个已知样本,距离可以使用欧氏距离来算,从而根据这最接近的k个文本所属的判断出该未知样本的分类所属。

4.3简朴贝叶斯算法

简朴贝叶斯算法则是从贝叶斯公式蜕变而来的。假设文本特征表示为(a1,a2,…,an)

前提假设为属性值之间相互条件独立,即做出如下假设P(a12,...,an|v)??P(ai|v),aiVmax?argmaxP(Vj|a,a2,?,an)1

argmaxP(Vj|a1,a2,?,an)表示在有特征(a1,a2…an)条件下该文本属于

Vj的概率。Vj属于类别集合,Vmax是得到的最可能的分类所属

P(Vj|a1,a2,?,an)利用贝叶斯公式改写得

Vmax?argmaxP(a1,a2,?,an/Vj)P(Vj)/P(a1,a2,?,an)

?,an)又由于简朴贝叶斯分类器默认a1...an他们相互独立的,所以P(a1,a2,为定值。

V?argmaxP(a1,a2,?,an/Vj)P(Vj

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论