文本分类的常见方法_第1页
文本分类的常见方法_第2页
文本分类的常见方法_第3页
文本分类的常见方法_第4页
文本分类的常见方法_第5页
免费预览已结束,剩余8页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、文本分类的过程:(1) 选择训练文本。好的训练文本对分类器的最终结果起到至关重要的作用。(2) 选择文本特征。对训练样本和测试样本进行数据预处理,包括分词、去停用词、消除噪音等。目前的文本分类研究,主要选取一些具有代表性的词、词组、短语来表示文本。(3) 建立文本表示模型。为了便于计算机理解和计算相关的文本属性,需要对文本进行表示,其中向量空间模型(VectorSpaceModelVSM)运用最为广泛。(4) 选择分类方法。文本分类的核心部分,不同的分类方法原理不同需要处理的数据也不同。经典分类算法有朴素贝叶斯(NaiveBayesNB)K-近邻(K-NearestNeighborKNN)、决

2、策树(DecisionTreeDTree)、算数平均质心(ArithmeticalAverageCentroidAAC)、支持向量机(SupportVectorMachineSVM)。(5) 分类结果的评估。目前主流的评估标准准确率、召回率和F1值。选择文本特征我们需要将文档转换为计算机可以衡量、运算的形式。现在运用最广泛的形式:将文档映射入向量空间。具体流程如图1。对中文文档进行分词这样就将一篇文章映射成了为了向量空间中的一个向量。在把文章都映射完成后,我们可以根据自己不同的需求,在向量空间中进行运算。比如计算两篇文章的相似度:我们把向量的起点都映射到原点,则我们可以比较向量的长度、向量的夹

3、角、向量两个终点的距离等等;我们还可以宏观的观察大量的向量在向量空间中的分布情况,对大量聚集在一起的向量抽取它们的共性:计算他们的中心、他们整体的方向等。其实数学模型很好,只不过限于计算机的存储、运算水平,向量空间的维度过高、文档数量过大、计算复杂度过高会使得模型的计算机实现变得困难,我们不得不进行简化:向量空间维度降低、较低复杂度的计算分析方法等等。而根据简化的合理程度,影响我们得到的结果质量。向量空间的降维则需要进行特征项的筛选:筛选方法有五种:文档频率、信息增益、期望交叉嫡、互信息、开放检验。就好像在软件开发阶段越早引入缺陷后期的Bug数量越多一样,上游的污染源造成的危害要大得多。如果我

4、们要对数据源进行筛选,则筛选的规则一定要是非常严谨合理的,正确的数据合理的算法才有可能得到好的结果。文档频率DocumentFrequence特征在特征集中出现的文档数目过多,则不能很好的区分不同的类别;特征在特征集中出现的文档数目过少,则它不具备很好的代表性。我们统计单词的出现频率,将频率过高和过低的词语过滤掉。信息增益阳艇小=-L严化)Mg/V,)+产z,化IF)k里产(GI。+8,)七尸匕")1国其中c表示文档类别t表示特征项,描述的是在特征项t的前提下确定文档属于c的概率,表征的是该文档使用特征项t来区分类别c的能力。(其实三项加和的首项不太明白什么意思,而且在特征项的筛选阶

5、段,即尚未计算分类的情况下文档类别c是怎么回事?)这里首项表示整个事件的信息量,也可以认为它表示整个事件的未知程度,或者叫做消除整个事件的位置性,需要的信息量,比如该事件有8种等可能的情况,则我们要确定该事件具体出现哪种情况,则需要3的信息量;而若有两种等可能的情况,则要1的信息量。感性来讲,2猜1,要比8猜1容易的多。具体到公式,后边的对数部分表示信息的量化过程,说的是比如我们要表示两个数,需要一位,而要表示八个数,需要3位;因为对数函数在0正无穷是递增函数,但在01之间函数值为负数,所以我们添加负号将值映射到>0区间。这里互信息,表示知道某些条件之后,事情的不确定性降低的程度。衡量的

6、是情报的优劣。举个简单的例子,这就好像我们玩竞猜游戏,随着主持人对某件事情描述信息的增多,我们渐渐可以准确判断某件事情,而主持人的描述信息中有些很关键,有些则相对平淡,这里主持人的关键描述的互信息就比较高:因为可以很大程度消除事物的不确定性。这里信息增益考虑的比较全面,它考虑了条件t发生和没有发生对整个事件的影响状况,分为两部分,第一部分为条件t发生时,对整个事件的嫡的影响;第二部分为确定条件t不发生时,整个事件的嫡。首先是让t发生之后,计算在t的条件下能够推断属于类别ci的概率。这里具体到文本分类则为,特征项t的出现与否,在t出现后确定这篇文章属于类别c的概率是多少。就是看t的出现对该文档属

7、于哪一个类别的判定出现了哪些影响;并且信息增益不仅考虑可相关情况,也考虑了负相关的状况,在t确定不出现时,它对该文档的类别判定又能起到什么效果。这样综合考量t的效果。不过这里也有个问题就P表示特征项的出现与否可能并不合适,这里我们可以设置阈值,具体计算出现>某个次数我们认为它表不出现。至于特征项筛选中多次提到的类别c我们认为这是训练样本已知的,即有监督的分类,我们将事先分类好的样本来训练分类器,期望能够训练出好的分类器。期望交叉嫡困7)?)吐笑?表示已知文档中出现了t特征,则能确定该文档为类别c的概率。我们能看到公式与t条件下为类别c的条件概率成正比,与无已知条件,文档为类别c的概率成反

8、比。简单来说就是,如果公式的计算值很大,则特征t信息量很大,能够帮助我们确定该文档属于类别c这种小概率事件。(尸(C很大、尸很小,公式取到较大值)互信息A/7(4c)=logAxN(z/+Qx(./+27)类别c的文档集合出现特征t的文档集合类别C的文档集合出现特征t的文档集合两个圆我们可以把它看作两个集合,分别为类别c的文档集合以及出现特征t的文档集合,则公式中的A、B、C可以用两圆相交形成的三部分表示。可见两者相交部分越多A越大,公式的分子越大,分母越小,函数值越大。即文档c和类别t的关联程度高。开放检验30DCAB这里和期望交叉嫡是类似的,由三个图形形成四个集合,矩形表示整个文档集合,两

9、个圆和上边的含义相同,分成的四个集合分别为A、B、C、Do强调的是特征的负相关特性,即表示出现特征t时,不属于类别c的概率较大。开放检验与信息增益相同,都是考虑了事物的两个方面。这里我们举例来阐述公式的由来。DCAB这里我们假设考虑词汇“篮球”和体育类新闻的关系,其中:A表示体育类新闻中出现篮球的新闻集合;B表示体育类中没有出现篮球的集合;C表示出现词汇篮球但是非体育类的集合;D表示非体育类新闻未出现篮球的集合。A+B表示体育类总数;C+A表示出现词汇篮球的总数。N=A+B+C+D这里进行测试的类别和特征项将整个文档集合划分为四个部分:ABCD。我们假设篮球特征项和体育类别并不相关,则篮球应该

10、在体育类内外都是均匀分布的(即样本足够大的情况下,概率接近频率,篮球并不因体育类别的影响而出现更多或者更少)A-(A+C)/N*(A+B)则表示若篮球和体育无关,篮球会出现在体育类的新闻数量的数学期望,实际为A所以我们可以用实际值和数学期望之间的方差来表示,篮球和体育之间的关系。方差越大,说明篮球因为体育类而出现的次数更多,期望和实际值差距越大,相关程度越大。而开放检验不仅比较正相关的情况还比较负相关性,考虑的方面比较多,精确度也很好。B-(A+B)/N*(B+D)表示体育类占整体的百分比,而(A+B)/N*(B+D)非篮球类(B+D)中体育类数目的数学期望(依然是假设篮球和体育没有相关性,我

11、们认为体育类文章在整体中是均匀出现的)C-(A+C)/N*(C+D)D-(B+D)/N*(C+D)这些算的都是标准差,平方之后求和得到最终的公式。分类方法:朴素贝叶斯理。畔二argmaxP(cd)=argmax/Tr)|-c)朴素贝叶斯模型有两个假设:所有变量对分类均是有用的,即输出依赖于所有的属性;这些变量是相互独立的,即不相关的。之所以称之为朴素”,因为这些假设从未被证实过。论文中对分类方法都是一笔带过的,对于方法的理解参考网上的帖子。天气温度湿度风向打球晴朗执八、高无不打晴朗执八、高有不打阴天执八、高无打卜两适中高无打卜两冷正常无打卜两冷正常有不打阴天冷正常有打晴朗适中高无不打晴朗冷正常

12、无打卜两适中正常无打晴朗适中正常有打阴天适中高有打阴天执八、正常无打卜两适中高有不打上边为根据天气状况记录的打球日志,现在已知晴朗、气温冷、湿度高、有风”,求打球和不打球的概率。我们将已知条件记为E,E1=晴朗,E2=冷,E3=高,E4=有下边为条件概率的推倒过程:假设A、B相互独立(朴素贝叶斯的第一个假设),则有:P(AVB)=P(A)*PBA=P(B)*PABi我们得到条件概率公式:“网=等群)现在已知E求打球和不打球的概率,即可表示为PP(E|no)P(rjo)1)时(朴素贝叶斯在指标相互独立的情况下,且结果对四个指标同等依赖(权值都为的两个假设)P(Eges)=P(E1|卯3)P(E2

13、|yc5),(E3椁尸(E41yM即E1E4依次发生,展开/联乘的形式。得到了朴素贝叶斯的公式。这里的计算需要在已知打球的情况下计算天气为晴朗的条件概率等。这里我们将日志整理为便于阅读的形式。天气温度湿度打球不打打球不打晴朗23高22高阴天40适中42中卜南32低31P(yes|E)*P(E)=2/9*3/9*3/9*3/9*9/14这就是朴素贝叶斯的基本内容,当然我们在运用它的时候,要牢记它的两个假设,就好像没有绝对的自由一样,朴素贝叶斯的应用也基于一定的前提。而结果依赖所有的指标在实际生活中极有可能不成立,比如我们选择的某个指标对结果具有指导意义的,则这便不再是等概率事件(结果平等的依赖各

14、项指标)。比如我们计算阴天时打球的概率我们发现为4/4概率为1”阴天完全确定打球,与假设不相符。这是如果我们要运用朴素贝叶斯方法,则需要处理数据的锯齿问题。我们需要平滑数据(40的变换更加缓和,比如变成4.10.2)。拉普拉斯估计最为简单古老,而Good-Turing则平滑效果较好。再有就是图中举例的数据类型都是离散的,例如我们将温度归为高中低”三类,而更加实际的情况为温度的取值是连续的变量。这是我们通常则假设数值属性的取值服从正态分布。朴素贝叶斯在文档分类中应用具体公式表示为:阈p(cjM)ocp(cj)JJp(wd,kcj)k1即给定一篇文档d,计算它是类别cj的概率等于类别cj在训练文档

15、中的概率与文档d中特征k在类别cj中出现的概率之积。除了朴素贝叶斯的两个假设,这里依然平等的对待每个特征k(每一项权重都为1)。但是在实际的文档当中,不同的特征项出现的频数不同,重要程度不同,再有k不应该是简单的遍历,举个例子,比如说某个特征项如果在文档d中仅出现过一次,但是在类别cj中该特征项多次出现,则计算时概率值偏大与实际值不符,出现了分类误差。所以应该是选取文档中具有代表性的(出现频数高与某个阈值的特征项)进行计算;或者针对不同的特征项进行权重的计算:特征k在文档中出现的频数/特征项在类别cj中在每篇文章中平均出现的频数。感性的描述该分类方法的话:我认为它使用一组指标(一组特征项及其出

16、现的频数)来描述一个事物(文档类别)。对于未知的事物(测试文档),我们知道它的描述信息,或者它相应的指标描述(特征项及其出现的频数),通过指标的相应对比,我们判断未知文档和该类别的相似度,从而为判断未知文档的类别提供线索。分类方法:K-近邻基本思路为将所有样本映射到一个空间内,然后通过相似度的计算比较与测试样本最近似的K个样本,选择这K个样本属于类别最多的那个类别。针对不同的训练集合,选定映射空间与选择合适的特征和阈值K是很重要的工作。分类方法:支持向量机支持向量机方法建立在统计学习理论的VC维理论和结构风险最小的理论基础上,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习

17、能力(即无错误地识别任意样本的能力)之间寻求最佳折中,以期获得最好的推广能力(泛化能力)。支持向量机VC隹理论模型的复杂性(即对特定训练样本的学习精度)获得最好的泛化能力结构风险最小理论学习能力(无错误*地识别任意样本的能力)VC维越高,一个问VC维是对函数类型的一种度量,可以简单理解为问题的复杂程度。题就越复杂。结构风险1风险机器学习本质上就是一种对问题真实模型的逼近(我们选择一个我们认为比较好的近似模型,这个近似模型就叫做一个假设)。因为真实模型不知道,所以我们不知道我们的假设与问题真实解之间有多大差距。就好比问题的真实模型是椭圆,我们可以用矩形逼近它,或者我们用圆形去逼近它,这都是可行的

18、近似模型。我们称假设与问题真实解之间的误差叫做风险。使用矩形逼近椭圆的风险A使用圆形逼近椭圆的误差2经验风险真实风险=经验风险我们得到一个分类器之后,由于问题的真实解我们不知道,所以真实误差无从得知,但是我们可以使用已知信息来逼近它。我们使用分类器在样本数据的分类结果和真实结果(样本是分类明确的数据)之间的差值-经验风险来近似衡量真实风险。所以人们都致力于最小化经验误差,比如使用更复杂的分类函数,对样本进行精确分类,但是这样做的后果就是极有可能分错训练样本之外的数据。因为更加复杂的分类函数精确的描述刻画训练样本的特征,但是样本的数量和样本的分布使得结果却像盲人摸象一样,不能对事物的整体进行很好

19、的描述,导致训练好的分类器泛化能力差。真实误差!=经验误差3置信误差我们使用经验误差来评估分类器在样本上的表现,使用置信误差评估我们对分类器在未知文本上分类的结果信任程度。置信误差与两个量有关:样本数量+VC维。分类函数越复杂VC维越大,置信风险变大;而样本数量越大、分布越广,则样本代表真实问题的能力越强,置信风险越小。泛化误差界:R(w)WRmp(w)+(n/h)小样本、非线性、高维模式识别:SVM产生的分类器很简洁,用到的样本信息很少(主要用称之为支持向量的样本)线性分类器如果一个线性函数(变量的次数为1)能够将样本完全正确的分开,就称这些数据是线性可分的,否则称为非线性可分的。对于图中的

20、分界线,我们使用公式:g(x)=wx+b描述,需要注意以下三点:1 x表示向量2这个形式是一个泛化形式适用于n维的情况3 g(x)=0就是分界线举个例子,使用上述定义对于下图的斜线可以写为g(x)=1,1Tx0,其中w为列向量,x为行向量,我们将斜线中的(1,1)带入公式可得g(x)=0,将(1,2)带入可得g(x)=-1表示在分割线的上方;同理(2,1)带入可得g(x)=1在分割线下方。如图所示,分类线很可能是不唯一的,我们将某一条分界线进行旋转平移,在正确区分两类点集的情况下,又得到一条分界线。我们需要指标评价分界线的好坏:分类间隔。它象征着分界线将两类点集划分的清晰程度。我们将分类线向两

21、侧平移直到有点到直线的距离为0停止,平移后的两条线间的距离则为分类间隔,如图虚线间的距离所示。分类间隔的公式化描述为样本点到分类面距离:几何间隔与样本的误分次数间存在关系:8为几何间隔。误分次公式中R为样本中最长向量的长度,代表样本的分布广泛程度。数代表分类器的误差。公式标明,样本分布的越广泛,则清晰的分别两类点集难度越高,误分次数越多;而分类间隔越大,则误分次数越小。几何间隔和|w|成反比,因此最大化几何间隔和最小化|w|一回事。这里我们将问题转化,固定间隔1求最小的|w|。求函数的最小值的问题,我们称为寻优问题(也叫做规划问题)。求最大值总是可以通过添加负号转为求最小值问题。寻优问题最重要

22、的就是目标函数和约束条件:minsubjectto皿=12,.月Q是样本勒自变量是w,目标函数是w的二次函数,约束条件是w的线性函数,这类问题称为二次规划问题。可行域(我们在约束条件划定的有限空间中寻找使得函数取得最小值的自变量,这个空间叫做可行域)是凸集(其中任取两个点连一条直线,这条线上的点仍然在这个集合内部)的二次规划称为凸二次规划。而凸二次规划是有全局最优解的(就是从理论角度明确我们的问题是可以找到最优解的)。分析我们的目标函数和约束条件,其实都是求w的,因为在样本已知的情况下变量为w和b,而b在w得到之后,很快也能得到(使用样本点和w结合就能计算出b)。所以我们现在的目标就是求解w,

23、而w由样本的位置和类别决定,直观来说,坐标系中样本的位置和类别明确的画出来,分类面我们就能找到,并通过比较,能够找到最优的一个。所以w和样本的位置和类别相关,并根据拉格朗日的某个定理,w可以表示为如下:w=%iyiXl+02y2x2+nynXn我们将w带入g(x底达式,整理得到:ng(力=工初专工+bi1核函数前边的线性分类器讲了那么多,其实只能解决线性可分数据的情况,而核函数则通过低维向高维的映射,能够完成数据由线性不可分到线性可分的转化。举个例子,我们把横轴上端点a和b之间红色部分里的所有点定为正类,两边的黑色部分里的点定为负类。而二维空间里的线性函数就是指直线,显然找不到符合条件的直线。

24、但我们可以找到一条曲线,例如上图右侧那条:WJ+?+3但该函数并不是一个二维(自变量和因变量)线性函数,但它是四维空间的一个线性函数:其中自变量y是三维的,并且次数都为1,而因变量f(y)=a,y是一维的,所以是四维空间的线性函数。现在流程变成这样,对于线性不可分数据我们通过低维向高维映射的方式转化为线性可而这中间,核函数就是我们的捷径,回想我们上节说的求一个线性分类器,分的,之后使用高维的函数求解样本点到分类面的距离。它接受低维的输入,并产生映射后高维的向量的内积。它的形式应该是:现在这个就是高维空间里的线性函数,函数的名称和代表这是映射之后的线性函数。我们就可以用一个低维空间里的核函数(非

25、线性函数)来代替:双力=Xa%K(天冷+b/=1松弛化这里主要将的是容错能力,比如上边的分类器会因为极个别的样本(很有可能是噪声)到分类面的距离无法满足大于1而无解(有A类样本点混在B类样本中)。这是其实并不是我们的分类器不够好,而更有可能是出现了噪点,而上述分类器属于硬间隔分类器,受离散点、噪点的影响大。我们要做的就是针对某些点允许他们到分类面的距离<1。引入的松弛变量,实现对噪点的容忍,变成软间隔分类。之IY是样本数)6之。而我们可以根据样本的分布情况,将松弛变量加入到风险评估中,表示你对离散点的重视程度。多类别分类就好像,我们知道两个数比较大小的方法后,相同类别的一群数字进行排序也

26、是相似的,我们按照规则拆成两两对比的情况就可以实现排序,这中间按照规则的不同就分为冒泡排序、选择排序、快速排序、二路归并等等。分类方法:决策树机器学习中,决策树是一个预测模型;树中每个节点表示某个属性,而每个分叉路径代表某个可能的属性值,而每个叶节点到根节点所经历的路径表示对象的值。从数据产生决策树的机器学习技术叫做决策树学习。决策树就是一种依托于分类、训练上的预测树,根据已知预测未来。其实决策树直接用例子来描述更加直观易懂。下边给出一个根据天气情况确定每天是否打球的日志。DayOutlookTemperatureHumidityWindPlayTennisdiSunnyHotHighWeak

27、Nod2SunnyHotHighStrongNod3OvercastHotHighWeakYesd4RainMildHighWeakYesd5RainCoolNormalWeakYesd6RainCoolNormalStrongNod7OvercastCoolNormalStrongYesd8SunnyMildHighWeakNod9SunnyCoolNormalWeakYesd10RainMildNormalWeakYesd11SunnyMildNormalStrongYesd12OvercastMildHighStrongYesd13OvercastHotNormalWeakYesd14R

28、ainMildHighStrongNo每天的天色、气温、湿度、风度与是否打球的的日志。根据已知条件生成的决策树如下:outlooksunny、rainovercasthumiditywind_yeshighnormalstrongweaknoyesnoyes我们使用三个属性:天色、气温、湿度、风度四个属性来描述是否打球这件事情,每个属性都有若干个属性值,而四个类别中不同的属性值组合在一起就确定了打球或不打球这件事。非叶节点都是属性,而属性的不同属性值对应分岔路径;叶节点为是否打球这个结果。而叶节点到根节点的路径则可以对应产生该事件的依据。比如sunny+high路径确定了今天不打球。这里本来有

29、四个属性,但是样本值偏少以至于我们实际使用三个属性就把事情的结果确定下来啦。(Outlook-SunnyaHumidity-Normal)v(Outlook-Overcast)v(Outlook-RatnAV/lnri-Weak)这就是我们的决策树表达式。比如已知:今天下雨、气温偏低、风力很强,我们则可以讲条件带入表达式,结果为0表示今天不打球。决策树的生成我们在学数据结构的时候学到,评价一棵树的好坏指标很多,比如它的深度、是否平衡等等。同样,决策树的深度和平衡与否也影响着决策树的性能。所以我们需要慎重考虑,使用好的策略,生成一颗优质的决策树。我们如何确定属性在决策树中的分布?这里使用的指标为信息增益。这里感性的聊一聊好了,我们判断某个情报的重要程度:通常通过获取该情报后,对某个未知事件的不确定性减小的程度。就好像电视节目中的根据描述猜某样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论