文本分类概述

上传人：i*** IP属地：天津上传时间：2022-02-21 格式：DOCX 页数：40 大小：118.70KB 积分：46 举报 版权申诉

已阅读5页，还剩35页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、精品第一章绪论1.1 研究背景当今的时代，是一个信息技术飞速发展的时代。随着信息技术的飞速发展，科学知识也在短时间内发生了急剧的、爆炸性的增长。据 1998 年的资料显示 1 ，70 年代以来，全世界每年出版图书 50 万种，每一分钟就有一种新书出版。 80 年代每年全世界发表的科学论文大约 500 万篇，平均每天发表包含新知识的论文为 1.3 万 -1.4 万篇；登记的发明创造专利每年超过 30 万件，平均每天有 800-900 件专利问世。近二十年来，每年形成的文献资料的页数，美国约 1,750 亿页。另据联合国教科文组织所隶属的 “世界科学技术情报系统” 曾做的统计显示，科学知识每年

2、的增长率， 60 年代以来已从 9.5 增长到 10.6 ，到 80 年代每年增长率达 12.5 。据说，一位化学家每周阅读40 小时，光是浏览世界上一年内发表的有关化学方面的论文和著作就要读48年。而 2005 年的资料显示 2 ，进入 20 世纪后全世界图书品种平均20 年增加一倍，册数增加两倍。期刊出版物，平均10 年增加一倍。科技文献年均增长率估计为 13 ，其中某些学科的文献量每10 年左右翻一番，尖端科技文献的增长则更快，约 2-3 年翻一番。同时，伴随着Internet的迅猛发展，网站和网页数也在迅速增长，大约每年翻一番。据估计，目前全世界网页数已高达2000 亿，而 Goog

3、le宣称其已索引 250 亿网页。在我国，中国互联网络信息中心从2001 年起每年都对中文网页总数作统计调查，统计结果显示，中文网页总数已由2001年4月30日的159,460,056个发展到 2005 年 12 月 31 日的 24 亿个，增长之快可见一斑 3,4 。从这些统计数字可以看出，我们被淹没在一个多么浩大的信息海洋里！然而感谢下载载精品信息的极大丰富并没有提高人们对知识的吸收能力，面对如此浩瀚的信息，人们越来越感觉无法快速找到需要的知识。这就是所谓的 “信息是丰富的，知识是贫乏的”。如何在这样一个巨大的信息海洋中更加有效的发现和使用信息以及如何利用这个信息宝库为人们提供更高质

4、量和智能化的信息服务，一直是当前信息科学和技术领域面临的一大挑战。尽管用户对图像、音频和视频等信息资源的需求也在急剧增加，但文本仍然是最主要的非结构化和半结构化的信息资源。针对目前的出版物和网络信息大部分都以文本形式存在的状况，自动文本分类技术作为处理和组织大量文本数据的关键技术，受到了广泛的关注。1.2 文本分类的定义1.2.1 文本分类的定义文本分类是指依据文本语义内容将未知类别的文本归类到已知类别体系中的过程。文本分类有多个英文名称，如TextCategorization5 、 TextClassification6 、Document Categorizatio

5、n7 、Document Classification8以及 Topic Spotting9 等，现在比较常用的为 Text Categorization (TC)。文本分类的形式化定义如下，假设有一个文本集合D = d 1 ,d |D|和一个预先定义的类别集合 C = c1, ,c|C|，二者之间的真实关系可由以下函数表示5 ：: D CT, F( di ,c j )T , ifdic j(1-1)(di ,c j )dic jF , if于是，自动文本分类问题可以转化为找到函数的近似表示：感谢下载载精品: D CT, F( di ,c j )T ,ifdic j(1-2)(di ,c j

6、 )ifdic jF ,使得尽量逼近未知的真实函数。此处的函数称为文本分类器，力求真实反映文档和类别的关系，以便尽可能对未知类别的文本进行正确分类。文本分类根据分类算法的不同，可以分为两类分类算法和多类分类算法。所谓两类分类算法是指算法本质上只能进行两类分类，即只能判别文档属于两类中的某一类，如支持向量机算法；而多类分类算法是指算法可以同时对多个类别进行操作，即同时判别文档属于多类中的某一类或某几类，如KNN 算法。两类分类算法应用于多类分类问题时，通常需要将一个多类分类问题转化为若干个两类分类问题来解决。具体转化方法将在本文第二章详细论述。另外，文本分类根据文档所属类别是否单一还可以

7、分为单标号分类(Single-labelTextCategorization)问题和多标号分类 (MultilabelTextCategorization)问题。所谓单标号分类指文档的类别体系没有重合，一篇文档属于且只属于一个类别，而多标号分类是指文档的类别体系有重合，一篇文档可以属于多个不同的类别。1.2.2 自动文本分类过程现代自动文本分类技术涉及到人工智能、机器学习、模式识别和统计理论等多个学科，自动文本分类的过程实际上也是机器学习和模式识别的过程。图1-1为基本的分类过程。感谢下载载精品训练模块训练文本文本特征性能预处理降维评价表示分类器测试文本文本分类结果预处理未知类

8、别文本表示分类模块图 1-1 自动文本分类模型如其他机器学习问题一样，文本分类也包括训练和测试两个模块。训练模块由预处理、文本表示、特征选择(Feature Selection)、分类器 (Classifier) 和性能评价五个部分组成：1. 预处理负责对训练集中的文本进行去除停用词、词干化(Stemming)、分词、统计等操作，并对文本进行去噪处理。此处对中英文分别采取不同的处理，英文使用空格进行分词 1,10 ，而中文则需要根据语义进行分词11-15 或采用 N-gram法进行分词 16,17 。2. 文本表示把文本表示成分类算法可以识别的形式。最常用的统计模型是由Salton 等人

9、提出的向量空间模型18 ，在此模型中，文档d j 被表示成向量的形式，w jw1 j ,w|T| j， T 表示训练集中出现过的特征集合。3. 特征降维在文本表示阶段使用的特征集合的数目通常非常巨大，并常含有大量对分类感谢下载载精品没有贡献甚至具有相反作用的噪声特征。使用如此巨大的特征量会大大影响分类速度，因而需要通过特征降维减少特征数目，以提高训练和分类的速度与精度。特征选择后需要根据新的特征子集对文本重新进行表示。4. 分类器使用各种机器学习和模式识别算法对训练集进行学习，确定算法的各参数值，生成分类器。5. 性能评价评价分类器对训练集的分类结果，如果性能达不到要求，返回特征选择阶段重新

10、选择特征。分类模块由预处理、文本表示和分类器三个部分组成：1. 预处理功能作用和训练模块中的预处理相同。2. 文本表示与训练模块的第一个文本表示有所不同，此处的文本表示使用的特征空间为经过特征选择后的特征空间。3. 分类器使用训练完成的分类器对文本分类，输出最终分类结果。至此，完成了整个文本分类过程。除了预处理部分与语种密切相关外，其余部分均独立于语种。文本分类是一个应用性很强的技术，分类器的实现需要建立在一个高质量的训练集基础上，不同的应用领域有截然不同的训练集。为了评测文本分类技术的优劣，人们建立了一些标准语料库，常用的英文语料库有 Reuters 19 、感谢下

11、载载精品20_newsgroups20 、OHSUMED 21 等。目前还没有标准的中文语料库，较多使用的有复旦大学语料库 22 、北京大学天网语料库 23 等。为了避免产生过分适合的现象，语料库通常包含两个互不相交的训练集和测试集。所谓过分适合指的是用训练集来测试分类器，产生较好的分类性能，但是用别的文本进行分类时发生分类性能急剧下降的情况。1.3 文本分类的发展历史文本分类最早可以追溯到20 世纪 60 年代 5,24,25 ，在这之前主要是采用手工分类的方法。进入 60 年代后，Maron发表了具有里程碑作用的论文 “ Automaticindexing:An experiment

12、alinquiry ”，采用贝叶斯公式进行文本分类，大大推进了文本分类工作。在该文中，Maron还假设特征间是相互独立的，这就是后来被广泛采用的“贝叶斯假设” 。在随后的二十多年，主要是采用知识工程(Knowledge Engineering, KE)的方法进行文本分类 26 ，它通过在专家知识基础上手工建立一系列分类规则来构建分类器。知识工程方法需要大量领域的专家和工程师参与，势必耗费很多人力物力，当电子文档急剧增长时将无法满足需求。这种方法最典型的应用实例为由Carnegie Group开发的 CONSTRUE 系统 27 ，该系统用来对路透社的新闻稿件自动分类。直到进入 20 世纪 90

13、年代，随着 Internet的迅猛发展，为了能够更好地处理大量的电子文档，并且伴随着人工智能、机器学习、模式识别、统计理论等学科的发展，基于知识工程的文本分类方法渐渐退出了历史舞台，文本分类技术进入了更深入的自动分类时代。由于基于机器学习的自动文本分类系统几乎可以达到与人类专家相当的正确度，但是却不需要任何知识工程师或领域专家的干预，感谢下载载精品节约了大量的人力，并且分类效率远远高于人类专家，因此机器学习方法在文本分类领域得到了深入的研究和广泛的应用，例如贝叶斯、最近邻、神经网络、支持向量机等。1.4 文本分类的应用领域自动文本分类是对文本信息基于内容管理的基础，文本分类技术产生的初衷

14、就是为信息管理服务，伴随着信息技术和内容的多元化发展，文本分类也得到了越来越广泛的应用，甚至涉及到通过语音识别和文本分类合成的方式对语音进行分类 46 以及通过分析文本标签对多媒体文本分类47 等。下面简要介绍文本分类的几种应用，这些应用之间的划分没有非常明确的界限，有时某个应用可能是另一个应用的特例。1.4.1 文本组织与管理以科学论文为例，本文1.1 节曾经提到， 80 年代仅科学论文一项每天就产生 1.3 万-1.4 万篇，科学文献平均年增长率为 13 ，有些学科每 10 年翻一番，某些尖端学科 2-3 年翻一番。从这些统计数据可以得出，到目前为止，科技论文每天约产生 4 万 -5

15、万篇，如果进行人工分类，那么如此庞大的数据量必将使得各领域的科学家付出巨大的劳动。另外，科技论文对实时性的要求也很高，研究人员需要了解到本学科最新的研究现状，这就要求论文库能够及时动态更新。所有这些情况都使得人工组织文本越来越成为不可能，此时就需要使用自动文本分类技术。文本分类使得有序地按类别存储海量文件并及时作出更新成为可能。另外，Internet已经成为人们生活中必不可少的一部分，人们已经习惯了坐在电脑前了解自己感兴趣的知识。各大门户网站如新浪、雅虎、搜狐等都建有各感谢下载载精品自的层次化分类体系，对网页根据其内容进行分类，读者只需按类别层层找下去就可以浏览到各种信息。目

16、前各网站的分类都需要人工干预，如果采用自动文本分类技术，无疑将大大改善分类效率。文本分类在数字化图书馆48 、专利分类 49 、新闻文章自动归档和会议文章自动分组等方面都有成功应用。1.4.2 信息检索毫无疑问，信息检索 (Information Retrieval)工具可以根据查询词返回相关信息，有效帮助了人们查找相关知识，如Goole 、Baidu 、Yahoo 、Excite 等搜索引擎。但是，所有的搜索引擎都存在着相同的一个问题，返回结果并没有如用户期望的那样排列，并且包含了大量用户不感兴趣的网页，用户必须通过阅读这些网页滤除无用信息，这就降低了查询效率。在信息检索领域引入文本分类技

17、术，由用户选择查询类别，或者由搜索引擎给出分类存放的搜索结果，都可以提高查询效率，方便用户使用。另外，针对信息资源库中各个不同类别，还可以建立各类别的专用搜索引擎，直接供仅对某个专题感兴趣的人使用。1.4.3 冗余文档过滤信息检索不仅包含了大部分用户不感兴趣的类别，还包含了大量相同或相似的网页，在搜索结果较少时更是如此。这些相同或相似的网页称为冗余文档，相同网页是指除了链接地址不同，内容完全相同的网页；相似文档是指内容只有少许不同的网页。虽然各大搜索引擎都号称对相同和相似网页进行了过滤，但在搜索结果中包含大量相同或相似网页的情况还是经常出现。利用文本分类技术对网感谢下载载精品页计算相似

18、度，超过指定阈值的网页即可认为是冗余文档，在数据库中只保存一份。NarayananShivakumar等对 24,000,000个网页进行统计分析，发现有18 的网页有一个重复网页，5的网页有 10 到 100 个重复网页，经过冗余检测后，可以把存储空间压缩22 50 。为了提高检测效率，计算网页相似度之前，可以先对抓取到的网页进行预分类，然后再根据网页类别仅仅在该类别进行检测，这样不仅可以大大减少检测时间和计算复杂度。1.4.4 信息过滤信息过滤 (Information Filtering)是指根据用户对信息的需求，对产生或到来的信息流进行动态地分类，保留对用户有用的信息，屏蔽无用

19、信息。信息过滤与信息检索如同一面硬币的两面51 ：信息检索关心的是如何从信息源中找到符合用户需求的信息，可以形容为“人找信息”，用户为主动方，称之为“拉”(pull) ；信息过滤关心的是过滤系统如何把信息发送给感兴趣的用户，可以形容为 “信息找人”，信息发布方为主动方，称之为“推”(push) 。信息过滤的一个典型应用如新闻推送服务，信息发布方为某个新闻社，用户为某种报纸 5,52 。在这个例子中，过滤系统应该屏蔽掉所有用户不感兴趣的文档，例如对于体育报纸，应该屏蔽所有与运动无关的文档。因此信息过滤可以看作是一个单标号分类问题，把所有到来的文本分为两个互不相交的类别：相关文档和无关

20、文档。另外，过滤系统还可以进一步对相关文本按照各个主题进行分类，方便用户阅读。在上一个例子中，与运动有关的文本还可以进一步按照运动类别分类。同样，垃圾邮件过滤系统也可以丢弃垃圾邮件53 ，并对非垃圾邮件根据用感谢下载载精品户兴趣进行分类。过滤系统既可以安装在信息的发送端，此时系统基于信息内容仅发送给对该信息感兴趣的用户；也可以安装在信息的接收端，此时系统负责阻断用户不感兴趣的信息。对于前一种情况，系统需要为每个用户建立一个档案54 ，而在后一种情况下，系统只需建立一个用户档案。文档过滤 (Document Filtering)可以追溯到上世纪60 年代有选择的信息分发技术 (select

21、ive dissemination of information)，当今数字信息的爆炸更加促进了这类技术的发展，如基于内容的垃圾邮件过滤、新闻组订阅等5 。1.4.5 词义辨析词义辨析 (WordSense Disambiguation)是指根据多义词所处上下文环境判断该词此时含义的活动5 。例如，英文英文单词“ bank ”至少有两个不同含义，在“the Bank of England”中为“银行”，在“the bank of river Thames”中为“河岸”，在“ I borrowed some money from the bank”中“ bank ”的含义就需要借助词义辨析来确定

22、。把单词所处上下文看作文本，把单词的各种不同含义看作不同类别，那么词义辨析问题就可以转化为一个文本分类问题。显然，词义辨析属于单标号分类任务。词义辨析只是解决自然语言歧义性时常见难题中的一个例子，也是计算语言学中最重要的一个难题。还有很多机器翻译中的其他问题，比如基于上下文的拼写校对 (Context-sensitivespellingcorrection)57、介词短语连接(PrepositionalPhraseAttachment)58、词性标注 (Part-of-speechTagging) 59,60 等，也都可以通过借助文本文类技术来解决。感谢下载载精品第

23、二章文本分类的性能评估2.1 引言由于自动文本分类技术在文本处理领域具有关键性作用和广泛的应用前景，因此得到了众多学者的高度重视。随着人工智能、机器学习、模式识别和统计理论等领域技术的快速发展，涌现出了越来越多的文本分类方法。但是，这些分类方法的性能如何，以及如何客观评估和比较这些分类方法，就成为了选择分类方法时无法忽视的问题。分类器的评估是一个非常复杂的问题，目前还没有一个可以从理论上对单个分类器进行评估或对不同分类器进行比较的方法。由于难以从理论上对分类器进行客观公正的评估，文本分类领域沿用了信息检索领域的评估办法，从仿真的实验结果来评估分类器的性能。已有很多学者使用实验的方法对分

24、类器进行了比较，并且研究者在说明某种分类算法的性能时也是用数据来表示。分类器的性能评估有两个重要的作用，客观比较不同分类器仅仅是其中的一个方面，另一个重要作用是在训练过程中指导分类器的生成。如图 1.1 中所示那样，分类器评估是训练过程中必不可少的一个模块，分类器的构建需要根据评估结果调整各参数，以使分类器性能达到最优。如同任何一个其他领域的科学实验，文本分类的实验结果也受很多客观因素的影响，比如：实验数据集的选定、文本的表示模型、特征选择的方法、分类算法的确定、各参数的选定、评估指标的确定以及实验数据的分析与处理等。显然，不同分类器只有在诸多客观因素均一致的情形下才具有可比性。许多学者基于

25、Reuters 、 20_Newgroups、 OHSUMED等标准数据集对一些分类算法进行了比较，结果就具有较高的可信度29,81 。另外，由于分类器对数据集的严重依赖感谢下载载精品性，依靠仿真实验得出的任何一种评估结果都只能作为一定的参考，在不同数据集上同一种分类方法可能会表现出截然不同的性能。由此可见，文本分类的性能评估是文本分类领域的一个重要课题，针对不同的目的，评估侧重点也应有所不同。2.2 文本分类器的性能评估指标从实验方面来看，文本分类器的性能主要表现在两个方面：效率和效果。所谓效率指的是分类器训练和分类的时间；所谓效果指的是分类器做出正确决定的能力。具体到评估指标上，效率

26、的评估指标是时间，即分类器训练的时间及单篇文本分类的时间；而效果的评估指标并不唯一，有多种类型，下面将重点进行讨论。在目前的文本分类应用中，主要关心的是分类效果的度量，所以本文也将主要讨论分类效果的评估，本文其余部分若未特别指出，文本分类性能评估均指分类效果的评估。文本分类有多个性能评估指标，常用的有查全率(Recall,r) 、查准率(Precision,p)、正确率 (Accuracy, acc)、错误率 (Error, err )以及查全率与查准率的综合评价值 F、 11- 点平均 (Eleven-pointaverage,11- Ave) 和平衡点(Breakeven p

27、oint,BEP)等。下面针对单标号分类器给出这些指标的定义及计算方法。假设一个单标号文本分类器、测试文本集合D d1 ,., dM 和预先定义的类别集合 C c1,., cN ，D 中每篇文档只属于一个类别，C 中各类别两两之间互不相交。分别由专家和分类器来对全部测试文本判断类别，那么可建立如下的邻接表：表 2-1多类分类器列联表感谢下载载精品专家判别c1c jcNc1a11a1 ja1 N分类器ai1aijaiNci判别cNaN 1aNjaNN在表 2-1 中， aij 的含义如下：aijaii， ij(2-1)aij， ij其中， aii 表示原本属于类别 ci 并被分类器正确判断为c

28、i 的文档数目， aij 表示原本属于类别 c j 但被分类器错误判断为ci 的文档数目。根据表 2-1 ，各指标定义及计算方法如下：1.查全率 (Recall, r)与查准率 (Precision,p )查全率定义为正确判别为该类的测试样本占该类总测试样本的比例，查准率定义为正确判别为该类的测试样本占判别为该类的测试样本的比例，那么类别 ci的查全率 ri 和查准率 pi 的计算公式如下 5 ：riaii(2-2)Nakik 1piaii(2-3)Naikk1查全率与查准率来源于信息检索领域，是最为传统、也是使用最多的两个指标。查全率和查准率从不同方面反映了分类系统的性能，查全率反映了分类的

29、完备程度，即应该正确分类的文本中有多少被正确分类；查准率反映了分类的准确程度，即分类结果中有多少是正确的。二者通常被一起使用，作为一对指标从不感谢下载载精品同侧面共同描述分类器性能。2. F把查全率和查准率分开考虑没有任何意义，例如，100 篇文档中有 10 篇属于类别 c1 ，假设训练了一个类别c1 的“接受分类器” ，即所有文本均判为c1 ，那么对于 c1 来讲，查全率达到100 ，但查准率只有 10 。于是， Rijsbergen提出了把二者综合考虑的指标F ，类别 ci 的 F i 定义如下 108：( 21) p rFii i(2-4)2 pi ri其中，0, ) ，是可调节参数

30、，反映了 pi 和 ri 的相对重要程度。当0时， F 为查准率 pi ；当时， F 为查全率 ri 。越小，越强调 pi 的作用；越大，越强调 ri 的作用。最为常用的是 F1i值，此时1，认为 pi 与 ri 具有同等重要程度，计算公式如下：2 pi ri(2-5)F1iripi3.11- 点平均 (11-point average, 11-Ave )11- 点平均也是一个常用的分类器综合评价指标31,61 ，来源于信息检索领域。 11- 点平均定义为调整分类器参数，使得查全率分别为0, 10, , 90 ,100 时相应的查准率的算术平均值。4.平衡点 (Breakeven point,

31、BEP)Break-even 点是另外一个综合评价指标39,62 ，指的是分类器查全率与查准率相等时的值，这是分类器的一种特殊情况，此时 piriF i 。有时通过实验可能得不到 ri和 pi 相等的值，这时就取 ri 和 pi最接近的值的平均值作为 BEPi ，称感谢下载载精品为插值 BEPi 。5.宏平均 (Macro-average)与微平均 (Micro-average)前面所述几个指标都是针对单个类别的局部性能进行评估的，对于一个多类分类器来讲，关心的是整体性能。宏平均和微平均是计算全局性能的两种方法。宏平均是指先计算各类别的性能指标，然后再求算术平均值，宏平均查全率 ( ma

32、croR)、宏平均查准率 ( macroP )及宏平均 F1 ( macroF1 )的定义如下：Ni1rimacroR(2-6)NNpimacroPi 1(2-7)NNF1imacroF1i1(2-8)N微平均是指计算各个样本的分类性能，然后求算术平均值。微平均查全率( microR )、微平均查准率 ( microP )及微平均 F1 ( microF 1 )的定义如下：NaiimicroRi1(2-9)MNaiimicroPi1(2-10)NNi 1 j 1aijmicroF12microPmicroRmicroP(2-11)microR从微平均各指标的定义可以看出，如果在分类器中未引入拒

33、识策略，则有NNaijM ，此时 microRmicroPmicroF 1 。i 1j1感谢下载载精品宏平均和微平均两种方式的结果可能相差很大，尤其是对于不均衡的测试集更是如此。宏平均是按类别求平均，微平均是按样本求平均，故宏平均的结果受小类别影响较大，微平均的结果受大类别影响较大。6.正确率 (Accuracy,acc)与错误率 (Error, err )正确率与错误率也是两个衡量分类器整体性能的指标。正确率定义为分类器正确分类的样本占所有测试样本的比例，错误率定义为分类器错误分类的样本占所有测试样本的比例，计算公式如下：Ni 1aiiacc(2-12)MNNaiji 1j1errji(

34、2-13)1 accM正确率与错误率来源于机器学习领域，由公式(2-9) 可以看出，正确率与微平均查全率的值完全相等，只是物理意义不同罢了。感谢下载载精品第三章文本表示3.1 引言文本是一个由众多字符构成的字符串，人类在阅读文章后，可以根据自身的理解能力产生对文章的模糊认识，并对其进行分类。但计算机并不能理解文章的内容，从根本上说，它只认识0 和 1 ，所以必须把文本转换为计算机或者说分类算法可以识别的形式。文本表示方法的选择取决于文本中的语义单元以及把这些单元结合在一起的自然语言处理规则。对文本中语义单元的研究属于词汇语义学的范畴，对各单元组合规则的研究属于组合语义学的范畴。文本表示

35、首先根据词汇语义学及组合语义学的相关知识对文本d j 进行分割，把文本转化为由若干个语义单元组成的空间形式 (t1,t 2 ,., t k ,.) ，这就是在文本分类及信息检索领域广泛应用的向量空间模型 (Vector Space Model，VSM) ，这些语义单元 t k 称为特征 (term 或 feature) 。确定文本所用特征后，再计算各特征在文本中的权重(weight) ，文本 d j 被表示为特征向量的形式w j(w1 j , w2 j ,., wkj ,., w|T| j ) ，其中权重值 w kj 表示特征 t k 在文本 d j 中的重要程度， T 表示特征空间的特征集。

36、向量空间模型是由Salton 提出的 18 ，最早成功应用于信息检索领域，后来在文本分类领域也得到了成功应用。Salton 的向量空间模型基于这样一个假设：文本所属类别仅与特定单词或词组在该文本中出现的频数有关，而与这些单词或词组在该文本中出现的位置或顺序无关。针对如何尽可能准确地表示文本，众多学者进行了广泛研究，主要集中在特征空间的选取和特征权重的计算方面。虽然使用向量空间模型表示文本将丢失大量文本信息，但这种文本的形式化处理使得大量机器学习算法在文本分类领域得感谢下载载精品到成功应用，大大促进了自动文本分类的发展。随着文本分类技术的不断进步，向量空间模型也处于不断发展变化中。我们称 Sa

37、lton 最初提出的向量空间模型为狭义向量空间模型，在这基础上发展起来的所有以向量形式表示文本的模型称为广义向量空间模型。事实上，目前使用的文本表示法基本上都是以向量形式表示的，各方法之间的差异主要表现在特征粒度及权重计算方法的不同。本文其余部分若不特别指出，向量空间模型均指广义向量空间模型。3.2 向量空间模型向量空间模型中，特征是文本表示的最小单位。划分文本的特征可以是词（包括字）、词组、 n-gram和概念等，根据特征粒度的不同，一篇文本可以有多种表示方式。下面介绍各种文本特征及特征权重计算方法。3.2.1 特征词词是自然语言理解的最小语义单位。不同的语种获取

38、词的方式也大不相同。对英文等拼音文字而言，各个词之间用空格进行分隔，计算机处理时可以用空格作为切分标志，来提取文本的特征。但是对于中文等亚洲文字来说，表达方式以字为最小单位，在自然理解当中又是以词作为有意义的最小单位，词与词之间没有自然分割标志，这样就需要通过分词来取得文本的词特征。无论何种语种，都会有一些对分类没有任何贡献的代词、介词和连词等，这些词称为停用词 (stop words)。中英文对停用词的处理也不同。英文通常根据分类任务构建停用词表，然后在取词特征时根据该表去除停用词，表 3-1 是本文实感谢下载载精品验中采用的停用词表，包含319 个停用词。而中文通常通过分词

39、时建立的词典去除停用词，即词典初始建立时就不包含停用词。表 3-1停用词表abutfurthermostlyseveraltowardsaboutbygetmoveshetwelveabovecallgivemuchshouldtwentyacrosscangomustshowtwoaftercannothadmysideunderafterwardcanthasmyselfsinceuntilscohasntnamesincereupagaincomputehavenamelysixuponagainstrheneithersixtyuseallconhenceneversousedalmo

40、stcouldherneverthelessomeveryalonecouldntheressomehowviaalongcryhereafternextsomeonewasalreadydeherebyninesomethingwealsodescribenoalthoughdetailhereinnobodysometimewellalwaysdohereupononesometimeswereamdonennoonesomewherwhatamongdownhersnorewhatever感谢下载载精品amongstdueherselfnotstillwhenamoungstduring

41、himnothingsuchwhenceamounteachhimselfnowsystemwheneveraneghisnowheretakewhereandeighthowoftenwhereafteanothereitherhoweveroffthanranyelevenhundredoftenthatwhereasanyhowelseionthewherebyietheirwherein表 3-1 （续）anyoneelsewhereifoncethemwhereupoanythingemptyinonethemselvenanywayenoughinconlyswhereverany

42、whereetcindeedontothenwhetherareeveninterestorthencewhicharoundeverintoothertherewhileaseveryisothersthereafterwhitherateveryoneitotherwistherebywhobackeverythingitsethereforewhoeverbeeverywheritselfourthereinwholebecameekeepoursthereuponwhombecauseexceptlastourselvethesewhose感谢下载载精品becomefewlatters

43、theywhybecomesfifteenlatterlyoutthickwillbecomingfifyleastoverthinwithbeenfilllessownthirdwithinbeforefindltdpartthiswithoutbeforehanfiremadeperthosewoulddfirstmanyperhapsthoughyetbehindfivemaypleasethreeyoubeingformeputthroughyourbelowformermeanwhilratherthroughouyoursbesideformerlyeretyourselfbesi

44、desfortymightsamethruyourselvesbetweenfoundmillseethusbeyondfourmineseemtobillfrommoreseemedtogetherbothfrontmoreoverseemingtoobottomfullmostseemstopserioustoward另外，英文中存在各种时态、语态及名词的单复数，故英文还可对文本中各单词进行取词根 (stemming)处理，就是依据一定的语法规则剥离各个单词的后缀，得到表明单词基本含义的词根。例如，answer, answered, answers的词根都为 answer, 则统一用 answer 来表示。目前常用的是 Porter 的取词根算法 115 。感谢下载载精品但也有

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

文本分类概述

文档简介

温馨提示

最新文档

评论