下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、文本数据挖掘及其应用摘要:随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。本文首先对文本挖掘进行了概述包括文本挖掘的研究现状、主要内容、相关技术以及热点难点进行了探讨,然后通过两个例子简单地说明了文本挖掘的应用问题。关键词:文本挖掘研究现状相关技术应用1引言随着科技的发展和网络的普及,人们可获得的数据量越来越多,这些数据多数是以文本形式存在的。而这些文本数据大多是比较繁杂的,这就导致了数据量大但信息却比较匮乏的状况。如何从这些繁杂的文本数据中获得有用的信息越来越受到人们的关注。在文本文档中发现有意义或有用的模式的过程"n1的文本挖掘技术为解决这
2、一问题提供了一个有效的途径。而文本分类技术是文本挖掘技术的一个重要分支,是有效处理和组织错综复杂的文本数据的关键技术,能够有效的帮助人们组织和分流信息。2文本挖掘概述2.1 文本挖掘介绍数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。1)文本挖掘的定义文本挖掘作为数据挖掘的一个新主题引起了人们的极大兴趣,同时它也是一个富于争议的研究方向。目前其定义尚无统一的结论,需要国内外学者开展更多的研究以进行精确的定义,类似于我们熟知的数据挖掘定义。
3、我们对文本挖掘作如下定义。定义2.1.1文本挖掘是指从大量文本数据中抽取事先未知的可理解的最终可用的信息或知识的过程。直观地说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本挖掘。2)文本挖掘的研究现状国外对于文本挖掘的研究开展较早,50年代末,H.P.Luhn在这一领域进行了开创性的研究,提出了词频统计思想于自动分类。1960年,Maron发表了关于自动分类的第一篇论文,随后,众多学者在这一领域进行了卓有成效的研究工作。研究主要有围绕文本的挖掘模型、文本特征抽取与文本中间表示、文本挖掘算法(如关联规则抽取、语义关系挖掘、文本聚类与主题分析、趋势分析)、文本挖掘工具等,其中首
4、次将KDD中的只是发现模型运用于KDT。我国学术界正式引入文本挖掘的概念并开展针对中文的文本挖掘是从最近几年才开始的。从公开发表的有代表性的研究成果来看,目前我国文本挖掘研究还处于消化吸收国外相关的理论和技术与小规模实验阶段,还存在如下不足和问题:(1)没有形成完整的适合中文信息处理的文本挖掘理论与技术框架。目前的中文文本挖掘研究只是在某些方面和某些狭窄的应用领域展开。在技术手段方面主要是借用国外针对英文语料的挖掘技术,没有针对汉语本身的特点,没有充分利用当前的中文信息处理与分析技术来构建针对中文文本的文本挖掘模型,限制了中文文本挖掘的进一步发展。(2)中文文本的特征提取与表示大多数采用词袋”
5、法,饲袋”法即提取文本高词频构成特征向量来表达文本特征。这样忽略了词在文本(句子)中担当的语法和语义角色,同样也忽略了词与词之间的顺序,致使大量有用信息丢失。而且用饲袋”法处理真实中文文本数据时,特征向量的维数往往是高维的,这将使挖掘算法效率大大降低。(3)知识挖掘的种类和深度有限,一般只是进行文本的分类、聚类或者信息抽取,而且针对开放语料的实验结果也不是很理想。文本挖掘主要内容存储信息使用最多的是文本,所以文本挖掘被认为比数据挖掘具有更高的商业潜力,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本数据挖掘,事实上,最近研究表明公司信息有80%包含在文本文档中。1)文本分类文本
6、分类指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。这样用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更容易、快捷。目前,用于英文文本分类的分类方法较多,用于中文文本分类的方法较少,主要有朴素贝叶斯分类(Na?VeBayes),向量空间模型(VectorSpaceModel)以及线性最小二乘LLSF(LinearLeastSquareFit)。2)文本聚类聚类与分类的不同之处在于,聚类没有预先定义好的主体类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。3)文本结构分析其目的是为了更好地理解文本的主
7、题思想,了解文本表达的内容以及采用的方式,最终结果是建立文本的逻辑结构,即文本结构树,根结点是文本主题,依次为层次和段落。Web文本数据挖掘4在Web迅猛发展的同时,不能忽视信息爆炸”的问题,即信息极大丰富而知识相对匮乏。据估计,Web已经发展成为拥有3亿个页面的分布式信息空间,而且这个数字仍以每4-6个月翻1倍的速度增加,在这些大量、异质的Web信息资源中,蕴含着具有巨大潜在价值的知识。人们迫切需要能够从Web上快速、有效的发现资源和知识的工具。文本挖掘目前面临的问题有挖掘算法的效率和可扩展性、遗漏及噪声数据的处理、私有数据的保护与数据安全性等。文本挖掘技术1,2文本挖掘不但要处理大量的结构
8、化和非结构化的文档数据,而且还要处理其中复杂的语义关系,因此,现有的数据挖掘技术无法直接应用于其上。对于非结构化问题,一条途径是发展全新的数据挖掘算法直接对非结构化数据进行挖掘,对于数据非常复杂,导致这种算法的复杂性很高;另一条途径就是将非结构化问题结构化,利用现有的数据挖掘技术进行挖掘,目前的文本挖掘一般采用该途径进行。对于语义关系,则需要集成计算语言学和自然语言处理等成果进行分析。我们按照文本挖掘过程介绍其涉及的主要技术及其主要进展。1)文本数据预处理技术预处理技术包括Stemming(英文)/分词(中文)、特征表示和特征提取。与数据库中的结构化数据相比,文本具有有限的结构,或者根本就没有
9、结构。此外,文档的内容是人类所使用的自然语言,计算机很难处理其语义。文本信息源的这些特殊性使得数据预处理技术在文本挖掘中更加重要。(1)分词技术在对文档进行特征提取前,需要先进行文本信息的预处理,对英文而言需要进行Stemming处理,中文的情况则不同,因为中文词与词之间没有固定的间隔符(空格),需要进行分词处理。目前主要有基于词库的分词算法和无词典的分词技术两种。基于词库的分词算法包括正向最大匹配、正向最小匹配、逆向匹配及逐次遍历匹配法等。这类算法的特点是易于实现,设计简单;但分词的正确性很大程度上取决于所建的词库。因此基于词库的分词技术对于歧义和未登录词的切分有很大的困难。基于无词典的分词
10、技术的基本思想是:基于词频的统计,将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计,出现的次数越高,成为一个词的可能性就越大,在频率超过某个预先设定的阈值时,就将其作为一个词进行索引。这种方法能够有效地提出未登录词。(2)特征表示文本特征指的是关于文本的元数据,分为描述性特征(如文本的名称、日期、大小、类型等)和语义性特征(如文本的作者、机构、标题、内容等)。特征表示是指一定特征项(如词条或描述)来代表文档,在文本挖掘时只需对这些特征项进行处理,从而实现对非结构化的文本处理。这是一个非结构化向结构化转换的处理步骤。特征表示的构造过程就是挖掘模型的构造过程。特征表示模型有多种,常用的有布
11、尔逻辑型、向量空间模型(VectorSpaceModel,VSM)、概率型以及混合型等。W3c近来制定的XML,RDF等规范提供了对Web文档资源进行描述的语言和框架。(3)特征提取用向量空间模型得到的特征向量的维数往往会达到数十万维,如此高维的特征对即将进行的分类学习未必全是重要、有益的(一般只选择2%-5%的最佳特征作为分类数据),而且高维的特征会大大增加机器的学习时间,这便是特征提取所要完成的工作。特征提取算法一般是构造一个评价函数,对每个特征进行评估,然后把特征按分值高低排队,预定数目分数最高的特征被选取。在文本处理中,常用的评估函数有信息增益IInformationGain)、互信息
12、(MutualInformation)、文本证据权(TheWeightofEvidenceforText)和词频。2)文本挖掘分析技术文本转换为向量形式并经特征提取后,便可以进行挖掘分析了。常用的文本挖掘分析技术有:文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等。(1)文本结构分析其目的是为了更好地理解文本的主题思想,了解文本所表达的内容以及采用的方式。最终结果是建立文本的逻辑结构,即文本结构树,根节点是文本主题,依次为层次和段落。(2)文本摘要文本摘要是指从文档中抽取关键信息,用简洁的形式对文档内容进行解释和概括。这样,用户不需要浏览全文就可以了解文档或文档集
13、合的总体内容。任何一篇文章总有一些主题句,大部分位于整篇文章的开头或结尾部分,而且往往是在段首或段尾,因此文本摘要自动生成算法主要考察文本的开头、结尾,而且在构造句子的权值函数时,相应的给标题、子标题、段首和段尾的句子较大的权值,按权值大小选择句子组成相应的摘要。(3)文本分类文本分类的目的是让机器学会一个分类函数或分类模型,该模型能把文本映射到已存在的多个类别中的某一类,是检索或查询的速度更快,准确率更高。训练方法和分类算法是分类系统的核心部分。用于文本分类的分类方法较多,主要有朴素贝叶斯分类、向量空间模型、决策树、支持向量机、后向传播分类、遗传算法、基于案例的推理、K-最邻近、基于中心点的
14、分类方法、粗糙集、模糊集以及线性最小二乘等。厉宇航等指出传统特征提取的方法是基于词形的,并不考察词语的意义,忽略了同一意义下词形的多样性,不确定性以及词义间的关系,尤其是上下位关系。该文的方法在向量空间模型的基础上,以概念”为基础,同时考虑词义的上位关系,使得训练过程中可以从词语中提炼出更加概括性的信息,从而达到提高分类精度的目的。(4)文本聚类文本分类是将文档归入到已经存在的类中,文本聚类的目标和文本分类是一样的,知识实现的方法不同。文本聚类是无教师的机器学习,聚类没有预先定义好的主题类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能大,而不同簇间的相似度尽可能小。H
15、earst等人的研究已经证明了聚类假设”,即与用户查询相关的文档通常会聚类的比较靠近,而远离与用户查询不相关的文档。(5)关联分析关联分析是指从文档集合中找出不同词语之间的关系。Feldman和Hirsh研究了文本数据库中关联规则的挖掘,提出了一种从大量文档中发现数千本在Amazon网站上找不到的新书籍;WangKe等以Web上的电影介绍作为测试文档,通过使用OEM模型从这些半结构化的页面中抽取词语项,进而得到一些关于电影名称、导演、演员、编剧的出现模式。(6)分布分析与趋势预测分布分析与趋势预测是指通过对文档的分析,得到特定数据在某个历史时刻的情况或将来的取值趋势。FeldmanR等使用多种
16、分布模型对路透社的两万多篇新闻进行了挖掘,得到主题、国家、组织、人、股票交易之间的相对分布,揭示了一些有趣的趋势。WuthrichB等通过分析Web上出版的权威性经济文章对每天的股票市场指数进行预测,取得了良好的效果。(7)可视化技术数据可视化(DataVisualization)技术指的是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域。国内外学者已经对信息可视化技术进行了大量的研究,运用最小张力计算、多维标度法、语义分析、内容图谱分析、引文网络分析及神
17、经网络技术,进行了信息和数据的可视化表达。文本挖掘热点难点问题显然,目标不同,文本挖掘的过程也不尽相同。但不论何种目标,都不可忽视如下几个方面的研究:1)文本建模向量空间模型,也称为饲袋”法,是目前文本处理的标准模式。简答讲,就是提取文本高频词构成特征向量来表达文本特征的方法,该方法有效描述了词与文档间的频率关系。面对复杂繁琐的自然语言文本,向量空间模型是目前最为简便有效的文本表示方法。但向量空间模型建模方法最大的问题就是忽略了词在文本中承担的语法和语义上的作用,同时忽略了词与词之间的顺序关系,丢失了大量有用信息,从而减弱了高频词向量表达文本特征的可信度。同时,向量空间模型在处理真实文本数据时
18、形成的特征向量的高维性也严重影响了后续文本挖掘的效率和结果的准确性。此外,建模前的文本预处理工作作为整个文本挖掘过程的基础尤为重要。而不同的语言处理又常常不同。如何解决多语言混合如中英文混合情况下的文本处理和建模工作日益重要。同时,不同的语言有不同的切词处理方式。并且存在着大量多词同义、一词多义的现象。2)特征降维文本模型的高维特性制约了文本挖掘的效果。不论何种语种,由于语言本身的非结构特性以及建模后的高维特性,使得后续挖掘过程中都面临严重的效率问题。因此有效的降维是进行后续文本挖掘的重要一环。目前的文本降维方法主要采用基于奇异值分解的潜在语义分析技术。该技术通过分析特征词之间的语义相关性来减
19、少特征向量的维数,通过将词一文档的高维表示投影在低维潜在语义空间中,降低空间的维数,进而得到词一文档的不再稀疏的低维表示。并且,由词袋模型在进行奇异值分解后得到的子空间不再是仅仅反映出词汇出现的频率和分布关系,而进一步揭示了词汇或文档之间的语义联系。3)挖掘算法的选择模型创建成功并且进行了有效的降维处理之后,就可以进行具体的挖掘操作了。从狭义的角度理解,也可以说这部分才是真正的挖掘。而广义上来说,整个过程才构成文本挖掘的全部过程。文本挖掘算法并不是一个新的领域,通常就是数据挖掘方法在文本数据上的应用。因此多数挖掘方法来自机器学习、统计学习、自然语言处理、信息抽取、信息检索以及知识管理等领域,最
20、终目标就是对建模后的文本数据进行分析和处理,找到其中潜在的有用信息。根据不同的应用目标,挖掘出的知识种类不尽相同,由此可以对文本挖掘的技术和算法进行如下的分类:如根据发现关联规则、聚类、趋势、差异等知识的不同,分别对应不同领域的算法选择。任何算法技术的研究和设计都离不开开始实验的仿真和具体实例的验证。文本数据挖掘过程亦是如此。由于文本数据的复杂多样性,导致文本数据的挖掘过程相对其他结构化数据要复杂繁琐的多,对数据的敏感性更为严重,在很多情况下,面临对开放语料的实验结果不理想的问题。因此选择更好的评价方法,克服现有语料手工分类不准确带来的误差,以更好地对算法做出评价,同样重要。4)模型的理解及可
21、视化表达多数文本挖掘应用实例的目标同数据挖掘类似,通常是要辅助用户的决策和判断,因此从用户的角度来看,文本挖掘所发现结果的可理解至关重要。而对于各种方法挖掘出的模式、规则等结果,提高可理解性的解决方法通常有两种:一种是以生成人类易于理解的自然语言的方式进行呈现,如对文档进行摘要的方法;另一种方式则是以图形界面方式展示结果,通过提供相对少量的规则,利用计算机图形学、图像处理等可视化技术将结果更加直观的呈现给用户。近年来,可视化技术作为展示结果的关键一环逐渐成为文本挖掘过程中日益重要的一个分支。大量的研究结合语义分析、内容图谱分析、最小张力计算、神经网络技术、多维标度法等数据分析和处理方法进行了结
22、果的可视化表达。3文本挖掘的应用文本挖掘的研究刚刚开始,其应用的研究正逐渐地增多,应用范围也正逐渐地扩大,例如在英文挖掘方面Brin提出了一种从大量文档中发现一对词语出现模式的算法,并用来在Web上寻找作者和书名的出现模式,从而发现了数千本在Amazon网站上找不到的新书籍,Wang等人以Web上的电影介绍作为测试文档,通过使用OEM模型从这些半结构化的页面中抽取词语项进而得到一些关于电影名称、导演、演员、编剧的出现模式。基于STCS的新型信息搜索引擎人们已经进入信息极大丰富的时代,一方面信息来源广泛,包才Web文档图书文献数字化资料等,这些异构的信息分布在Internet空间中;另一方面,信
23、息量巨大。面对信息的海洋,人们觉得力不从心,往往花费了很多时间却所获甚少。在这种情况下,如何有效地提供基于Internet的资源发现服务,以帮助用户从大量信息资源的集合中找到与给定的查询请求相关的、恰当数目的资源子集,也就成为一项重要而迫切的研究课题。传统的搜索引擎,例如AltaVistaYahoo等,试图解决Internet上的资源发现问题,但是,从资源覆盖度、检索精度、检索结果可视化、可维护性等诸多方面来看,其效果远不能够令人满意。我们注意到搜索引擎采用的是典型的集中方式它们试图遍历整个Web,对其上所有的文档生成索引,供用户检索。这种集中方式有一些严重的弊端,主要表现在:1、覆盖度有限;
24、2、维护困难;3、消耗太大,包括网络带宽、搜索引擎自身昂贵的硬件设施等。我们认为Internet上的资源发现更适于采取分布协作的策略。目前,分布计算以及多Agent系统等领域的研究已经取得了丰硕的成果,可以用于集成某些自制、异构的协作资源发现系统这正是我们设计新型信息搜索引擎的出发点。下面给出我们设计的新型信息搜索引擎的原型该模型基于STCS设计,如图3-1所示。图3-1基于STCS的搜索引擎系统的工作流程如下:(1)特征提取:对用户提交的目标样本(欲查询的文档样本)进行特征提取,生成挖掘目标的特征矢量;(2)站点查询:在特征矢量中取权值最大的5个特征项作为查询关键字,向多个资源索引系统发送查
25、询请求,将返回的结果URL作为文档采集的起点;(3)信息采集:运行Robot程序从查询到的源URL开始进行文档采集;(4)模式匹配:提取出源文档的特征矢量,并进行特征匹配,把符合阈值条件的文档提交给用户。采用分布协作的资源发现策略后,各个资源发现子系统所要管理的信息资源相对缩小,消耗降低,便于维护;同时,通过各系统之间的相互协作,覆盖度扩大,这也正是我们设计的新型信息搜索引擎的优点。文本挖掘器TextMiner在第二章,我们已经讨论了文本挖掘的各种功能,现在的研究工作大都专注于某种功能的研究,在一定程度上解决了用户的某些特定需求,如文本的分类、聚类、关联等。然而当用户面对一大堆文档,提出请帮忙在这些文档中找出一些有趣的东西”这样一个问题的时候,单独的某种功能恐怕就无能为力了,而这种需求是客观存在的。为此,我们认为有必要进行功能齐全的文本挖掘系统的研究,以满足这种需求。在前面各种文本挖掘功能的基础上,我们设计了文本挖掘器(TextMiner)。TextMiner采用多agent的体系结构,首次提出文本中央挖掘器TCMU的概念,以帮助用户快速、有效的挖掘各种文本。下面给出系统原型的组件和系统行为的简要描述。1)文本预处理agent;利用启
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024版道路交通事故损害赔偿协议
- 高中信息技术选修1说课稿-2.3 排序-浙教版001
- 教科版信息技术高一必修 4.1.1文字及其处理技术说课稿001
- 医务科帮带协议书(2篇)
- 建章立制庞大帝国 独裁暴虐二世而亡-秦朝微课说课稿-2024-2025学年高一上学期统编版(2019)必修中外历史纲要上
- 企业工厂消防知识培训课件模板
- 《海尔业务流程重组》课件
- 夏季消防知识培训
- 南京双拼别墅花园施工方案
- 《化工废物资源化》课件
- 国家开放大学电大《金融市场》教学考一体化网考形考试题及答案-图文
- 政治-经济与社会 教材探究与分享参考答案高中政治统编版必修二
- 2024年PURL系列反应型皮革用聚氨酯乳液项目合作计划书
- GB/T 44328-2024七氟异丁腈
- 湖南省常德市桃源县市级名校2024年中考数学模试卷含解析
- 山里的夜(2022年浙江金华中考语文试卷记叙文阅读题及答案)
- 安全保卫工作方案和灭火,应急疏散预案
- DBJ15 31-2016建筑地基基础设计规范(广东省标准)
- 基于PLC的食品包装机控制系统设计
- 2023北师大版新教材高中数学必修第一册考前必背
- 保密协议简单合同范本
评论
0/150
提交评论