版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、文本数据挖掘及其应用摘要: 随着 internet 上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键 技术。 本文首先对文本挖掘进行了概述包括文本挖掘的研究现状、主要内容、 相关技术以及热点难点进行了探讨,然后通过两个例子简单地说明了文本挖掘的应用问题 。关键词 : 文本挖掘 研究现状 相关技术 应用1 引言随着科技的发展和网络的普及, 人们可获得的数据量越来越多, 这些数据多数是以文本 形式存在的。 而这些文本数据大多是比较繁杂的, 这就导致了数据量大但信息却比较匮乏的 状况。如何从这些繁杂的文本数据中获得有用的信息越来越受到人们的关注。 “在文本文档 中发现有意义或有用的模式
2、的过程 "n1的文本挖掘技术为解决这一问题提供了一个有效的途 径。而文本分类技术是文本挖掘技术的一个重要分支, 是有效处理和组织错综复杂的文本数 据的关键技术,能够有效的帮助人们组织和分流信息。2 文本挖掘概述2.1 文本挖掘介绍数据挖掘技术本身就是当前数据技术发展的新领域, 文本挖掘则发展历史更短。 传统的 信息检索技术对于海量数据的处理并不尽如人意, 文本挖掘便日益重要起来, 可见文本挖掘 技术是从信息抽取以及相关技术领域中慢慢演化而成的。1)文本挖掘的定义文本挖掘作为数据挖掘的一个新主题 引起了人们的极大兴趣,同时它也是一个富于争 议的研究方向。 目前其定义尚无统一的结论, 需
3、要国内外学者开展更多的研究以进行精确的 定义,类似于我们熟知的数据挖掘定义。我们对文本挖掘作如下定义。定义 2.1.1 文本挖掘是指从大量文本数据中抽取事先未知的可理解的最终可用的信息 或知识的过程。 直观地说, 当数据挖掘的对象完全由文本这种数据类型组成时, 这个过程就 称为文本挖掘。2 )文本挖掘的研究现状国外对于文本挖掘的研究开展较早, 50年代末, h.p.luhn 在这一领域进行了开创性的研 究,提出了词频统计思想于自动分类。1960年,maron发表了关于自动分类的第一篇论文,随后,众多学者在这一领域进行了卓有成效的研究工作。研究主要有围绕文本的挖掘模型、 文本特征抽取与文本中间表
4、示、文本挖掘算法(如关联规则抽取、语义关系挖掘、文本聚类 与主题分析、 趋势分析)、文本挖掘工具等, 其中首次将 kdd 中的只是发现模型运用于 kdt。我国学术界正式引入文本挖掘的概念并开展针对中文的文本挖掘是从最近几年才开始 的。从公开发表的有代表性的研究成果来看, 目前我国文本挖掘研究还处于消化吸收国外相 关的理论和技术与小规模实验阶段,还存在如下不足和问题:(1)没有形成完整的适合中文信息处理的文本挖掘理论与技术框架。目前的中文文本挖 掘研究只是在某些方面和某些狭窄的应用领域展开。 在技术手段方面主要是借用国外针对英 文语料的挖掘技术, 没有针对汉语本身的特点, 没有充分利用当前的中文
5、信息处理与分析技 术来构建针对中文文本的文本挖掘模型,限制了中文文本挖掘的进一步发展。(2)中文文本的特征提取与表示大多数采用 “词袋 ”法, “词袋 ”法即提取文本高词频构成 特征向量来表达文本特征。这样忽略了词在文本(句子)中担当的语法和语义角色,同样也 忽略了词与词之间的顺序, 致使大量有用信息丢失。 而且用 “词袋 ”法处理真实中文文本数据 时,特征向量的维数往往是高维的,这将使挖掘算法效率大大降低。(3) 知识挖掘的种类和深度有限,一般只是进行文本的分类、聚类或者信息抽取,而且 针对开放语料的实验结果也不是很理想。2.2 文本挖掘主要内容存储信息使用最多的是文本, 所以文本挖掘被认为
6、比数据挖掘具有更高的商业潜力, 当 数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本数据挖掘,事实上, 最近研究表明公司信息有 80% 包含在文本文档中。1) 文本分类文本分类指按照预先定义的主题类别, 为文档集合中的每个文档确定一个类别。 这样用 户不但能够方便地浏览文档, 而且可以通过限制搜索范围来使文档的查找更容易、 快捷。 目 前, 用于英文文本分类的分类方法较多, 用于中文文本分类的方法较少, 主要有朴素贝叶斯 分类(na?/e bayes),向量空间模型(vector space model)以及线性最小二乘 llsf(linear least square fit)
7、 。2) 文本聚类聚类与分类的不同之处在于, 聚类没有预先定义好的主体类别, 它的目标是将文档集合 分成若干个簇, 要求同一簇内文档内容的相似度尽可能的大, 而不同簇之间的相似度尽可能 的小。3) 文本结构分析其目的是为了更好地理解文本的主题思想, 了解文本表达的内容以及采用的方式, 最终 结果是建立文本的逻辑结构,即文本结构树,根结点是文本主题,依次为层次和段落。4) web文本数据挖掘在web迅猛发展的同时,不能忽视 信息爆炸”的问题,即信息极大丰富而知识相对匮乏。 据估计,web已经发展成为拥有3亿个页面的分布式信息空间,而且这个数字仍以每4-6个月翻1倍的速度增加,在这些大量、异质的w
8、eb信息资源中,蕴含着具有巨大潜在价值的知识。人们迫切需要能够从web上快速、有效的发现资源和知识的工具。文本挖掘目前面临的问题有挖掘算法的效率和可扩展性、 遗漏及噪声数据的处理、 私有 数据的保护与数据安全性等。2.3 文本挖掘技术 1,2文本挖掘不但要处理大量的结构化和非结构化的文档数据,而且还要处理其中复杂的语义关系,因此,现有的数据挖掘技术无法直接应用于其上。对于非结构化问题,一条途径是 发展全新的数据挖掘算法直接对非结构化数据进行挖掘,对于数据非常复杂, 导致这种算法的复杂性很高; 另一条途径就是将非结构化问题结构化, 利用现有的数据挖掘技术进行挖掘, 目前的文本挖掘一般采用该途径进
9、行。 对于语义关系, 则需要集成计算语言学和自然语言处 理等成果进行分析。我们按照文本挖掘过程介绍其涉及的主要技术及其主要进展。1 )文本数据预处理技术预处理技术包括stemming (英文)/分词(中文)、特征表示和特征提取。与数据库中 的结构化数据相比,文本具有有限的结构,或者根本就没有结构。此外,文档的内容是人类 所使用的自然语言, 计算机很难处理其语义。 文本信息源的这些特殊性使得数据预处理技术 在文本挖掘中更加重要。(1) 分词技术 在对文档进行特征提取前,需要先进行文本信息的预处理,对英文而言需要进行 stemm ing处理,中文的情况则不同,因为中文词与词之间没有固定的间隔符(空
10、格),需 要进行分词处理。目前主要有基于词库的分词算法和无词典的分词技术两种。基于词库的分词算法包括正向最大匹配、 正向最小匹配、 逆向匹配及逐次遍历匹配法等。这类算法的特点是易于实现, 设计简单; 但分词的正确性很大程度上取决于所建的词库。 因 此基于词库的分词技术对于歧义和未登录词的切分有很大的困难。基于无词典的分词技术的基本思想是: 基于词频的统计, 将原文中任意前后紧邻的两个 字作为一个词进行出现频率的统计, 出现的次数越高, 成为一个词的可能性就越大, 在频率 超过某个预先设定的阈值时, 就将其作为一个词进行索引。 这种方法能够有效地提出未登录 词。(2) 特征表示 文本特征指的是关
11、于文本的元数据,分为描述性特征(如文本的名称、日期、大小、类 型等) 和语义性特征 (如文本的作者、 机构、标题、内容等) 。特征表示是指一定特征项 (如 词条或描述) 来代表文档, 在文本挖掘时只需对这些特征项进行处理, 从而实现对非结构化 的文本处理。 这是一个非结构化向结构化转换的处理步骤。 特征表示的构造过程就是挖掘模 型的构造过程。特征表示模型有多种,常用的有布尔逻辑型、向量空间模型( vector spacemodel , vsm )、概率型以及混合型等。w3c近来制定的xml , rdf等规范提供了对 web文档资源进行描述的语言和框架。(3) 特征提取用向量空间模型得到的特征向
12、量的维数往往会达到数十万维,如此高维的特征对即将进行的分类学习未必全是重要、有益的(一般只选择 2%-5%的最佳特征作为分类数据) ,而且 高维的特征会大大增加机器的学习时间,这便是特征提取所要完成的工作。特征提取算法一般是构造一个评价函数, 对每个特征进行评估, 然后把特征按分值高低 排队,预定数目分数最高的特征被选取。在文本处理中,常用的评估函数有信息增益 ( information gain )、互信息( mutual information )、文本证据权( the weight of evidence for text )和词频。2) 文本挖掘分析技术 文本转换为向量形式并经特征提取
13、后, 便可以进行挖掘分析了。 常用的文本挖掘分析技 术有:文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预 测等。(1) 文本结构分析 其目的是为了更好地理解文本的主题思想, 了解文本所表达的内容以及采用的方式。 最 终结果是建立文本的逻辑结构,即文本结构树,根节点是文本主题,依次为层次和段落。(2) 文本摘要 文本摘要是指从文档中抽取关键信息, 用简洁的形式对文档内容进行解释和概括。 这样, 用户不需要浏览全文就可以了解文档或文档集合的总体内容。任何一篇文章总有一些主题句, 大部分位于整篇文章的开头或结尾部分, 而且往往是在 段首或段尾, 因此文本摘要自动生成算法主
14、要考察文本的开头、 结尾, 而且在构造句子的权 值函数时,相应的给标题、子标题、段首和段尾的句子较大的权值,按权值大小选择句子组 成相应的摘要。(3) 文本分类 文本分类的目的是让机器学会一个分类函数或分类模型, 该模型能把文本映射到已存在 的多个类别中的某一类, 是检索或查询的速度更快, 准确率更高。 训练方法和分类算法是分 类系统的核心部分。 用于文本分类的分类方法较多, 主要有朴素贝叶斯分类、 向量空间模型、 决策树、支持向量机、后向传播分类、遗传算法、基于案例的推理、k- 最邻近、基于中心点的分类方法、粗糙集、模糊集以及线性最小二乘等。厉宇航等指出传统特征提取的方法是基于词形的, 并不
15、考察词语的意义, 忽略了同一意 义下词形的多样性, 不确定性以及词义间的关系, 尤其是上下位关系。 该文的方法在向量空 间模型的基础上,以 “概念 ”为基础,同时考虑词义的上位关系,使得训练过程中可以从词语 中提炼出更加概括性的信息,从而达到提高分类精度的目的。(4) 文本聚类文本分类是将文档归入到已经存在的类中, 文本聚类的目标和文本分类是一样的, 知识 实现的方法不同。 文本聚类是无教师的机器学习, 聚类没有预先定义好的主题类别, 它的目 标是将文档集合分成若干个簇, 要求同一簇内文档内容的相似度尽可能大, 而不同簇间的相 似度尽可能小。hearst等人的研究已经证明了 聚类假设”,即与用
16、户查询相关的文档通常会 聚类的比较靠近,而远离与用户查询不相关的文档。(5) 关联分析关联分析是指从文档集合中找出不同词语之间的关系。feldman和hirsh研究了文本数据库中关联规则的挖掘,提出了一种从大量文档中发现数千本在amazon网站上找不到的新书籍;wang ke等以web上的电影介绍作为测试文档, 通过使用oem模型从这些半结构化的页 面中抽取词语项,进而得到一些关于电影名称、导演、演员、编剧的出现模式。(6) 分布分析与趋势预测分布分析与趋势预测是指通过对文档的分析, 得到特定数据在某个历史时刻的情况或将 来的取值趋势。feldma n r等使用多种分布模型对路透社的两万多篇新
17、闻进行了挖掘,得到 主题、国家、组织、人、股票交易之间的相对分布,揭示了一些有趣的趋势。wuthrich b 等通过分析 web上出版的权威性经济文章对每天的股票市场指数进行预测,取得了良好的效 果。(7) 可视化技术数据可视化( data visualization )技术指的是运用计算机图形学和图像处理技术,将数 据转换为图形或图像在屏幕上显示出来, 并进行交互处理的理论、 方法和技术。 它涉及到计 算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域。国内外 学者已经对信息可视化技术进行了大量的研究, 运用最小张力计算、 多维标度法、 语义分析、 内容图谱分析、引文网
18、络分析及神经网络技术,进行了信息和数据的可视化表达。2.4 文本挖掘热点难点问题 显然,目标不同,文本挖掘的过程也不尽相同。但不论何种目标,都不可忽视如下几个 方面的研究:1) 文本建模向量空间模型,也称为 “词袋 ”法,是目前文本处理的标准模式。简答讲,就是提取文本 高频词构成特征向量来表达文本特征的方法, 该方法有效描述了词与文档间的频率关系。 面 对复杂繁琐的自然语言文本,向量空间模型是目前最为简便有效的文本表示方法。但向量空间模型建模方法最大的问题就是忽略了词在文本中承担的语法和语义上的作 用, 同时忽略了词与词之间的顺序关系, 丢失了大量有用信息, 从而减弱了高频词向量表达 文本特征
19、的可信度。 同时, 向量空间模型在处理真实文本数据时形成的特征向量的高维性也 严重影响了后续文本挖掘的效率和结果的准确性。此外, 建模前的文本预处理工作作为整个文本挖掘过程的基础尤为重要。而不同的语言处理又常常不同。如何解决多语言混合如中英文混合情况下的文本处理和建模工作日益重 要。同时, 不同的语言有不同的切词处理方式。 并且存在着大量多词同义、 一词多义的现象。2) 特征降维文本模型的高维特性制约了文本挖掘的效果。 不论何种语种, 由于语言本身的非结构特 性以及建模后的高维特性, 使得后续挖掘过程中都面临严重的效率问题。 因此有效的降维是 进行后续文本挖掘的重要一环。该技术通过分析特目前的
20、文本降维方法主要采用基于奇异值分解的潜在语义分析技术。征词之间的语义相关性来减少特征向量的维数, 通过将词 文档的高维表示投影在低维潜在 语义空间中,降低空间的维数,进而得到词 文档的不再稀疏的低维表示。并且,由词袋模 型在进行奇异值分解后得到的子空间不再是仅仅反映出词汇出现的频率和分布关系, 而进一 步揭示了词汇或文档之间的语义联系。3) 挖掘算法的选择 模型创建成功并且进行了有效的降维处理之后, 就可以进行具体的挖掘操作了。 从狭义 的角度理解, 也可以说这部分才是真正的挖掘。 而广义上来说, 整个过程才构成文本挖掘的 全部过程。文本挖掘算法并不是一个新的领域, 通常就是数据挖掘方法在文本
21、数据上的应用。 因此 多数挖掘方法来自机器学习、统计学习、自然语言处理、信息抽取、信息检索以及知识管理 等领域,最终目标就是对建模后的文本数据进行分析和处理,找到其中潜在的有用信息。根据不同的应用目标, 挖掘出的知识种类不尽相同, 由此可以对文本挖掘的技术和算法 进行如下的分类:如根据发现关联规则、聚类、趋势、差异等知识的不同,分别对应不同领 域的算法选择。任何算法技术的研究和设计都离不开开始实验的仿真和具体实例的验证。 文本数据挖掘 过程亦是如此。 由于文本数据的复杂多样性, 导致文本数据的挖掘过程相对其他结构化数据 要复杂繁琐的多, 对数据的敏感性更为严重, 在很多情况下, 面临对开放语料
22、的实验结果不 理想的问题。 因此选择更好的评价方法, 克服现有语料手工分类不准确带来的误差, 以更好 地对算法做出评价,同样重要。4) 模型的理解及可视化表达多数文本挖掘应用实例的目标同数据挖掘类似, 通常是要辅助用户的决策和判断, 因此 从用户的角度来看, 文本挖掘所发现结果的可理解至关重要。 而对于各种方法挖掘出的模式、 规则等结果, 提高可理解性的解决方法通常有两种: 一种是以生成人类易于理解的自然语言 的方式进行呈现, 如对文档进行摘要的方法; 另一种方式则是以图形界面方式展示结果, 通 过提供相对少量的规则, 利用计算机图形学、 图像处理等可视化技术将结果更加直观的呈现 给用户。近年
23、来,可视化技术作为展示结果的关键一环逐渐成为文本挖掘过程中日益重要的一个 分支。大量的研究结合语义分析、内容图谱分析、最小张力计算、神经网络技术、多维标度 法等数据分析和处理方法进行了结果的可视化表达。3 文本挖掘的应用文本挖掘的研究刚刚开始, 其应用的研究正逐渐地增多, 应用范围也正逐渐地扩大, 例 如在英文挖掘方面 brin 提出了一种从大量文档中发现一对词语出现模式的算法, 并用来在 web 上寻找作者和书名的出现模式,从而发现了数千本在 amazon 网站上找不到的新书 籍,wang等人以 web上的电影介绍作为测试文档,通过使用 oem模型从这些半结构化的页面中抽取词语项 进而得到一
24、些关于电影名称、导演、演员、编剧的出现模式。3.1 基于 stcs 的新型信息搜索引擎人们已经进入信息极大丰富的时代, 一方面信息来源广泛, 包括 web 文档图书文献数 字化资料等,这些异构的信息分布在 internet 空间中;另一方面,信息量巨大。面对信息的 海洋,人们觉得力不从心,往往花费了很多时间却所获甚少。在这种情况下,如何有效地提 供基于 internet 的资源发现服务,以帮助用户从大量信息资源的集合中找到与给定的查询 请求相关的、恰当数目的资源子集,也就成为一项重要而迫切的研究课题。传统的搜索引擎,例如alta vista yahoo等,试图解决in ternet上的资源发现
25、问题, 但是, 从资源覆盖度、检索精度、检索结果可视化、可维护性等诸多方面来看,其效果远不能够令人满意。我们注意到搜索引擎采用的是典型的集中方式 它们试图遍历整个web,对其上所有的 文档生成索引,供用户检索。这种集中方式有一些严重的弊端,主要表现在:1、覆盖度有限;2、维护困难;3、消耗太大,包括网络带宽、搜索引擎自身昂贵的硬件设施等。我们认为in ternet上的资源发现更适于采取分布协作的策略。目前,分布计算以及多agent系统等领域的研究已经取得了丰硕的成果,可以用于集成某些自制、异构的协作资源发现系统这正是我们设计新型信息搜索引擎的出发点。下面给出我们设计的新型信息搜索引擎的原型该模
26、型基于stcs设计,如图3-1所示。文档拽is图3-1基于stcs的搜索引擎系统的工作流程如下:(1) 特征提取:对用户提交的目标样本(欲查询的文档样本)进行特征提取,生成挖掘 目标的特征矢量;(2) 站点查询:在特征矢量中取权值最大的5个特征项作为查询关键字,向多个资源索引系统发送查询请求,将返回的结果url作为文档采集的起点;(3) 信息采集:运行 robot程序从查询到的源 url开始进行文档采集;(4) 模式匹配:提取出源文档的特征矢量,并进行特征匹配,把符合阈值条件的文档提 交给用户。采用分布协作的资源发现策略后,各个资源发现子系统所要管理的信息资源相对缩小, 消耗降低,便于维护;同
27、时,通过各系统之间的相互协作,覆盖度扩大,这也正是我们设计 的新型信息搜索引擎的优点。3.2文本挖掘器 textminer在第二章,我们已经讨论了文本挖掘的各种功能,现在的研究工作大都专注于某种功能的研究,在一定程度上解决了用户的某些特定需求,如文本的分类、聚类、关联等。然而当用户面对一大堆文档, 提出 请帮忙在这些文档中找出一些有趣的东西”这样一个问题的时候,单独的某种功能恐怕就无能为力了,而这种需求是客观存在的。为此,我们认为有必要 进行功能齐全的文本挖掘系统的研究,以满足这种需求。在前面各种文本挖掘功能的基础上,我们设计了文本挖掘器(textminer )。textminer采用多age nt的体系结构,首次提出文本中央挖掘器 tcmu的概念,以帮助用户快速、 有效的 挖掘各种文本。下面给出系统原型的组件和系统行为的简要描述。1) 文本预处理age nt;利
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 店铺转让合同标准版可打印
- 船舶交易中的运输保险2024年度合同
- 2024年度房产项目工程验收合同
- 二零二四年电子科技有限公司与代工厂生产制造合同
- 2024年度广告发布合同:某品牌广告在某媒体上的投放细节3篇
- 2024年度房屋买卖合同协议书(含长期维修保障)3篇
- 2024版房屋及商业空间转让合同3篇
- 彩票销售及管理系统技术服务合同
- 二零二四年度园林景观改造合同
- 二零二四年度环保设备采购与施工合同
- 《再生钢铁原料》标准中英文对照版本
- 2022智慧健康养老服务与管理专业人才培养调研报告
- 横向课题计划书
- 03 配电类“两种人”安规综合能力测试题库
- 《相似三角形的性质及相似三角形应用举例》课件(3课时)
- 护理专业就业能力展示
- 生物海洋学完整版本
- 班组管理论文
- 贵州省黔南州2023-2024学年九年级上学期期末考试英语试题(含答案)
- 吃早餐的重要性课件
- 危险化学品岗位安全操作规程
评论
0/150
提交评论