文本挖掘_数据挖掘和知识管理_二十一世纪的智能信息处理_第1页
文本挖掘_数据挖掘和知识管理_二十一世纪的智能信息处理_第2页
文本挖掘_数据挖掘和知识管理_二十一世纪的智能信息处理_第3页
文本挖掘_数据挖掘和知识管理_二十一世纪的智能信息处理_第4页
文本挖掘_数据挖掘和知识管理_二十一世纪的智能信息处理_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第20卷 第1期2001年2月情 报 学 报Vol.20, 1February,2001文本挖掘、数据挖掘和知识管理二十一世纪的智能信息处理韩客松 王永成(上海交通大学,上海200030)1)摘要 本文首先介绍了数据挖掘、文本挖掘和知识管理等概念,然后从技术角度出发,将知识管理划分为知识库、知识共享和知识发现三个阶段,分析了作为最高阶段的知识发现的关键技术和意义,最后指出在文本中进行知识发现是新世纪智能信息处理的重要方向。关键词 文本挖掘 数据挖掘 知识管理 知识发现TextMining,DataMiningvs.KnowledgeManagement:theIntelligentInform

2、ationProcessinginthe21stCenturyHanKesongandWangYongcheng(ShanghaiJiaoTongUniversity,Shanghai200030)Abstract BasedontheintroductiontoDataMining,TextMiningandKnowledgeManagement,wedividetheknowledgemanagementintothreephases,KnowledgeRepository,KnowledgeSharingandKnowledgeDiscoveryrespectively,fromthev

3、iew pointoftechnicaldevelopment.Weanalysethekeycomponentoftextmining,andpointoutthatitisthemaintrendofintelligentinformationprocessinginthecomingnewcentury.Keywords textmining,datamining,knowledgemanagement,knowledgediscovery.1 引 言20世纪90年代不同于以往任何一个时代的显著特征之一是信息的产生、传播速度更快,信息的交流量日益增加。Internet、Intranet、

4、Email和群件系统大大增加了人们接触数字信息的机会。但是,我们已经面临另一个新问题:虽然我们接触信息的绝对数量在增加,但比重在下降,也就是信息的含金量在下降,新知识的增长并没有同步。收稿日期:2000年4月17日作者简介:韩客松,男,1973年生,博士研究生,研究方向为中文信息处理。王永成,男,1939年生,教授、博士生导师,研究方向为网络信息智能处理。1)本课题研究受国家863计划资助(合同号:863 306 ZD03 04 11期文本挖掘、数据挖掘和知识管理101对于什么是信息,什么是知识,恐怕迄今还没有一个精确的定义来描述它们,但可以用这样一个例子来说明什么是信息,什么是知识,例如:!

5、我吃了一个苹果应该只能算是信息,而!苹果是可以吃的就是一条知识。信息和知识的关系,正如Churchman早在1971年就明确地指出:!知识并不是简单地存在于信息集合中。因此,从大量的信息中挖掘出有用知识,变成了一个具有重要意义的研究领域。90年代初,数据库的应用已经比较广泛,很多数据库的应用积累了大量的数据,由此引发了研究者对这些以GB、TB计的数据的兴趣,数据挖掘(DataMining)在国内外逐渐热门起来。但是,ForrestResearch的统计资料指出,80%以上的数据以非结构化的形式存在,如文档、手册、Email、技术报告、专家陈述等。因此,对这些信息进行知识发现,尽管可能难度更大一

6、些,但意义也更加重大,这就是文本挖掘(TextMining)。IBM也乐观地估计,处理无结构文本信息的软件将在下一个世纪充分展示其魅力。对于许多企业和公司,如何合理高效地管理知识,掌握企业的业务流程,加强企业内部的沟通以及企业和外部的沟通,已经成为企业增强自身竞争力的又一个新的增长点。知识管理(KnowledgeManagement)作为一个新的理念,已经为很多企业所接受,并正在付诸实施。GartnerGroup的调查报告指出,全球公司用于知识管理咨询的费用已达15亿美元,估计到2001年累计可以达到50亿美元。本文首先简单介绍什么是数据挖掘、文本挖掘和知识管理,然后将人们处理和利用知识的发展

7、过程分为三个阶段,指出文本挖掘作为信息处理的新方向,应该引起研究者的重视。2 数据挖掘、文本挖掘和知识管理数据挖掘:数据挖掘主要是从大量的结构化的数据中发现潜在的、可能的数据模式、内在联系、规律、发展趋势等,而这些数据经常是以结构化的静态数据库(数据仓库或数据商店)的形式存储的。作为数据库中知识发现的数据挖掘有几种模型,例如UsamaM.Fayyad等人提出的多阶段处理模型1,GeorgeH.John在其博士论文中提出的多阶段处理模型2和Brachman和Anand的以用户为中心的处理模型3等。# 文本挖掘:从发现数据间的相互关系这一点上来看,文本挖掘和数据挖掘有很大的相似性,但文本挖掘处理的

8、对象主要是大量的、无结构的文本信息。# 知识管理:管理学专家对知识管理有很多诠释。韩国的Malhotra博士解释知识管理为4:!知识管理是满足企业在持续变化的竞争环境中寻求生存和发展的关键问题。本质上看,它包含了利用IT技术进行数据和信息处理,从而增强企业和人的创造和创新能力。这是一个从信息技术和企业行为的战略角度出发的定义。如果单纯从信息技术角度来看,知识管#理的本质是我们如何获取、加工、利用信息。3 知识管理的三个阶段人们利用知识的过程是一个由低级向高级不断发展的过程。下面的图1给出了我们从技术发展的角度为知识管理划分的几个阶段。102情 报 学 报20卷知识库(你知道你有什么)知识共享(

9、你知道你没有什么)知识发现(你不知道你有什么)文件系统数据库联机检索搜索引擎图1 知识管理各个阶段文件挖掘挖掘引擎数据挖掘计算机出现后,人们处理和利用知识大致可以划分为如下三个阶段:知识库阶段、知识共享阶段、知识发现阶段。这三个阶段是以使用的技术为基准的,并不是到了知识发现阶段我们不再用知识库,不再需要知识共享了。从知识利用的角度看,这三个阶段是从低级向高级发展的过程5。在知识库阶段,手工处理好的知识被放入到预先定义好的知识库中,手工处理的成分比较高,因此,可以说,我们至少是建设和维护知识库的那些人,是知道我们有什么样的知识的。而这个阶段,实现的技术主要是文件系统和简单的单机数据库。数据共享阶

10、段,我们知道自己需要什么知识,但没有,因此搜索成了必须。早期人们使用的是联机检索,用终端通过电话线等登录到主机上,检索主机数据库。随着Internet的发展,网络上的信息日新月异的发展,搜索引擎为用户在浩瀚的信息海洋中寻找对自己有用的信息提供了一个快捷的工具。但是,搜索引擎,即便是象Yahoo!,Infoseek,Lycos这样的著名的搜索引擎,仍不能完美地解决问题。事实上,很多人并没有真正理解搜索引擎的能力,只是在In ternet上简单地通过Yahoo!,Infoseek,WebCrawler以及另外一些公司Web站点所自带的站点引导功能下进行搜索,使用最复杂的也不过是布尔查询而已。但是,

11、据统计,Internet上平均使用的查询表达式的长度仅仅为2个单词(Word),而这样的长度显然在很多情况下都没有能力描述用户真正需要的信息,于是结果中就出现了大量与查询关系不大的文献。为了能详尽描述人们所需的信息,用户不得不采用布尔查询,而不经过专门培训的普通用户是很难构造出高质量的、无查询歧义的布尔查询的。另外,企业对完全利用搜索技术的解决方案也缺乏足够的热情,其中一个重要的原因是许多搜索引擎有复杂的API和查询语言,这一方面使得使用困难,另一方面使得企业的二次开发难度较大,而很少有直接满足用户特定需要的搜索引擎。另一个重要原因是企业不能真正理解如何设计这类解决方案,在实施、运行和维护时还

12、会涉及许多技术和成本的问题。到了知识发现阶段,人们开始意识到,前面两个阶段中,!知识在更多情况下只是!信息,而且人们已经不再满足于得到信息,而是希望学习知识。最初是希望从数据库中发现一些知识,因为数据库中结构化的记录比较好处理,然后,对事实上大量存在的非结构化的文本信息,人们也有了知识发现的期望。这也许就是文本挖掘产生的内因。当然,我们都十分清楚地知道,现代计算机只能处理数字,或者说,是由0,1组合的代码串。所以,非结构化的文本信息最终似乎还需要转换到结构信息才能真正进行挖掘和发现。1期文本挖掘、数据挖掘和知识管理1034 搜索引擎和挖掘引擎的比较从技术上来说,搜索引擎和挖掘引擎是互补的、有一

13、定的相同之处。但是,正如美国SearchCafe公司的首席执行官PatriciaSoto女士指出,挖掘引擎超越了搜索技术,并正在将搜索技术推向一个新层次6。搜索引擎和挖掘引擎处理的都是字串和文本,从这一点上它们是相同的。但是,如前面解释,搜索引擎提供的功能是单一的,主要是查找定位符合用户查询需要的文献的位置,尤其是在网络上的位置,因此它需要用户提供由一个或若干关键字串组成的查询表达式。它开始于用户的查询表达式,结束于一个按照某种方式(大部分是相关程度)排序的文献以及文献位置的列表(List),基本是一个简单的顺序过程。支持这一过程的核心技术是数据库和索引,而Agent技术为它的智能化提供了有力

14、的帮助。尽管挖掘引擎的确也提供定位文献位置的功能,但这不是它的主要功能。好的挖掘引擎自动地提取相关文献之间的有价值的关系知识,并且将这些知识以可视的、动态改变的方式反馈给用户。可视方式给用户以直观的、易于快速理解的知识掌握途径,而动态改变特性提供用户以及时性。因此,挖掘引擎开始于一些文本(最好是已经具有一定的物理相似性,如相同的文本格式等),结束于文本之间的潜在关系知识,而这个过程一般是一个需要不断反馈和调整的复杂过程。支持这一过程的核心技术是特征提取、分类、聚类和关联规则发现、知识评价等。可以用图2简单描述搜索引擎和挖掘引擎的关系。图2 搜索引擎和挖掘引擎按图2所示,我们或许可以认为搜索引擎

15、的结果往往可以作为挖掘引擎的输入,也就是说,搜索引擎在一定程度上可以被认为是挖掘引擎的前处理。5 结 论IBM公司在其一份白皮书中指出7:当前许多文本挖掘工具只能看成是信息的抽取器。104情 报 学 报20卷 这说明,文本挖掘离其真正的目标还有一定的距离。针对汉语处理的文本挖掘工具的研究力度尤其需要加强。我们实验室,在863专家组支持下,!中英文自动摘要研究已取得了可喜的成就。引用倪光南院士的话,自动摘要就是一种知识挖掘。我们在研究过程中同时积累的自动分词和抽词、主题自动抽取和标引、自动文献分类、全文检索等关键技术,恰恰就是进行文本挖掘的必备技术。我们认为,只要在预处理、处理对象(如国外十分重

16、视的Email)的特性和可视、动态显示上再做一定的研究,我们递交中英文双语文本挖掘的工具软件为期已经不远了。因此,作为21世纪的智能信息处理,文本挖掘以及相关研究,已迫在眉睫。参考文献1 W.Frawley,G.piatetsky Shapiro,andC.Matheus.KnowledgeDiscoveryinDatabases:AnOverview.AIMagazine,Fall1992.2 GeorgeH.John,EnhancementstotheDataMiningProcess.Ph.DthesisofStanfordUniversity,19973 RonaldJ.BrachmanandTejAnand.TheProcessofKnowledgeDiscoveryinDatabases:AHuman centeredAp proach.AdvanceInKnowledgeDiscoveryAndDataMining.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论