




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、收稿日期:2010-03-30作者简介:邱晓辉(1960,男,本科,副研究馆员,已发表论文11篇。1知识发现的过程知识发现(KDD 是从数据中发现有用知识的整个过程;数据挖掘(DM 是KDD 过程中的一个特定步骤,它用专门算法从数据中抽取模式。1996年,国外一些专家学者将KDD 过程定义为:从数据中鉴别出有效模式的非平凡过程,该模式是新的、可能有用的和最终可理解的。KDD 过程是多个步骤相互连接、反复进行人机交互的过程。具体包括:(1学习某个应用领域,包括应用中的预先知识和目标。(2建立目标数据集。选择一个数据集或在多数据集的子集上聚焦。(3数据预处理。去除噪声或无关数据,去除空白数据域,考
2、虑时间顺序和数据变化等。(4数据转换。找到数据的特征表示,用维变换或转换方法减少有效变量的数目或找到数据的不变式。(5选定数据挖掘功能,决定数据挖掘的目的。(6选定数据挖掘算法。用KDD 过程中的准则,选择某个特定数据挖掘算法(如汇总、分类、回归、聚类等作为搜索数据的模式。(7数据挖掘。搜索或产生一个特定的感兴趣的模式或一个特定的数据集。(8解释。解释某个发现的模式,去掉多余的不切题意的模式,转换某个有用的模式,以使用户明白1。(9发现知识。把知识结合到运行系统中,用预先、可信的知识检查和解决所获知识中可能存在的问题。2知识发现的核心数据挖掘所谓数据挖掘,就是从数据库中抽取隐含的、以前未知的、
3、具有潜在应用价值的信息的过程。数据挖掘是KDD 最核心的部分。与传统分析工具不同的是数据挖掘使用的是基于发现的方法,运用模式匹配和其它算法决定数据之间的重要联系。数据挖掘算法的好坏将直接影响到所发现知识的价值。目前大多数的研究都集中在数据挖掘算法和应用上。需要说明的是,有的学者认为,数据开采和知识发现含义相同,表示成KDD/DM 。它是一个反复的过程,通常包含多个相互联系的步骤:预处理、提出假设、选取算法、提取规则、评价和解释结果、将模式构成知识,最后是应用。现实中,人们往往不严格区分数据挖掘和数据库中的知识发现,把两者混淆使用。一般在科研领域中称为KDD ,而在工程领域则称为数据挖掘。3数据
4、挖掘常用技术目前数据挖掘应用方面有着种类繁多的商品工具和软件,大致可以归纳为下列主要类型:(1传统主观导向系统。这是针对专业领域应用的系统。如基于技术分析方法对金融市场进行分析,采用的方法有简单的走向分析也有基于高深数学基础的分形理论和谱分析。这种技术需要有经验模型为前提。(2传统统计分析。这类技术包括相关分析、回归分析及因子分析等。一般先由用户提供假设,再由系统利用数据进行验证。缺点是需经培训后才能使用,同时在数据探索过程中,用户需要重复进行一系列操作。属于这类商品有美国的SAS 、SPSS 和Star -graphis 等。由于近年来更先进的DM 方法的出现和使用,使这些厂商在原有系统中综
5、合一些DM 部件,以获得更完善的功能。以上2种技术主要基于传统的数理统计等数学基础上,一般早已开始用于数据分析方面。(3神经元网络(NN 技术。神经元网络技术是属于软计算领域内一种重要方法,它是多年来科研人员进行人脑神经学习机能模拟的成果,已成功地应用于各工业部门。在DM (KDD 的应用方面,利用神经网络技术特别有效。经过训练后的NN 可以想像具有某种专门知识的“专家”,因此可以像人一样从经验中学习。NN 有多种结构,但最常用的是多层BP (BackproPagation 模型。它已广泛地应用于各种DM (KDD 工具和软件中。其缺点是用它来分析复杂的系统如金融市场,NN 就需要复杂的结构为
6、数众多知识发现与数据挖掘分析邱晓辉(济宁市图书馆山东272037摘要:介绍了知识发现过程和数据挖掘的常用技术,并对数据挖掘技术应用进行了探讨。关键词:知识发现数据挖掘数字图书馆中图分类号:TP311.13文献标识码:A99神经元以及连接数,从而使现有的事例数(不同的纪录数无法满足训练的需要。另外由受训后的NN所代表的预测模型的非透明性也是其缺点,尽管如此,它还是广泛而成功地为各种金融应用分析系统所采用。(4决策树。在知识工程领域,决策树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则是比较直观的,因而比较易于理解。这种方法一般限于分类任务2。(5进化式程序设计。这种方法
7、的独特思路是:系统自动生成有关目标变量对其他多种变量依赖关系的假设,并形成以内部编程语言表示的程序。内部程序(假设的产生过程是进化式的,类似于遗传算法过程。当系统找到较好地描述依赖关系的一个假设时,就对这程序进行各种不同的微小修正,生成子程序组,再在其中选择能更好地改进预测精度的子程序。如此依次进行,最后获得达到所需精度的最好程序时,由系统的专有模块将所找到的依赖关系由内部语言形式转换成易于为人们理解的显式形式,如数学公式、预测表等。由于采用通用编程语言,这种方法在原则上能保证任何一种依赖关系和算法都能用这种语言来描述。(6基于事例的推理方法(CBR。这种方法的思路非常简单,当预测未来情况或进
8、行正确决策时,系统寻找与现有情况相类似的事例,并选择最佳的相同的解决方案。这种方法能用于很多问题求解,并获得好的结果。其缺点是系统不能生成汇总过去经验的模块或规则。采用这种方法的系统有美国的Pat-ternRecognitionWorkbench和法国的KATEtools。(7遗传算法(GA。严格说来,数模转换(DA不是GA应用的主要领域,它是解决各种组合或优化问题的强有力的手段,但它在现代标准仪器表中也用来完成DA任务。这种方法的不足之处是:只有专业人员才能提出染色体选择的准则和有效地进行问题描述与生成。在系统中包含遗传算法的有美国的GeneHunter。(8非线性回归方法。这种方法的基础是
9、,在预定的函数的基础上,寻找目标度量对其它多种变量的依赖关系。这种方法在金融市场或医疗诊断的应用场合,比较好的提供可信赖的结果。以上所列DM技术不可能是详尽的囊括,因为多年来数理统计分析以及AI与KE的研究提供了种类繁多特点各异的手段,DM开发人员完全可以根据不同任务加以选择使用。另外近年来在软计算和不确定信息处理方法的研究,促使DM(KDD技术向更深层次发展。需要说明的是,DM中的数据是指数据库中表格形式中的记录和条目,这种数据称作结构型数据。在一个企业中,还有一类像文本和网页形式的数据,称作非结构型数据。它来自不同的信息源,如文本图像影视和音响等。随着Internet的扩展和大量在线文本的
10、出现,将标志这巨大的非结构型数据海洋中蕴藏着极其丰富的有用信息即知识。开发一种工具能协助用户从非结构数据中抽取关键概念以及快速而有效地检索到关心的信息,这将是一个非常引人入胜的研究领域。目前,基于图书索引检索以及超文本技术的各类搜索引擎,能协助用户寻找所需信息,但要深入发掘这类数据中的有用信息,尚需要更高层次的技术支持,人工智能领域有关知识表示及获取的方法(如语义网络概念映射等和自然语言理解的研究成果,可望被采用。还可能要涉及到语言学心理学等领域。4数据挖掘技术的应用Web挖掘是一个前景非常看好的工具。我们知道,传统的效率低下的搜索引擎检索出的信息往往索引不完全、有大量的无关信息或没有进行可靠
11、性验证。用户能够快速方便地从Web中检索出相关的可靠的信息是一个系统的最基本的要求。Web挖掘不仅能够从WWW的大量的数据中发现信息,而且它监视和预测用户的访问习惯。这样给设计人员在设计Web站点时有更多的可靠的信息。Web挖掘技术能够帮助图书馆员在设计站点时朝着方便用户、节省时间和高效率方向发展。Web挖掘技术为图书馆员进行信息服务提供了先进的工具。有了这个工具,图书馆员能够按照各个用户的要求或习惯,为用户组织更多、更好的高质量信息。(1网站的数据挖掘。随着Web技术的发展,各类电子商务网站风起云涌。建立一个电子商务网站并不困难,困难的是如何让您的电子商务网站有效益。要想有效益就必须吸引客户
12、,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转换到竞争对手那边,只需要点击几下鼠标即可。网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户同时也可能成为失去客户的因素。而电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比你的竞争对手更了解客户。在对网站进行数据挖掘时,所需要的数
13、据主要来自于2个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;另一方面数据主要100来自浏览者的点击流,此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。(2生物医学和DNA的数据挖掘。生物信息或基因数据挖掘对人类受益非浅。例如,基因的组合千变万化,得某种疾病的人的基因和正常人的基因到底差别多大,能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因,这都需要数据挖掘技术的支持。对于生物信息
14、或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,更需要一些新的和好的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。(3气象预报中的数据挖掘。农业生产与气候、气象有着密切的联系。我国是一个农业大国,农业生产关系到国家经济命脉和人民生活。天气系统是一个复杂系统,其影响因素多,时空状态变化大。气象数据中蕴含着复杂非线性动力学机制。各个因素之间的关系十分复杂,并具有复杂多变的时空特征。因而,采用新的技术和方法进行相关研究有实际意义,也是应用发展及需求的驱动,数据挖掘技术可以用来解决此问
15、题。总之,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD、数据分析、数据融合以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一
16、门广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。参考文献1王宁.谈数据库中的知识发现J.河南图书馆学刊,2005(1:11-122白石磊,毛雪岷,王儒敬,等.基于数据库和知识库的知识发现研究综述J.广西师范大学学报:自然科学版, 2005(1:32-331开源软件简介顾名思义,开源软件的源代码是开放的。任何人都可以自由了解和修改源代码,包括其底层结构。目前有数以千计的开源软件项目涉及游戏、数字图像编辑、操作系统、文档编辑等方面。随着开源软件的不断增长,近年已引起了世界各国图书馆界的注意,为图书馆数字化建设也创造了许多新的机遇。1.1开源软件的发展现状近几年开源软件发展迅猛,并且已得到广泛应用。开放源码对软件的底层结构和核心部分提供基本的技术支持,一些众所周知的商业软件(如Ama-zon和Yahoo和网站(如谷歌都是在开源软件基础上开发出来的,开源软件(如Linux已成为仅次于Windows操作系统的被广泛使用的第二重要的操作系统,而且它的用户数还在不断增长。有多种开源软件的操作系统可供选择,包括: Linux、NetBSD、FreeBSD、OpenBSD、386BSD等,常用的有Linux和FreeBSD。Linux是一个比较
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 统计学概率计算题目合集试题及答案
- 21届叶圣陶杯作文大赛浙江获奖名单
- 2025年山东省淄博市张店区中考一模道德与法治试题(五四学制)(含答案)
- 邮件客户管理操作手册
- 公司核酸检测合同样本
- 企业食品购销合同样本
- 代加工合同标准文本封面
- 英语六级听力答题技巧的讲解
- 幼儿教育专业育婴员(中级)题库625题
- 2025个人汽车按揭抵押贷款合同
- 安徽省合肥市2025届高三下学期3月二模试题 地理 含解析
- 困难气道处理课件
- 2025年全国中医医师定期考核中医专业理论知识考试题库及答案(共五套)
- 湖北省部分名校2024-2025学年高二下学期3月联考物理试卷(A)(原卷版+解析版)
- 第5课+光色交汇+课件-2024-2025学年浙人美版(2024)初中美术七年级下册
- (2025)政工职称考试题库(附参考答案)
- (二调)武汉市2025届高中毕业生二月调研考试 生物试卷(含标准答案)
- 真需求-打开商业世界的万能钥匙
- 2025届湖北省武汉市高考数学一模试卷含解析
- 2024年广西高考生物试卷真题(含答案)
- 承插型盘扣式脚手架安全知识培训
评论
0/150
提交评论