【毕业学位论文】基于国家作物种质资源数据库的知识发现研究博士论文_第1页
【毕业学位论文】基于国家作物种质资源数据库的知识发现研究博士论文_第2页
【毕业学位论文】基于国家作物种质资源数据库的知识发现研究博士论文_第3页
【毕业学位论文】基于国家作物种质资源数据库的知识发现研究博士论文_第4页
【毕业学位论文】基于国家作物种质资源数据库的知识发现研究博士论文_第5页
已阅读5页,还剩99页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

密级: 论文编号: 中国农业科学院 学位论文 基于国家作物种质资源数据库的 知识发现研究 士研究生 : 唐 合 文 指导教师 : 曹 永 生 研究员 申请学位类别 : 农 学 博 士 专业: 作物信息科学 研究方向 : 知 识 发 现 培养单位 : 作物科学研究所 研究生院 提交日期 2007 年 6 月 in 2007 摘 要 基于国家作物种质资源数据库的知识发现研究 国家作物种质资源数据库拥有 180 种作物 、 39 万份种质信息、 135 万条记录,数据量达 40世界上最大的植物种质资源数据库之一。利用知识发现(的原理、方法和技术发掘这些海量数据中蕴藏的信息,已成为当前作物信息科学研究的重要内容,对于充分发挥国家作物种质资源数据库的作用,更好地保护和利用我国丰富的作物种质资源具有十分重要的意义。本研究主要进行了以下两方面的研究。 在分析国家作物种质资源数据库数据特点的基础上,提出了基于正态模拟的连续型数据缺失值处理方法以及基于随机数的离散型数据缺失值处理方法,并结合基于语义的离散化方法对国家作物种质资源数据进行了缺失值处理和离散化处理。研究分析了统计分析、决策树、关联规则、神经网络、遗传算法、模糊集、粗糙集等知识发现方法,结合国家作物种质资源数据库的特点,提出了基于关联规则的国家作物种质资源数据库知识发现方法。在此基础上,综合分析了现有的关联规则挖掘算法,重点分析了事务数据库中关联规则挖掘的经典算法其改进算法的特点,根据国家作物种质资源数据库中的关联规则具有多维性的特征,改进了 法,使其适用于多维关联规则挖掘,并提出了基于 国家作物种质资源数据库 联规则挖掘方法。 研究分析了国内外典型的知识发现系统,完成了国家作物种质资源数据库知识发现系统的总体设计,研制了国家作物种质资源数据库知识发现系统的原型。该系统接口简洁直观、易操作、挖掘结果易懂。在系统中设计了支持度过滤、置信度过滤、规则前件过滤及规则后件过滤等四种方法来精减规则数量。利用该系统,开展了大豆种质资源数据库的知识发现,初步获得了有关大豆种质资源农艺性状、品质、抗逆、抗病虫等特征特性的关联知识。 关键词:作物种质资源,关联规则,知识发现,数据挖掘 I 0 90,000 of 80 of DD is in is of to to of an on to of an on to of on DD as it a on to it a DD DD of to to I 目 录 1 绪论 究目的与意义 究现状与发展趋势 究现状 展趋势 究内容 62 知识发现相关理论 识发现 识发现的基本过程 识发现的基本任务 识发现的对象 识发现与创新 识发现与数据挖掘 据挖掘的定义 据挖掘与知识发现的关系 据挖掘与数据仓库、联机分析处理及统计分析 据挖掘与数据仓库 据挖掘与联机分析处理 据挖掘与统计分析 识发现的方法 计分析方法 策树方法 联规则方法 糙集方法 糊集方法 经网络方法 传算法 识发现系统 识发现的应用 业 /零售业 融银行业 23I 信业 物医学 业 它方面 253 数据预处理方法 言 据预处理的主要任务 料集成 据清洗 据转换 失值处理 失值的定义与分类 失值的产生原因 失值的处理方法 于正态模拟的连续型数据缺失值处理 于随机数的离散型数据缺失值处理 续数据离散化处理 散化的定义 散化的方法 于语义的数据离散化 364 关联规则挖掘方法 言 联规则理论 联规则的有关定义 联规则的分类 联规则相关的几个性质 联规则的评价 联规则的理论基础 联规则算法 法 改进算法 于 进算法 535 国家作物种质资源数据库知识发现系统 57 家作物种质资源数据库知识发现系统总体设计 家作物种质资源数据库知识发现系统原型实现 豆种质资源数据的知识发现 豆粗蛋白与粗脂肪含量的关联规则挖掘 豆脂肪酸含量的关联规则挖掘 豆抗旱性的关联规则挖掘 豆线虫抗性的关联规则挖掘 706 总结与讨论 结全文 论 73参考文献 75附录 84致谢 95作者简介 96文缩略表 英文缩写 英文全称 中文名称 识发现 据挖掘 家作物种质资源数据库太地区知识发现与数据挖掘会议 据库中的知识发现原理与实践会议 据仓库与知识发现国际会议 据管理国际会议 大型数据库国际会议 on 据工程国际会议 展数据库技术国际会议据库理论国际会议 息与知识管理国际会议据库与专家系统应用国际研讨会 据库与专家系统应用国际研讨会 工智能国际联合会议 国人工智能学会会议 据仓库 机分析处理 中国农业科学院博士学位论文 第一章 绪论 1 绪论 究目的与意义 国家作物种质资源数据库存储了粮、棉、油、菜、果、糖、烟、茶、桑、牧草、绿肥等 180种作物 、 39 万份种质信息、 135 万条记录。这些信息包括作物种质基本情况数据、植物学形态数据、基本农艺性状数据、品质分析数据、抗逆性鉴定数据、抗病虫鉴定数据,数据量达 40家作物种质资源数据库是世界上最大的植物种质资源数据库之一。 国家作物种质资源数据库自建成以来,为科学研究、农业生产及相关管理部门等提供了大量的种质信息。农业科学研究的发展对国家作物种质资源数据库提出了越来越高的要求,它们不仅需要查询服务,还需要从国家作物种质资源数据库获得更多、更丰富、更有价值的信息,特别是隐含的一些知识。目前的分析工具难以满足这些要求。 知识发现是从大量数据集中发现隐含知识的技术。本研究把知识发现这一新的技术引入到种质资源研究中,研究如何利用知识发现的原理、方法和技术发掘蕴含在国家作物种质资源数据库中的有用知识,为科学研究与相关管理部门决策提供更丰富、更具有参考价值的信息。 本研究对于充分发挥国家作物种质资源数据库的作用、提高作物种质资源利用效率、更好地保护和利用我国丰富的作物种质资源、促进可持续发展、提升国家农业创新体系的整体实力和水平都具有十分重要的意义。 究现状与发展趋势 究现状 自 20 世纪 50 年代以来,随着计算机硬件、计算机网络技术以及数据库技术的飞速发展,计算机的应用越来越广泛。数据采集与存储技术迅猛发展,数据传播与积累速度不断加快,人们所拥有的数据量也急剧增加。人们已经评估出世界上信息的数量每二十个月翻一番,并且数据库的数量与大小正在以更快的速度增长。例如,气象部门每天的数据量就达到了 1G(1G=1000M );上海证券交易所的计算机系统每一秒钟要处理 4500 笔交易,每天要处理委托 2900 万笔。事实上数据仅仅是人们观察客观世界所得到的原始材料,本身没有太多意义,它只是发生了什么事情,并不能构成决策的可靠基础。这些浩如烟海的数据背后隐藏着许多非常有价值的信息,而这些重要信息可以很好的支持决策。传统的数据库系统所能做到的只是对数据库中已经有的数据进行存取,人们通过这些数据所获得的信息量仅仅是整个数据库包含信息量的一部分,隐藏在这些数据之后的关于这些数据的整体特征的描述及对其发展趋势的预测还未被发现,这些信息在决策生成的过程中具有重要的参考价值。 但是如何获知这些信息,在被称为信息爆炸的时代,几乎成为人人需要面对的问题。早在 1982年,趋势大师 982 )在他的著作大趋势(中就提到“We in 人类正被资料淹没,但却渴于知识)。快速增长的海量1中国农业科学院博士学位论文 第一章 绪论 数据收集、存储在大型和大量数据库中,没有强有力的工具,要理解它们、从这些资料中发现隐含的规则和规律,几乎是不可能。其带来的结果是大型数据库成了“ 数据坟墓” 。对此还有一个形象的比喻:有如此多的树,可怎样从森林中得到有意义的结论呢?( 1999)。因此,日益丰富的数据必然带来了对“数据慧眼”强有力的数据分析工具的迫切需求。 于是,数据库中的知识发现( 术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。知识发现技术是一种决策支持过程,主要基于人工智能、机器学习和统计学技术,高度自动化地分析原有的资料,做出归纳性的推理,从中发现潜在的模式,预测趋势及未来的行为,帮助决策者调整策略,减少风险,做出正确的决策。 国际上第一次提出知识发现一词是于 1989 年 8 月在美国底特律召开的第 11 届国际人工智能联合会议的专题讨论会上。随后在 1991、1993 、 1994 年都举行了 题讨论会。1995 年,此研讨会提升为国际学术大会,即是在加拿大蒙特利尔召开的第一届 际学术会议(2007)。此次会议上,又提出了一个新的名词数据挖掘。此后数据挖掘开始流行,它是知识发现概念的深化。知识发现是人工智能、机器学习与数据库技术相结合的产物。其研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透( ,2000 )。 有关国际学术会议在知识发现的发展过程中有着重要的作用与意义。除了 议外,还有一些国际和地区性数据挖掘会议,如:知识发现与数据挖掘太平洋亚洲会议”(,“数据库中的知识发现原理与实践会议”( “数据仓库与知识发现国际会议” ( “ 据管理国际会议” ( “超大型数据库国际会议”( ,“据库原理研讨会”( “数据工程国际会议”(on “扩展数据库技术国际会议”(,“数据库理论国际会议”(,“信息与知识管理国际会议”(,“数据库与专家系统应用国际研讨会”( “数据库系统高级应用国际会议”(“人工智能国际联合会议“(“美国人工智能学会会议”( 等。 目前,知识发现研究已由最初对某一种知识发现方法的研究转移到集多种知识发现能力和策略的交互式集成系统的开发,并且提出了一些知识发现理论和系统模型,对知识发现中的问题和存在的难点有了一个更加客观、全面和清晰的认识。知识发现已经广泛应用于工业、商业、金融业及电信业等领域并取得了很好的效益。 与国外相比,国内的知识发现研究稍晚。目前,国内的许多科研单位和高等院校开展了知识2中国农业科学院博士学位论文 第一章 绪论 发现的基础理论及其应用研究,如清华大学、北京大学、中科院计算技术研究所等。其中北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学从事了资料立方体代数的研究,安徽大学、华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位进行了对关联规则挖掘算法的优化及相关领域的研究,取得了一定的成果,南京大学、四川大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及 据挖掘。 展趋势 目前国际上 研究方向主要是以知识发现的任务描述、知识评价与知识表示为主线、有效的知识发现算法为中心、知识发现模型为重点,研究知识发现自身的运行机制和内在机理以及在各领域中的实际应用。其发展的主要有以下一些趋势。 识发现的数据源多样化 目前大多数数据库管理系统是关系型的,因此 都是建立在关系数据库上。随着数据库的应用范围日益扩大,数据库的规模和功能也日益完善,新的数据库模型和大量新的、复杂的数据类型不断出现。于是就需要揭示大型异构数据库中存在的、普通查询所不能发现的知识。巨大的数据库规模、异地分布及 法的计算复杂性要求建立并行分布的知识发现算法。由于数据类型的多样性和不同的知识发现目标,一个 统不可能处理各种数据,因此针对特定的数据类型,需要建立特定的 统。不同应用领域中存在各种数据库,包含复杂的数据类型,例如结构数据、事务数据、历史数据等。目前的 统一般只能提供对数值型的结构化数据的处理,对数据中存在缺损或噪声的情况缺少有效的方法,因特网把众多数据源连接成一个大型的分布、异构的数据库。如何从网络中发现新的和有用的知识或资源,从包含不同语义的数据中发现知识无疑是对知识发现的重大挑战。网络的信息挖掘应用中经常需要对一些半结构化、非结构化的数据形式进行挖掘操作,如文本数据、图形图像数据、多媒体数据等。由此可见今后知识发现的数据源类型将会越来越多。 识发现工具的集成化 目前国内外出现了一些比较有影响的 统。其中比较有影响的典型 统有: 司的 司的 司的拿大 大型数据库公司目前也在把他们的数据库向研究分析工具方向转移,司通过向数据库增加统计算法的方式来将知识发现功能加入到数据库中,司也在数据库产品中提供知识发现支持。但总的来说,现有的知识发现系统多数尚不能支持多种平台。有些产品是基于个人计算机的,一些是面向大型主机系统的,还有一些是面向客户机/ 服务器环境的,造成了支持的局限性,不易与其它系统集成。另外,各种知识发现工具及方法基于不同的模型和技术,彼此互相孤立,联系很少,由于方法功能单一,知识发现系统的适应范围受到一定的限制。因此,要充分发挥 具的作用,就应该和数据库、数据仓库、知识库、专家系统、决策支持系统、可视化工具、网络技术等进行有机集成。此外,知识发现系统还可以同可视化技术、地理信息系3中国农业科学院博士学位论文 第一章 绪论 统、统计分析系统等相结合,以丰富知识发现工具的功能与性能,极大地提高它的效率。 识发现语言的标准化 标准的 言可以使人们能够用相同的语言在不同的数据源中获取不同类型的知识。言可以有助于 统平台的标准化开发,推动知识发现应用的发展。询语言能与 统通信,进行交互式发掘。结构化的 言独立于任何数据库管理系统,能发现常用形式的规则,使得人们能够用相同结构的语言从数据源中提取不同类型的知识,必将极大地提高 效率,推动 发展与应用。研究专门用于 语言,使得发现语言具有形式化描述,如同数据库查询 言一样走向形式化和标准化,设计合理全面的 言将是知识发现的一项重要的任务,因为 盖的范围较广,每个任务都有不同的需求。有效的 务的能力、限制、以及运行机制都有深入的理解。 识发现过程的交互化 一个复杂的过程,其过程中用户的适当参与是必不可少的。因此,统的交互能力对系统的性能是十分重要。一方面,交互接口接收用户提出的检索、查询要求和策略,为用户提供方便的手段和方法来表达其要求和策略;另一方面,交互界面又把得到的结果传递给用户。背景知识在 程中有较大的作用。目前的 统较少能真正让用户参与到发掘过程中,难以有效地利用领域知识。结果是多种多样的,因此,准确而直观地描述挖掘结果和友好而高效的用户接口一直是这方面研究的重点。交互性用户接口要求 结果应准确地描述要求,从不同的角度考察发现的知识,并以不同形式表示,用高层次语言和图形接口表示 求和结果。用户参与及领域知识有效的发现过程往往需要多次交互和多次反复,使数据挖掘的结果准确地描述数据挖掘的要求,并易于表达,实现在多抽象层次上交互挖掘知识。 识发现方式的可视化 可视化的知识发现是从大量的数据中发现知识的有效途径。可视化技术将大量的资料用简单明了的形式表示出来,通过对数据各个属性及关系的图形描述,把隐含的关系展现在操作者面前,通过直观的形式来发现数据中深层次的关系,有助于提高理解和分析能力。可视化工具提供直观、简洁的方式表达信息,有助于定位重要的数据,评价模式的质量,从而减少建模的复杂性。可视化工具的种类、质量和灵活性直接影响到 统的使用、解释能力和吸引力。由于 临的数据量非常巨大,很容易使人们变得不知所措。可视化研究寻求 程中的可视化方法,使得 过程能够被用户理解,也便于在 程中设计人机交互接口。在应用中,让用户能够理解发现的知识显得非常重要,这要求知识的表达不仅限于数字或符号,而是更易于理解的方式,如图形、自然语言和计算机可视化技术等。 识发现效率的快速化 接面向海量数据库,这类数据库通常有上百个属性和数百万个记录,并且数据表之间包含复杂的关系,这就必然导致 程中搜索维数和搜索空间的激增,同时也增加了出现不确定的或错误的模式的可能性。因此,提高算法的效率以及具有伸缩性是实际应用中面对的一个挑战。在 程中,必须利用领域知识降低维数,除去无关数据,从而提高算法效率。提高计算效率是针对海量数据顺利实施 主要手段之一。解决算法效率问题的主要方法有:4中国农业科学院博士学位论文 第一章 绪论 改变算法运行的策略,其主要方式是采用并行运算环境,实施并行算法,如在大型数据库中实施决策树分类、空间聚类以及关联规则发现等算法时采用了并行策略,可以大幅提高计算效率;提高数据库查询语言效率的策略,如设计效率和性能更好的规则提取和查询语言;对原有算法的结构进行改进的策略,从而减小运算的复杂度,提高了运算效率。 识发现方法的精确化 目前 方法主要有统计分析、可视化方法、神经网络法、决策树法、遗传算法、最邻近技术等。进一步丰富挖掘算法,从多角度、多侧面进行知识发现,获取新的知识。如何将多种 法结合起来,取长补短,提高模式抽取的稳定性、准确性及其效率,提高 取相关领域的研究成果,使知识的表达和解释更符合人类的习惯是目前正在研究的一个问题,特别是研究基于人类自然语言的知识的获取及表达,对智能决策支持系统的最终实现具有重大意义。将来的 会更加具有有效性与可测性。 识发现的模式实用化 目前 模式有聚类模式、关联模式、序列模式、分类模式等。在解决实际问题时,经常要同时使用多种模式,多种类别的模式及其相互结合有助于发现有用的模式,降低问题复杂性。获得的模式只有被用户理解才能更好地应用。因此,当注意模式的易懂性,已发现的知识应以易理解和利用的方式表达出来,亦即发现的潜在规律必须是可理解的和可以应用的才具有实用价值。海量数据不可避免地含有噪声数据、异常数据或有缺失,这可能会使分析处理过程变得混乱,降低已发现模式的精确度。 因此,应加强对知识发现结果的评估,尤其需要相关的领域知识来对其进行评估,因为该结果必须应用在特定的环境中,对于解决现有问题才能起到积极作用。要提高模式抽取的稳定性、准确性及其效率,提高 程的自适应性。为提高实用性, 会向专门化方向发展,用某一研究领域相关的背景知识或理论来正确地指导 处理过程,这样才能使 该领域密切结合。因此,领域背景知识的指导作用将越来越强。 识发现的成本效益合理化 一项探索性工作,能否发现有关的知识、发现的知识是否有用等问题通常具有不确定性,而 投入往往是相当大的。例如为了满足 统的计算要求,需要在硬件、软件和数据库系统采用并行技术,这些资源大大增加了知识发现工作的成本。因此,今后的一个研究发展方向将是尽量减少成本,不断提高效益。 识发现与具体应用领域的结合 知识发现目前在医学、电信、零售业等多个应用领域均有成功的应用案例。随着越来越多的业务需求被不断明确,知识发现应用的领域会越来越广泛;一些应用系统,如企业资源计划系统(、供应链管理(、人力资源(R )等系统也逐渐与知识发现集成起来,用以提高系统的决策支持能力。这方面的研究热点包括知识发现与商业智能(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论