数据仓库的基本理论及中药色谱指纹图谱数据仓库的构建_第1页
数据仓库的基本理论及中药色谱指纹图谱数据仓库的构建_第2页
数据仓库的基本理论及中药色谱指纹图谱数据仓库的构建_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库的根本理论及中药色谱指纹图谱数据仓库的构建【摘要】目的讨论构建中药色谱指纹图谱数据仓库的理论与方法。方法以SQLServer2000作为数据库开发环境,以LAP作为联机分析工具,用中药色谱指纹图谱37个特征参数构建多维数据集。结果采用星型模型构建中药指纹图谱数据仓库的整体框架及数据挖掘模型。结论该数据仓库的构建为中药色谱指纹图谱的进一步分析与挖掘建立了综合环境与平台。【关键词】数据仓库;ETL;中药色谱指纹图谱;特征参数基金工程:国家自然科学基金重大研究方案工程90612002;辽宁省教育厅高等学校科学研究工程05L426数据仓库是信息领域中近年来迅速开展起来的数据库新技术。数据仓库的

2、建立能充分利用已有的数据资源,把历史数据转换成为统一的、利于分析的格式,从中挖掘出决策者需要的决策根据,最终创造出效益。数据仓库的出现为解决企业信息系统中存在的“数据丰富,但信息贫乏的实际情况提供了一种有效的解决方案1。由于中药指纹图谱本身是一个宏大的潜信息库,再加上中药材的根本信息、采用的不同色谱条件、图谱的原始数据等信息将会形成一个庞大的数据库2。为充分利用数据资源,解决辅助决策信息贫乏的现状,需要建立一个支持决策的数据仓库,以此为根底进展联机分析和数据挖掘,从而为不同种类药材或制剂的指纹图谱评价及其实验条件的优化提供根据。本文就数据仓库的理论及中药色谱指纹图谱数据仓库的构建作一简单描绘。

3、1数据仓库概述数据仓库是面向主题的、集成的、随时间变化的、稳定的数据集合,用以支持管理决策的制定过程3。其特点是:1数据仓库是面向主题的主题是数据归类的标准,每一个主题根本对应一个宏观的分析领域。中药色谱指纹图谱的数据仓库的主题可以是色谱条件、特征参数、流动相等等。2数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进展统一数据构造和编码。统一原始数据中的所有矛盾之处,如字段的同名异议、异名同义、单位不统一和字长不一致等。3数据仓库是稳定的数据仓库中包含了大量的历史数据。数据经集成进入数据仓库后一般是不更新的,数据仓库除了把从操作性数据库中转换来的数据按照时间顺序添加到

4、前一个时期的数据中的这个过程之外,数据仓库中的信息一般保持固定不变。4数据仓库是随时间变化的数据仓库是随时间变化的,因为它们要同时维护着历史和当前的数据。数据仓库按照每日、每周或每月的频率从操作性数据库中导入数据,而且一般要保存一段时间。2中药色谱指纹图谱数据仓库的构建数据挖掘是一种体系构造,而不是一种产品。我们无法购置现成的数据仓库,必须结合实际情况进展构建。所以,数据仓库更多的是一种工程上的概念。转贴于论文联盟.ll.2.1中药色谱指纹图谱数据仓库的整体架构设计中药指纹图谱数据仓库的整体架构设计如图1所示。2.2逻辑模型设计维度建模是一种逻辑设计技术,维度模型又叫星型模型。维度建模分为4个

5、步骤:(1)确定分析主题。本文主题为中药指纹图谱37个特征参数。2定义粒度。由于用户需求的不可预见性,设计时应提供不同色谱条件下特征参数的所有最细节性数据即原子性数据。3确定分析的角度和维度。主要有中药材根本信息维、中药制剂根本信息维、方法形式维、洗脱方式维、检测器维、流动相维、HPL色谱柱维、工作站维、色谱柱维、特征参数维。4确定分析的主要指标及事实。在此根底上进展维表的详细设计,根据挖掘主题的需要共设计了10个维表,详细内容见表1。图1中药色谱指纹图谱数据仓库整体架构略表1维表设计略ID、柱类型、brand、消费厂商、型号、长度、内径、粒度、填充料8色谱仪维ID、类型、Brand、消费厂商

6、、型号9特征参数维ID、检测波长、指纹峰总数、有效别离率、指纹信号均化系数、指纹峰几何平均面积、指纹峰算数平均面积、峰面积比率、色谱空间占用率、总积分面积和、八强峰归一化面积及位置、三强峰比例、平均峰高、共有峰平均峰宽、最强峰柱效、总别离度、平均别离度、别离度均化系数、表观进样量、色谱指纹图谱进样量校正信息量指数等。确定了主题和维之后,采用星形模型,设计数据模型,其构造如图2所示。图2中药色谱指纹图谱数据仓库星型数据模型略3基于LAP联机分析的数据挖掘的实现数据的抽娶转换和加载是数据进入仓库前对数据的处理过程,决定着数据的质量4。中药色谱指纹图谱数据仓库是在SQLSever2000操作环境中构

7、建的,数据的抽娶转换和加载是通过irsft的数据转换效劳DTS向导和DTS设计器来实现的5。3.1数据库的完好性由图2可知,与37个特征参数表相关的表只有“事实表,而且关联键也只有“Paraeters_ID,这种过弱的关联并缺乏以深化地分析内在的知识。假设想对特征参数表进展挖掘,还需要为其建立与其他表的完好的数据关联,这种关联应该可以通过挖掘而表达。3.2建立LAP多维数据集以中药指纹图谱数据库中的事实表作为分析的事实数据表,将该表中的字段HL_Te柱温设为度量值,选择色谱柱和T_table作为维度表,完成多维数据集的建立。3.3建立挖掘模型以上述建立的LAP多维数据集为根底,以聚集形式创立柱温的LAP挖掘模型如图3所示。由于设定了划分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论