


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于关系数据库模式匹配技术 摘 要随着网络技术的发展,信息处理需要对大量的、异构的数据源的数据进行统一存取,多源异构数据的集成问题就显得十分重要。而模式匹配是数据集成领域的一个基本技术。文章提出一种解决关系数据库语义冲突问题的模式匹配技术,以实现异构数据的共享与互操作。 关键词数据集成;模式匹配;语义冲突 1 引言 随着计算机及网络技术的快速发展,网络上的各种信息以指数级爆炸性
2、增长,成为了一个巨大的信息库,同时各企业单位开发了大量的软硬件平台各异的应用系统,在各种应用系统下又积累了丰富的数据资源。这样就形成了成千上万个异构的数据源,多为传统的关系数据库数据。这些数据资源由于软硬件平台各异、数据模型各异而形成了异构数据,使各数据源间的互操作变得复杂。为了更好地利用这些异构信息,以及不造成企业应用系统的重复建设和数据资源的浪费,模式匹配技术吸引了众多关注。本文针对模式匹配过程中存在的语义冲突进行分类,并提出了相应的解决策略,以达到异构数据源的共享和互操作。 2 模式匹配中的冲突问题 在数据集成领域中,由于数据源系统多是独
3、立开发,数据源是相对自治的,因此描述数据的数据模型或存储结构经常会出现模式的不一致,数据源的自治性和数据源模式的异构性使数据源在共享和互操作上存在了语义冲突。这些正是模式匹配的焦点问题,它们形式上的性质使得人们很容易想到要用模式匹配去解决逻辑、语义和知识的描述问题。 对于描述模式匹配中的语义冲突有两种较有代表性的分类4。第一种分类将冲突分为异类冲突、命名冲突、语义冲突和结构冲突。第二种分类主要是对第一类异类冲突概念的一个细致的改进,但和其它分类仍有细微的不同,它把异类冲突看作是语义不一致的一类(如语义冲突),把冲突分为命名冲突、域冲突、元数据冲突、结构冲突
4、、属性丢失和硬件/软件不同。 模式匹配是一项复杂而繁重的任务,所能集成的数据源越来越多,上述冲突情况也会越来越普遍,想解决所有的模式冲突是不现实的。本文主要解决关系数据模式之间的语义冲突。 3 模式匹配中的语义冲突 本文所提出的模式匹配方法是根据关系数据库的特点设计的。关系数据库中关系的基本单位是属性,属性本身就包含着语义信息,因此异构数据源语义相似性就围绕着数据源模式中的属性来进行,并在匹配的过程中解决异构数据源模式之间的一系列语义冲突。 3.1 语义匹配体系结构
5、160; 本文提出的语义匹配体系结构采用数据集成中的虚拟法数据集成系统的典型体系结构,采用将局部模式匹配到全局模式的语义匹配体系结构,自下而上地建立全局模式。首先进行模式转化,消除因各种局部数据模式之间的差异所带来的影响,解决各种局部模式之间的语义冲突等,然后在转化后的模式的基础上进行模式匹配,其主要手段是提供各数据源的虚拟的集成视图。 数据仍保存在各数据源上,集成系统仅提供一个虚拟的集成视图和对该集成视图的查询的处理机制。系统能自动地将用户对集成模式的查询请求转换成对各异构数据源的查询。在这种体系结构中,中间层根本不实际存储数据,当客户端发出查询请求时,
6、仅是简单地将查询发送到适当的数据源上。由于该方法不需要重复存储大量数据,并能保证查询到最新的数据,因此比较适合于高度自治、集成数量多且更新变化快的异构数据源集成。 本文中的语义匹配的体系结构如图1所示。 3.2 关系数据库模式中语义冲突问题分类及其解决策略 大多数数据库系统提供了一套概念结构来对现实世界的数据进行建模。每一个概念结构被认为是一个类型,它可以是一种复杂类型或一种基本类型。类型和它所表示的数据间的联系就称为语义3。 在关系数据库中,一个关系模式是一个有序对(
7、R,c),其中R为模式所指向的关系(表)的名称,而c则为具有不同名称的属性的有限集。同时,属性也是一个有序对(N,D),其中N为属性的名称,而D则为一个域。可以看出关系模式的基本单位是属性。属性本身就包含着语义信息,因此模式语义相似性就围绕模式中的属性来进行,并在模式匹配的过程中解决异构数据库模式之间的一系列语义冲突。 图 1 语义匹配体系结构 根据语义的定义,在关系数据库系统中,语义系统是由模式、模式的属性、模式中属性之间的联系和模式间的属性之间的联系构成。这里将语义分为3级:模式级、属性级和实例
8、级。下面将异构模式中存在的语义冲突问题进行了分类,并阐述了各种语义冲突的解决策略: 1)模式级冲突 (1)关系命名冲突。包括关系名同义词和关系名同形异义词。前者进行换名或建立关系名同义词表以记载该类冲突;后者进行换名或建立关系名同形异义词表以记载该类冲突。 (2)关系结构冲突。分为包含冲突和相交冲突。包含冲突是指在含义相同的两个关系 R1 和 R2 中一个关系的属性集是另一个的属性子集。相交冲突是指两关系属性集的交不为空,我们用 attrset 代表关系的属性集。对包含冲突:如果两
9、个关系的属性集相同即attrset(R1)=attrset(R2),则合并这两个对象,Merge(R1, R2)into R3;如果 attrset(R1) attrset(R2),则 attrset(R2')=attrset(R2)attrset(R1),attrset(R1') = attrset(R1);对相交冲突:通常概括语义进行如下解决:generalize(R1,R2)其中 attrset(R3)=attrset(R1)attrset(R2), attrset(R1')= attrset(R1)attrset(R3);attrset(R2'
10、;)=attrset(R2)attrset(R3)。 (3)关系关键字冲突:两个含义相同的关系具有不同的关键字约束。包括候选关键字冲突和主关键字冲突。解决候选关键字冲突的方法是,将两关系的候选关键字的交集作为两关系的候选关键字;解决主关键字冲突的方法是,从两关系的公共候选关键字中选一个分别作为两关系的主关键字。 (4)多对多的关系冲突:两个数据库中用不同数量的关系来表达现实世界的相同语义信息,就产生了多对多的关系冲突,这种冲突分3种:一对多,多对一和多对多。解决方法是在表示相同语义信息的数据库中关系之间建立映射来表示多
11、对多的关系。 2)属性级冲突 (1)属性命名冲突:分属性名同义词冲突和属性名同形异义词。前者的解决方法是,换名或建立属性名同义词字典;后者的解决方法是,换名或建立属性名同形异义词字典。 (2)属性约束冲突:分属性类型冲突和属性长度冲突两种。当在两个相关的关系R1和R2的属性N1和N2具有不同的属性类型时,就发生属性类型冲突。解决方法是在全局模式中将发生属性类型冲突的属性统一到某种属性类型。对属性长度的解决方法是,在全局模式中将发生属性长度类型冲突的属性对统一定义为最大者就可。
12、160; (3)多对多的属性冲突:两个数据库中的关系分别用不同数量的属性来表达现实世界中相同的语义信息时,就发生了多对多的属性冲突,这种冲突分3种:一对多,多对一和多对多。解决方法是在表示相同语义信息的数据库中关系的属性之间建立映射来表示这种多对多的关系。 3)实例级冲突 (1)不兼容关系实例冲突:当含义相同的数据项在不同的数据库中存在不一致的数据值时就发生了不兼容关系实例冲突。其解决方法是:将关系实例的最近修改作为关系实例冲突部分的值,但不能保证数据的正确性。
13、; (2)关系实例表示冲突:关系实例表示冲突是指用不兼容的符号、量纲和精度来表示相关关系实例中等价的数据元素,主要包括表达冲突、量纲冲突和精度冲突。表达冲突是指在两个相关的关系R1和R2中含义相同的属性N1和N2具有不同的数据表达时,这种冲突使用语义值的概念来解决,即将表示同一概念的多种表达在全局数据中进行统一即可。量纲冲突是指在两个相关的关系R1和R2和中含义相同的属性N1和N2具有不同的量纲表示。量纲冲突也可以语义值加以解决,解决过程如下:分别定义发生量纲冲突的局部数据源的语义值模式和语义值说明,然后再定义全局数据模式中相应的语义值模式和语义值说明,将发生量纲冲突的属性值在全局模式中进行统
14、一。精度冲突是指在两个相关的关系 R1 和 R2 中含义相同的属性具有不同的精度。其解决方法是在全局模式中将发生精度冲突的数据项定义为最高精度即可。 4 总结 本文针对异构数据源管理自治和模式异构的特点,提出了数据源集成模式匹配的体系结构,制定了匹配策略,研究了基于语义的模式匹配过程。以关系模式为参考模式,对异构数据源关系模式间可能存在的语义冲突问题进行了分类,并阐述了解决这些语义冲突的策略。 参考文献 1 Bergamaschi S, Castano S, Vincini M. Semantic Integration of Semistru
15、ctured and Structured Data Sources J. SIGMOD Record, 1999, 28(1): 54-59. 2 Li W, Clifton C, Liu S. Database Integration Using Neural Network: Implementation and Experiences J. Knowledge and Information Systems, 2000, 2(1). 3 Reddy M P, Prasad B E, GReddy P. A Methodology for Integration of Heterogeneous Databases J. Information System, 1999,24(5). 4 Rahm E,Bernstein P.A Survey of Approaches to Automatic Schema Mat
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国陶瓷纤维市场竞争格局与前景发展策略分析报告
- 2025-2030年中国造纸机械市场运行态势及投资战略研究报告
- 2025-2030年中国蚝肉行业发展状况及营销战略研究报告
- 2025-2030年中国矿渣粉产业十三五规划及发展策略分析报告
- 2025-2030年中国电子铜箔市场运行状况及发展趋势预测报告
- 江西洪州职业学院《经济学的思维方式》2023-2024学年第二学期期末试卷
- 沈阳职业技术学院《受众与视听率分析》2023-2024学年第二学期期末试卷
- 益阳职业技术学院《公共关系》2023-2024学年第二学期期末试卷
- 2025届上海市松江区届高三上学期一模考试历史试卷
- 辽宁中医药大学杏林学院《软件测试技术实验》2023-2024学年第二学期期末试卷
- GB/T 44828-2024葡萄糖氧化酶活性检测方法
- GB/T 44865-2024物联网基于物联网和传感网技术的动产监管集成平台系统要求
- 燃气公司绩效考核管理制度
- 高中生物课程标准(人教版)
- 第三章-自然语言的处理(共152张课件)
- 2023版初中语文新课程标准
- 2024至2030年中国蜜柚行业市场发展现状及潜力分析研究报告
- 人音版音乐一年级上册第3课《国旗国旗真美丽》说课稿
- GB/T 44255-2024土方机械纯电动液压挖掘机能量消耗量试验方法
- DL∕T 1785-2017 电力设备X射线数字成像检测技术导则
- 山东财经大学《大学英语》2022-2023学年期末试卷
评论
0/150
提交评论