




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于中间释义库的数据集成方法研究 池斌CHIBin;李军生LIJun-sheng;邸凯DIKai;王海涛WANGHai-tao (长春市长沈路9599号,长春130103) (ChangchunChangshenRoadNo.9599,Changchun130103,China) 摘要:现有的数据集成方法,多是面向英文语言,对于中文管理系统,很多方法并不适用。本文提出一种嵌有中间释义库的数据集成系统,利用本体语言具有通用性的特点,解决中文语义变化造成的集成困难,并在设备信息管理系统做了简单验证。 Abstract:NormaldataintegrationmethodusuallydirectedtowardsEnglish,buttotheChineseMIS,itcouldntwork.Sothispaperputsforwardthedataintegrationsystemwithamidmeaningexplanationwarehouse,utilizestheontologylanguagetodealwiththeproblemofmeaningchangeintheintegration,andvalidatesitintheequipmentinformationmanagesystem. 关键词:中间释义库;数据集成;本体论 Keywords:midmeaningexplanationwarehouse;dataintegration;ontologytheory :TP311.1:A:1006-4311(xx)34-0211-03 作者简介:池斌(1982-),男,黑龙江富裕人,助理工程师,硕士。 0引言 随着信息技术在各个领域的广泛应用,信息量呈爆炸式增长,然而由于这些信息的存储环境、采集系统以及软硬件实施平台的差异,造成数据难以在各个平台间交流共享,给数据的有效利用造成很大的障碍,信息系统中因数据格式差异造成数据使用困难的问题被称为异构问题。3现有情况是人们常常抱怨“数据丰富、信息贫乏”,究其原因,一方面是数据分析技术不足,另一方面是信息系统运行中出现了“脏数据(DirtyData)”,其主要表现为拼写错误、数据值缺失、格式不一致、不规范简写、定义重复、噪声数据等,含有脏数据的数据集不能直接用来决策,必须经过一定的清洗、集成处理才能使用。 数据集成方法的研究在国外开展较早,形成的工具较多,如匹配算法中的SmithWaterman算法、Consine相似函数法等,2-4但是很多方法并不适合中文信息的集成处理。 因此,本文提出一种基于中间释义库的数据集成系统,通过中间释义库的转换作用来实现中文问题的数据集成。 1数据集成存在问题 1.1中文信息集成存在主要问题中文语义变化较大。中文词语的语义在不同环境下变化较大,如设备信息管理系统中的“单位”字段,本意是指计量单位,而录入人员却填上了工作单位,由于表达习惯的不同所造成的差别则更加明显。元数据缺少。多数中文管理信息系统开发只是在小范围内使用,且很多各自为战,致使缺少可共享的元数据,造成数据集成处理非常困难。 1.2本体论方法本体原是哲学上的概念,原意是指世界各类具体事务具有的一般规定、一般本质、一般规律,是普遍存在于各种各类具体事务之中不可被感知但是可被人知道的相对抽象事物。5在信息科学领域,本体被广泛接受的定义为“本体(Ontology)是共享概念模型的明确的形式化规范说明”,6其定义包含四层含义:共享(Share)是指本体体现共同的知识基础,即使对不同的参考者其表述也不会产生误解歧义;概念模型(Conceptualization)是指通过抽象出客观世界中一些现象的相关概念而得到的模型;明确(Explicit)是指所使用的概念及使用这些概念的约束都有明确的定义;形式化(Formal)是指本体的语言是计算机可读的。 基于上述分析,借鉴ETL的方法,本文提出一种利用本体构建中间释义库,处理中文数据集成的成系统基于中间释义库的数据集成系统(DataIntegrationsystembasedontheMid-MeaningExplanationWarehouse,DIME)。 2设计思想 首先构建元数据管理模块,参考OMG(ObjectManagementGroup)提出CWM元数据标准,主要目的是实现对组成数据仓库系统的各个部分之间,元数据的交换共享最大化。7本文引用上述标准,是由于该标准是一个通用性较好的标准,可以实现尽可能多的数据库之间的通用。 利用DIME从源数据中抽取关系数据、文本数据等,先通过格式检查,再导入中间释义库进行转换。中间释义库有两个作用:一是将数据转换为一种基于OMG元数据标准下的数据;二是将原始数据源的元数据进行转换处理。然后将转换过的结果载入数据仓库中,最后通过OLAP工具(服务器、设计工具、前端和报表工具)展现给用户。 2.1DIME框架图1所示本文案例,DIME需要元数据抽取、数据抽取建立中间释义库,经过筛选、处理的数据通过中间释义库进入MEDC元数据库用于存储有价值、可有效运用的信息数据,MEDC元数据库可通过通用的本体数据载体方便地使分系统实现信息互交。 2.2中间释义库的运行流程 中间释义库运行:DIME在抽取数据源数据之后先进行分类,区分数据源数据和数据源元数据,对数据源数据进行筛选,经处理后进入MEDC元数据库,对数据源元数据通过映射模块处理进入MEDC元数据库,图2是对中间释义库运行过程的描述。 3关键技术 3.1中间释义库构建因为中文处理存在很多个人理解差异,所以构建中间释义库必须在了解原始数据真实内涵的情况才能进行,此时需要依靠专家知识进行转换。本文案例利用一个全局本体的方法来解决元数据描述问题。 在DIME系统中,目标数据库与数据源之间的交互是通过中间释义库实现的。系统将元数据库管理模块定义的映射规则,按一定的格式存入元数据库中,其中最主要的格式是源数据表与目标表的映射关系、数据列之间的变换操作表。 3.2元数据转换基本过程因为数据源的元数据与DIME的元数据可能不同,所以在数据集成或处理时需要解析数据源元数据,并最终通过DIME进入MEDC元数据库。 图3中的映射从内容上可分为三类:一是元数据标识,标识的识别相对容易,重点是将原标识转换为与目标标识一致的类型;二是明确语句含义,将语句的真实内涵描述清楚,该过程需要专家知识;三是相同字符的概念区别,数据源元数据使用的概念与DIME元数据可能不同,如图1中的“单位”字符的概念有所不同。 映射从执行过程上可分四类:一是直接写入,二是更改标识,三是合并写入,四是删除重复,如元数据已经存入DIME中,则可将数据源中相应的元数据删除。 同时,设计者可以根据自己兴趣定义个性化的数据输出,如在本文案例中,设备生产厂关注用户“反馈意见”,因此通过在DMEC中添加限制条件,用户分析表可直接输出“设备名称”、“用户反馈”的数据记录,表1描述本文案例所建中间数据库的数据信息。 3.3元数据输出形式为解决所得元数据通用性不高、调用困难等问题,DIME将元数据分成两类,一类是完全公允的内容、不会产生歧义的,另一类是容易产生歧义的,对这两类元数据分别做不同处理。首先,运用结构化语言对第一类元数据进行存储,本文案例采用XML进行存储,XML语言是一种通用的数据交换载体,利用XML作为过程语句的结果展示方式,可方便地在MEDC系统中不同模块间传达交互信息;8其次,容易引起歧义的元数据,在不同的系统间,通常具有不同内涵的元数据项,除了用结构化的语言进行描述之外,也可用文本型格式进行说明。 4案例验证 利用结构化语言对元数据进行存储,利用XML结构语句对本文案例进行描述。 通过处理后,“设备名称”输出XML结构化语句,用户“用户反馈”输出系统中“consumerreflection”的存储地址链接。 5结束语 随着数据集成技术研究的不断深入,中文数据集成问题将越来越受到重视,本文提出一种利用本体描述语言建立“中间释义库”的方法,来解决中文数据集成问题,并在企业设备生产销售数量数据数据源中进行了简单应用,证明该方法是可行的,但本文对中间释义库的研究仅仅是一个开始,还有待进一步的深入研究。 参考文献: 1NatalyaFNoy,DeborahLMcGuinness.OntologyDevelopment101:AGuidetoCreatingYourFirstOntologyR.StanfordKnowledgeSystemsLaboratoryTechnicalReportKsl-01-05andStanfordMedicalInformaticsTechnicalReportSMI-xx-0880,xx. 2周奕辛.数据清洗算法的研究与应用D.青岛大学,xx. 3MongeA,ElkanC.TheFieldMatchingProblem:AlgorithmsandApplicationsC.In:Proceedingsofthe2ndInternationalConferenceofKnowledgeDiscoveryandDataMiningPortland,Oregon,1996. 4SalonG,McgillmJIntroductiontoModernInformationRetrievalM.NewYork:McGraw-HillBookCo.,1983. 5baike.Baidu./view/29987.html. 6StefenDecker,MichaelErdmann,DieterFensel,etal.Ontobroker:OntologybasedaesstodistributedandSemi-structuredinformationM/MeersmanR,etal.SemanticIssuesinMultimediaSystems,ProcedingsofDS-8,kluwerA
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 枣阳顶管施工方案公司
- 雕花蜡烛美术课件
- 殡葬行业生命教育
- 吐鲁番职业技术学院《钢琴基础(一)》2023-2024学年第一学期期末试卷
- 辽宁现代服务职业技术学院《传感器原理及应用》2023-2024学年第二学期期末试卷
- 苏州大学《化工仪表》2023-2024学年第二学期期末试卷
- 农田石灰改造方案范本
- 《正宗新疆棉花被》课件
- 债权诉讼方案范本
- 沈阳音乐学院《排水工程》2023-2024学年第一学期期末试卷
- 汇流箱工作原理及日常维护培训课件
- GB/T 45120-2024道路车辆48 V供电电压电气要求及试验
- 房地产行业合规整改措施
- Unit 7 A day to remember Section A 2a - 2e 说课稿 2024-2025学年人教版(2024)七年级英语下册
- 一年级100以内进位加法和退位减法练习题
- 2025陕西省建筑安全员B证考试题库及答案
- xx省城市更新项目可行性研究报告
- 保温防火施工合同
- (完整版)python学习课件
- CNAS-RL01:2019实验室认可规则
- 《大学生心理健康教育》全套教学课件
评论
0/150
提交评论