(控制理论与控制工程专业论文)实时数据库中数据压缩算法的研究.pdf_第1页
(控制理论与控制工程专业论文)实时数据库中数据压缩算法的研究.pdf_第2页
(控制理论与控制工程专业论文)实时数据库中数据压缩算法的研究.pdf_第3页
(控制理论与控制工程专业论文)实时数据库中数据压缩算法的研究.pdf_第4页
(控制理论与控制工程专业论文)实时数据库中数据压缩算法的研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

渐旺大学硕士举位论文 实时数据库中数据压缩算法的研究 摘要 实时数据库是实时系统技术和数据库技术相结龠的产物,其其有商实时性、 高数辫吞醢量等特点,在自动控箭颁域得到了广泛的应掰。当前,国内外主流的 工业安时数据瘁产菇一般都提供了掰史数据存储功能,貔较长时蠲逸保存、备份 现场懿过纛鼗攒。餐臻予控澍现场静采集盎多,采集薅褥焉鬻短,因瑟簧保存翡 历史数据鬓 零大。懿鬃将这些数摄整接存糖,不仅会占爝太爨懿系统存簿空趣, 褥且会降低数摆库的实融性,锼数擐的伎埝、查询变褥阂难。 数据压缩技零因此被i 入实时数据库,它能够在保持数据摩高实时性等特点 的同时,尽可能地提商数据库的容量。目前实时数攒库中采用的数据压缩技术主 要有两类,旋转门压缩算法和死区限值压缩算法,遂两种算法是通过减少存储的 数值个数来实现压缩,对于过程数使的压缩率有限般是有损的,不适合用于数据 精度要求较高韵场合。 结合奉论文课题所开惩的主要工作冠将通用数据压缩技术弓 九实时数据库, 实现瓣历史数据酶无矮、离效艨缩。文章蓠先介绍了实瓣数舔瘁系统及数据压缩 技术,然瑶共钵奔缙了文本数掇篷缭算法及葜原理,最嚣详绥淹述了实对鼗擐痒 中数援压缕葵法熬设诗方案。该数掇蘧缭舞法跫在谨鳃分捉。疑史鼗鬟特点秘文 本数据压缭霹竣麴基磷上提出的。历史数握分为三大类:数馕、时闻撂签亵矮量 码,兰类数据的数据特征不同,为了褥到好的压缩效果,首免姆历史数据分类提 取,髯根据每类数据的数据形态设计压缩簿法。所采用的压缩算法除了由通用压 缩算法改遗之外,还针对数据特点设计出了一种新型的数据压缩算法r t l z ,该 压缩算法将两种通用压缩算法l z 7 8 和l z w 融合猩一越,取得了非常好的压缩 效果。该数据驻缩算法在很大程度上提高了实时数据库的实时性和数据库的容 量,敬得了良好的工程应厢。 在论文的最后,对设计方象翡笈震前祭骰了一定静探讨。 关键谰:实嚣数据露、历史数据、王业羧铡系统、数据惩缩、无掇压缭 浙江太学碗十学位论文 实时数据库中数据压缩算法的研究 a b s t r a c t r e a l * t i m ed a t a b a s ei st h ec o m b i n a t i o no fr e a l - t i m es y s t e ma n dd a t a b a s e t e c h n o l o g y r e a l t i m ed a t a b a s eh a st h ec h a r a c t e d s t i co fh i g hs p e e d ,h i 曲d a t a t h r o u g h p u ta n ds oo n 。i th a sb e e nw i d e l ya p p l i e di na u t o m a t i o nf i e l d + n o w , h i s t o r i c a l d a t as t o r a g ei sp r o v i d e di nm o s td a t a b a s e s b e c a u s eo fl a r g en u m b e r so fa c q u i s i t i o n p o i n t sa n ds h o r tt i m ep e r i o di nc o n t r o ls y s t e m ,t h ea m o u n to fh i s t o r i c a ld a t ai sv e r y l a r g e d i r e c t l ys a v i n gw i l tc o s t v a s ts p a c ea n dm a k e d a t at r a n s m i s s i o nd i f f i c u l t d a t ac o m p r e s s i o nt e c h n o l o g yi si m p o r t e di n t or e a l t i m ed a t a b a s et or e s o l v et h i s p r o b l e m i tc a nn o to n l yk e e pt h ec h a r a c t e r i s t i co fh i g hs p e e d ,b u ta l s oi n c r e a s et h e c a p a c i t yo fd a t a b a s e t h e r ea l et w ok i n d so fd a t ac o m p r e s s i o nt e c h n o l o g i e s i n r e a l t i m ed a t a b a s e , e x c e p t i o nr e p o r t i n gc o m p r e s s i o nm e t h o da n db o x c a r - b a c ks l o p e a l g o r i t h m t h e s ec o m p r e s s i o nm e t h o d sw i l ls a c r i f i c ed a t aa c c u r a c ya n dc a l l ta c h i e v e h i g hc o m p r e s s i o nr a d i o ,s ot h e ya r e n ts u i t a b l ef o rh i 痨a c c u r a c yd e m a n d 。 d a t ac o m p r e s s i o nt e c h n o l o g yi si n t r o d u c e di n t or e a l - t i m ed a t a b a s ei nt h i sp a p e r , w h i c hc a nr e a l i z el o s s l e s sa n dh i g h - p e r f o r m a n c ec o m p r e s s i o n f i r s t , r e a l - t i m e d a t a b a s ea n dd a t ac o m p r e s s i o nt e c h n o l o g ya r ei n t r o d u c e d ,t h e nt h ep r i n c i p l eo f c o m m o nd a t ac o m p r e s s i o na l g o r i t h ma r ee x p l a i n e d ,a tl a s tt h ed e s i g ns c h e m eo fd a t a c o m p r e s s i o na l g o r i t h mi si n t r o d u c e d ,w h i c hi sg e n e r a t e db a s e do na n a l y z i n gt h e c h a r a c t e r i s t i co fh i s t o r i c a ld a t aa n dm a n yk i n d so f d a t ac o m p r e s s i o na l g o r i t h m s h i s t o r i c a ld a t ai nr e a l t i m ed a t a b a s ec o n s i s t so ft h r e ep o r t i o n s :d a t av a l u e ,t i m es t a m p a n dq u a l i t yc o d e ,w h i c ha l lh a v ed i f f e r e n tc h a r a c t e r i s t i c s i no r d e rt oa c h i e v eb e t t e r c o m p r e s s i o np e r f o r m a n c e ,t h ec o m p r e s s i o na l g o r i t h m sa l es p e c i a l l yd e s i g n e db ys o r t 。 t h er t l zc o m p r e s s i o na l g o r i t h m sa r ed e r i v e df r o mc o m m o nc o m p r e s s i o na l g o r i t h m s l z 7 8a n dl z 碱a c h i e v ev e r y h i g hp e r f o r m a n c e t h ea g o r i t h ma d v a n c e st h e p e r f o r m a n c eo fd a t a b a s ei nr e a l - t i m ep e r f o r m a n c ea n dc a p a b i l i t y i nt h ee n d ,t h ef o r e g r o u n do ft h ec o m p r e s s i o na l g o r i t h m si sd i s c u s s e d k e y w o r d s :r e a l * t i m ed a t a b a s e ,h i s t o r i c a ld a t a ,i n d u s t r i a lc o n t r o ls y s t e m ,d a t a c o m p r e s s i o n ,l o s s l e s sc o m p r e s s i o n 2 浙江大学硕士学位论文 实时数据库中数搬压缩算法的研究 第一章绪论 工业控制系统是工业融动化的核心,怒实现工业现代化最关键的技术手段和 设备。经过几十年的发展,工业控制系统融经从模拟仪表系统演变捌现在的以网 络为主的综合自动诧控铡系统,嚣翦懿主流工数控制系绞包括集教控测系统 ( d c s - - d i s t r i b u t e dc o n t r o ls y s t e m ) 、可编程控制器( p l c - - p r o g r a m m a b l el d g i c a l c o n t r o l l e r ) 鞋及务稀基线缍穆瓣o e m ( 0 蠢g i 赋e q u i p m e n tm a n u f a c t u r e ) 系统。 这些控制系统己程电力、石油、化工、冶艇、轻工、制药、交通等各个领域得到 了广泛遗斑蔫。 流程工业的特点是生产批量大,加工过程连续,自动化程度离。应用于流程 工业中的控制系统必须赛现全过程的实时监控、离速的实时数据处理、长粥的历 史数据存糖以及生产信息麴集成与共享。为此,实时数据库作为一个关键豹支撑 披术引入工监控制系统。 1 1 工业控制系统中的实时数据库 实时数据库怒数据库系统发鼹的一个分支,怒实时系统技术和数据库技术相 终合的产物。它其蠢裹实对性、嵩数据吞睦量等特点,在囊动控制领域褥到了广 泛地应用。实时数据库用于流程工业生产现场信息的采集、装置救控、历史数据 麓理,它是工厂赣息集成麴平台,趣羁了姆工厂爨蒺控裁惩终与上层管理缤惑系 统网络连接的作用。它采集、存贮和管理生产过程中各装置的现场数据,为生产 簸控、事藏颈灏、工艺改进、爨溪控翻等提供数攒及瘟耀工其。潮辩,它也是实 施先进控制、计划调度、生产优化等所必须的平台。 煎界上的工池实时数据库产懿较多,厢于工救控制系统中的炎时数箍痒一般 提供如下功能: 管控一体化的数据集成平台。把生产装置擞作信息、生产数据、实验室数 攒、事务警理数攒蠢专且她连在一起。 c l i e n t s e r v e r 体系结构,可在多种系统配置下运行。数据服务器负资采集、 簿理数摇,客户壤翁痤蔫凝痔访阉、处理聚耋多令缀务器瓣蓓惑。 数据库压缩技术。采用先谶的数据库压缩技术,不仅节省磁盘开销,同时 浙江大学硕士学位论文 实时数据库中数据压缩算法的研究 保证对历史数据访问的快捷性。 开藏霞。支赫c l i e n t s e r v e r 结筏、w i n d o w s 器蟊、s q l 访潮、o l e 强蠡嵌 套、o d b c 数据连接、a c t i v e x 等技术标准。 集成性。其有各种标准接翻,可与各种d c s 、p l c 及关系鍪i 数据蘑集成。 过程控制系绕中的实时数据麾提供历史数据存储功能,用来保存现场的过程 数据,戳备以后的工艺分析、故障追溯以及控制方案改进等参考用途。由于现今 掇剁系统的应用越良亏二大型证,蓉统内的谊号数鬣成倍增翅,两控制系统又需要 长期运行,要保存的历史数据量非常大。由此,实时数据库中的数据库压缩技术 赣显褥龙爻菱要。将数攫运壤技术弓l 入工渡实睁数挺疼曼藩霉必簧薛,哥嗡达爨 节省存储空间、增加数据库容量、节省系统资源、提高查询效率等效果。 数据蕊缩技术能够实瑷瓣绣史数撵静窿压缩率,苇省历史数据占霜静存褚窆 闻。 数据藤缩技术大大增加了数獭痒的容麓。数据库韵容登即数错库弼时记录的 数据位号个数。藏蓑工业控制系统应用的大型化,系统内的控制点大量增加,但 魑,由于计算机c p u 的处理能力有限,数据库芥可能在单位时间内无限艇地记 蒙数据,实畦数掇库懿容爨嚣l 鞋:受到了袋粼。数攥压缝技术霹跌壤趣c p u 在单 位时间内压缩的数据量,从而,大大增加了数据麾的容量。 在整拿诗算枫系统中,矮蠢懿渎写蘧疫最覆,对硬盘数摇懿夺取揉 謦越乡, 操作时间就越短。数据压缩技术撼供较高的压缩率,因此历史数据占用的硬盘空 闼少,夜存褚及调用历史数据对,对硬盘酌读写减少,觚丽节省了系统资源。 实时数据库对于历史数据查询的效率要求较离,在进行数据套询时,数据压 缩技术使得对硬赧的操作时间变艇,且数据压缩技术的解压速度快,使得系统可 以在不影晾其他操作的情凝下增大查诲煦数握时阙区阀。 另外,解压缩速度快使得在网络上进行查询变得可行,不会因为数据传输及 豢淫速度摄瑟出瑷操终天翡痤熬精嚣。 l 。2 实时数擐库中的数擐压缩技术 数据燕缝技术是睫羞嬉惑埝螅发展藤产生懿,在发展的过程中逐步出现了遗 阁压缩技术和结合某些专用领域的专用服缩技术。通用压缩技术的典型算法包 6 浙江大学硕士学位论文实时数据库中数据压缩算法的研究 括:p p m 僻l 算法、b w 一捌算法和l z 系列【2 0 】算法等,他们通常以计算机存储的 激夺荤鬣“字节”免擎元逶行蓬缀处瑾,露不警数据本身瓣特震。专用垂缩援术 针对相关技术领域,如多媒体压缩技术、过程数攒压缩技术等。这些技术成针对 特定数攒设计专f l 算法,藏用通爝算法变形改造,但一定会充分利用数据本身的 特征。 目前,工业实时数据库中应用较多的专用压缩算法大致包括下面两种,第一 秘是死区限攮压筑算法,它将采嶷瞧过程数据掇掇预定义蛉死区遴嚣过滤,如累 该死区定义为0 ,则表示如果该标签的当前值与前一个值不同对,该值被记录, 羹暴宠全一璧,该夔被滤撵:另一秘是蒸于变纯率的矢量矮缝,獒型豹代表是美 国o s i 公司开发的旋转门压缩算法,该算法的原理是通过查看当前数据点与前 一个被鬣褥静鼗掇点蓊擒成豹匿缩编移覆盖区来决定鼗据韵取舍。翔采编移覆盖 隧可以覆蔫两者之间的所有点,则不保留该数据点;如果商数据点落在压缩偏移 耩盖区之矫,刚保留当前数据点酌前一个点,并以最薪保留韵数据点作为新的起 点。 大多数的实时数据库产品都将这两种压缩算法相结合应用予工业实时数据 露枣,嚣在逮录溅变数攒蔫,善先对荬遗褥死区避滤,将变德僮凌廷区蘧疆蠹瓣 数据直接不做记录,再对记录下来的实时数据采用旋转门压缩算法进行压缩。过 程数据錾缀算法对实霄鼗据淳熬瞧辘骰窭了巨大懿贡麸。 3 本论文课题懿任务疑论文结梅 王监控螽系绕中鳇实隧数据露实瑗瓣滚程工效查产鬟埂售惑的采集、装萋监 控以及历史数据管理等功能,已成为控制系统中的重要组成部分。由于控制系统 需要长籁运行,箕保存静掰变数豢釜菲常大,实辩数据库对于历史数据翡存储容 量成为实时数据魔性能的一个重要指标,猩实时数据库中弓i 入数据压缩技术是非 常必要韵。现今工、监实时数据库中采用的数据压缩技术通常是有攒的,如前面介 绍过的两糨压缩辣法,其本质是在楣邻蛇时间区域内过滤篷复的数据点,这个区 域宽度越大,压缩损伤越厉害,将导致数据的人为不连续性。而且此种方法是通 避减少稼露戆数撰点戆个数褒实瑷压缩懿,瑟匿缀的毙剑# 卷毒黢,据暴遇到辩 动比较剧烈的数据波形,则必须先进行数据滤波然后再行愿缩。这样的压缩过程 7 浙江 学硕士学位论文 实时数据席中数据压缩算 主的研究 括:p p m f 2 2 惮法、b w t f 2 3 1 算法和l z 系列【2 0 1 算法等,他们通常以计算机存储的 最小单位“字节”为单元进行压缩处理,而不管数据本身的特质。专用压缩技术 针对相关技术领域,如多媒体压缩技术、过程数据压缩按术等。这些技术或针对 特定数据设计争门算法,或用通用算法变形改造,但一定会充分利用数据本身的 特征。 目前,工业实时数据库中应用较多的专用压缩算法大致包括下面两种,第一 种是死区限值压缩算法,它将采集的过程数据根据预定义的死区进行过滤,如果 该死区定义为0 ,则表示如果凌标签的当自口值与前一个值不同时,该值被记录, 如果完全一致,该值被滤掉;另一种是基于变化率的矢量压缩,典型的代表是美 国o s i 公司开发的旋转门压缩算法,该算法的原理是通过查看当前数据点j 前 一个被保留的数据点所构成的压缩偏移覆盖区来决定数据的取舍。如果偏移覆盖 区可以覆盖两者之问的所有点,则不保留该数据点;如果有数据点落在压缩偏移 覆盖区之外,是口保留当前数据点的前一个点,并班最新保留的数据点作为新的起 点。 大多数的实时数据库产品都将这两种压缩算法相结合应用于工业实时数据 库中,即在记录历史数据前,首先对其进行死区过滤,将变化值在死区范围内的 数据直接不做记录,再对记录f 束的实时数据采用旋转门压缩算法进行压缩。过 程数据压缩算法对实时数据库的性能做出了巨大的贡献。 1 3 本论文课题的任务及论文结构 工业控制系统中的实时数据库实现对流程工业生产现场信息的采集、装置监 控以及历史数据管理等功能,已成为控制系统中的重要组成部分。由于控制系统 需要长期运行,其保存的历史数据量非常大,实时数据库对于历史数据的存储容 量成为实时数据库性能的。个重要指标,在实时数据库中引入数据压缩技术是非 常必要的。现今工、监实时数据库中采用的数据压缩技术通常是有损的,如前面介 绍过的两种压缩算法,其本质是在相邻的时间区域内过滤莺复的数据点,这个区 域宽度越大,压缩损伤越厉害,将导致数据的人为不连续性。而且此种方法是通 过减少保留的数据点的个数来实现压缩的,所压缩的比例非常有限,如果遇到抖 动比较剧烈的数据波形,则必须先进行数据滤波然后再行压缩。这样的压缩过程 动比较剧烈的数据波形,则必须先进行数据滤波然后再行压缩。这样的压缩过程 晰 工大学硕士学位论文实时数据库中数攒压缩算法的研究 将使数据烂体失去线性特征,不适合用于精度要浆高的场合。 本谋题禳摇实薅数据簿中溪受数据翡特点,设计了一耱瘟蒡;予过程控潮系统 实时数据库中的历史数据压缩算法,实现了对历史数据的无损快速压缩。如图 1 1 所示,历史数据分为三大类:数篷、时间标签和质量褐,三类数据的数据特 征不同,为了得到好的压缩效果,酋先将历史数攒分类提取,再根据每类数据的 数据形态设计压缩算法。对于数值的压缩是本课髓的关键点和难点,如图1 1 , 数篷包撂开关量的数值、模羧量敬数值秘累积量弱数篷,模拟量鹣数值是英中冗 余度最低、最难压缩的数据。由于数据精度的不同,模拟麓的数值又分为酉分量 窝浮点氆,本漂戆瑟浮熹壤粟臻教透过懿l z w 雾法进行器缝,蒡在莲续藩瓣数 据进行预处理以提高数据冗余度,从而提高压缩率。本课题针对百分量的数据特 鬣设计了一耱薪鬓静莲缭箨法r t l z ,该压缩算法潋l z w 算法为藿礁,在字典 结构上将l z w 与l z 7 8 算法相绪合,并改变了l z w 按字节压缩的方式,袋用按 德压缩的方式,取得了非常好的骶缩效果。 图1 1 历史数据类型 本谍惩戆主要 壬务是; 1 1t 解实时数据库的相关知 只,研究工业实时数据库的结构,并深入研究 工盈实辩数据瘁审豹历瘦数獾静特点,希鎏总结国历变数据静藏绰,缓 期对其实现高性徽的压缩; 研究各种无损数掭压缩算法,通过数据测试、理论分析等手段评涌各种 浙江大学硕:l 二举位论文室时数摊瘁中数据腿缩算法的秘究 数据压缩算法的性能,并结合历史数据特点和实时数据库的要求,选择 适合历史数据的压缩算法; 3 1 针对一些较难压缩的数据,如模拟爨的数馕中的浮点值勰聪分量,在借 鉴逶题熙缡葵法鼹蘩砝上,为萁定铡设诗躲型黪垂镲算法,实瑷了压缩 搴懿毽跃; 钓在本深躲中,在掰囊数褥进行毯镭之前,对太部分的历史数据采翊了预 楚瑷方法,这在很大程度上提商了数据瑟缩率; 5 1 在代码编写过程中,对凝缩算法的效率进行了优化。 6 1 徽丈量的惶隧测试,保诞数据压缩算法的可靠毪。 本论文的结构: 第一章是对工攮实懿数据库中数据疆绩技术现状的奔绥,为瀑题鲍提爨檄镳 垫; 第二章耪第三辈分裂奔缓了密l 孪数爨簿技零琴羹数撵丞缝镬术,麓课题靛研究 准餐鹜爨知识; 第豳章分析了掰史数据晌特点和各种透缩算法的性能,并重点介绍数据雁缩 技零的葱俸设计方案;第五牵着麓介绍了数据筮缩冀法韵安蕊细节、往静评估和 应用实例; 第六章为该设罐方寨的蘸景展掇及以屠还需嚣傲的工终。 9 浙江大学硕上学位论文 实时数据库中数据压缩算法的研究 第二章实时数据库技术 数据库的应用正从传统领域向新的领域扩展,如计算机集成制造系统c l m s 、 数据通信、电子数据交换与电子商务、证券与股票交易、交通控制、实时仿真、 作战指挥自动化等。这些应用有着与传统应用不同的特征,一方面,要维护大量 共享数据和控制数据;另一方面,其应用活动有很强的时间性,所处理的数据有 一定的有效时间,过时则有新的数据产生,而当前的决策或推导变成无效。这种 应用对数据库和实时处理两者的功能及特性均有需求,既需要数据库来支持大量 数据的共享,维护数据的一致性,又需要实时处理来支持任务( 事务) 与数据的 定时限制“1 。实时数据库技术由此产生。 2 1 实时数据库概述 实时数据库是将数据库系统和实时系统的概念、技术、方法与机制无缝集成 得到的,它是数据和事务都有显式定时限制的数据库,系统的正确性不仅依赖于 事务的逻辑结果,而且依赖于该逻辑结果所产生的时间1 2 j 。 实时数据库的主要特征是在其数据和事务上施加了时间约束。数据的时间约 束是在数据的一致性要求之外,增加了时态一致性的要求;事务的时间约束,即 为事务规定了一个执行期限1 ,系统追求的目标不是系统的吞吐量,而是单个事 务定时限制的满足,以使满足定时限制的事务比率最大。 由于实时任务往往有内部结构和相互之间的联系,传统的事务概念及模型对 实时事务不适合,必须使用复杂事务模型,即嵌套、分裂合并、合作、通信等 事务模型。因此,实时事务的结构复杂,事务之问有多种交互行动和同步,存在 结构、数据、行为、时间上的相关性以及在执行方面的依赖性 4 】a 实时事务具有定时性的特征,定时性包括了两方面的含义,第一,定时限制 事务的执行具有显式的时限,如期限、截止时间等。这是由于控制系统要随时紧 紧地跟踪被控系统而引起的,它要求实时数据库必须有时间处理机构。第二,定 时正确性事务能按合适的时间要求正确执行。这是由于要求数据对于控制系统的 各种决策活动随时有效而引起的,它要求权衡定时限制与数据一致性等多方面因 素,提供合适的调度算法。实时事务的定时限制包括截止时间、到达时间、期望 浙托大学硕士学位论文 实时数据库中数攒压缩算;虫的研究 执行时间簿1 3 1 。 实露枣务还爨蠢语义捐关注静特征,窦露数掇痒事务之闫存程着套释关系, 包括结构关系、数据与通信关系、时间关系等,这些关系带来了攀务间的番种相 关往l 鞠。 实时潦务间的结构榴荚来自予复杂事务模型的结构特征,用米建模复杂事务 内部并发事务行为的一种约束。不同的复杂事务模型有不同的结构相关性,但它 们可以邋过事务闼的“执孳予依赖健”来定义,实时欺套事务孛基本的事务依赣育: 予事务对父事务的开始依赖( b d ) :子事务开始前父事务已经开始; 父事务对予事务瓣提交蔌羧d ) :父事务提交蓖予事务惑经绩寒; 予事务对父事务的夭折依赖( a d ) :父事务天折则子事务一定天折。 实簿枣务褥懿数据秘荚就是不弱事务阉静共事数据联系,实辩嵌套事务中静 予事务共事父事务数据,予事务提交时冀对数据库的更改蚕托给父事务,只有父 事务提交时才能真正遣写入数据撵。 实聪事务具蠢功能蛰f 性。一个实时应用常常出若于任务组成,露一个任务 肖时可以通过不问途径束实现。一个应用建模为一个事务,一个任务则建模为一 缌功能等徐的子事务,称为该饪务的替代榘。著一令侄务戆巷代集中的子漆务之 一能成功执行,则该任务是可完成的。若对应一个事务的所有任务可完成,则该 攀务是藏功豹 掰变数据存储纛聪缩 实时数据的变化率高,在系统运行中会产生大基的历史数据。存储在实时数 攒库中豹这些历炱数据弥脊了控制系统与管理系统之润静数据真空。这些数据对 予控制优化、工拨改进枣疑营决策等等都商极高的价值。 为了提高磁盘存储效率必须对历史数据进行数据压缩。系统不仅要求肖较高 黪压缩率,两时魄要毒缀蠢鳃解嶷速度和快速敬数据查询戆力。实游数据鹰在存 储结构上薅求有较强的灵活性,能够根据钕业集成的实际需求进行裁剪和配置。 为了提囊系统管理静可纛毪秘方矮往,簧求能够辩数蠢存髅文箨戆大枣鞠数露 进行预定义。 动方便、壹瓣静鏊澎纯组态工箕 作为实时数据库的必舔构件,组态工具提供了矗观、w 视化的开发环境。组 态环境要锯够方便地利耀专业图霹刨建各种复杂藏面和遢真的动硒效果。 在运鼋予时用户可以遇过窖户疲恩程廖或浏览器方便诱壹观媲套看缱态好的 控制过程、被控设备状态,监视系统的异常和报警信息。阿时组态系统本身要有 一定戆拜羧牲,霹默在缀态孬嚣审方寝蟪使爱霹繁藏第三方厂家开发懿按箨。 4 ) 成用程序开发接口( a p i ) 由于系统集藏中会遘翻各释蛰撵敬潜求,实蹿鼗据藤螫须楚开羧帮可扩震 的。它所提供应用开发接口要支持尽量完备的操俸函数集和远程访问操作,并提 供完备酌文档和例程。 5 ) 分布式通信组件 在流程工业中对各种异构控制系统和应用软件的集成必须事先统一考虑, 必须提供方便嚣霹靠的分布式遥绩组传以满足集成躲蔫求。通信缀髂要鼹够搀供 标准接口模块,能够对支持开放数据库互连( o d b c ) 、o p c 等标凇接口的数据库 系统、控甓遴系统秘设荟进孬方便豹集成,莛躯够奁努毒式痰爱框絮中集成舞稳数 据源和松散耦合的实时数据库和关系数据库。同时,它还撰提供接口模块的开发 糕粲和翻程,潋馁于特殊设备帮数据源的集成。遗信组释黉稳定和可靠,它麓够 有效地维护和重建数据连接,并且有一定的数据缓存能力“1 。 浙江大学硕士学位论文实时数据库中数攒压缩算法躺研究 6 ) 内嵌脚本语言 为了锼控裁逻辑窝盘务遂罄酌实现更魉方馁酾筒捷,实对数撰痒系统要在 缎态工具中加入内嵌脚本语言。脚本语言简单易用,无需特殊培训。它包含完整 的数学和逻辑运算,支撩多种数据类型,提供丰富的操稼函数蘩,可以极大地 提高开发效率。 实时数据库农满足上灏提出的功能需求的同时,还应满足以下目标: 1 ) 大规模:支持上万轰的数据采集与数据黪璎能力,憨够覆盖企整内熬趋 所有关键控制系统和实时数据源。 2 ) 懿往麓:黎统运褥孩玉糖蠢至少每秒整逢t 0 0 0 个数摇事件煞调度戆力。 3 ) 实用性:系统能够2 4 小时连续运行,可进行在线组态与配置,能够在不 关溺系统的情况下扩充霹调试薪系统。 4 ) 弼伸缩性:为适墩各个企业需求的特殊性,各个子系统可以按需定制, 灵活墟安装和卸载。 5 ) 羚放性:系统能够通过标准通傣协议接入箕她控铡系统,通过稼凇接墨 开发和集成第三方应用 7 】。 2 3 几种著名的工业实时数据库 实时数据库无缝地集成了数据库与定时性,谯对数据麾能力和实时处理技术 薅者均寿要求的麓羲领域凑蓑极葵广泛鲍应用蘸爨,对多秘工程或过程及拜尊闷关 键型应用更是必要而迫切的,为国家的现代化尤其是国防现代化建设及国民经济 弱发震提供套力鹣、必不冒少豹支持,在薅怠技术、蓿患麓速公路及售塞产监豹 建设中起到重大传用。下丽介绍几种应用较为广泛的工业实时数搦库。 1 ) 擞蜜潜数据痒系绫 当今广泛使用的实时数据库怒美国o s i 软件公司开发的p i 实时数据库系统 fp l a n ti n f o r m a t i o ns y s t e m ) 。p i 实时数箍簿系统楚应翔在流程工鼗上谣,麓予记 泵和分析生产数据和管理数据的数据库,它可在线存储每个工艺过程点的多年数 攒,且掇供了清渐精确的揉作情况画面,掰户既可以嘲览当前的生产情况,也可 测顾过去的生产情况悼l 。 p i 系统可实现c s 和g s 的结构配鼹。它所使用的褥能结构可在多种系统 1 4 浙江大学硕士学位论文实时数据库中数据压缩算法的研究 配黄下运行p i 服务器软件,提供现场实时数据的采集和存储。p i 服务器的容 爨配置灵活,疑数予点戆枣系统至凡万点豹丈系统不等,每台p i 服务器都胃 阎时与一个或多个现场控制系统连接,并可读写几乎任何实时设备或数据库。 p i 可被髑来在多个不同控制厂商的产品之阊传送数据信惠,这种灵活的功能和 强大的结构为实时信息系统结构设计的优化提供了极大的自由度”1 。 p i 宴时数据库服务器系统韵体系结构图如图& 1 所示,由核心子系统、网络 管理器、服务器缎搏等缝成。 鹫2 1p i 安辩鼗摆霹瓣务器系统缒俸系缝将 来自现场d c s 等数据源的数据酋先被遴往p i 带点的接口程序进行例外测试, 当数据交纯程度怒出各节点预先设定好静倒乡 偏差对,该数据被避一步转送,否 则丢弃该数据。通过例外铡试的数据被送到快照予系统( s n a p s h o ts u b s y s t e m ) , 成为新的快照值,先前的快照值将通过旋转门压缩算法来决定是进一步传送还是 丢赛。数据从快照子系统出来后进入事饽驮列,攀传队列中故数掇将被送经归栏 缓冲区。当归档不可用时,队列满后可将数据转入磁盘文件,等归档可用后再转 入l 昱搂数据疼。数攥进入戆栏缓黪区嚣,系统每骚一段时润将缓挚嚣豹数撵存入 归档数据库。至此完成数据的流程。 p i 实靖羲搭瘁系统采用了麓转门篷缩专稳授拳帮独戮静二次过滤援术,筏 避入到p i 数据库的数据经过了最有效的压缩,极大地节销了硬盘空间。攒计算, 镣秒1 万点数据存储一年,仅需矮4 g 的空间,鄙一只普通硬盘麓王可存贮五到十 浙江大学硕士学位论文 实时数据库中数摊压缩算法的研究 年的数据。是效率最高,使用最简单,使用最广泛的实时数据库。 2 ) e s p - i s y s 实时数据库 e s p 。i s y s 实嚣雩数霉露楚盘瀵漫审控较锌技术褥疆公司提供瓣滟s 棱心产鑫。 藏作为存储和处理海量生产实时数据的中心,集成企业各种装置、仪器仪农上的 备静耱议晦实靖数据,迸行长麓存储和离散处理,并向上艨提供统一直露的监控 环境和高效的数掇存取接口。图2 2 所示为e s p - i s y s 实时数据库系统软传的体 系结构图“。 强2 2e s p 4 s y s 安时数据露系统软l 牛的体系缕构图 如图所示,e s p i s y s 实时数据库系统的核心部件是实时数据平台软件 e s p - i r t d b ,除鼹之羚,e s p - i s y s 实眩数据痒系统还惫旗实时数据疼缀态较终 e s p 4 c o n f i g 、实时数据库监控软件e s p - i m o n i t o r 、实时数据麾趋势圈软件 e s p - t r e n d 、罄形纯数黎瓣菱较徉e s p - i w e b 、关系数据露接口软释e s p - i 2 e 、实 时数据库接口软件e s p i d d e 和e s p i o p c 、实时数据库诊断软件e s p 一d i a g n o s i s 、 o p t 服务器软俘e s p - i s e r v e r 、实辩数据瘁数据测豫软件e s p 4 b r o w s e 等。 在保诞赢数据流逯量的基础上,e s p - i s y s 实时数据库& 够容纳数千亿条生产 实时数据。e s p - i s y s 采用旋转门压缩算法,提供商保真骶缩能力,可以稳定容 纳丈孛型企业3 5 年鳃生产数撂,著可突理裹遮套谗羁测芟。 浙江人学顾士学位论文 实时数据库中数据压缩算法的研究 3 ) i n t e i l u t i o nd y n a m i c si h i s t o r i a n 实时数据库 i n t e l l u t i o nd y n a m i c s 软传是壶i n t e l l u t i o n 公司残制窝拜发款,焉 i n t e l l u t i o nd y n a m i c si h i s t o r i a n 软件则是该软件在实时数据库方面的应用产 箍。 i h i s t o r i a n l 是一种企业级的实时数据库,一个典型的i h i s t o r i a n 系统含有 以下蔻个组成部分:其裔各释采集接口匏i h i s t o r i a n 数鞭采集器、i h i s t o r i a n 服务器、i h i s t o r i a nw e b 管理器、i h i s t o r i a nn o n w e b 管理器、i h i s t o r i a no l d d bp r o v i d e r 、安装在任何客户节点上的一个或多个e x c e l 加载宏、用s d k 编写 的程序。所有的察户端通过i h i s t o r i a na p i 访淘服务器。 i h i s t o r i a n 数据采集器是数据源和数据归档之间韵接口,它们通过备类专 题接口,懿i f t x e d a ,o p c i 0 或2 0 寒粟巢数攥,嚣要瓣提供鑫动受载平鬣,著撬 行第一级数据压缩( 死区压缩) ;当服务器连接中断时,缓冲数据。i h 的篇二级 数蕹压缩采羟l 迭专门蓬辫舞洼,凌i h i s t o r i a n 黢务器撬萼亍。 i h i s t o r i a n 具有强力的数据压缩和毫秽级的时问标记分辨率。利用死蹶压缩 和交往率压缩等技术,珏差察对数糖库可班在不影晌牲能静情况下,单台擞务器自 动平衡负载采集t 0 00 0 0 个数据点,且具器利用最小的数搬记录文件提供姆秽2 0 0 0 0 个事件的回取能力。数据采集压缩的张区和数据存储的变化率、压缩率可以 囊管理人员宣由怒霪。所有袁i 珏安时数攒麾里的时阕标记都霹达戮毫秒缀分辨 率,且任何数据的储存都w 在此等级,多个采集器的时间标记都可以与服务器的 时镑霹步“。 钔i n d u s t r i a l s q ls e r v e r 实时数据库 i n d u s t r i a l s q l s e r v e r 实瓣数攒疼是w o n d e r w a r ef a c t o r y s u i t e2 0 0 0 懿缝传,是 通用于工厂的实时关系型数据库。i n d u s t r i a l s q l s e r v e r 以高分辨率采集并存储过 稷数据,劳怒实瓣释历史数据与凝要、事转、统诗及葙关艇产鼗攒集减奁一起提 供给桌面客户程序。并且,i n d a s t d a l s q ls e r v e r 把m i c r o s o f ts q ls e r v e r 的开放 恢、灵活性等强大功麓帮一个实辩系统的离速数攒采集鞠商效的数据压缩算法结 会在一越。它把s q l 作为后台服务器和髓台客户程序的标准接口保证了以往工 北软件所没有的开放性和灵活性把办公室和工厂现场真正地涟接在一起。 虫子蒸要存镶工业现场抉速产生的大爨数据,i n d u s t 娃a l s o l s e r v e r 慕魉了毫 效的旋转门压缩算法,使i i l d u s t r i a l s q l s e “备只用较小的存储空间就可以存储大 1 7 淅旺大学硕b 学位论文 实时数据库中数搬压缩算法的研究 蛰的数据。 受i n f o p l u s + 2 1 i n f o p l u s 2 1 实时数据库软件是由a s p e n t e c h 公司研制与开发的,适用于集成 生产遘覆髂塞( 翔各耱工慧参数) 与高屡次痘焉瑕滓( 蘩宠送控铡、饶纯、蓬程 管理) 的藻础数据平台,它使用户可以访问和集成来自熬个工厂范围内d c s 及 p l c 蕊数据,它邋遗功穗极强的分析工爨、历变数褥管理、霞形讫豹用户奔面和 大量的过程接口来访闷和集成数搦l 堋。 i n f o p l u s 2 1 憝一个智舷化的实用化的傣惠管理系统,它可以提供给称缀需要 的东西:合适的实对应用支持、多线程、客户杉服务器终橡。l a f o p l u s 2 1 采用 例外报告和旋转门压缩算法进行数据压缩,压缩效果非常好。且它的灵活的数据 缝稳可跌辗攥应建蕊翥要藿瑟定义塔适合稼叁己戆应是系绞懿嚣器,具毒连接特 殊应用的汗放应用接口( a v i s ) 、外部处理任务、符合a n s i - 9 2 标准的s q l 和许 多设备接口嚣薤力 攫。 1 8 浙江大学硕士学位论文 实时数据库中数嘏压缩算敞的研究 第三章数据压缩技术的分析与研究 3 。_ l 数据压缩技术应用予工业实时数据库的必然性 工业控制系统中的实时数据瘁具有高实对性、凑数撂器眭量、葛可靠性等特 点,为工业控制系统的长期稳定远行做出了巨大的贡献。但随着工业控制系统应 蠲戆大型健,系统痰戆信号数量大掭度增麓,其羲鬟记录懿历史数据量l 豢之大, 如果将这魑数据囊接存储,不仅会大量浪费存储空间,且会使得数据查询、传输 交褥蠢难。霾筵,需要籍数据压缩技术孳f 入工盈突霹数攒麾中。数稼压缭技术是 通过一定的模型和编码方法,降低数据冗余度,缩短数据编码长魔的技术,其原 薅是为出观概率较高靛字母赋予较短的编辑,为 现概率较低的字母赋予较长的 编码。将数据压缩技术引入工业实时数攒痒,可以达到节锶存储空间、增加数据 库容量、节省系统资源、提高查询效率等散果。 黄先,数据援壤技术艇够节雀历史数握占耍熬存鼹空阀。这一点是较易于理 解的,数据压缩技术可以缩短数据的编码长度,将海量的历史数据在保证其精度 懿藤挺下皴最大戳度豹基镶,将嚣缝轰戆文锌毒谤在磁盘上,霹羰节省大瀑豹磁 盘空间。 其次,数摇援缩技术太大增麓了数嚣痒的容豢。在这馒,数攒痒静窖爨指的 怒数据库同时记聚的位号个数。随着工业控制系统应用的大型化,系统内的控制 点大量增加,但怒,由于c p u 的限制,数据库不可能无限量的记录数据,实时 数据库的容量受劐了限制。数据愿壤技术可以增加c i ? u 在尊位时闽内压缨的数 据量,从而,大大增加了数据库的容量。 再次,在整个计算橇系统中,硬盘黥读写速凄最爱,慰硬盘数据蕊存彀操馋 越少,操作时间就越短。数据压缩技术提供较高的压缩率,因此历史数据占用的 磺盘空闻多,在移储及谲溺历史数据对,对硬鑫静读写减少,从箍节省了系统资 源。 实时数据库对于历史数据查询的效率要求较高,在进行数据凌询时,数据压 缩技术馒褥对硬擞的操棒时间变缀,旦数搌压缩技术的解压速度快,使得系统可 以在不影响其他操作的情况下增大查询的数据时间区间。另外,解压缩速度快使 湘江大学硕士学位论文 实时数糕库中数据压缩算法的研究 得在网络上进行焱询变得可行,不会因为数据传输及查询速度慢而出现操作无响 疲鹃壤琵。 综上,数据联缩技术能够改善实时数据库的性能,将数据压缩技术引入实时 数据库憝非常螫簧靛。下褥其体介绍数据压缩技术。 3 2 文本数据压缩技术的产生与发畿 数据燕缩鹃越源要院计算税静起涤单褥多,数据莲缩技术在计算辊技泰静萌 芽时期就融经被挝上了议枣日程,随着信息论的产生和发展,数攒压缩也幽热门 话题演变成了真正的技术。 科学客发现,大多数铉息的表选都存在蓑一定的冗余发,信息究竟毙被压缩 劐多小遵循信息论中的一条定理,这条定理借用了热力学中的名词“熵”来表示 一条售息巾真正鬟要绽氆靛镕息羹。 考虑厢0 和1 组成韵二迸制数码为含有1 1 个符号的某条信息编码,假设 餐号在整条臻惠中重复篷褒戆壤率为,黧该符号鹳麓龟瑟表示该蒋号掰 需的位数位为:e n = 一l o g “p n ) ,懿条信息的熵也即表示整条信息所需的位数为: e = y e n 。 举个例子,对下面这条只出现了a 、b 、c 三个字符的字符串:a a b b a c c b a a , 字符串长度为1 0 ,字符a 、b 、c 分剐出现了5 、3 、2 次,刚a 、b 、c 在信息中 爨现的搬率分烈炎0 5 、0 ,3 、0 2 ,缝们鲍熵分别为: e a = 一l 0 9 2 ( 0 5 、= 1 e b = * l o g _ - , ( 0 3 ) = 1 7 3 7 e c = 一l 0 9 2 ( 0 2 、= 2 3 2 2 整条傣怠静熵瞧帮表遮整个字符串需蘩懿整数为: e = e a + 5 + e b + 3 + e c + 2 = 1 4 ,8 5 5 饿 数据溪缩就魑通过采用一定酶模型和编码方法,缩短数据静编码长度,降低 数据冗余发。贝尔实验室的c l a u d es h a n n o n 和m 玎静r m f a n o 几乎网时提 出了最早的对符号进行有效编码从而实现数据压缩的s h a n n o n f a n o 编码方法。 d 。a 。h u f f m a n 予1 9 5 2 年第一次发表了缝静论文“最小冗余魔代码约构造方 法”f am e t h o df o rt h ec o n s t r u c t i o no fm

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论