版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数字图书馆高可用性的新视角a new visual of high availability librarys潘鹏程 李虹 孙发(温州医学院图书馆)摘 要 海量信息的有效组织与存储是数字图书馆的关键,本文对目前国内外可行的资源存储格式及存储架构进行比较与分析,探讨高可用性数字图书馆的一种可行的技术方案。关键词 数字图书馆;djvu格式;pdf/a格式;san存储abstract massive information efficient organaizition and storage are key factors for digital librarys.the article anal
2、ysize several widely used resouce formats and storage architectual, and gives helpful suggestions for high availability librarys development.keywords digital library; djvu format; pdf/a format; san 1. 引言高可用性数字图书馆的基本要求是:图书馆拥有丰富的信息资源,且这些资源通过internet可被用户简便快捷的获取。因此如何将海量的信息有效的组织起来并进行存储就成为高可用性数字图书馆的最大挑战。首
3、先面临的是数字资源的存储格式问题,格式的选择不仅关系到内容的呈现与传输方式,信息搜索和利用程度,还涉及到信息发布和交换的模式以及信息存储的成本问题等等。其次是存储架构的设计问题,存储系统的高可用性是数字图书馆高可用性的最直接体现,关系到数据的共享、数据集中、数据的安全管理以及数据的稳定获取。过去我们一直不够重视这些,从而阻碍了信息的共享与使用效果,使得图书馆资源得不到有效管理与最大利用。本文正是从这两个角度出发,跟踪新技术,探讨并选择适合图书馆的资源存储格式及存储架构,分析它们的特点及在图书馆中的应用前景,并在此基础上打造一种可行的高可用性数字图书馆。2. 数字资源存储格式数字图书馆的存储资源
4、或是一些由原生数字材料(bron digital marterial)数字化后的产品,如数字化的书、刊、学位论文等等;或是一些简单的纯文本形式的电子文档。因此体现在格式上也主要包括数字资源制作过程中的扫描压缩格式以及用于存档及发布的文本型数据的存储格式。2.1扫描压缩格式的选择2.1.1 纯扫描格式-tiff、jpeg目前数字资源制作过程中,用的最多的就是tiff和jpeg格式。采用黑白二值模式扫描的图像文件,一般采用tiff(g4)格式存储,它采用 ccitt iv无损压缩算法,压缩比例非常高,可以把容量为25m的一张300dpi图像压缩到100k左右,因此对于黑白扫描文档是比较理想的格式。
5、采用灰度模式和彩色模式扫描的文件,一般采用jpeg(或jpeg2000)格式存储。jpeg2000是jpeg升级版,它同时支持有损和无损压缩,其压缩率比jpeg还要高约30左右。而且jpeg2000另一个特点是能实现图像渐进传输,可以先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,让图像由朦胧到清晰显示。这特点尤其适合在网上传输和浏览图像,而不必像jpeg格式一样,由上到下慢慢显示。因此jpeg2000和jpeg相比优势明显,且向下兼容,对于具有彩色和灰度视觉效果的文档是比较理想的格式。2.1.2 一种高可用的扫描压缩格式-djvutiff和jpeg格式能够较好地展现原始文献的风貌,但这
6、种纯扫描格式也有一个致命缺点:几乎不能检索。这给应用带来极大的不便,不符合高可用性数字图书馆的要求。由at&t实验室1996年针对web发布开发的图象压缩技术djvu1较好的解决了这个问题,而且它能同时满足高分辨率及较小的图像档案要求,更适合作为数字图书馆的存储格式。djvu有更低的存储开销。典型的djvu文档在相同质量情况下压缩率比jpeg高5到10倍,比tiff格式的黑白文档好3到8倍2。以300dpi全彩色方式扫描的文档可从25mb大小被压缩至30到100kb大小。对300dpi的黑白文档经压缩后大小通常变为5到30kb。高分辨率的扫描页可被控制在html页大小(50kb左右)。djvu
7、有更高的分辨率。其关键技术是将图像分为背景层(纸的纹理和图片)和前景层(文本和线条)。通过将文字和背景分离开来并采用不同的压缩算法,djvu可以用高分辨率来还原文字,使锐利边缘得以保留,并最大限度地提高可辨性;同时用较低的分辨率来压缩背景图片,从而使整个图像的质量得到了保证。使用djvu格式,用户首先会很快得到页面的一个最初版本,这个版本主要是含有文字的前景层。随着后续信息的到达,图像质量不断提高。这类似于jpeg格式的逐级提高精度的方法。djvu可实现检索功能。djvu不仅仅是一种图像压缩技术,而是像pdf那样支持隐含文本(hidden-txt),第一层容纳图像信息而在第二层隐藏文本信息,即
8、前端以图像方式体现文档原貌,后台集成文字信息,它拥有完整的导航、搜索、超链接等可编程模块,这特点适合于图书馆中图文混排文档的发布和传递。2.2 文本型数据存储格式的选择2.2.1 私有格式与开放格式目前文档数据格式主要分私有格式与开放格式两大类,像微软开发的doc,adobe公司开发的pdf,清华大学开发的caj等都属于私有格。这些私有格式往往是一家公司所有和控制并与特定软件进行捆绑,严重地影响了人们对不同软件系统下产生的数据的共享。另外,软件产品和厂商的兴衰也直接影响私有文件格式的使用寿命,它们或由于技术原因而出现过时和淘汰现象;或由于需要而引入新的功能或限制,从而影响了人们对特定格式内容数
9、据的长期存取与使用。这就很难满足高可用性数字图书馆的要求。因此决定电子文档的高可用性,主要取决于文档格式是否具有开放性。开放是共享的需要,也是文档长期存取的需要。目前这类开放格式已有rtf、text、xml等。rtf是rich text format的缩写,意即多文本格式。这是一种类似doc格式的文件,有很好的兼容性;但由于rtf文件体积庞大,控制字众多,容易产生混乱。txt文件体积小,使用方便,但它不能插入图片,不易与外界进行交换。xml文档格式是最具有优势的,它拥有平台无关性以及元语言性质,可以自定义“电子文件类型定义”及封装元数据等功能,具有很强的开发性,因而是一种具有生命力的存储格式,
10、发展基于xml的开放文件格式也成为趋势。其中最近刚刚兴起的odf(opendoeumen format)就一种基于基于xml的电子文档格式,它涵盖了文本、电子表格、图表和绘图文档所需要的特征。但它更多是从办公应用角度设计的,更适用于办公环境。2.2.2 适合数字图书馆的文档格式-pdf/a由adobe公司的代表及其他团队开发的pdf/a格式是一种适合图书馆文档保存、传递和发布的一种开放文件格式。pdf/a于2005年5月被iso批准为电子文档存档标准格式,其目的是定义一个文档格式以保存电子文档静态外貌,它自带字体和呈现内容所需的组件,在浏览器上不可编辑等功能,有效的保证所保存内容在时间轴上的一
11、致性。因此pdf/a主要应用于拒绝被修改和编辑的档案管理领域和文件公开发布领域,如图书馆、档案馆等机构。另外,pdf/a作为一种开放的存储格式,提供一个记录电子文档的元数据框架,以及提供定义电子文档逻辑结构和语义属性的框架3。其包含基于xml和rdf规范的元数据平台xmp,提供描述、起源、保存和管理的功能。xmp元数据作为纯文本被嵌入到每个文件中,以减少内容丢失的可能性,并且可以通过元数据进行简单检索。它规定所有文档的字体必须包含在一个pdf/a文件中,不可利用其他商业性字体,没有加密和批注功能,不可嵌入多媒体等,这些规定保证了pdf/a文件对系统软件和应用软件的独立性。它的出现正好迎合了人们
12、共享数据的需求,可有效地运用标准格式保存珍贵文献和传递重要文件。3 数字资源存储架构3.1 数据存储的需求数字图书馆中高可用的存储格式还需要有高可用性的存储系统来支撑。目前电子资源以惊人的速度迅猛发展,数据曾几何级增长,数据存储面临不断扩容的压力;另一方面,在高质量的数字图书馆服务系统中,724小时的不间断服务渐成为主流,这更加剧了硬件扩容与服务不间断之间的矛盾。传统以服务器为中心,文件服务器和数据库服务器作为数据集中存储的地方的存储模式显然不能满足需求。因此我们必须寻求新的存储模式,建立以数据为中心,分布处理、集中管理的存储体系。总的来说,高可用性数字图书馆存储架构必须满足:对海量信息进行存
13、储;方便的实现在线扩容;具有很好可靠性与易管理性。3.2 高可用的存储架构-san目前较为流行的是网络依附存储系统(nas)和存储区域网络(san)两个存储架构4。在性能方面,nas的系统访问能力受限于lan的速率和服务质量,并不能满足海量数据的存储访问的需求;san是以数据存储为中心,采用灵活的网络拓扑结构,通过具有高传输速率的光纤通道的连接方式,是图书馆值得推荐的一种存储架构。san有许多的优点:首先,可对数据进行集中化存储与集中化备份管理;第二,可扩展性强,容量可扩展以符合网络需求,在不影响lan性能的情况下充分发挥存储硬件的功能;第三,配置的灵活性,具备长达20公里距离的远程功能以及灵
14、活的网络部件,基于光纤通道的san可以根据要求进行配置;第四,支持异构服务器,unix、nt和netware服务器可同时连接;第五,数据备份不占用lan带宽,实现lan-free的备份。因此san架构有良好的稳定性、扩展性、安全性和可管理性,能最大限度地发挥整个存储系统的性能。目前san的一个研究与应用热点是san存储虚拟化技术。它是一种智能化的存储系统,其目的就是让用户和应用系统把san作为一个单一的资源池来存储和控制,实现资源共享。通过san的存储虚拟化图书馆可以根据需要分配存储资源,整合不同设备厂商的存储产品,提供可选择的配置功能获得更高的可用性和减少用户总成本。4.高可用性数字图书馆的
15、一种可行的技术方案考虑到以上这些新技术的一些特点以及在应用方面的成功表现,我们有理由通过选择合适的存储资源格式以及存储架构来打造一个高可用性的数字图书馆。首先可以考虑利用 djvu作为数字图书馆中的图像和所有扫描文档的格式以替代传统的tiff与jpeg格式。如我们在电子书的制作过程中,将扫描得到的tiff和jpeg格式先进行去污和压缩处理,然后采用转换工具进行djvu格式转化并进行光学字符识别(optical character recognition,ocr),将识别出的的文字置于djvu文件的隐藏文字层用于检索和利用。将双层的djvu格式就作为电子书封装发布前的一种内容格式,这一方面可以节
16、省存储空间而且能够呈现更为清晰的图形和文字,另一方面还可以实现检索功能,满足用户的多方面需求。另外采用pdf/a格式作为数字图书馆文本型数据的保存与发布格式,这样既可以实现数据共享,又能满足资源长期存取的要求。因此充分利用djvu和pdf/a这两种格式的特点,可将数字图书馆从内在本质中体现出它的高可用性。其次在资源存储上,希望实现高可靠的数据集中管理、整合目前相对分散的存储资源,考虑采用san架构来组建高性能、高可用性的网络存储体。我们可以将传统的以太服务器通过光纤交换机与磁盘阵列相连,构成双冗余的san系统。这一方面可以实现数据集中式存储以及数据的可靠性和高可获性;另一方面可将服务器从沉重的
17、磁盘管理和i/o操作中解脱出来,减轻了服务器负担,提高了系统的性能。另外考虑到图书馆对存储容量需求的几乎是无穷尽的,可以采用san虚拟化存储技术,达到资源的最大利用。如我们由于设备的更替,往往许多旧有的磁盘阵列子系统惨遭淘汰,可通过虚拟存储软件将它完全虚拟成一个大的存储子系统,或作为文件级的共享服务,或作为备份磁盘来使用。这样解决了旧有磁盘阵列的利用问题。因此充分考虑san架构及其虚拟存储技术的特点,可将数字图书馆从外部条件上体现高可用性。图1是高可用数字图书馆的一种可行的技术方案。图1: 高可用性数字图书馆的一种可行技术方案5.结语资源存储格式及存储架构对海量信息组织管理及利用有着直接的联系
18、。但资源格式繁多,涉及的技术与标准也各不同,同时新的存储技术与存储架构也层出不穷;因此建立高可用性数字图书馆需不断的跟踪新的技术,选择最具潜力的格式及构建科学合理的存储架构。我们有理由相信,以数据存储为中心,制定完善的存储策略,采用成熟开放的资源格式标准,构建一个高效、稳定、易用的数字图书馆是完全可行的。参考文献1. l. bottou, p. hafther, p. g. howard, p. simard, y. bengio, and y. lecun. high quality document image ompression with djvu. journal of electronic imaging, 7(3):410428, 1998.2. /3. stephen abrams, betsy fanning, diana helander, susan sullivan. crm. pdf/a the development of a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年古典家具买卖合同模板
- 2024年个人租房合同样本
- 2024年修订版个人消费借款合同
- 地下室防水工程后期维护合同
- 2024年专业版:配偶离异权益保障协议
- 2024年员工技术创新保密协议
- 2024年全权委托代理协议
- 2024年企业授权委托协议:代表权利与义务
- 2024年个人大额存单质押融资合同
- 2024年大学食堂餐饮承包合同
- 水泵扬程计算表
- 股权赠与协议范本只享有分红权
- 数控铣床零件加工工艺分析与程序设计毕业论文
- 混凝土的几种本构模型
- 污泥石灰干化工艺的工程应用
- 384种矿物与矿石标本实例照片
- 第二课简单趋向补语:v+上下进出回过起PPT课件
- 机动车登记证书翻译件中英文模板(共2页)
- C++程序设计:第8章 数组
- 小学书法人美版五年级下册 第10课 广字头 课件(10张PPT)
- 两自一包体制改革策略应用案例探索
评论
0/150
提交评论