电子文件长期保存格式探析_第1页
电子文件长期保存格式探析_第2页
电子文件长期保存格式探析_第3页
电子文件长期保存格式探析_第4页
电子文件长期保存格式探析_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、电子文件长期保存格式探析电子文件格式是指将信息以某种格式进行编码,而且只 有依靠特定组合的软硬件方能对文件实施读写操作。随着信息化建设 的发展,已有的电子文件格式很多,新的格式也不断产生。因此,为了 确保电子文件的长期存取,档案部门作为永久保存电子文件的基地,应 采取各种措施积极应对这种挑战。一、电子文件内容、形式及常见的格式电子文件是指在数字设备及环境中生成,以数码形式存储于 磁带、磁盘、光盘等载体,依赖计算机等数字设备阅读、处理,并可在 通信网络上传送的文件。它主要包括电子文书、电子信件、电子报 表、电子图纸等等。按载体划分,可以把电子文件分为光盘文件、破 盘文件、软盘文件和磁带文件;以数

2、据的表现形式为划分标准,有字符 文件、表格文件、图文混排文件、数据库文件、图形文件、动态影像 文件与声音文件等;以属性为划分标准,数据库文件又有foxbase(动 态数据基地)数据库、foxpro( “京通”软件应用的)数据库、 access (通路)数据库、orcal( “灵通”软件应用的)数据库等。按电子文件的格式划分,有数字文本文件、数字影像文件、 数字图形文件、数字语音文件、数字视频文件。文本文件常见格式有 xml、txt、uof、rtf、wps、pdf/a、ceb、sep;图像文件常见格式有 tiff、jpeg2000、jpeg、gif、png、djvu;音频文件常见格式有wav、m

3、p3、wma、ogg vorbis、flac;视频文件常见格式有 avi、 mov、mpeg 等。二、电子文件长期保存格式选择存在的问题选择专用媒体或是专用存储格式将來会导致数字存储问题, 例如媒体格式。选择专用媒体格式存储电子文件,必须考虑将来该格 式的过时问题。再例如文件格式。为了确保电子文件的长期存取,如 果采用专用的文件格式,会由此增添更大的复杂性。专用软件的应用 常常升级至最新版本,然而软件的功能却没有像版本变化那么明显。 随着吋间的过去,文件格式累积的变化更为显著,甚至危及格式逆兼 容。对遗产软件的维护显得很急迫,但是存在的问题颇多。就像应用 软件一样,操作系统也得定期升级,随着系

4、统基本体系结构的发展,将 来不再支持遗产软件,不对遗产软件支持就意味着产生新的安全问题 的风险也在增加。三、电子文件长期保存格式的选择标准1、按格式种类分析要作为文本型电子文件的归档格式,马春茂认为应该符合 下列条件:(1)应该是公开的格式,不依赖特定的系统和软件存在,能够 在可以预见的时间内被正常读取;(2)应该保持文件生成时的排版格式, 即使经过办公软件的不断升级,也能输出同纸质文件一样的格式;(3) 应该便于数据交换、便于查找和检索;(4)应能保证电子文件在处理过 程中不被篡改和窃取。为了对数字资源实施长期保存,对保存图像格式的选择尤其 重要。叶新民认为应满足格式使用的标准化和广泛性;格

5、式应是公 开的,而非私有的,而且应公开已出版的技术资料;格式应支持元数据; 格式应对存储介质无依赖性等耍求。对于数码录音的电子文件长期保存格式,张文浩认为应支 持真实性验证技术、数码音质无损、文件格式开放透明、不绑定软硬 件、格式自描述、格式自包含、易于存储、格式紧凑、信息安全、代 价最小等要求。数字摄像(dv)、数字电视(dtv)和网络视频系统的广泛应 用以及对现有模拟视频的数字化,视频电子文件的数量和类型不断丰 富。项文新等提出从保证视频文件的原真性和档案保管利用的便捷 性出发选择合适的视频电子文件归档格式,认为视频电子文件应尽可 能保证视频文件的原真性。2、综合性分析对于长期保存人类文化

6、遗产的档案馆、图书馆,最关心的是 数字信息的内容不得丢失。刘家真针对电子文件保存格式的选择问 题,认为该格式能在不同的环境下使用;应是通用的、非专用的格式; 支持数据从专用格式的环境中移出;最好是标准格式;被业界或用户广 泛支持;具有可扩展性;可真实完整地被用户读出并理解,无论何时何 地,用户所查到的该文件信息都与该文件最初情况完全一致;具有自 身的可证明性;具有可评价性。档案是历史的真实记录,具有凭证价值与情报价值。李泽锋 认为档案数字化过程屮选用电子文件格式应考虑:保持档案原貌,利 于网络平台下的传输交流,具有一定的标准性,具有较好的通用性和可 移植性,选用电子格式的支持软件应支持数据从专

7、用格式中方便地移 出。为了应对电子文件长期保存的需求,adrian brown对电子 文件长期保存格式的选择标准进行了积极的探讨,认为应具备开放标 准、普遍性、稳定性、对元数据支持、互操作性、可生存性、真实 性、可处理性、固定显示等9个条件。3、笔者的理解电子文件的格式选择是由电子文件创建过程的操作要求和电 子文件长期存取的要求所决定的。综合各位学者的观点后,笔者认为 电子文件长期保存格式的选择标准应具有以下几点:(1)开放性。格式 开放,有公开发表的相应标准和技术规范,有与产品无关的技术专家组 和标准化组织支持该格式。(2)标准性。该格式被广泛使用,具有自由 使用的技术规范,可转换性高,支持

8、保存元数据。(3)稳定性。不会随 着时间的推移而作重大的变更,而且新版本的格式也应该能够做到逆 兼容。(4)广采性。数字格式的广釆性包括个人电脑随机软件包、web 浏览器的本地化支持、数字产品格式易转换等。软件厂商对创建良好 和广泛使用的格式往往要比仅仅瞄准新市场的格式具有更宽泛和更长 久的支持。流行格式会尽可能多地受到软件厂商的支持,人们可能更 喜欢采用。(5)软硬件平台的独立性。被多种操作系统和应用软件支 持。支持多种存储技术,或与存储技术无关。当用户不能使用指定产 品软件时,可使用已有的插件读取。使用与设备无关的颜色规范实现 准确打印和再现,不必考虑软硬件平台。(6)真实性。电子文件的真

9、实 性要求保留“原貌”(例如字体、颜色和外观),数据迁移要求选取的 文件格式能够保留文件“原貌”。(7)可利用性。要确保电子文件可 读、可利用。四、几种适于长期保存的电子文件格式1、pdf/a 格式pdf格式规范已经公开,并可免费获取,具有广泛的支持性。 该格式具有与平台、字体无关的特点,解除了电子文件与操作系统的 依赖关系,用户可以通过它的通用浏览器adobe reader在windows、 unix、mac等任一系统平台上原版原式地读取pdf文档,不受操作系 统、网络环境、应用程序的版本、字体的限制,从而从电子文件自身 的角度保证了电子文件的可读性。pdf格式所具有的高度兼容性使用 户可以

10、轻松地将任何文档原版原式地转换成pdf文档,进而固化信息, 使之不易更改,保持了原文档信息内容和结构的完整、真实,为不同软 件生成的电子文件提供了一个可完整迁移其信息内容的统一文件格 式。pdf/a-la实现了对文档逻辑结构的保存和以自然阅读顺序保存 文木。pdf/a-lb可实现对文木和附加内容的正确显示。在各国政府 机构包括美国、英国、德国、新加坡、印度、澳大利亚等的电子政务 领域中,pdf格式也被广泛应用。综合来说,pdf/a格式的特点是支持 数字签名、格式开放、不绑定软硬件、格式自包含、格式自描述、固 定显示、不包含加密、可向其他文本格式转换等。2、tiff格式tiff(标记图像文件格式

11、)是由aldus和microsoft公司为桌 面出版系统研制开发的一种灵活的位图图像格式,用于应用程序之间 和计算机平台之间交换文件。实际上已被所有绘画、图像编辑和页面 排版应用程序所支持,而且几乎所有桌面扫描仪都可以生成ttff图 像。tiff支持多种编码方法,其中包括rgb无压缩、rle压缩、lzw压 缩、zip压缩、ccitt压缩等,6.0版本又增加了 jpeg压缩选项。tiff 格式由于存储图像质量高非常有利于原稿的复制。另外,所有绘画、 图像编辑和页面排版应用程序以及大多数扫描仪对tiff格式都提供 良好的支持,这使得ttff格式成为数字图像处理的最好选择。3、jpeg2000 格式

12、jpeg2000于2001年正式成为国际标准。jpeg2000完全采用 小波变换代替余弦变换,与jpeg相比,具备了更高的压缩比以及更多 新功能。在文件大小相同的情况下,jpeg2000压缩的图像比jpeg质量 更高,其压缩率比jpeg高30%左右,精度损失更小。jpeg2000的特点是:(1)同时支持有损和无损压缩,而jpeg只能支持有损压缩。(2)能实现渐进传输,先传输图像的轮廓,然后逐步传输数据,不断提 高图像质量,讣图像由朦胧到清晰显示。(3)支持对图像中细节较多或 较为感兴趣的区域进行高精度的无损编码、很强的容错性、支持水印 等。(4)jpeg2000的许多优点和新的功能都是建立在复

13、杂的计算与较 犬的缓存基础上,因此其速度与jpeg相比要慢许多。4、flac格式flac属于无损音频压缩文件格式(文件名为.flac) oflac 格式文件较小,便于播放。ogg计划支持flac,也可将flac音频数据 封装在ogg传输层屮,生成ogg flac格式文件(文件名为.ogg) o ogg flac格式文件较人(比ogg vorbis格式文件人得多),便于传输、编 辑、播放。该格式的特点是支持真实性验证技术、数码音质无损、文 件格式开放透明、不绑定软硬件、文件格式自描述、格式自包、易于 存储、信息安全。5、mpeg格式mpeg 即 moving picture expert gro

14、up(运动图像专家组), 用该编码器编码的影音文件扩展名可以是mpg、mpe、mp4、m1v、m2v 等,其中m1v和m2v都表示该影音文件中不包含音频部分,只有视频部 分。这种格式也流行了很长时间。未压缩的avi格式文件经mpegt、 mpeg-2和meg-4等编码压缩后,图像容量大幅度缩小,也质则降低不大, 而且图像质量视编码参数而定。该格式具有压缩算法公开、不绑定软 硕件、易于转换等特点。五、电子文件永久可读性问题文件格式种类繁多,打开方式多种多样,产生它们的软硬件环 境也多种多样。对于一代又一代不同系统中生成的各种格式的电子文 件,必须确保人类能够阅读,否则保存就失去了应有的意义。解决

15、该问 题的办法有:(1)不断地将文件转换成当前通行的新文件格式,使之不 至于因为软硬件平台的过时而无法阅读。(2)采用一定的独立于任何 计算机系统的统一格式存储文件。(3)将电子文件连同生成该文件的 软件及其运行该软件的操作系统和硬件一道保存起来。当然这些方法 都还不是解决电子文件永久可读性问题的万全之策。我们在实践中只 能在以上方法中选择损失信息较少,可行性较大的方法來作为现阶段 的对策。目前,大多数人选择了第二种方法,他们舍弃了对原文件结 构、格式的追求,而重点强调对原文件内容的忠实再现,在可能的范围 内使用较为通用的编码格式。而对于那些特殊的,没有标准格式的电 子文件采用第三种方法,暂时

16、将其支持系统一并保存下来,等待有关标 准的出台。另外,在目前电子文件数量较少的情况下,采用第一种方法 也是可行的。六、结语如今数字技术飞速发展,数字信息的可存取性却变得非常脆 弱。电子文件采用可长久存取的文件格式的优越性惠及数据创建者、 数据管理者和电子档案工作者。因此,对于电子文件的格式问题,不仅 需耍电子文件制作者,还需要负责电子文件管理和长久存取的所有人员都特别重视,积极采取措施确保电了文件的长期存取。注释:%1 马春茂:电子文件归档格式思考,北京档案,2007 年第7期:28-30o%1 叶新民:数字资源长期保存中的图像格式选择分析,图 书情报工作,2006年第5期:115-117o%1 张文浩:数码录音电子文件长期保存格式研究,黑龙 江档案,2009年第2期:6-7o项文新、张照余:视频电子文件的归档格式研究,档 案学研究,2006年第4期:52-56o%1 刘家真:文件保存格式与pd

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论