




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、中国古籍数字化建设若干问题的思考秦长江(南京农业大学人文学院,河南科技大学经济管理学院)(江苏南京,210095;河南洛阳,471003)摘要;本文介绍了古籍数字化建设的发展阶段,着重概括总结了我国古籍资源数字化建设的相关难点及其进展。关键词; 古籍;数字化;文献 中图分类号; g255.1按照古籍著录规则中的定义,古籍主要是指1912年以前在中国书写或印刷的,具有中国古典装订形式的书籍。中文古籍是宝贵的文化遗产,对今人进行科学研究和文化传承都具有非常重要的意义。但这些宝贵资源现已变得相当脆弱,从而限制了大部分读者的使用。古籍数字化就是利用现代信息技术将古籍转化为电子媒体的形式,通过光盘、网络
2、等介质予以保存和传播。我国古籍数字化建设始于20世纪80年代,大体上经历了3个阶段。第一阶段是建立中文古籍书目数据库阶段。这一阶段主要是一些具有古籍资源的大型或专业图书馆,在馆藏古籍书目卡片基础上,使用专门开发或通用的数据库,将馆藏古籍书目信息输入计算机,用计算机进行管理和检索古籍的文献信息。第二阶段是光盘版古籍阶段。虽然古籍书目数据库解决了古籍的快速查找问题,但由于受到古籍保护制度的制约,读者对古籍的利用仍是传统的借阅方式。随着计算机扫描技术、图形照相数字化技术、计算机存储技术的快速发展,研究人员将古籍通过扫描或照相,转化成数字文件,储存在光盘中,实现了通过光盘在计算机上查找和浏览古籍的内容
3、。光盘版古籍最重要的优点是保留了古籍的二维图像特征,携带方便,使用时不影响原古籍的保存。第三阶段是网络化古籍阶段。随着因特网的发展和数字图书馆的出现,一些图书馆将数字化的古籍文本内容及相应的图像信息,在网络上提供查询、浏览等服务,解决了光盘版古籍受光盘容量大小以及必须到馆的限制,用户选择古籍具有更大的主动性,彻底改变了古籍的传播和使用的方式。本文拟就我国古籍资源数字化建设过程中的相关重要问题和进展,予以概要总结。一.汉字字符集问题字符集曾经是长期困扰中国古籍数字化工作的首要必须解决的问题。因为采用什么样的字符集事关古籍文字能否在电脑上正确地表达和显示。解决这一问题需要考虑两个因素:一是字符集所
4、包含汉字的数量是否能满足古籍的需要,二是字符集的编码体系能否满足资源共享的需要。经过探索和实践,目前国内学术界在字符集的采用上已有主流看法:采用国际标准iso/iec10646。原因是:首先,这一国际标准字符集结构体系能同时处理多国文字,可实现跨平台展现内容,从而使数字化古籍产品能超越语言限制,在不同的视窗平台上运行,解决了古籍资源全球共享的问题;其次,因为它包含了较为充足的汉字数量,对古籍用字来说,iso/iec10646的已通过部分虽说仍然存在域外字,但和gb2312相比,数量只有后者的约十分之一。目前,国内学者已普遍认为iso/iec10646是“古籍数字化的唯一之选”。二.计算机对古汉
5、语的处理问题计算机对汉字的处理能力主要是简体字,即使一些软件可以处理繁体字,但汉字字库也是非常有限的,国标字库(gb)只收6763个汉字,国标扩展汉字字库(gbk)也只有2090个汉字,而常用的古代汉字有4万多字,尤其是2万多常用的异体字、繁体字、通假字、避讳字等的大量存在,造成了古籍文字转化为文本信息时存在的许多具体问题。这就要求必须实现文本字符的数字化,即汉字是以编码而不是以图形的形式储存在计算机中。如果是通过扫描技术将古籍原文转化为数字图形,则必须有一个将数字图形映射为数字字符的环节,这就是ocr(光学字符识别)技术。因为只有实现了汉字由图形向编码的转变,才能实现对汉字的编辑修改,对文本
6、的深度加工也才有可能进行。在古籍数字化的过程中,基本上采用的是扫描图像的方式。古籍扫描存在这样的问题:速度较慢;受幅面的限制,往往扫不下古籍完整的幅面,须分两页来扫,不能保持古籍的原貌;一些特殊规格的古籍,如特大开本或卷轴装的古籍,只能通过其他技术处理后再转换扫描。所有这些问题,现在都可以通过使用数字照相技术得到解决。数字照相机的拍摄不受幅面限制,能较好地实现古籍的数字化。20世纪年代90以后,我国的汉字识别技术(汉字ocr)进入了实用化阶段,标志是几种流行的印刷体汉字识别系统可以做到识别各种形体、各种型号的印刷体汉字4000多个,识别率达到95%。汉字识别技术的实用化,为解决古籍原文的高速自
7、动输入提供了基本的技术程序。上世纪末,专门针对古籍输入系统的开发研究较多,也有了运用于大规模古籍输入系统的较为成功的范例。如文渊阁四库全书电子版在研制过程中开发的“非特定人准规范手写系统”一次正确识别率平均已达92%。目前,解决古籍原文输入问题的思路和方法已经明确:ocr技术是最佳方案。一个ocr系统包括前处理(以版面分析为主)、单字识别和后处理(以文字、版面校对为主)的3大部分。现在单字识别技术已基本过关,薄弱环节是缺乏通用的、功能较强的前、后处理软件,对古籍来说,前处理、后处理技术是否具有更为广泛的通用性还有待进一步验证,但这一技术在大规模古籍数字化工程中的运用,已经使学术界看到了较好解决
8、古籍“输入”这一瓶颈问题的前景,更多的研究方法和手段都在探索实践当中。三.数字化古籍的“保真原则”和“整理原则”20世纪末,国内有学者提出了数字化古籍“保真原则”和“整理原则”相辅而行的思想。所谓“保真原则”,即数字化古籍产品应具有“文物存储性”,具有重现作为历史文物的古籍原貌的功能,具体表现是数字化古籍产品应该形成数字图形版,它主要满足版本研究、文物鉴赏、书史研究、文字校勘、原件对照等特殊需要,可以认为是印刷版阶段“影印本”的数字化。目前实现古籍产品数字图形版已不存在技术上的障碍。所谓“整理原则”,是指数字化古籍产品应该具有“资料应用性”,具有超文本浏览阅读、全文检索、研究支持等功能,具体表
9、现是数字化古籍产品应该形成数字文本版。数字文本版是数字化古籍产品的主要形式,古籍数字化建设中的“整理”工作,主要就是围绕着形成数字文本版而展开的。贯彻“保真”和“整理”相辅而行原则的数字化古籍产品,实际上是将“影印本”和“整理排印本”合一,这是充分张扬数字化产品优势的举措,它不仅给不同需求的人带来了利用上的方便,而且为古籍保存、善本留真开辟了新途径。目前,国内的数字化古籍产品真正全面体现“保真”和“整理”相辅原则的还不多,大多还停留在单纯数字文本版或单纯数字图形版的阶段。因此明确“保真”和“整理”相辅原则才更具现实意义,这一原则是在总结我国古籍数字化实践经验基础上形成的一个重要理论原则。它为今
10、后的古籍数字化建设指明了发展方向。四. 古籍研究支持系统的开发我国的数字化古籍产品都在研究开发支持系统方面做了有益的探索。主要功能包括:1.内容的超链接功能。若从阅读习惯和舒适、便携程度来看,电子版书籍远不如印刷版。数字化古籍的真正优势在于对古籍内容的超链接设计。比如,正文相关内容之间的链接,正文与注释之间的链接,不同注释之间的链接,正文与相关知识资料之间的链接,甚至典籍内容与相关网站的链接等等。有了这样一些超链接设计,人们在阅读古籍时就可以改变传统印刷版的线性顺序,可以以语词点、知识点为中心,发散性地、即时性地、有选择性地寻找需要的内容。对于今人利用和研究古籍作品,这种阅读环境至关重要。2.
11、强大的检索功能。虽然印刷版古籍也具有一定的检索功能,但限于编制工作的浩繁,印刷版索引总是粗疏的、有限的。计算机有自动生成索引的功能和海量的存贮空间,从根本上解决了编制工作浩繁和规模大小的问题。再从实际需要看,今人利用古籍,查找检索多于系统阅读,因此强大的检索系统对于古籍数字化作品是必须的。强大的检索系统是指以全文检索为基础构造的检索系统,主要包括关键词(主题词)检索、条件检索、逻辑检索、模糊检索、组配检索、属性检索。其中属性检索对于古籍的利用与研究有特别的意义。属性检索是一种智能化检索,属性设置体现了原书的内容特点,往往可以满足利用者特定的需要,因此,在数字化古籍的检索系统中,属性检索应该是不
12、可或缺的。如以“体裁”为属性,可以汇聚同体裁的作品;以“写作时间”为属性,可以汇聚相同时间写作的作品;以“事件”为属性,可以汇聚古籍中记述的所有事件;以“图像”为属性,可以汇聚古籍中收载的所有图像资料。3.研究支持功能。研究支持功能是指能够提供有关古籍内容本身的科学、准确的统计与计量信息,提供与古籍内容相关的参考资料、辅助工具。这些信息、资料或工具都是古籍内容的增值或补充。比如古籍字数、字频、词频的统计数据,异体字库(异体、通假、正讹、古今等)的配备显示,读音的自动标注和朗读,行文风格特点的概率统计,必要的背景知识、参考资料的汇聚,在线标点断句实用工具的配备,不同版本比勘校对界面的设置,联机字
13、典词典、历史年表、历史地图等研究辅助工具的加载等等。有了这些研究支持功能,不仅可以极大地改善研究者的研究条件,而且还会带来研究思路、研究方法的变革。智能化研究支持系统的开发和实现,是每一种古籍数字化作品都需要特别关注的,也是最具竞争力的。 北京大学计算语言研究所和北京大学古文献研究所合作开发的以全宋诗为对象的古诗研究计算机支持系统。该系统利用计算语言学的方法,通过计算相邻字的“互信息”等方法进行语料的自动抽词和建词典,据介绍正确率达到了95%。选取任一诗作的第一句和偶句的尾字,与系统中储存的韵书和押韵规则相匹配,自动判断诗作的押韵状况与韵脚,为古诗格律研究提供支持;通过条件概率计算、互信息计算
14、、规则匹配、信息库(如注音字典库、多音字发音频率库、多音字组合库)信息匹配等方法,实现对诗文的自动注音。这类研究已经不仅是基于全文检索的简单数量统计,而是在统计基础上的智能决策,部分替代了人的思维,发展前景诱人。目前,他们正以古籍自动抽词和建词典工作为基础,研究古籍的机器自动翻译;以古籍自动注音为基础,利用多媒体技术,研究古代诗文的即时自动朗读。智能化是古籍研究支持系统大有可为的发展方向。五.计算机古籍整理通用系统的研制开发古籍资源数字化一旦进入大规模实施阶段,必须依托于一系列开放、兼容、通用的计算机处理软件,如校对软件、标引软件、检索软件、研究支持软件等。目前的数字化古籍产品处理软件基本上还
15、是各自封闭的,由于这些软件的通用程度低,导致重复研制开发屡见不鲜,造成了资源的浪费,还延缓了古籍资源数字化的进程,这种各自为政的局面,极不利于古籍数字化建设的发展需要,更不利于古籍数字化后的资源共享。因此,网络环境下古籍整理通用软件系统的开发研制已经变得十分紧迫。当古籍数字化在全国各主要图书馆实现后,就可以以网络为纽带,建立古籍数字化地区联合数据库和全国性的数据库。随着网络技术的发展和古籍数字化进程的加快,我国丰富的古籍资源将会供全球所有网络用户共享。参考文献1常春 潘淑春 卢文林.基于图像的数字化农业古籍全文检索方案j.情报杂志,2005,(6) 2王发.古籍数字化的几点思考j.图书馆论坛,
16、2003,(13)3徐清 王唯.近十年古籍书目数据库建设研究概述j. 图书情报知识,2006,(1)4张艳红.关于古籍文献数字化的几个问题j.图书情报知识,2003,(1)5常春 潘淑春.农业古籍数字化项目建设意义和 swot分析j.情报杂志,2005,(11)6李国新.中国古籍资源数字化的进展与任务j.大学图书馆学报,2002,(1)think of the construction of digitalization of ancient books in chinaabstract:this paper describes three periods of the construction of digitalization of ancient b
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 25年公司安全管理人员安全培训考试试题【培优】
- 2024-2025企业员工安全培训考试试题(一套)
- 2024-2025公司安全培训考试试题答案4A
- 2025家居装修合同示范文本
- 2025家具采购合同范本
- 2025员工违反保密合同泄露商业机密诈骗赔偿金法律途径维权被判刑
- 2025心理咨询师合同协议书范本
- 2025年烧结钕铁硼永磁材料合作协议书
- 2025技术合作开发合同模板样本
- 2025企业贷款合同简化版
- GB∕T 16895.7-2021 低压电气装置 第7-704部分:特殊装置或场所的要求 施工和拆除场所的电气装置
- 中国房地产指数系统百城价格指数报告(2022年6月)
- 宁波市建设工程资料统一用表(2022版)1 通用分册
- 口腔科诊断证明书模板
- 礼赞白衣天使512国际护士节护士表彰大会PPT课件(带内容)
- 竞争性谈判相关表格模板
- 中考物理“极值”与“取值范围”问题专题训练
- 2009年安徽省中考化学试卷【含答案可编辑】
- 越南工业到2025年发展战略及到2035发展展望(提到钢铁)
- 电梯曳引机减速箱的设计、建模与运动仿真分析机械
- PV-1200-(中文版)气候交变稳定性试验(共4页)
评论
0/150
提交评论