《文集》中的xml技术与古文献整理_第1页
《文集》中的xml技术与古文献整理_第2页
《文集》中的xml技术与古文献整理_第3页
《文集》中的xml技术与古文献整理_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《文集》中的xml技术与古文献整理

xml技术的引入为对古代文献的分类和科学研究提供了新的研究领域。《集韵》是北宋官修的韵书,在文字学、音韵学、训诂学、辞书学等方面都具有重要的研究价值。我们以《集韵》XML建模和处理为例,展示了如何利用新的标注技术辅助古代文献整理和学术研究。一、数据库技术可以改变传统的内容计算机技术应用于整理古代文献整理和学术研究,它最常用的功能就是全文检索,检索结果显示的是字、词、句子,但计算机不过是在对字符的编码进行匹配,对记录字符串的数值进行运算。计算机并不能懂得文档的内容———知识。虽然关系数据库技术出现后,可以将文档的内容分析为字段和记录的形式加以存储,也在某种程度上实现了内容的可理解。但是数据库一方面依赖于特定的软件管理系统,另一方面它又肢解了原文档内容的整体性,降低了古文献的可读性。同时大量的古代文献,其文档结构为立体型,如用关系数据库存储,将不得不建立多个数据库表进行关联,如此程序的编写和语言知识的提取分析都将不胜其烦。所以要使计算机技术服务于古文献整理,就要使计算机“理解”文档内容,必须采用标记(Tag)对文档内容进行标识。因此,引入一种自定义的、面向纯文本的、能存储结构化数据的新的标注技术就是必要和必须的了。二、表面活性剂的生成和应用为了推动语料存储格式的标准化,实现语料的交换和共享,1986年ISO正式发布了国际标准SGML(StandardGeneralizedMarkupLanguage,标准通用置标语言),标准号是ISO8879-1986。我国于1995年也把SGML语言作为国家标准,标准号为GB14814。XML(eXtensibleMarkupLanguage,可扩充置标语言)是SGML的一个子集,被广泛地用作语料库标注的元语言,通过DTD(DocumentTypeDefinition,文件类型定义)和Schema来规范XML文件,从而使表现与内容分离,规范与实现分离,具有良好的扩缩性。XML与其他置标语言相比,它有以下优势:基于自然语言、可扩展性、属性标注、结构化、校验等。首先,基于自然语言,就让我们利用它来为古代汉语文献标记成为可能,而且只要大家用同套术语,可以共享资源;其次,可扩展性就可以根据需要自己设定标记,以定义需要的新标记。这意味着在创建XML文档时,不会局限于一套预先定义的标签,而可以根据你自己的需要创建所需要的任何标签,如我们古文献中音韵学研究独有的大韵、小韵、反切、引书、引人等均可自行定义;第三,结构化也是它的一个显著优点,可以表示任意复杂程度的数据,可嵌套层层标记。这一特点尤其适用于处理文档结构类型为立体型的古代文献;第四,校验,可以检查数据的结构正确性。如果某个文档符合XML语法规范,那么我们就说这个文档是“结构良好”的文档。使用XMLSpy2006工具就可以测试某文档是否为结构良好的XML文档。所谓有效的XML文档是指通过了DTD或者Schema的验证的,具有良好结构的XML文档。我们一般采用Schema来验证XML文档的有效性。在古代文献整理和学术研究中,我们应用XML技术包括了文本的生产、数据建模、文本标注、属性提取、文本转换等工作。三、xml建模和处理1.对古堂影宋本的校正我们主要以曹刻本作为我们研究的底本,同时参照长沙本《集韵》和1985年上海古籍出版社影印出版的述古堂影宋抄本进行校对,同时吸收方成珪、黄侃、白涤洲、邱棨鐊、邵荣芬、赵振铎等的校勘成果,对《集韵》进行校勘。由于《集韵》中许多字都属于超大字符,在我们在处理电子文献生产过程中遇到繁难冷僻的汉字时主要就是采用导师尉迟治平教授设计开发的中文超大字符集输入法。2.xml建模、建模和处理大韵集合的构成《集韵》文档的结构较为复杂,据曹刻本分析,其全文主要包括目录和正文两个部分。初步分析,目录部分包括书名、卷名、卷次、大韵集合等。大韵集合又包括韵目、反切、次序、用法、页码。正文部分是206个大韵构成的一个整体。每个大韵大致都由若干个小韵构成,每个小韵由小韵首字、韵字组成。小韵首字和韵字,其内部情况纷纭多样,但大略可析分出字头和注释和反切。我们的研究目的不一,对其可以做出完全不同的分析。比如反切里面的主切、又切以及注释里面的引书、引人等等都可能构成一个个元素。综合以上种种情况,我们画出了《集韵》文档的树形结构图,如下图带教标记的汉字语为了文档结构层次的简洁、经济,我们拟直接以”集韵”作为我们的根元素。另外,由于目前大量主流软件尚不支持汉字标记,我们便采用汉语拼音作为标记。根元素及各节点子元素的标记我们分别定义如下:根元素:集韵:jiyun其他备用叶子元素:题目:mulu正文:zhengwen书名:shuming卷名:juanming卷次:juanci大韵集合:dayunjihe大韵:dayun小韵:xiaoyun小韵首字xiaoyunshouzi韵字:yunzi字头:zitou注释:zhushi反切:fanqie扩展名称的源文件前面我们提到,Schema是一个强大而灵活的数据建模工具。XMLSchema的W3C的推荐标准叫做XSD,它可以准确地描述文档结构,即定义XML文件中允许哪些元素和属性、哪些元素和属性是必需的、哪些又是可选的、允许的数据种类以及XML文件内容和结构的其他方面。使用XSD建模的成品就是扩展名为xsd的源文件。如我们创建jiyunzhengwen.xsd文件,代表上面我们对《集韵》正文文档结构分析的成果。该XSD文件既能够连接到已有的XML文档中,以验证其文档的有效性,也可以作为模式架构添加到文本编辑器中,以实现XML标记的自动标注。当然我们这里为《集韵》XML文档建立的架构仍是粗线条的,对于字头和注释节点下的子元素有待研究者根据自己的需要加以定义。生成“ssr”1.添加架构新发布Office2003声称全面支持XML,我们使用其组件中文微软Word2003作为我们XML文档的编辑器和解析器。首先我们用Word2003打开我们制作的《集韵》电子纯文本。然后在“工具”菜单上,单击“模板和加载项”,然后单击“XML架构”选项卡。单击“添加架构”,浏览并找到要添加到架构库中的XML架构jiyunzhengwen.xsd,然后单击“打开”。在“架构设置”对话框中,选择所需的选项,在“别名”框中键入架构的名称,最后点击确定完成。2.半自动标注增加架构后,Word2003编辑框右边会出现如下“XML结构”任务窗格。我们依次可以在“集韵节选”文档中选择相应元素,然后在“XML结构”任务窗格的“选择一种元素并应用于当前的选定内容”框中单击一个元素,则完成对该元素的标注,已标注的元素被图2所见的红色光带所嵌套。标注中或完成标注后,如文档结构不符合架构规则,将会在文档中以紫色波浪线标记出来,并在“XML结构”任务窗格中报告此违规错误。整个标注界面如下图所示:3.“质”文件存:“”命令存完成标注且通过架构验证的文档可选择“文件”菜单上的“另存为”命令保存为“jiyunzhengwen.xml”文档。为保证其他XML的软件也能阅读并处理我们保存为XML格式的文档数据,我们选择“仅保存数据”的备选项。在形成系统文件时,把所使用的元素和知识转化为形式表创建的汉语史XML文档,由于各个元素都被加上了相应的标签,我们就可以按图索骥,从中提取我们需要的元素和知识。要从原有XML文档中提取、转换并显示出我们需要的元素和信息,我们可以利用XML的样式表技术。样式表有两种:即层叠样式表(CSS)和可扩展样式表(XSL)。鉴于目录在word中不易固定位置,我们用CSS来实现mulu.xml文件的转换。具体步骤如下:1.押韵集上平卷的xml文件2.显示平声卷一目录编写好“mulu.css”后,欲显示“mulu.xml”文档中的所有元素,将“mulu.css”文档与“mulu.xml”链接,就可以显示《集韵》平声卷一目录。四、价值汉字的收入XML还是一种处于发展之中的技术,而古籍字形的计算机处理还未得到完善解决。最集中的一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论