基于XML的清人小学注疏五种词源研究 语料库的研制和应用_第1页
基于XML的清人小学注疏五种词源研究 语料库的研制和应用_第2页
基于XML的清人小学注疏五种词源研究 语料库的研制和应用_第3页
基于XML的清人小学注疏五种词源研究 语料库的研制和应用_第4页
基于XML的清人小学注疏五种词源研究 语料库的研制和应用_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于XML的清人小学注疏五种词源研究语料库的研制和应用基于XML的清人小学注疏五种词源研究语料库的研制和应用

?广雅疏证》?说文解字注》?尔雅义疏》?方言笺疏》?释名疏证补》这五部清代小学注疏作品,不仅保留了历代探索字词源流丰盛的诂训资料,而且能以“因声求义〞之法疏解词义、补证理据、说解词源,堪称传统词源研究的一座宝库。现代先进的信息技术,为我们利用这些古籍发展现代词源学研究提供了有力撑持。

我们利用XML标注技术[1]建成了清人小学注疏五种词源研究语料库,该语料库对清代五部小学注疏词源研究成果的诸多方面有着准确的反映。通过检索该语料库,研究者可以及时而分明地了解:1.各家对某组语词是否同源的判断;2.各家论证某组语词同源关系所征引的文献证据和语音证据;3.各家研究古今字、通假字、异体字的情况。下文将对该语料库的建设作详细介绍。

二、电子文本的生产

清人小学注疏五种的电子文本由吾师尉迟治平教授及门下弟子共同完成,笔者为主要参与者之一。

五种文本均系手工录入,所用底本之版本信息如下:

?广雅疏证》(中华书局,王氏家刻本影印,1983年版)

?说文解字注》(上海古籍出版社,经韵楼本影印,1981年版)

?尔雅义疏》(上海古籍出版社,郝氏家刻本影印,1983年版)

?方言笺疏》〔上海古籍出版社,仁和王文韶红蝠山房校刊本影印,1983年版〕

?释名疏证补》〔上海古籍出版社,光绪丙申刊本影印,1984年版〕

我们在制作以上电子文本的过程中,以“存真〞为根本原那么,尽量保持典籍原貌。

所有文本文件均采用支持超大字符集的“UTF-8编码〞。“UTF-8编码〞是国际规范超大字符集统一码“Unicode〞的一种变长字符编码,又称“万国码〞。用在网页上,可以在同一页面显示简体中文、繁体中文及其他语言,其显示范围远大于“ANSI〞。[2]在字体选择上,我们选择了“宋体-方正超大字符集〞和“PMingLiU-ExtB〞字体,以保证绝大多数古籍汉字的正确录入与显示。即便如此,清人小学注疏五种中依然有少数古文字、俗字、别字、冷僻字等无法正常录入和显示。针对此问题,我们对古籍文本在坚持“存真〞的根本原那么下,用既有的汉字字形来组字造字,其组字规那么及例如如下:

表1:

所用符号字形结构表明例如

*左右结构明:日*月

/高低结构皇:白/王

@包含结构虎:虍@几

《《增减部件虔:虎-几+文

所有文本均系繁体字纯文本,能够进行字符串的全文检索,并能够供诸位学人根据自己需要作进一步加工或标注。

三、清人小学注疏五种的数据建模

〔一〕构建树形结构图

清人小学注疏五种横跨雅学、说文学两大领域,性质不同,体例不一,具体文档结构更是纷繁复杂。现要汇合五种注疏,综合利用,惟有求同存异,小而统之,粗分大类。

大致而言,五种注疏皆包含了序言、正文、附录三个局部。正文局部包含了大量我们需要分析的语言学属性。初步分析,五种注疏的正文局部都是篇目名和逐条小学注疏循环构成的一个整体。

由小学原文和清人注疏构成的单条小学注疏的内部情况虽复杂多样,但各个研究者都可以根据自己的研究目的,对其内容作出自己的分析。因我们的研究主要关乎词源研究,所以我们将单条小学注疏下面细分出一条条分析声义同源的字词关系断语,字词关系断语下面又可以析分出数个声义同源的同源字。

基于词源学的研究初衷,我们画出了清人小学注疏五种文档的树形结构图,如图1:

图1:文档结构树形图

〔二〕使用XSDSchema进行数据建模

1.设计标记名

鉴于我们需要提取分析的语言属性、语言知识都存储在清人小学注疏五种文档中的正文局部,为了文档结构层次的简洁、经济,我们拟直接以清人小学注疏五种正文作为我们的根元素,序言、附录等暂时被剥离,这不会影响我们工作的发展。另外,由于目前大量主流软件尚不支持汉字标记,我们便采用汉语拼音作为标记。对根元素及各节点子元素的标记分别定义如下:

清人小学注疏五种正文:qingrenxiaoxuezhushu

篇目名:pianmuming

疏证语段:zhushuquanwen

字词关系断语:ziciguanxiduanyu

同源字:tongyuanzi

2.编写扩展名为“xsd〞的文件

Schema是强大而灵活的数据建模工具。XMLSchema的W3C的推荐规范叫作XSD,它可以准确地描述文档结构,即定义XML文件中允许哪些元素和属性、哪些元素和属性是必需的、哪些是可选的、允许的数据种类以及XML文件内容和结构的其他方面。使用XSD建模的成品是扩展名为“xsd〞的源文件。[3]该文件代表了上面我们对清人小学注疏五种文档结构分析的成果,既能够链接到已有的XML文档中,以验证其文档的有效性,也可以作为模式架构,添加到文本编辑器中,以实现XML标记的自动标注。其源代码本文暂略。

四、清人小学注疏五种的标注办法

〔一〕添加架构

Office2022声称全面支持XML,我们使用其组件Word2022中文版作为XML文档的编辑器。虽然目前还有大量的处理XML文档的专门软件,但它们远不及Word2022通用易得;特别是Word2022对超大字符集的支持功能在很多软件中还未实现,也促使我们选择它作为我们工作的软件平台。[4]

首先,我们用Word2022翻开我们制作的清人小学注疏五种电子纯文本。然后在“工具〞菜单上,单击“模板和加载项〞,然后单击“XML架构〞选项卡。单击“添加架构〞,浏览并找到要添加到架构库中的XML架构文件〔xsd文件〕,然后单击“翻开〞。在“架构设置〞对话框中,选择所需的选项,在“别名〞框中键入架构的名称,最后点击“确定〞完成。如图2:

图2:添加架构的办法

〔二〕半自动标注

添加架构后,Word2022编辑框右边会出现如下“XML结构〞任务窗格。我们可以依次在清人小学注疏五种文档当选择相应元素,然后在“XML结构〞任务窗格的“选择一种元素并应用于当前的选定内容〞框中单击一个元素,完成对该元素的标注,已标注的元素被图3所示红色光带嵌套。标注中或完成标注后,如文档结构不合乎架构规那么,将会在文档中以紫色波浪线标记出来,并在“XML结构〞任务窗格中报告此违规错误。整个标注界面如图3所示:

图3:标注的办法

〔三〕生成XML文档

完成标注,且通过架构验证的文档可选择“文件〞菜单上的“另存为〞命令,保留为“qingrenxiaoxuezhushu.xml〞文档。为保证其他XML的软件也能阅读并处理我们保留为XML格式的文档数据,我们选择“仅保留数据〞备选项。如图4:

图4:生成xml文档

五、清人小学注疏五种的属性提取办法

〔一〕XML与XSL的整合

XML文档中事先标注过的元素和信息,都可利用XML的可扩展样式表技术加以提取。现欲提取“qingrenxiaoxuezhushu.xml〞文档中的“字词关系断语〞和“同源字〞两元素,可编写“tongyuanzi.xsl〞文档,其源代码如下:

清人小学注疏同源字研究资料

清人小学注疏同源字研究资料

已标注的“qingrenxiaoxuezhushu.xml〞在链接上述“tongyuanzi.xsl〞文档后,经IE浏览器解析,可直接转换成我们需要的词源研究资料,包括我们教学中常用的各种同族词、古今字、通假字、异体字等方面的珍贵材料。其转换结果如图5:

图5:样式表转换结果

〔二〕HTML对XML的整合

超级文本标记语言〔即HTML〕是一种超文本链接标记语言,依据该规范创立的HTML文件具有极强的描述和链接下级文本的功能。

为此,我们创立了“清人小学注疏五种词源研究语料库.html〞文件。该文件可以顺利地整合我们标注好的五种清人小学注疏的XML文档,并为浏览整个语料库提供一个初始界面,该语料库初始界面如图6:

图6:清人小学注疏五种词源研究语料库

六、结语

长期以来,在古汉语研究领域,人们最常用的计算机功能仅仅是能提高阅读速度的全文检索,但这无助于增进对古籍文本的理解。关系数据库技术出现后,人们又将古籍文本的内容分析为字段和记录的形式以存储,从而为人们获得较系统的语言学知识开辟了新的途径。但是关系数据库往往会肢解原古籍文档内容的整体性,从而降低语言学典籍的可读性。

XML有效防止了这些缺陷,它奉行数据存储与数据显示相别离

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论