中国少数民族语言网络信息资源的保存体系研究_第1页
中国少数民族语言网络信息资源的保存体系研究_第2页
中国少数民族语言网络信息资源的保存体系研究_第3页
中国少数民族语言网络信息资源的保存体系研究_第4页
中国少数民族语言网络信息资源的保存体系研究_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中国少数民族语言网络信息资源的保存体系研究赵生辉2021-9-21 10:47:36来源:?情报资料工作?2021年02期【英文标题】Preservation System Research of Internet Information Resources in Chinas Ethnic Minority Languages【作者简介】赵生辉,男,1977年生,西藏民族学院管理学院讲师,武汉大学信息管理学院档案与政务信息学系博士研究生,咸阳712082【内容提要】 文章在介绍少数民族语言网络信息资源开展概况的根底上,分析了少数民族语言网络信息资源长期保存的内涵、需求等问题。基于档案化管理、

2、多元一体和信息共享理念,设计了少数民族语言网络信息资源保存体系的整体架构。Based on the introduction of network information resource in minority languages of China, this paper analyzes the connotation, requirement of long-term preservation for these resource. According on the idea of archiving management, diversity and integrity as well

3、 as information sharing, the author designs the whole architecture of preservation system for network information resource in minority languages of China. 【关 键 词】少数民族语言/网络信息资源/长期保存/架构设计minority languages of China/network information resource/long-term preservation/architecture design中国是统一的多民族国家,多民族、

4、多语言、多文字是国情的根本特征。互联网当中,除了以国家通用的汉语和汉字作为信息记录语言之外,我国民族地区社会实践和民族事务管理过程中建立的各类语种各异、类型丰富、功能多样的少数民族语言网站、网页和其他网络资源也是我国网络信息资源的重要组成局部,其长期保存对少数民族文化保护、国家语言文字政策实践证据保存、少数民族语言语料积累和信息资源大范围利用等方面具有重要意义。1、少数民族语言网络信息资源长期保存概述少数民族语言网络信息资源是指主体内容使用中国境内各少数民族历史上曾经通用或目前正在使用的、表达本民族传统文化特征的文字或语音符号作为信息记录方式的网站、网页或其他网络资源,目前主要关注的是由蒙古文

5、、藏文、维吾尔文、哈萨克文、朝鲜文、彝文、壮文等使用人口较多、影响面较大语种的文字所建立的网站或网页。1.1少数民族语言网络信息资源的开展概况2000年1月6日,中国互联网上第一个少数民族文字网站“同元藏文网站正式开通,标志着中国少数民族语言网络信息效劳的开端。此后,民族地区和涉及民族事务的一些机构相继在互联网上建立了少数民族文字网站或者网页。内蒙古自治区建成中国蒙文知识产权效劳平台,提供专利专栏、商标专栏、版权专栏、商业秘密、知识产权政策法规、知识产权保护、文献检索等约15万字的蒙文信息1。据统计,从20世纪90年代末到本世纪初国内建立的蒙古文网站有数百个2。截至2007年,我国藏区已有近百

6、种藏文报纸、刊物及网站,成为宣传党的政策、传递藏区社会开展最新动态、传播国内外信息的重要媒介3。截至2021年第一季度,新疆维吾尔自治区建立的较为稳定的少数民族文字网站500余个,其中维吾尔文网站400余个、哈萨克文网站30余个4。2021年,权威媒体“人民网推出维吾尔文、哈萨克文、彝文、壮文四种少数民族文字网页以及藏文、维文两种 报,实现了蒙文、藏文、维吾尔文、哈萨克文、朝鲜文、彝文、壮文七种少数民族文字网页全部上线,成为全国互联网站中首家实现党代会、人代会七种主要少数民族语言全覆盖的网站5。1.2少数民族语言网络信息资源长期保存的紧迫性从20世纪末期开始,美国、澳大利亚、丹麦、瑞典、荷兰等

7、国家的图书馆和档案馆就已经意识到网络信息资源保存的重要性并相继开展了一些网络信息保存的实验工程,我国也已经启动了几个中文网络信息保存的研究工程,但是对于少数民族语言网络信息的保存问题较少涉及。少数民族语言网站和网页的开展使得我国网络信息资源的类型更加丰富,也是我国政府保护少数民族语言文字、促进少数民族文化在信息时代的传承和发扬的政策表达。然而,由于少数民族语言文字信息处理技术的相对非成熟性和少数民族语言网站用户群体的有限性,少数民族语言网络信息资源的生命周期却非常短暂。根据美国数字信息根底架构和保存工程NDIIPP研究,网络信息资源的平均生命周期仅有44天6。相比之下,少数民族语言网页的生命周

8、期就更加短暂,受到支撑技术的影响,网页出现乱码、断链等故障的概率远远高于一般性网页。如果任由这种状况继续下去,大量的少数民族语言网络信息资源在互联网上“昙花一现之后就再难以找到,这对少数民族文化保护无疑是巨大的损失,同时可能造成这一领域社会记忆的“断层现象。网络信息资源具有数字化特征,消失以后就很难再找回来,根据我国少数民族语言网络信息资源的特点,深入分析其长期保存的功能需求,明确少数民族语言网络信息资源保存的责任体系,建立适应我国民族地区实际的少数民族语言网络信息资源采集、保存和利用体系是当前迫切需要解决的问题。1.3少数民族语言网络信息资源长期保存的概念与内涵少数民族语言网络信息资源总量相

9、对较少,用户数量也不多,在短期内其文化价值和档案价值要远远高于商业价值,私人组织一般不愿意投资这类工程,需要政府机构承当其关键责任,通过财政手段推动工程的运营和建设。少数民族语言网络信息资源长期保存是指国家为了保护表达为网络信息资源的少数民族文化,保存国家帮助和支持少数民族文字信息处理工作的证据,积累少数民族语言语料资源,开发和利用深层知识,建立整体性的技术架构和管理体系,收集和保存各类少数民族语言网络信息资源,为全社会提供综合性信息效劳的过程。上述概念的内涵主要表达在以下方面:1战略性。少数民族语言网络信息资源的保存不仅仅是一种技术行为,而是包含了政治、文化因素在内的复杂性问题,必须从战略层

10、面上进行规划和管理;2整体性。少数民族语言语种众多,但是少数民族语言网络信息资源的保存重点是所有语种少数民族语言网络信息资源的共同特征和共性需求,而不拘泥于某一语种网络信息资源的理解问题;3根底性。少数民族语言网络信息长期保存旨在为同一类型的网络信息资源提供根底性的技术架构和管理方案,不能因为某一语种网络信息资源数量较少就不考虑其保存问题。2、少数民族语言网络信息资源长期保存的需求分析少数民族语言网站或网页是网络信息资源的特殊类型,语言的差异性使其长期保存需求在一般性信息资源保存需求的根底上,呈现出一些与汉语信息资源不同的特征。2.1证据属性保障需求互联网中绝大多数的汉语网站或网页是作为信息载

11、体出现的,网民访问这些网站主要关心的是信息内容。少数民族语言网络信息资源除了具备上述特征以外,还具有一定的证据属性。例如,互联网上各个语种少数民族语言网站的繁荣本身就表达了国家保护少数民族文化、保护少数民族语言文字使用权的政治态度。这些信息资源的收集保存不仅仅是保存信息的内容,还应当尽可能多地保存这些信息资源产生的背景信息、原始的技术环境信息和对其进行更新和管理的相关信息。因此,从证据属性而言,少数民族语言网络信息资源的长期保存必须考虑到这些信息资源真实性的保障问题,尽可能多地收集和保存其产生和管理过程的信息,以证明这些信息资源确实是在互联网上存在过的原始信息,而不是事后为了特定需要对其做了变

12、更,也不是事后人为成心制作的虚假信息。2.2长期可读性保障需求少数民族语言网络信息资源的可读性与相关支撑技术的开展紧密相关。汉字信息处理技术被成功攻克以后,在巨大的应用需求推动下,与汉字信息处理技术相关的各类字处理软件、各类应用系统得到了快速开展,汉字信息处理技术已经完全成熟,很少因为编码或技术原因导致信息无法读取的情况。少数民族语言网络信息资源的保存那么更加复杂,国家曾经发布过主要少数民族语言、基于单一语种编码平面的编码方案,多语种环境下少数民族语言文字编码方案究竟采用国家标准GB18030还是ISO10646尚无定论,如果在信息资源保存的同时没有做好编码方案等信息的保存,极有可能出现乱码、

13、无法读取等问题。对于一些需要特定应用软件支持的深网信息资源,如果只保存了页面框架而没有保存读取软件的相关信息,也有可能造成不知道读取软件的类型或者即使知道读取软件的名称而这类软件已经被淘汰无法找到,从而导致信息无法读取。如果信息无法读取,即使其内容非常有价值,其最终的效果也等于零,此前为保存信息所付出的各类本钱就毫无意义。因此,少数民族语言网络信息资源的可读性保障是长期保存必须解决的重要问题。2.3可理解性支持需求语言是人类进行沟通和交流的根本工具,我国语言文字的丰富性在造就文化多样性的同时,也给掌握不同语种人群之间的沟通和交流带来诸多不便。由于语言文字的差异性,对于不掌握特定语种的人而言,即

14、使所看到信息的内容对其非常重要也无法理解和利用。为了能够打破语言的障碍,进行跨语种沟通和交流,少数民族语言网络信息资源长期保存必须考虑到大范围用户的可理解性支持问题,尽可能让使用不同语种的人群都可能了解到信息的内容。少数民族语言网络信息资源可理解性支持主要包括双语著录问题、跨语言检索、跨语种机器翻译等内容。所谓双语著录,就是在少数民族语言网络信息资源保存的时候尽可能使用对应语种文字和国家通用语言文字两种文字同时进行元数据著录,这样就可以使掌握国家通用语言的人口较为方便地了解信息的主要内容,同时以国家通用语言文字为中介可以进行跨语种信息检索,保证同一主题的信息资源无论采用哪种少数民族语言都可以被

15、检索到。在效劳大范围用户时,跨语种机器翻译系统可以使用户通过低精度机器翻译了解对应信息资源的大致内容,非常重要的信息可以借助人工翻译得到高精度的翻译结果。2.4语料Corpus积累需求要实现少数民族语言网络信息资源的跨语种机器翻译,建立各个语种之间的双语对齐语料库是根本前提。同时,语料库建设也是进行少数民族语言学研究的重要工具,对于探索少数民族语言现象的根本规律具有重要的价值。语料库建设必须有数字化的语言文本作为根本的加工处理对象,如果没有现存的数字化版本,还要人工输入或者对纸质文献数字化以后进行文字识别,加工处理的工作量非常大。汉语网络信息资源极其丰富,汉语语料库建设可供选择的资源很多,主要

16、根据需求进行筛选、著录和保存。相对于汉语信息资源,少数民族语言信息资源数量较少,现存的少数民族语言历史文献在没有数字化加工的情况下不能被语料库所使用。因而,互联网上现存的少数民族语言网络信息资源就成为少数民族语料的重要来源。特别是一些政府机构建立的少数民族语言网络往往同时提供相同内容国家通用语言汉语的版本,这对于建立少数民族语言与国家通用语言之间的双语对齐语料库而言是非常难得的资源。因此,少数民族语言网络信息资源的保存过程同时也是少数民族语言语料的积累过程,除了满足自身的机器翻译需求以外,对语言学研究也具有重要意义。2.5专业化管理需求专业化管理是提高管理系统整体效率、保障工作质量的根本原那么

17、。在少数民族语言网络信息资源采集和保存的时候要对其进行高质量的元数据双语著录,必须由同时掌握少数民族语言和国家通用语言的双语人才来完成。要进行可读性的保障,该语种密集使用的地区往往也是双语人才最为密集、相关语种信息技术产品最为齐全的地区,例如掌握蒙古语的科技人才和蒙古语信息处理软件的数量一定最集中在内蒙古自治区,因此,无论少数民族语言网络信息资源是由全国哪个地区的人群产生,最终由最擅长这一语种的地区进行专业化管理是保障信息资源管理质量的重要策略。3、少数民族语言网络信息资源长期保存的架构设计少数民族语言网络信息资源长期保存首先需要解决保存主体确实认问题,在明确由哪一类机构重点推动的根底上,确定

18、长期保存的根本理念,根据根本理念来设计满足少数民族语言网络信息资源长期保存的体系架构。3.1责任主体对于一般性网络信息资源长期保存的责任归属,学术界普遍认为应当主要由图书馆承当。例如,澳大利亚的网络信息资源保存工程PANDORA、美国数字信息根底与保存方案NDIIPP、日本的WARP工程、瑞典的KULTURARW工程、挪威的PARADIGIMA等主要是由这些国家的国家图书馆、皇家图书馆、国会图书馆等机构发起和推动的;我国的网络信息采集与保存实验工程WICP是在国家图书馆的推动下于2003年启动的7。也有学者提出档案馆也要参与网络信息资源长期保存,例如,瑞典国家图书馆的Johan Mannerh

19、eim就提出:网络信息应该由那些能够维持几百年以上的专业性长期保存机构,例如图书馆、档案馆进行保存。少数民族语言网络信息资源长期保存责任主要由图书馆还是档案馆承当,取决于哪一类机构能够最大限度满足少数民族语言网络信息资源长期保存的功能需求,可以主要从以下方面进行衡量:第一,少数民族语言网络信息资源具有一定的证据属性,在必要时可以作为证据提交给司法机构作为案件审理的依据或者为了澄清某种事实而向公众公开。例如,国际上一些政治势力散布所谓“中国灭绝少数民族文化的谣言,我国政府如果将收集的大量网络信息资源及时向外界公开,就可以充分说明我国在这一领域所做的努力,令谣言不攻自破。少数民族语言网络信息资源要

20、作为证据提供,就必须具有证明自身真实性的能力,在网络信息资源采集时就不能仅限于信息内容本身,还要收集更多的背景信息。一般而言,图书馆缺乏对信息资源证据属性的深刻认识,收集信息的时候主要关注信息的内容,即使要对信息进行著录,重点关心的也是利用问题而不是证据性保障问题。第二,档案管理重在通过收集保存记录信息以最大限度地重现历史的原貌,不仅强调信息内容的保存,也强调信息显示原貌的复原,因而对少数民族语言网站和网页的显示效果也会予以关注,通过各类措施最大限度保障网站按照最初存在的显示效果呈现出来。例如,对于网页当中链接的各类文件是否齐全,所链接的多媒体文件是否可以正常读取等问题都必须进行关注,而图书馆

21、保存网络信息资源更重要的是保存内容信息,对网站显示效果要求相对较低。第三,图书馆是处在信息流末端的文化事业机构,只能被动地收集和保存网络信息,无法要求产生网络信息的机构按照一定的标准来产生信息,不能从信息的源头进行干预。档案馆那么在这个领域具有优势,在同级档案行政机构的参与下可以对前端产生信息的机构进行适度干预,要求产生信息的机构按照统一的要求产生信息,从而可以提高信息保存的质量。第四,图书馆保存网络信息资源时,一般通过网络访问获得网页文件后进行保存。这种方式实际上只能获得互联网的浅层信息,例如保存在后台的少数民族语言数据库当中的绝大多数信息并没有被采集到。档案馆保存网络信息资源的优势在于可以

22、通过“呈缴制度要求一些机构按规定提交少数民族语言信息资源的整体信息,从而可以获得更加丰富的网络信息资源。因此,从少数民族语言网络信息资源的证据属性、显示效果、前端控制和呈缴制度等角度看,由档案馆来承当长期保存责任更为妥当。当然,以档案馆为主体并不是排斥图书馆、各类文化机构甚至个人的参与,只是各类机构所关注的重点有所不同,前者需要在满足证据性的根底上进行信息内容的保存和效劳,后者只关心信息内容的保存问题。3.2根本理念少数民族语言网络信息资源的保存主体是档案馆,意味着其保存理念与一般性的网络信息资源有所不同,需要遵循的理念主要有以下方面。1档案化管理。档案化管理是指少数民族语言网络信息资源产生的

23、过程中要尽可能考虑到信息资源最终要被档案馆收集和长期保存的需要,在信息产生的时候就考虑到编码方案、元数据格式、存储格式、背景信息收集、国家通用语言文字版本收集、双语著录等方面的需求,尽可能在前端就做好准备工作。2多元一体。多元一体理念源于我国已故著名社会学家费孝通先生的“中华民族多元一体格局理论,该理论认为,中华民族作为一个自觉的实体,是近百年来中国与西方列强对抗过程中所形成的,它的主流是由许许多多分散孤立存在的民族单位,经过接触、混杂、联结和融合,同时也有分裂和消亡,形成一个你来我去、我来你去,我中有你、你中有我,而又各具个性的多元统一体8。因此,少数民族语言网络信息资源的长期保存,既要考虑

24、到各语种信息资源的多样性保存问题,又要考虑到这些信息资源之间的逻辑联系问题,使各个语种的信息资源能够共享。3信息共享。信息共享是指考虑到少数民族语言网络信息资源要为整个国家的公民所共享的需要,通过技术手段消减由语言差异性带来的沟通障碍,使得全国各个民族的群体都可以通过自己熟悉的文字来访问其他民族语言的网络信息资源。少数民族语言网络信息资源跨语种共享又必然涉及作为中介语言的国家通用语言,因此集成效劳实际上就要建立以国家通用语言文字为核心的少数民族语言多语种信息资源共享体系。3.3技术架构根据少数民族语言网络信息资源长期保存的功能需求和根本理念,少数民族语言网络信息资源长期保存的技术架构整体上分为

25、信息来源层、数据集成层和效劳集成层三层。信息来源层主要是对于可以进行规划和控制的机构进行前端干预;数据集成层主要是在全国各个少数民族语言富集地区建立管理节点并将其联结成为一个整体;效劳集成层主要是建立以国家通用语言文字为核心的少数民族语言网络信息资源跨语种信息共享体系。其中,数据集成层是对互联网当中少数民族语言信息资源的数据集成,使信息资源可以跨地区访问;效劳集成层那么是在数据集成层的根底上,对少数民族语言网络信息资源的内容进行集成,使其可以跨语言共享,如图1所示。 图1中,少数民族语言网络信息资源保存体系的技术架构涉及的内容主要有:第一,信息来源层。与档案部门对机关电子公文进行前端控制不同,

26、由于网络信息资源产生主体的多元性,对少数民族语言网络信息资源前端实现完全控制的难度较大,只能是尽可能建议相关机构遵照一定的标准进行少数民族语言网络信息资源建设。例如,国家需要出台?中国少数民族语言网站建设标准?,明确相关建设要求,尽可能提高少数民族语言网络信息资源的标准化程度。对于没有按照标准产生的网络信息资源,由档案馆尽可能收集相关信息进行著录和保存。第二,数据集成层。按照单一语种专业化管理原那么,基于分布式数据库的根本原理,在主要少数民族语言富集地区的档案管理机构建立对应语种的网络信息资源管理节点,这些节点之间物理上是分散在全国各个地区的,逻辑上是集中的,在分布式数据库支持下构成一个分布式

27、信息共享网络,可以支持跨地区的全局信息检索和全局并行应用。各个分节点负责单一语种网络信息资源的保存,并尽可能全面地收集对应语种的各类应用软件,开发编码转换、格式转换工具软件,为对应语种信息资源提供可读性效劳。此外,考虑到全局协调和管理问题,需要在网络中建立统一的管理和协调中心节点。第三,集成效劳层。少数民族语言网络信息资源跨语种信息共享是指在民族地区档案管理工作中,通过技术手段和管理手段的综合应用,使各个少数民族语种信息资源所包含的内容信息具备能够被全国各个民族没有熟练掌握该语种的人口以较低的本钱、较为便捷的方式进行阅读和理解的能力。按照跨语种信息共享的要求,民族地区或民族事务管理的各类机构在

28、建立少数民族语言网站或者网页的时候就应该考虑到在全国范围内被共享的需要,尽可能同时提供少数民族语言文字版本和国家通用语言文字版本,对少数民族语言网页进行著录的时候也应该同时采用少数民族文字和国家通用文字的对照版本。在实践中,没有掌握对应语种的人要理解这一语种的信息必须借助人工翻译或者机器翻译系统的支持。作为民族地区信息共享的根底设施,国家应该建立以国家通用语言文字为核心的少数民族语言信息资源共享体系,主要是通过建立各个少数民族语种与国家通用语言之间的双语对齐语料库体系,实现任何一种少数民族语言与国家通用语言之间的机器辅助翻译,而任何两种少数民族语言之间的翻译也能够以国家通用语言为中介进行,如图

29、2所示。4、少数民族语言网络信息资源长期保存的体系规划结合对少数民族语言网络信息资源长期保存需求和技术架构的分析,根据我国各少数民族语言分布的情况,对少数民族语言网络信息资源长期保存的体系进行了规划。4.1分布式节点设置少数民族语言网络信息资源保存节点设置的原那么是:语种尽可能单一,一个节点原那么上只负责一种少数民族语言信息资源的保存,同时提供少数民族语言信息资源的可读性保障和机器辅助翻译效劳;节点所在地对应语种的信息资源较为丰富,该语种信息资源利用需求的用户也最多;节点所在地经济开展相对兴旺,可以提供少数民族语言信息资源管理所需要的技术环境,特别是网络通信条件要满足大量数据交换的要求;节点所

30、在地技术和管理人才储藏较为丰富,特别是对应语种语言学人才充足,可以满足少数民族语言和国家通用语言文字双语对齐语料库的建设要求;对于使用人口较少,整体数量较少的少数民族语言信息资源暂时由一个节点进行代管。条件成熟的时候,可以考虑针对单一语种成立新的节点;综合考虑民族地区的地理和气候条件,尽可能防止本钱过高的方案。按照上述原那么,节点的设置一般应该设置在各少数民族聚居区的中心城市较高级别的档案管理机构。目前,中国少数民族语言文字信息处理技术开展相对较为成熟的少数民族语言有蒙古语、藏语、维吾尔语、哈萨克语、柯尔克孜语、壮语、朝鲜语、彝语、傣语等,对应的节点可以设置在这些省区或中心城市的档案馆内,可以

31、分别称为呼和浩特节点、拉萨节点、乌鲁木齐节点、南宁节点、延吉节点和昆明节点等。对于使用人口较少,暂时还没有成熟的信息处理标准的少数民族语种产生的音频和视频信息,可以暂时集中到云南省档案局负责的昆明节点进行保存。4.2中心节点选择一般而言,中心节点所在地应该具备如下的一些特征:所在地经济开展相对兴旺,可以提供良好的技术环境,特别是网络系统的带宽要满足频繁数据通信的要求;所在地人才储藏较为充足,可以满足管理中心开展过程中的管理人才和技术人才需求;所在地接近少数民族事务管理的公共组织、少数民族语言文字出版机构,有较多的少数民族语言信息资源利用需求的用户存在。根据上述标准,中国少数民族语言信息资源分布式共享网络的管理中心首选地点是首都北京市,所在的理想机构是国家民族事务管理委员会下设的“国家民委信息中心。4.3网络体系方案根据分布式节点和管理节点的设置方案及少数民族语言网络信息资源管理的功能需求,少数民族语言网络信息资源分布式保存的网络体系如图3所示,各个节点的主要功能和所在机构如表1所示。5、结语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论