王司长马来西亚演讲PPT_第1页
王司长马来西亚演讲PPT_第2页
王司长马来西亚演讲PPT_第3页
王司长马来西亚演讲PPT_第4页
王司长马来西亚演讲PPT_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、珍爱和保护中华语言资源的语言规划尝试 以“语言生活监测研究”和“中国语言有声数据库建设”为例 教育部语言文字信息管理司 王铁琨国家语言资源监测与研究中心暨平面媒体语 言分中心成立五周年纪念学术会议论文1一、“国际母语日”与中国承诺2 国际母语日(每年2月21日前后)倡议“语言和文化的多样性代表加强人类社会团结和凝聚力的普遍价值”。 国际语言年(2008)旨在保护世界语言和促进文化多样性的可持续发展。3 语言不仅是信息的载体和交流的工具,语言更是重要的、不可再生的文化资源。当今人类语言资源正在快速流失,这与生物物种的流失和大气变暖等同样值得关注。基于珍爱中华语言资源的理念,中国正在酝酿开展新世纪

2、的语言普查(后更名为“中国语言资源有声数据库建设”,作者注),以期建立可永久保存的中国语言多媒体语料库及相关数据库,绘制详细、准确、可传至后代的多媒体语言地图,建立需要保护的语言、方言目录,开发和利用好国家语言资源。我们愿意和全世界的同行们携起手来,共同保护人类的语言资源。 王铁琨:在联合国“2008年国际语言年暨第九届国际母语日”庆祝活动开幕式上的致辞中华人民共和国教育部语言文字信息管理司4二、由“问题”到“资源”:语言观的转变5 语言既是“问题”,又是“资源”。不能忽视语言的资源属性。中华人民共和国教育部语言文字信息管理司6 特殊的社会资源BECDA有价值可利用出效益能发展多变化 语言所谓

3、“资源”,是指有价值、可利用、出效益、能发展的事物。中华人民共和国教育部语言文字信息管理司7语言资源 本体资源 派生资源 以公民的语言能力为衡量标志的国民语文素质资源 包括各种语言的语音、词汇、语法系统和文字符号系统,及其相应的规范标准,涉及汉语及其方言、中国少数民族语言及其方言以及中国人所能够利用的各种外语。 包括由语言知识所转化的语文辞书、教科书等文化产品及相关计算机软件产品,以及字库和基于语言信息处理的语言知识库、语料库、数据库等包括公民的母语能力、第二语言能力等。中国要实现从人口大国向人力资源强国的转变,国民整体的母语能力水平和外语能力水平都需要通过教育进一步获得提高,这方面的资源也需

4、要有计划、有针对性地培育、开发和利用。中华人民共和国教育部语言文字信息管理司8 语言作为资源,可以孕育新的职业、新的产业,并转化为生产力。 语言职业语言高科技产业语言教育培训产业如语言工程师、语言治疗师、语言翻译师、文字速录师、语言职业经理人如孔子学院、新东方学校以方正、联想、亚伟等公司为代表 应该把语言文字视为重要的社会、文化乃至经济资源,去珍爱它、保护(保存)它、开发它、利用它,使它更好地服务于人类社会的和谐发展。 中华人民共和国教育部语言文字信息管理司9中华人民共和国教育部语言文字信息管理司语言态度决定于语言观念,所以语言观的转变至关重要。 人类语言规划的历史,更多地把语言作为“问题”看

5、待,目光投注在语言的规范和统一上,重点解决语言分歧所带来的交际障碍和社会麻烦。 语言问题客观存在。重视解决语言问题是有道理的,语言问题解决得是否妥帖,确实关乎国家政治、经济的稳定和发展 。10 随着当今交通和通信业的发达,以及教育、传媒和国际社会对大语种有意无意的倡助,特别是计算机网络的迅猛扩展,日益巩固了英语超级语言的地位,而多数语言则活力减退,正在走向衰落甚至濒危。据联合国教科文组织统计,目前世界上有7000多种语言。占全世界97%人口所说的语言仅占世界语言种类的4%,只有不到四分之一的语言在学校和互联网上使用。数以千计的语言基本进入不了教育体系、新闻媒体、出版物和公共场合,世界语言的多样

6、性正受到日益兴起的经济、文化全球化及其他因素的严重威胁。如果不能采取挽救措施,7000多种语言中超过50%的语种将濒临消亡。 联合国2008年国际语言年暨第九届国际母语日活动论文集中华人民共和国教育部语言文字信息管理司 只强调统一和规范是远远不够的11 在中国,伴随国家通用语言文字的强势推广,语言的多样性和文化的多样性也面临着挑战。据曹志耘依据孙宏开等主编的中国的语言所进行的统计,在除汉语之外的128种语言当中,使用人口在1万人以下(指该语言在中国境内的使用人口,下同)的有64种(刚好占一半),在5000人以下的有48种。其中有24种语言的使用人口不足1000人:格曼语、达让语、阿侬语、崩如语

7、、仙岛语、普标语、拉基语、木佬语、蔡家话、炯奈语、塔塔语、土尔克语、康家语、满语、赫哲语、邵语、噶玛兰语、巴则海语、沙阿鲁阿语、卡那卡那富语、布兴语、莽语、俫语、扎话。有11种语言的使用人口不足100人:崩如语、仙岛语、普标语、木佬语、土尔克语、满语、赫哲语、邵语、噶玛兰语、巴则海语、沙阿鲁阿语。孙宏开(2006)指出,已经处于濒危状态的语言有:阿侬、赫哲、塔塔尔、畲、普标、俫、康加、柔若、图瓦、仙岛、波拉、葛玛兰、泰耶、赛德克、克蔑、赛夏、布兴、苏龙、崩汝,等。在汉语当中,普通话处于绝对强势的地位,一些大方言(如粤语)、大城市的方言(如上海话)在一定程度上也具有强势性,但更多的方言则处于弱势

8、状态,其中广大农村、偏远地区的方言更是处于绝对弱势状态。而像浙江九姓渔民方言、澳门土生粤语以及各地大量的小方言岛(例如东北的站话、海南的军话、广东的正话、浙江一些地方的畲话等)则已成为濒危方言。 曹志耘论语言保存 中华人民共和国教育部语言文字信息管理司12 在当今全球化的背景下,随着经济、文化、教育和交通事业的飞速发展,我国一些少数民族语言和汉语方言必将以更快的速度走向衰落、濒危甚至消亡,其所负载的文化资源也将相应地衰落、濒危或消亡。所以,树立珍爱和保护(保存)中华语言资源的理念是非常重要的,这是新世纪中国语言学工作者的国家意识和社会责任。中华人民共和国教育部语言文字信息管理司13由过去只重视

9、语言问题的解决,到把语言看作是一种社会文化资源去加以保护、保存、开发、利用,这是一种进步,代表着思想观念的重大转变,代表着一种更加科学、辩证的语言观、语言规范观和语言文字工作观。中华人民共和国教育部语言文字信息管理司 树立语言资源观念,了解中华语言资源的基本情况,采取切实可行的语言资源保护、保存和开发、利用措施,则是当今中国语言规划的必务之事,当务之急。14三、基于语言资源理念的中国语言生活监测研究15 联合国教科文组织上世纪90年代编制的世界语言报告,实际上可以视为对语言资源进行监测、开发的开始。 1992年,语言资源联盟(Linguistic Data Consortium,简称LDC)在

10、美国宾夕法尼亚大学(University of Pennsylvania)建立 。 1995年,欧洲语言资源协会(European Language Resources Association,ELRA)在卢森堡成立 。(一) 国外相关研究及进展情况中华人民共和国教育部语言文字信息管理司国外语言资源建设和语言生活监测上个世纪就已经提上日程。16 设在德国曼海姆的德语研究所(IDS)长期搜集德语语料,建立了“德语参考语料库” 。1996年,美国学者Luisa Maffi组织召开“濒危语言,知识与环境”国际专家联席会,发起成立国际性非政府组织”语界(Terralingua)” 。2003年,全球语

11、言监测网(Global Language Monitor,简称GLM)建立 。中华人民共和国教育部语言文字信息管理司 1995年,由欧洲共同体(European Commission)提供经费支持创立的跨欧洲语言资源基础建设学会(TELRI)成立。 17 中国学术界在上世纪90年代初开始认识到语言的资源属性,并提出“语言是资源”和“语言属于生产力”的观点。但语言资源问题直到本世纪初才受到关注。北京语言大学的张普教授2003年指出:“在信息社会和数字化生存时代,我们要把语言资料的收集、保护、开发提高到一个对待国家资源的高度来认识。国家要像对待人力资源、地矿资源、国土资源、森林资源、水资源一样对待

12、语言资源,语言资源是国家最重要的信息资源。语料库的建设、保护、开发要站在国家面向未来的一种战略决策高度,要作为一种对待国家资源的行为,才能得到国家的保护,纳入法制的轨道。 张普:,徐波、孙茂松、靳光瑾主编:中文信息处理若干重要问题(北京:科学出版社,2003),页134-135。(二)中国的语言资源监测实践中华人民共和国教育部语言文字信息管理司18 2004 年,中国中文信息学会发起成立中国语言资源联盟(CLDC) ,开展了以语言信息工程为目标的语言资源的研究、开发与利用等方面的工作。 “国家语言资源监测与研究中心平面媒体语言分中心”在北京语言大学成立 。随后,教育部语言文字信息管理司又分别与

13、华中师范大学、厦门大学、暨南大学、中国传媒大学和中央民族大学签署协议,组建了“国家语言资源监测与研究中心”的网络媒体语言分中心、教育教材语言分中心、有声媒体语言分中心、少数民族语言分中心和海外华语研究中心。中华人民共和国教育部语言文字信息管理司 主要任务是利用大规模动态流通语料库国家语言资源监测语料库,通过每年10亿汉字次左右的海量语料,对包括报纸、图书、期刊,广播、电视、中文网站等大众传媒及教育教材的语言文字使用实态进行监测研究。19国家语言资源监测与研究中心平面媒体语言网络媒体语言 教育教材语言 有声媒体语言海外华语研究 少数民族语言中华人民共和国教育部语言文字信息管理司20 监测研究成果

14、主要通过基于数据分析的调查报告和数据、图表,以“年度语言生活状况报告”的形式向社会发布。内容包括:中华人民共和国教育部语言文字信息管理司基础教育语文新课标教材用字用语调查年度流行语年度关键字、词语盘点及解读年度新词语报纸、广播电视、网络(新闻)用字用语调查中文网络用字用语调查汉语作为第二语言教材字、词和词语义项调查网络词语、字母词、外来语调查21 国家语言资源监测与研究中心自成立以来,先后发布了中国语言生活状况绿皮书B系列中国语言生活状况报告(2005)、中国语言生活状况报告(2006)和中国语言生活状况报告(2007)、中国语言生活状况报告(2008)以及2006汉语新词语、2007汉语新词

15、语等。报告数据翔实、图文并茂,在国内外均产生了较大社会反响,部分成果已得到成功转化,或为社会所利用,或成为国家语言政策、语言规划和语言文字规范标准制定、调整的参考依据。 上述图书均由北京商务印书馆出版。中华人民共和国教育部语言文字信息管理司22(三)语言资源建设与语言生活监测研究的主要环节1.资源建设 资源建设是语言监测研究的基础和前提,没有资源谈不上监测,因此首先需要合力建设一个代表国家级的,规模足够大,领域足够宽,能够客观、全面反映主流传媒和教育教材语言文字(含汉语汉字和少数民族语言文字)使用实态的动态流通语料库。该语料库必须是具有海量语料的、动态的、能够高度流通的语料库。因为只有足够大的

16、语料规模,只有确保语料与社会生活同步更新,只有选取那些在社会生活中广泛传播的语料资源,才能真实投射现实语言生活的动态变化,客观反映语言的生态基因、生态系统和生态环境,也才能真正实现语言监测的价值和意义。 *选择和抽取语料以大众传媒中的主流媒体和教育教材为主,并非人们所说的每一句话、所写的每一篇文章都能列入国家语言资源,都需要进行监测研究。中华人民共和国教育部语言文字信息管理司232.理论建设 语言监测作为新事物,急需理论上的指导和支撑,以保证监测研究工作始终在健康、科学的轨道上运行。 语言监测是语言学、信息处理等多学科交叉领域,需要借鉴、融合各学科已有的理论成果,但绝不等于不同学科理论成果的简

17、单相加。因此,既要学习、借鉴相邻学科的基础理论,又要在实践中敢于创新,夯实自己的理论基石。 语言监测的宏观布局和任何一处细节都要靠深厚的语言学理论以及社会学、心理学、统计学、教育学、民俗学乃至哲学理论的指导,否则,就可能是一种比较盲目的行为,很难走得健康,走得长远。中华人民共和国教育部语言文字信息管理司243.平台建设语言监测技术平台至少需要具备如下功能:语料的自动采集、分类、标注、储存及管理的功能抽取分类语料形成子语料库的功能大规模语料的自动分词、词性标注功能字频、词频的统计功能和任意字符串、词串的检索功能凸显社会语言中的“新”质要素和流行趋势,以便于提取新词语、 流行语的功能凸显特定词语,

18、以便于提取某些与社会发展密切相关的人名、地名、 组织机构名和姓氏等的功能平台建设是实现语言监测研究目标技术上的支撑和保障。 目前错别字、词语误用、标点错误、病句识别等常规语用差错的自动查找和准确提取还难以做到。这是技术水平的“实态”使然 。 语言监测技术平台建设可以借鉴但不能照搬语言信息处理技术。 中华人民共和国教育部语言文字信息管理司25 作为系统工程,语言生活监测研究除了上面提到的三个方面建设外,还需要加强有关各方面力量的协调整合,完善监测研究工作的体制、机制,建立科学的语料库建设和监测研究成果评测体系,不断提高语言生活监测研究的质量。 中华人民共和国教育部语言文字信息管理司26 语言资源

19、建设是开展语言监测研究的基础和前提,以语言学、社会学和统计学等理论为指导的语言监测理论建设和现代信息技术平台建设是确保语言监测研究顺利进行不可或缺的两翼,而体制机制建设则是保证语言监测研究顺利、长远、滚动式向前发展的组织保障。处理好这四者之间的关系,切实做好资源、理论、技术平台建设和体制机制建设等基础性工作,有助于国家语言资源监测研究工作继续科学、平稳、可持续地健康发展。中华人民共和国教育部语言文字信息管理司27四、中国语言资源有声数据库建设试点28 中国是世界上语言资源最丰富的国家之一。如前所述,在当今世界全球化的大背景下,我国的汉语方言、少数民族语言正处于急速变化之中,有些语种甚至面临萎缩

20、甚至衰亡。要保存、保护并进而开发、利用好中华语言资源,使中国从语言资源大国变成语言资源强国,必须充分利用现代技术手段,科学、全面地调查收集我国语言、方言的基本状况和原始数据。为此,国家语委启动了“中国语言资源有声数据库建设试点”,按照统一规划,分批调查收集各地汉语方言、少数民族语言和带有地方特色的普通话等有声、实态语料,并进行科学整理、加工和有效保存,为推广普通话、推进语言文字信息化和社会文化建设服务。 中华人民共和国教育部语言文字信息管理司29中国语言资源有声数据库20072008该项目2007年开始论证和筹备,目前已进入试点阶段。2008年10月,“中国语言资源有声数据库建设试点在江苏省苏

21、州市率先启动。待取得经验、完善方案后,再逐步推开。中华人民共和国教育部语言文字信息管理司30 按照科学、统一的规划,调查收集当代中国汉语方言、少数民族语言和普通话的实态、有声语料,并进行科学整理、加工和有效保存,为推进中国语言文字信息化、推广普通话和社会文化建设服务。(一)宗旨、目的和预期效果 宗旨中华人民共和国教育部语言文字信息管理司31 语言、方言是文化最重要的载体和重要的组成部分,是构成文化多样性的前提条件,也是珍贵的非物质文化遗产,是不可再生的宝贵资源。 全面科学地描写展示我国汉语方言和少数民族语言的传统面貌,及时抢救记录和保存语言方言(尤其是那些弱势、濒危语言方言)资料,保护民族语言

22、文化遗产,是我国政府和学术界一项迫在眉睫的历史使命,同时也是国际关注的热点问题之一。 目的 (1)抢救保存濒危语言和方言中华人民共和国教育部语言文字信息管理司32 语言资源是人类精神文化资源的重要组成部分,它在传承文明、丰富民族文化和地域文化、促进世界文化多样性等方面具有重要作用,也是一个国家的软实力的体现。我国语言种类众多,有分属汉藏、阿尔泰、南岛、南亚和印欧5大语系的120多种语言。汉语方言历史悠久,分布地域广阔,使用人口超过10亿,方言种类难以计数,方言差异极其复杂。由于我国工业化、现代化的起步相对较晚,传统的语言方言资源仍保存得相对较好。中国是当今世界上语言资源最丰富的国家,是语言资源

23、大国。 要保存、保护并进而开发利用我国的语言资源,使语言资源大国变成语言资源强国,我们必须赶在汉语方言、少数民族语言急剧衰变之前,利用最新的现代化技术手段,科学、全面地调查收集我国语言、方言的基本状况和原始数据。(2)清理和开发、利用语言资源中华人民共和国教育部语言文字信息管理司33 人类交换的信息约有80%是通过语言文字进行的,语言文字信息化是国家信息化的基础。全面调查我国汉语方言和少数民族语言的基本情况,建立真实语音及其转写文本的巨型语料库,对我国语言文字信息化水平的提高,必将起到巨大的促进作用,进而有助于推动我国信息产业的发展与普及,增加我国在虚拟空间中的话语权,增强国家的信息处理能力和

24、信息安全。(3)促进国家信息化发展中华人民共和国教育部语言文字信息管理司34预期成果 建立可永久保存的中国语言多媒体语料库和相关数据库1绘制出详细、准确、可传至后代的多媒体语言地图2建立需要保护的语言、方言目录3研究新世纪国家语言战略,为构建和谐世界提供数据资源和参考意见4中华人民共和国教育部语言文字信息管理司35(二)任务 “中型”规模,调查内容限定为语言中最基本、重要、常用的现象(如单字、词汇、语法表达)。 中华人民共和国教育部语言文字信息管理司1.调查采录(1)调查点(2)调查内容和项目 全国1县1点。在汉语方言和少数民族语言共同分布的县,1县可设2点或多点。36 (本项目以县为基本调查

25、单位,含县、自治县、旗、自治旗、县级市等。位于城区或主要位于城区的所有市辖区合为一个县级行政单位看待,为方便称说,统一使用“县”一词)汉语方言地区的主要调查内容如下:语音: 1000字,要求能够反映方言语音系统、古今语音关系、各方言之间的语音关系,各方言口语常用。连读变调、儿化音变规律等不要求调查,但如有必要,地方可自行调查。词汇: 1800词,要求是汉语方言中最基本、常用、重要的词语。语法: 90项,要求是汉语方言中最基本、常用、重要的语法现象。概况:包括本县的地理、历史沿革、行政区划、人口、民族、交通等基本情况,本县汉语方言的种类(按“口音”区分)、分布、人口、使用和变化情况,等。 中华人

26、民共和国教育部语言文字信息管理司37自选项目:“自选项目”是指具有本方言区特色、但未收入全国调查表的单字、词汇、语法项目。自选项目以方言区为单位,由有关专家拟定,数量从严控制。中华人民共和国教育部语言文字信息管理司话语录音:独白式话语录音,包括“规定故事”和“自选话题”两部分,每人约2个小时。话题要尽量生活化,并具有本地特色和文化内涵,例如民间故事、童谣谚语顺口溜、传统节日、风俗习惯、本地特色等。地方普通话: 朗读材料3篇。38(3)调查对象“地方普通话”每个点调查3名发音人,3人的普通话水平分别为不入级、三级、二级(或大致相当于这三种水平的人)。发音人年龄、性别、民族、职业不限。“语音、词汇

27、、语法、话语录音”4项内容每个点分别调查2名发音人。要求如下:老年发音人限于19411950年之间出生的人,青年发音人限于19711980年之间出生的人。如果因为选择发音人有困难,年龄限制可适当放宽。尽量选择男性。发音人必须在当地出生和长大,家庭语言环境单纯,未在外地长住,能说地道的当地方言。老年发音人具有小学或中学文化程度(一般不宜选择大专及其以上文化程度的),反应能力较强,例如中小学退休教师、会计等。青年发音人不作限制。中华人民共和国教育部语言文字信息管理司392.数据库建设和开发数据库的部分内容可向社会大众免费开放使用。 “中国语言资源有声数据库”收录本项目调查获得的所有资料。数据库分为

28、汉语方言、少数民族语言、普通话三大分库。每一分库包括文本(文字和音标)、声音、图像(照片和录像)三种形态,三种形态之间的内容具有对应性和链接功能。 该数据库的基本功能是保存实态的有声语料。此外,还可加载有关标记、软件,使数据库具有可比性、可听性、可视性,具有多角度检索、多目的开发的功能。例如检索音值、词汇、语法结构及其地理分布情况,进行历时比较和共时比较,显示调查点的各种信息,利用“文本声音”链接显示有声语料,进行各种相关的研究等等。中华人民共和国教育部语言文字信息管理司40(三)措施1.政府主导 “中国语言资源有声数据库建设”是一项语言国情基本调查,涉及全国2860多个县(市、区、旗)和多个行业,甚至还需要在境外开展调查,需要调用有关部门和语言学、信息学以及其他相关学界的大量资源,需要投入大量的资金,因此应由国家立项,统一规划实施。2.专家承

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论