一、概述 - 中国科学院_第1页
一、概述 - 中国科学院_第2页
一、概述 - 中国科学院_第3页
一、概述 - 中国科学院_第4页
一、概述 - 中国科学院_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中文信息基础资源库平台-中文语言资源联盟谢萦中国科学院计算技术研究所(100190)陶建华中国科学院自动化研究所(100190)一、概述中文信息处理是自然语言信息处理的一个重要分支,它集成了计算机科学、语言学、信息学等众多领域,分为汉字信息处理与汉语信息处理两部分。其研究领域包括:分词、句法分析、语义分析、信息检索、文本校对机器翻译、语音识别与合成、对话系统等。在中文信息处理上,从小规模受限语言处理走向大规模真实文本处理,是一个意义深远的里程碑式的转折,语料库方法和统计语言模型已经是当前中文信息处理的主流技术。基础资源库被认为是目前开展以中文为核心的多语言信息处理技术研究与产品开发的最为重要的

2、基础。中文信息资源库是以中文信息处理为基础的学科中非常重要的支撑平台,目前资源库得建设受到国内外学术机构的普遍重视。为推动中文信息处理技术的发展,加快基础资源库的建设和共享工作,中科院计算所和中科院自动化所在863重点项目和973项目支持下,共同发起成立了学术性、公益性、非盈利性的资源共享平台-中文语言资源联盟(ChineseLDC,简称CLDC)。该平台涵盖中文信息处理多个层面上所需要的语言语音资源,包括词典、各种语音语言语料库、工具等。在建立和收集语言资源的基础上,形成系列化的标准和规范,推荐给用户。在建立和收集资源的同时,分发资源,服务于教育、科研、政府研究部门和工业技术开发,为汉语语言

3、信息处理的基础研究和应用开发提供支持。二、中文信息资源库的特点中文信息资源库是由多个中文语料库组成的,每个中文语料库都保持传统意义上的数据库的功能,但是每一个中文语料库又根据其研究领域的不同、计算方法的不同有着自己特定的数据结构。这些语料库是面向中文信息处理技术研究和开发的专业语料库,语料库的设计与开发注重专业人士的需求,标准化和个性化的共存,在科学研究中一些语料库渐渐的演变成为标准的数据格式。在中文语言资源联盟中,所有的语料库都是动态的,其动态性表现在以下几个方面:库容量随着时间的变化不断扩大;每个时间段选取的语料数量也是变化的;语料的抽取是分领域的,通用领域和各专业领域的语料是共存的;语料

4、是根据媒体的流通情况抽取的。联盟中的语料库还具有流通性,所谓流通性是指语言现象在社会上的流行通用程度。流通性是一个可以量化的指标,其量值取决于文本的发行量、发行地区、发行周期等,在网络时代,这个指标可以通过网络的各种统计增加其定义的范围。根据语料库自身的特点,中文语言资源联盟在建设过程中,是以子库的形式表现其动态性,以年为子库的标记形式,在一年里面还划分通用库和专业库,从而对于语料的选择有很明确的时间段,对于语言自身在此时间段特征也有充分的表达。在语料的加工过程中也完整的保存其语言特征和时间特征。三、中文信息资源库的布局中文语言资源联盟中的资源库涵盖了中文信息处理技术研究领域的大部分技术分支。

5、现有的语料库中有包含:汉字处理、语音识别与合成、机年12月,共有资源库85套。按照资源使用性质,大致为:评测语料19器翻译、信息检索、系统评测及公共词典、工具几个大部分。截止2009套;翻译语料13套;词典、人名、地名7套;分词、句法标注语料2套;语音识别20套;语音合成2套;自然口语语料库12套;双语语料库5套;其他4套。在语料库的管理过程中,根据每年资源共享的情况,根据中文信息技术研究发展的趋势,结合国际上自然语言处理的战略发展趋势,中文信息资源联盟每年对下一年的语料库建设提出新的战略设想,有组织有目的的收集和建设一些语料库。这些语料库,有的是动态扩展的语料资源,有些则是根据技术发展的需要

6、新建的,也会有一些按照用户的需求定制的语料。图二:2005年-2009年资源建设分布四、共享应用服务中文信息基础资源库在全球范围内提供服务。服务采用会员制管理模式。会员共享资源为分级共享,以重点项目承担单位为核心级使用者,以下可以划分为院内研究机构、国内研究机构、院内企业、国内企业、国外研究机构、国外企业及研究爱好者。各个级别的用户按照一定的使用规则取得数据库的分级使用权。使用者也可以按照语料库的规范和标准上载共享数据,经过质量评测,一旦纳入本数据库,那么该使用者的共享级别也会按照规则上升。在中文语言资源联盟中,具有一定量的资源库可供用户免费使用,一部分的资源库则根据资源的使用用途(商业性质还

7、是非商业性质),收取一定的费用,其费用主要用于资源库的进一步建设与发展。联盟鼓励相关单位将各自的数据库进行共享,通过联盟的平台进行会员之间进行的交换或付费使用)。资源共享平台,能够提供资源的实时管理,用户分级和分类处理,支持大规模的数量传输能力。同时提供资源共享过程中各种法律文书的管理功能。为了使中文信息基础资源库提供广泛的服务,资源共享平台提出了一套完整的数据收集、存储的规范和标准。每个语料库包含的标准信息为:资源介绍、标注规范、技术文档和实例下载。资源介绍中包含的标准信息有:资源名称、资源简述、单位名称、开发时间、资源规模;标注规范中包含的标准信息有:资源简介、数据校对规则、标注工具、标注

8、信息、标注规则、标注注意事项;技术文档中包含的标准信息有:资源名称、资源持有者、资源创建时间、资源建立目的、语料库结构、技术参数、执行标准;实例下载提供语料库规模5%左右的数据作为提供给用户免费下载。五、发展趋势中文信息基础资源库的建设是一个长期的任务,目前的资源库的规模和管理模式奠定了良好的基础。在此基础上,凭借基础资源平台的系统性、规范性和科学性吸引更多的资金和更多的资源加盟,实现其滚动式发展,从而建成国际上最系统最完整的中文信息基础资源库。中文信息基础资源库本着开放、共享、发展的原则,在世界范围内征集与中文信息处理技术发展相关的数据资源和语料库。同时,根据用户的需求,自行开发和建设新的语料库。为了宣传中文信息处理技术

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论