语料库和知识库的研究现状_第1页
语料库和知识库的研究现状_第2页
语料库和知识库的研究现状_第3页
语料库和知识库的研究现状_第4页
语料库和知识库的研究现状_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语料库和知识库的研究现状语料库和知识库的研究现状/语料库和知识库的研究现状语料库和知识库研究现状2015-12-9摘要:语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,它与自然语言办理有着相辅相成的关系,是用统计语言模型的方法办理自然语言的基础资源。知识库宽泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域,为进行大规模的真实性文本的语义解析供应了有利的支持,它也成为自然语言办理不可以或缺的基础资源。由于语料库和知识库的宽泛应用,此刻国内外对语料库和知识库的研究给与高度的重视,经过过去几十年的发展,各国在语料库和知识库的建设和应用方面都获取了很多成就。本文经过对语料库与知识库相关文件资料的找寻整理,重点介绍当前国内外在语料库和知识库方面的研究现状。重点词:语料库;知识库;研究现状前言语料库是指依照必然的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本也许说话片段而建成的拥有必然容量的大规模电子文本库[1]。而知识库是知识工程中结构化、易操作使用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机储藏器中储藏、组织、管理和使用的互相联系的知识片会集。语料库和知识库在传统语言研究、词典编纂、语言授课、自然语言办理等领域有重要作用,因此自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(BrownCorpus)出生开始,大批国内外的专家学者致力于语料库和知识库的研究,近来几年来国内外对于语料库知识库的研究获取了重要的打破,形成了规模不一的各种语料库和知识库,而且涌现了众多相关语料库和知识库的专着、论文等。对于语料库和知识库发展现状的总结研究,不但可以帮助人们清楚的认识语料库和知识库当前发展的形势,对今后语料库知识库的发展拥有必然的指导作用,而且对于应用语料库知识库发展自然语言办理等领域拥有重要意义。研究意义从现代意义上第一个语料库出现以来,语料库在国内外的发展均有长足的进步,不仅其规模越来越大,加工深度越来越深,而且相关语料库的应用也越来越宽泛[2]。语料库的迅速发展对语言学研究领域和应用语言学领域产生了巨大的作用。在语言学研究领域,语料库为语言研究者和使用者供应了丰富而全面的研究素材,有助于研究者依照大批的语言素材实质得出客观正确的结论。别的,语料库的现代化使得语言学家可以利用语料库解析软件实现语料检索和频率统计,帮助人们观察和掌握语言事实,更为正确的得出结论。在应用语言学领域,语料库技术与应用语言学的结合也产生了大批的合用成就。比方,应用语料库产生一系列基于语料库的词典,应用语料库确定语言授课的教材大纲,供应外语授课与研究的优异平台等。而知识库特别是语言知识库,是帮助计算机认识人类语言的一个媒介和手段,也是让计算机逐渐智能起来的物质前提[3]。知识库的成立对于自然语言办理的发展拥有重要作用,可以满足其对语言句子语义知识的要求,在信息检索、机器问答系统、信息提取、机器翻译、文本分类、自动文摘等方面获取了宽泛的应用。基于以上介绍的语料库和知识库在此刻研究中的重要作用,对于语料库和知识库发展现状的研究总结,可以帮助人们更好地认识语料库和知识库的此刻已获取发展成就和还没有解决的问题,可以为人们对语料库知识库的进一步研究和应用供应必然的指导作用。国内发展现状语料库的发展与现状自1979年中国开始成立机器可读的语料库以来,国内语料库发展迅速,获取了相当一部分的成就。(1)早期语料库早期在中国成立的机器可读语料库主要包括:1979年武汉大学成立的汉语现代文学作品语料库(527万字)、1983年北京航天航空大学成立的现代汉语语料库(2000万字)、1983年北京师范大学成立的中学语文教材语料库(106万8千字)以及1983年北京语言学院成立的现代汉语词频统计语料库(182万字)。早期形成的这些语料库,基本都是手工方式成立的,成本高、效率低。别的,在早期成立语料库时,只形成了初步的国家语料库的成立标准,在语料库成立的一致规范方面问题比较突出。(2)国家级大型汉语语料库在1991年,为了推进汉语的词法、句法、语义和语用的研究,中国国家语言文字工作委员会开始成立计划规模达7000万汉字的国家级大型汉语语料库。诚然该语料库当时在汉语语料库系统开发技术上拥有国际当先水平,而且在语料的可靠和注明的正确方面等享有声威性,但是该语料库依靠纯手工成立,在选材方面也碰到了必然的限制。当前,该语料库已经拥有2000万字的核心语料,经过人们的加工办理,其正在完成从生语料库到熟语料库的过分。(3)大规模真实文本语料库随着技术的进一步发展,大规模真实文本语料库逐渐被成立起来。研究大规模真实文本语料库的单位包括北京大学计算语言学研究所、清华大学、山西大学、哈尔滨工业大学、北京语言文化大学、东北大学、中科院软件研究所、中科院自动化研究所、香港城市大学以及台湾中央研究院等。其中代表性成就有:北京大学计算语言学研究所从1992年开始张开对现代汉语语料库多级加工的研究,先后建成2600万字的1998年《人民日报》的注明语料库,2000万字汉字、1000多万英语单词的篇章级英汉比较双语语料库以及8000万字篇章级信息科学与技术领域的语料库等。清华大学则在1998年景立了1亿汉字的语料库,它重视研究歧义切分的问题,此刻成立的生语料库已达7-8亿字[4]。(4)双语语料库在20世纪90年代前后,随着外语授课的普及,先后出现了各种不同样的双语语料库,比方:北大计算语言学研究所的双语语料库、哈尔滨工业大学的英汉双语语料库、东北大学的英汉双语语段库等英汉双语语料库,北京外国语大学的北京日本学研究中心成立汉语和日语并行语料库、中国海洋大学语言文学院研制的《蝴蝶》德汉比较语料库以及复旦大学计算机系成立的汉日英分类熟语料库。在该时期,中国语料库的发展进入到崭新的蓬勃时期。双语语料库的迅速发展为外语授课供应了丰富的可用资源,对于外语授课的发展起到了巨大的推进作用。(5)少许民族语语言料库由于我公民族众多,民族语言资源丰富,因此近来几年来,少许民族语语言料库的发展获取了大家的重视。比方,新疆大学从2002年起开始建设现代维吾尔语语料库系统,当前已有生语料800万词;新疆师范大学成立了200万词的维吾尔语语料库,拟发展到300万词;中国社会科学院民族研究所成立了500万藏语字符的藏语语料库;内蒙古大学成立了带有初步切分和注明的蒙古语语料库[5]。诚然由于少许民族语言的特别性,少许民族语料库的建设还存在一系列问题,但是少许民族语语言料库的成立足以说明到当前为止我国语料库的发展已经达到了一个新的高度。知识库的发展与现状在国内,此刻比较有名的知识库是HowNet(知网)、基于WordNet框架开发的中文看法词典(CCD)以及台湾中研院的SinicaBow[6]等。从上世纪末开始,董振东先生就带领一批专家学者开始成立知网(HowNet),它是一个以汉语和英语的词语所代表的看法为描述对象,以揭穿看法与看法之间以及概念所拥有的属性之间的关系为基本内容的知识知识库。知网的发展从1988年张开基础研究开始到2008年宣布“知网在线”共经历了九个过程。现此刻,的发展比较成熟,已经成为中国知识资源的总库,供应了工业、农业等众多学科的知识。它不但为语言信息办理的研发供应了丰富的知识资源,而且供应了一个进行汉语言计算机办理的新思路,其在词义注明、词义消歧、信息过滤、词义相似度的计算等好多领域获取宽泛的应用。CCD是基于WordNet框架开发的,他不但继承了WordNet的一部分方法技术,而且依照汉语的特点对WordNet进行了改进,经过多年的努力,CCD已包括十万左右的汉语同义词集[7]。台湾中研院开发的SinicaBow支持英汉双语盘问;多重语义索引等,而且SinicaBow还包括了不同样层次的词汇知识,词汇的可用资源丰富而全面。外国发展现状语料库的发展与现状从20世纪60年代开始,语料库从第一代逐渐发展到此刻的第三代,这么多年来,各国在语料库的发展方面都获取了不菲的成绩。(1)第一代语料库20世纪60年代Francis和Kucera在美国Brown大学成立美国布朗语料库(BrownCorpus),它是世界上第一个依照系统性原则收集样本的标准语料库,主要代表今世美国英语的,拥有100万词的规模。70年代初,英国Lancaster大学、挪威Oslo大学与

Bergen大学结合成立了与布朗语料库规模相当的

LOB

语料库,它主要代表今世英国英语。

LLC口语语料库

(London-LundCorpusofSpokenEnglish)

在1975年建成的,其规模为万词的而且带有详细的韵律注明。整体来说,第一代语料库的规模比较小,基本采用系统的抽样方法而且基本都以语言研究为目的。(2)第二代语料库COBUILD语料库(CollinsBirminghamUniversityInternationalLanguageDatabase,科林斯英语语料库)是从20世纪80年代开始由英国伯明翰(Birmingham)大学和柯林斯(Collins)初版社合作成立的主要应用于词典编撰的一个大规模语料库,当前它固定在亿词的规模,而且供应在线检索。同样在20世纪80年代朗文语料库委员会还成立了应用于英语学习词典编纂的Longman语料库(朗文语料库),当前其规模达5000万词次。由于技术的进步,第二代语料库采用谈心的光电符号鉴别技术,拜托了手工成立的麻烦,节约了语料库成立的时间和成本,而且第二代语料库的规模与第一代语料库对照均有大幅度提高。(3)第三代语料库美国计算机协会(ACL/DCI)建议倡导成立ACL/DCI语料库,其收集的语料本源宽泛,而且采用了一致的标准通用注明语言和TEI文本编码建议标准。在20世纪80年代末90年代初,美国宾州大学开始对百万词级的语料进行句法和语义注明,把线性的文本语料库加工成为表示句子的句法和语义结构的树库,成立了宾州大学树库(PennTreeBank)。到1993年已经完成了对300万词的英语句子进行了句法结构注明。别的在2000年,其完成了约10万词、4185个句子的初版中文树库。随着发展,第三代语料库的语料从开始的单语种发展到多语种,规模从开始的百万级发展到亿级、万亿级,采用的文本从抽样发展到全文。经过三个阶段,现此刻除上述所列的语料库,外国还包括好多其他的语料库,整体来说,此刻不但中国的语料库发展迅速,在外国语料库也获取了巨大的发展成就。知识库的发展与现状外国知识库的发展过程中,形成了以描述聚合关系为主的WordNet,以描述组合关系为主的FrameNet[8]。本文将重视介绍WordNet,对于FrameNet不做详细表达。为认识决词典中同义信息的组织问题,美国美国普林斯顿大学(PrincetonUniversity)认知科学实验室开发了WordNet[9],它是在线词汇的语义资源。其基本单元是同义词会集,而且单元和单元之间主要依靠包括上下文关系、反义关系、整体部分关系等的聚合关系来连接。它包括95600个英语词条,其中51500个简单词,44100个搭配词,70100个同义词级会集。其详细可以应用于词汇消歧,语义推理,语义理解等领域。存在问题及未来发展趋势存在的问题语料库的问题诚然国内外语料库的建设发展迅速,但是在语料库的发展方面依旧存在很多的问题,主要包括:(1)语料库建设的规范问题语料库的规范问题主若是对语料加工而言的[10]。诚然在语料库的发展过程中形成了《信息办理用字符集汉字部件规范》、TEI(TextEncodingInitiative,文本编码建议,1998年)、CES(CorpusEncodingStandard,语料库编码标准)及国际标准SGML(StandardGeneralizedMarkupLanguage,标准通用置口号言)等一系列约束语料库的标准和规范,但是语料库中建设的规范问题依旧比较严重,存在分词的标准没有完好确定和一致,文本属性的规范未能完好成熟等问题。(2)产权保护和国家语料库建设问题在此刻社会中,诚然人们宽泛关注语料库的发展,重视国家语料库的建设,但是没有拟定出台对于语料库知识产权保护的法律法规,以正式初版物为资源的语料库面对版权的问题,别的也没有将国家语料库的建设和保护上升到对于国家资源保护的高度。(3)语料库的资源共享的问题诚然近来几年来语料库资源在较大范围的共享已经成为了可能,但是在资源共享方面依旧存在比较严重的问题。一方面,由于建设语料库的目的不同样,收集的语料信息也不同样,这给资源的共享带来了必然的限制。另一方面,好多语料库资源的共享是盈利性质的,这也限制了语料库资源的共享。(4)语料库加工中统计垃圾的问题此刻社会,由于计算机的普及,电子文本获取宽泛使用,用于生成语料库资源的越来越多,但是随着语料库容量的不断增大,语料统计中的数据稀罕现象会越来越严重[11]。而在统计垃圾中可能会储蓄着好多新的语言现象,因此应该正确的地对待统计垃圾,防备统计中的数据稀罕现象。(5)语料库发展不平衡随着语料库的发展,语料库在个领域发展不平衡的现象越来越严重。以中国为例,某些语料库,比方英汉双语语料库,在此刻获取了迅速的发展,形成的语料库规格各异、数量众多,但是在少许民族语言方面,形成的语料库数量少,规模小。因此,我们应该着眼于全局,使得语料库可以获取全面平衡的发展。知识库的问题诚然知识库的建设各个国家的重视,但是知识库依旧存在以下的一些问题:(1)知识获取问题由于知识的提取技术不可以熟,若是采用机器自动提取知识成立知识库会降低知识库的质量,而手工成立知识库诚然保证了质量但是效率低、成本高。因此,知识的获取是阻拦知识库发展的一个瓶颈。(2)保护困难由于知识的动向性,使得知识库需要经常的进行保护[12],当知识库规模特别大时,它的保护工作难以进行。未来发展趋势诚然语料库和知识库的发展存在上述的一些问题,但是经过近几十年的发展,无论是在语料库知识库的利用还是研究方法上都获取了长足的进步。而且随着知识经济的发展,计算机语言学和自然语言办理在学界也越来越碰到重视[13],这也意味着作为其发展基础的语料库和知识库也越来越获取人们的重视。纵观此刻现状,由于计算机技术的迅速发展,建设语料库的语料资源越来越丰富,越来越多的语言研究者依照自己需求成立语料库,这使得语料库的建设趋于多样性、应用趋于多样化。别的,学习者语料库、口语语料库、平行语料库等应用性比较强的语料库种类的发展趋势可能更为乐观。而知识库则会出现本体化和多语化的大趋势,它们将从不同样方面填充词汇语义知识库在知识共享和知识交流上的不足,使其更好地为自然语言办理服务[8]。总之,语料库和知识库在今后相当长的时间内都拥有广阔的发展空间。总结语料库主要用来研究语言的特点,随着技术的现代化,语料库在语言学研究中据有着越来越重要的地位。而语言知识库则是自然语言办理的基础,在机器问答系统、信息检索等方面发挥重视要的作用。本文大纲介绍了语料库和知识库的基本看法,研究语料库和知识库的意义、语料库和知识库当前存在的一些问题以及对语料库和知识库未来发展的展望,别的,本文重视介绍了国内外语料库以及知识库的发展现状。参照文件[1]刘美良.语料库语言学综述[J].科技信息,2010,21期(21):280-281.常宝

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论