基于大数据的日语语料库的开发和教学应用研究_第1页
基于大数据的日语语料库的开发和教学应用研究_第2页
基于大数据的日语语料库的开发和教学应用研究_第3页
基于大数据的日语语料库的开发和教学应用研究_第4页
基于大数据的日语语料库的开发和教学应用研究_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于大数据的日语语料库的开发和教学基于大数据的日语语料库的开发和教学应用研究应用研究杨本明【摘 要】信息技术和存储技术的迅速发展为日语口译语料库的构建提供了现实的可能,本研究基于数据库检索软件 antconc 平台,选择青空文库中具有代表性的 20 部日文小说,把小说中的台词进行数据化处理,尝试建设一个小型的日语语料库,以其为日语课堂教学提供有益的参考。【关键词】语料库;日文小说;检索软件:g64 文献标志码:a :1007-0125(2018)34-0205-02随着“一带一路”国家大战略的推进和国际贸易合作的迅猛发展,当代大学生在学习外语时不但要练好听、说、读、写、译五项基本功,而且时代的

2、发展对外语类毕业生的口译能力提出了更高的要求。如何在有限的时间内提高外语课堂教学质量?如何更加有效地培养出适应市场需求的外语类人才?这对当下的外语教学提出了挑战,同时也不得不引起教育工作者的深思。信息技术的发展和存储技术的不断提升为外语教学和研究提供了便利,本文首先对国内外的日语语料库的建设现状进行了梳理,简单分析了这些语料库的特点和功能。其次在吸收前辈们优秀经验的基础之上,基于数据库检索软件 antconc 平台,选择具有代表性的 20 部日本小说,把小说中的台词进行数据化处理,尝试建设一个小型的日语语料库,以期为日语口译课堂教学提供有益的参考。一、日语语料库发展综述最近十年来,随着硬件储存

3、技术和互联网技术的迅猛发展,国内外语料库的建设也呈现出良好的发展势头。利用关键词“语料库”三个字在中国知网进行检索,可以发现该领域的研究论文从 2008 年的 481 篇增加到现在的千余篇。但是输入“日语语料库”三个关键词,只能检索到 17 篇参考文献,并且最早的一篇关于日语语料库的文章发表于 2009 年,而早在 1982 年,学者杨惠中就已经开始构建 jdest 科技英语计算机语料库,这说明日语語料库的建设和发展远远落后于英语语料库的发展。通过对先行文献的梳理发现,在国内研究方面,北京外国语大学徐一平教授团队建设的中日对译语料库、上海外国语大学毛文伟教授团队建设的中国日语学习者语料库具有代

4、表性。在国外研究方面,近十年来,日本国立国语研究所在语料库建设方面取得了飞速的发展,先后建立了现代日语书面语均衡语料库(現代日本語書言葉均衡),现代日语口语语料库(日本語話言葉),国语研究所日语网页语料库(国語研日本語)等十几个大型语料库,极大地方便了国外研究者和学习者。(一)国内日语语料库发展综述国内日语语料库的发展主要分为三个阶段,第一阶段是计算机化以前的阶段,称之为传统语料库时期,主要以卡片语料库为主。第二阶段为计算机化以后的阶段,称之为现代语料库时期。第三阶段为超级计算机存储阶段,称之为大数据语料库时期。20 世纪 90 年代以前,国内语料库的建设一般是以卡片存储的方式建立的,这种日记

5、本式的语料库建设需要人工书写,占据空间大,不方便查阅,规模也极其有限。20 世纪 90 年代以来,随着计算机存储技术和网络技术的发展,国内的日语语料库建设开始有了起色。2000 年以后,日语语料库建设进入快速发展时期。其中,北京日本学研究中心徐一平教授团队建设的中日对译语料库和上海外国语大学毛文伟教授建设的中国日语学习者语料库极具代表性,这两个语料库不论在规模上,还是在质量上都填补了国内的空白。北京外国语大学北京日本学研究中心徐一平教授团队所建设的中日对译语料库项目在国内日语语料库建设史上具有里程碑一样的意义,该语料库共收录了中日双语各种文本语料 2013 万余字。上海外国语大学谭晶华教授、毛

6、文伟教授团队建设的中国日语学习者语料库开创了日语学习者语料库建设的先河,该语料库的开发对于高校日语教学具有积极的指导意义。国内外其他高校日语语料库的建设,虽然也有所建树,但是如前所述受到资金和版权的限制,发展并不是特别迅速。(二)国外日语语料库发展综述1948 年 12 月,日本文部省设立了国语国立研究所。这一研究机构早在 20 世纪50 年代就围绕日语进行了大量的调查与研究,但是由于客观条件的限制,近半个世纪以来,日本语料库的建设比较缓慢。到 90 年代前半期为止,日语语料的建设还主要是以人工方式进行的。90 年代后期,随着计算机技术的迅速发展,日本的语料库建设也进入了飞速发展时期。其中有代

7、表性的日语语料库主要有以下几种:1.現代日本語書言葉均衡(bccwj)(構築 2006-2011, 公 開2011)该语料库收录了 1976 年-2005 年 30 年间的语料,选材包括书籍、白皮书、新闻报纸、博客、bbs、教科书等内容,语料库的规模达到 1 亿 430 万字。目前该语料库有“少纳言”、“中纳言”、“dvd 版”三种,其中“少纳言”供日语研究和学习者免费使用。2.日本語話言葉(csj)(構築 19992003,公開 2004)该语料库是国立国语研究所、情报通信研究机构、东京工业大学联合开发的日语口语语料库,选材来自演讲、对话、朗读等内容,语料库的规模为 750 万字,录音时间为

8、 660 小时。目前该语料库提供“中纳言”、“usb 数据”两种版本供研究者和学习者使用。3.日本語歴史(chj)(構築 2010 , 段階的公開)该语料库是国立国语研究所开发的日语历时语料库,内容涵盖了从奈良时期一直到大正时期的日语语料,语料题材有诗歌、故事、随笔、游记、日记、狂言等内容。值得一提的是该语料库的开发为日语历史变迁的研究提供了宝贵的佐证材料。4.国語研日本語(構築 20112015, 公開 2016 予定)该语料库始建于 2011 年,语料库选材全部来源于网络,该语料库的特色是语料库规模大,其语料达到了 100 亿字。因为该语料库所选择的语料全部来源于网络,所以语料比较新,符合

9、当代人的表述习惯,但是同时也存在着语料不够规范的缺点。5.近代語该语料库建设于 2009 年-2012 年期间,选材主要限定于明治时期昭和时期的文学作品、杂志、畅销书等。明治时期是日语从“文语”到“口语”的转换时期,相当于中国的白话文运动。该语料库又细分为“太陽”、“近代女性雑誌”、“明六雑誌”、“国民之友”四小部分。6.青空文库1997 年 2 月创立的青空文库是一个免费的日本文学作品电子图书馆。该语料库几乎涵盖了日本各个时期、各个流派、各种类型的文学作品。目前该语料库提供 zip、ebk、html 三种文件格式。编码方式采用 shiftjis 编码。青空文库的免费文学作品极大地方便了日语学

10、习者和日本文学爱好者。二、日語小说与语料库的构建2009 年本人开始筹建小规模、简易教学语料库,目前语料库约有 2000 万字规模。该语料库建设目前仍在进行中。预期目标是建设一个规模小,使用方便,检索迅速的语料库。语料的来源是青空文库中部分著名作家的文章。语料检索的软件载体是 antconc,该软件拥有词语检索、生成词表和主题词三大功能,通过编码、压缩后的语料,可以在该软件中以日文的形式展现,并且不会出现乱码现象。选择青空文库的原因如下:首先,没有版权问题。版权问题是语料库建设过程中必须考虑的问题,在日本,任何文学作品的版权都受到严格的保护,任何机构和个人在没有得到作者许可的情况下都不可以转载

11、、使用其作品。这也是语料库建设中普遍使用比较旧的语料的原因。正如前文所述,青空文库所收集语料,其著作权已经消失,根据日本著作权法,这些作品已经不存在著作权的问题,可以自由使用。制作好的语料库可以免费提供给教师和学生使用,极大地方便了日语学习和研究。其次,语料丰富。青空文库从 1997 年开始建设以来,已经历时 13 年的时间,其规模达到相当可观,包含 10752 篇文学作品。其中一部分作家的大多数作品都已经录入数据库。青空文库的题材广泛,包括小说、散文、游记、书评、回忆录等各种题材,保证了语料的多样性,可以从各种不同的语言素材出发,对具体的语言现象进行研究。再次,名家名篇保证了语料的科学性。在

12、语料抽取的过程中,主要抽取了夏目漱石、森欧外、有岛武郎、田山花袋等名家的著名文学作品,在语法教学和词汇教学中,可以通过语料库直接检索名家的语料,避免由于教师自己造句子所带来的误差。并且名家名篇所构成的语料具有很高的文学性和艺术性,在具体的教学中,通过语料的抽取和学习,能极大地提高学生的日语水平和文学素养。三、日语语料库建设的界限与难点首先,规模问题。语料库建设是一项规模极其浩大的工程,受计算机内存和存储性能的影响,以个人的财力和物力所建设的语料库在规模上和性能上是有一定的局限性。同日本国立国语研究所数以亿计的大规模语料库相比,本语料库目前仅能对一些简单的语言现象进行检索,更大规模的语料库建设,

13、只能靠国内高校间的合作。antcon 检索软件只能对小规模的数据库进行检索,如果是大规模的数据库,该软件检索需要花费较多的时间。其次,语料选材问题。语料库的建设顾名思义语料的选择具有很重要的意义,选择什么样的语料,是日本人日常生活中使用的口语,日剧中登场人物的对白,还是日本企业中使用的商务日语,对语料库的性质起着至关重要的作用。因资金支持和人手问题,本语料库只是一个生语料库,并且不涉及语料的均衡性问题。所以在选材方面主要选取了有代表性的小说。在时间跨度上,选取了明治、大正、昭和、平成四个不同时期的作品,力争涵盖各个历史时期的文学作品,使语料库更具有科学性和代表性。再次,语料的时效性问题。语料库

14、制作还需要考虑的一个问题就是时效性的问题,本语料库所选取的语料并非是当下使用的日语,而是以文学作文的形式固定下来,为日本人所熟知的文学作品。关于这个问题需要说明的是语言材料的时效性并不像食品的保质期一样,很短时间内就会发生质的变化。语言是一个相对固定的东西,我们可以比较流畅地阅读 250 多年前写成的红楼梦,可以很好地说明这一点。四、结语随着计算机存储技术和大数据检索技术的不断发展,大量的日语学习语料充斥于网络,极大地开阔了日语学习者的视野,丰富了日语学习者的学习手段。但是,如何在如此众多的语料信息当中筛选出有用的信息,并有效提高我们的学习效率,这无疑成为亟待解决的问题。本文基于 antcon 检索软件,选取了青空文库中具有代表性的小说制作成简单的语料库,服务于日语口译教学,提高了教学效果。同时,本文探讨了个人自

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论