《作为语料库的互联网:理论与实践》述评_第1页
《作为语料库的互联网:理论与实践》述评_第2页
《作为语料库的互联网:理论与实践》述评_第3页
《作为语料库的互联网:理论与实践》述评_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    作为语料库的互联网理论与实践述评    金明珠 刘洋摘 要:网络语料库(web as corpus)指的是把互联网视作一个文本语料库,应用google等搜索引擎或webcorp等专用检索工具为检索手段创建语料库。互联网以其开放性及不断的增长的巨大文本数量日益成为语料库重要的数据来源,可以弥补封闭的语料库的呈现的语言动态发展不全面的不足,对语言发展变化研究的重要性越来越高。据此,本书以语料库与网络关系为背景,介绍了如何运用语料库语言学和计算机语言学的理论,利用互联网创建语料库的系统实践。该书的作者maristellagatto是意大利bari大学现

2、代语言系的高级研究员和讲师。关键词:网络语料库;引擎;webcorp一、内容简介本书共分为7章,每章后均配有动手实践,和延伸阅读环节,既可用作教学和培训的教材,也可用作自学入门的实用读物。第一章结合bnc(british national corpus)语料库回顾了语料库的核心概念,包括真实性,代表性,均衡性,取样,大小,构成及语料库分析工具如词表,关键词列表,索引等,为进一步介绍语料库应用扫清障碍。第二章辩证地看待了互联网作为语料库的合适性问题。互联网检索出来的网页其组织结构与传统语料库截然不同,而且无法某些网络文本的真实写作时间,文本作者的文化背景,及文本之间的可比性。此外,互联网网页上的

3、许多超文本格式交叉引用大量超链接,存在很多信息噪音。但是互联网提供的文本数量巨大,里面包含更多的单词及短语共现样本,因此互联网已被广泛地视为具有极大潜能地语言数据资源,对它包含的文本的研究可以看作是其所代表的语言及文类的研究,所得出的结论对语言运用及语言理论建设具有划时代的意义。第三章中作者介绍如何使用互联网通用搜索引擎的爬行功能,索引功能,搜索功能,排序功能等基本功能,搜索特定词和短语的用法。本章还详细地展示了谷歌搜索引擎的高级搜索功能如布尔数学体系,还展示了如何不断精确关键词和使用通配符来加强检索式的限制性,达到语义聚类或限制语法结构的目的。第四章介绍了互联网进行索引的个性化语言学检索引擎

4、webcorp live和webcorp project等第四代语料库分析工具(mcenery&hardie,2012),其原理就是研究者使用谷歌搜索引擎下载含有目标关键词的网页文件,随后细化检索标准,深入进行二次检索和分析,网页会呈现更丰富的上下文语境和更精确的使用频率,检索结果呈现kwic(关键词居中)模式,还可提供词频表,方便统计搭配词和执行其他分析与运算,被作者成为“网络小宇宙”。第五章展示了如何通过使用bootcat工具快速创建专门化的线下语料库。bootcat(baroni,&bernarnidi,2004)是一款免费的自动上网收集语料并创建临时语料库的工具,其原理

5、是依靠用户提供的关键词,在网上收集和关键词内容相关的网页然后构建一个临时语料库(ad hoc corpus)。基本的做法是在网络上搜索的关键词(称为seeds),bootcat会根据seeds自动生成tuples(关键词的组合),然后依次输入其他的搜索条件,软件会自动创建语料库。第六章的题目是大型网络数据库的语言和文化扫描,作者介绍了一些大库容的多语言普通用途网络语料库,比如tenten collection的库容超过100亿词。随着自然语言处理技术和计算机处理能力提高,sketch engine(kilgariff et al.,2004)工具应运而生的,可以用其对这些大库容网络语料库进行检

6、索。它基于“搭配与词义对应”的理论,是一种高效率的语言信息提取工具,它本身是一个数据库,在词语搭配与语义之间架起一道桥梁,将大型语料库中的语言信息进行有效的汇总。第七章讨论了web2.0对语料库语言学的影响,指出了第二代网络技术使得信息实现了双向传递,网络成为用户进行参与的平台,互联网使用者可以根据需要对各种资源进行加工,编辑和整理,终端用户可以实时更新网络内容二、简评本书是第一本系统性描绘利用互联网进行语料库建设的书籍,锐意求新,传授了利用互联网创建语料库并进行应用的技术和方法,对于语料库语言学和计算机语言学领域作出了巨大贡献。在语言学研究领域利用网络来建语料库可以看作对应用传统语料库得到的

7、结果的有益补充。(1)本书是全新的认识论。传统的观点认为互联网因其非为指定语言学特定研究领域而建,缺乏标准语言学语料库意义上的系统性和典型性特征,本书从互联网和语料库交叉的角度展开对数据的认识,强调作为语料库的互联网因其涵盖的语言数量众多的文本,在文本类型与题材类型方面有动态化的特点,并且能记载动态的语言变化,因而能成为重要的语言学研究中的语料库资源。这种观点拓宽了语料库研究的范围,具有前瞻性的指导意义,推动了计算机语言学的发展,对语料库语言学从业人员,培训者和研究人员都有启发意义。(2)本书为将互联网作为语料库提供方法论指导。本書3-6章围绕如何利用互联网创建语料库的研究问题展开,实践的技术

8、方法,步骤,工具均服务于研究的目的。所用案例均来自真实的研究实践,同时具有开放性,有助于举一反三。书中使用的快捷和应用广泛的wac(web as corpus)各种建库方法对操作步骤的介绍详细,清晰,操作性和可行性强,为众多想利用互联网作为语料库的研究者提供了方法论的指导,启发他们自动化和半自动化地建立单语语料库和双语语料库。(3)本书为其他学科比如翻译提供了很好的启示。第三章的结尾就是根据互联网的数据进行翻译实践,这能从另一种的方式证明利用网络作为语料库的实际性。但本书探讨利用互联网创建语料库时,语言仅限于英语和意大利语,但是语言本质的区别必然导致对译的不同,而这些不同会导致搜索结果的不同,

9、无法判断本书的研究成果适用于所有的语言类型。此外,网络语言学被称作语料库语言学的第四代,作为一个新兴的领域,它还有很多问题亟待解决,比如语料库构建方面的语料库设计(语料库构成,语料库评估,抽样策略和爬行算法式,处理复制材料)以及专业性更强的方面(文本清理和标注,以及大规模的平行化以期达到互联网规模的语料库建构),以及系统的评估作为互联网语料库与传统的语料库的区别等,这些方面都亟待解决,任重而道远。参考文献:1baroni,m.&s. bernarnidi .2004 . bootcat: bootstrapping corpora and terms from the webr. pa

10、per presented at the 2004 lrec, lisbon, portugal,2004.2davies, m. 2014. making google books n-grams useful for a wide range of research on language changej. international journal of corpus linguistics 19 (3):401-416.3kilgarriff a. et al. 2004.the sketch enginer, paper presented at the 2004 euralex, lorient, france, 2004.4mcenery, t. &hardie a. 2012.a corpus linguistics:method, theory and practice m. cambridge: cam

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论