版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语料库语言学介绍语料库和语料库语言学的定义国外对语料库语言学的定义:1、根据篇章材料对语言的研究称为语料库语言学。(K.A
ijm
er
&B.itenberg,1991)2、基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。(T.M
cEnery
&A.W
ilson,1996)3、以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。(D.Crystal,1991)我们认为较为准确全面定义:语料库(corpus或corpora[复数]):是指按照一定的语言学原则,运用随机抽样方,收集自然出现的连续语言运用文本或话语片
段而建成的具有一定容量的大型电子文本
库。语料库语言学:在文本语料的基础上进行语言研究的一门学科。语料库语言学的研究对象语料库语言学是以语料库中收集储存的真实语言材料做为唯一的研究对象,以语言现象出现的概率为依据。因此,语料库语言学为语言学研究提供了一种全新的研究思路。一个合格的语料库必须以电子计算机为载体来存放语言材料,这些存放在电子计算机中的语言材料是在语言的实际使用中真实出现过的。因此,它们可以如实地反映语言现象,克服语言学家观察语言现象时的主观性。语料库语言学的应用1、语料库语言学与语言研究(1)语料库与语言学理论。语料库的建立使语言的理论研究的手段和方法发生了巨大的变化,它不但修正了语言的一般性规则,而且对语言的理论探索也产生了深远的影响。(2)语料库语言学与语言史研究。大多数语料库的语料都有特定的年代跨度,根据不同的研究目的,从一年至百年不等。如为了研究英语史而建立的Helsinki
Corpus
ofEnglish
Tests的历史部分,年代跨长从公元
850年至1720年,这一语料库无疑为研究语言的历史和发展提供了丰富、可靠的素材。(3)语料库语言学与句法、词法及自动语法分析。利用语料库进行语法分析是语料库语言学的早期目的之一。如今,人们对语料库内的语料进行更高层次的研究,对入库的语篇进一步的处理,如进行词性附码和句法分析(词性附码:对库内语篇中所有的单词根据其语法作用加注词性编码。句法分析:对经过自动词性附码的语料库根据某种特定的语法描述进行语法分析),使语料的自动语法分析成为可能。从而也大大方便了词的语义及功能研究、近义词的比较研究、搭配及其结构的研究、语体的研究、英语口语音型和语调研究、英语名词短语的成语性研究和英语句法发展的研究。自动语法分析还被应用于语法检查、词义排歧、自然语言接口、对名词短语辩识的改进、机器翻译等。(4)语料库语言学与口语研究。语料库在口语研究中的作用有两个方面:第一,它能提供空前广泛的口语素材,使对口语的概括和对特定语言内方言变异的研究成为可能。第二,其提供的是自然真实的而非人工条件下产生的话语。这就保证了语料库所提供的语言现象是真实存在的,并能准确反映实际生活中真正使用的语言的特点。(5)语料库语言学与语义研究。语料库可
用来对为语义提供客观标准,并适当考虑
到语义的不确定性。如民特(Mindt,1991)指出,词项和语言结构的意义常常是根据
语言学家本人的直觉来描写的,而事实上
语义区别是同句法、词法和韵律街上下文
的语篇相关,通过语料库来调查这些相关
成分,可以找到特定语义区别的客观指示。(6)语料库语言学与社会语言学。社会语
言学作为一个经验研究领域,主要依赖于
具体的语料数据。如何提高数据的自然性
和代表性,减少其诱导因素等一系列问题,都可通过对语料库的运用一步步找到解决
途径。如介尔默(Kjellmer,1986
)曾经调查了man/men,woman/women及其它相应的代词,结果表明男性代词出现的频率要比女性代词出现的频率高。(7)语料库语言学与语用学和语篇分析。语料库常常是把话语从上下文或语篇中分离出来,因此其所收语料在很大程度上脱离了上下文或社会背景,而语用学和语篇分析对于场景和上下文又具有一定的依赖性。故以语料库为基础的语用或语篇研究相对较少,但语料库为这些领域所作的贡献是不可否认的。语用学及相关领域的研究通常是以会话为基础的,如伦敦—伦特语料库
(London-Lund
Corpus)和柯林斯出版公司与伯明翰大学联合开发的“英语库”(The
Bank
ofEng2lish,简称BOE),前者收集的是日常会话,后者的口语部分包括日常会话会议、讨论、采访、电台广播等。(8)语料库语言学与文体学。文体学研究
的主要对象是作家的写作风格以及比较一
个作家在某一特定历史时期的作品与其同
时代其他人的作品。语料库为文体学研究
提供了量化的实际语料,避免了主观因素。(9)语料库语言学与心理语言学。语料库
是心理语言学家进行测试研究的有力工具。尤其在语言病理分析方面能帮助研究人员
准确确定问题到底发生在语言发展的哪一
阶段。此外,语料库语言学还为话语及会话分析、言语变体(口笔语,语言与性别,方言)、语音科学、儿童语言习得研究等方面提供了非常丰富的实例,充分体现了语料库语言学在语言研究方面的作用。2、语料库语言学与语言测试从语料库语言学和语言测试的内涵以及两者的关系出发,探析基于计算机的语料库应用于语言测试的必要性、可能性、可行性和局限性等问题。第一、语料库容量大,可以储存大量的文本,这样为实现不同目的、要求以及规模的语言测试提供可能。第二、语料库的设立是建立在语料库语言学理论基础上的,符合语言测试要有理论依据的要求。第三、语料库真实性与可靠性等特点以及某些测试如GRE所体现的可行性,又正好迎合了语言测试评估中的要求。第四、语料库能或多或少地补充和纠正所储存的语料内容,这样又为语言测试的设计,试题提供和评估等提供了基础。3、语料库语言学与辞典编纂语料库不仅能够提供更完备和详尽的关于词义和词汇搭配的信息,而且利用语料库中的频率统计可以直观的反映词汇用法的使用情况。如英国考林斯出版社和伯明翰大学编辑出版的《国际通用词典》在很大程度上打破了词典编撰的传统,从词条的选定及解释、用法到释义的先后顺序等都依据了由2亿词次的COBUILD语料库中统计出的
频率。由于语料库的素材来自实际使用的语言,利用其素材作为词典的例句更具真实性和准确性。利用语料库编撰词典不仅能反映语言的真实变化,而且编撰周期也会大大缩短。4、语料库语言学与语言教学语料库及语料库语言学的应用已经在英语教学的各个方面发挥了重要的作用。(1)教学大纲的制定或修订。可参考和借鉴语料库语言学对英语语言描述的研究成果,使所制定的教学大纲的体系更加科学,描述更加准确,更有利于英语的教和学。(2)教材的选择。选择合适的教材对于教学来说是非常重要的。利用定位检索软件
对某些词在一个语篇中的分布情况和出现
频率的统计,可以较为客观地判断出该语
篇的题材和难度,使取舍有了量化的标准。借助词频统计还可以确定哪些是教材中应
重点讲授的核心词和语言点以作为教材编
写和教学的重点。(3)提供例句的来源。在解释词或搭配的意义和用法时,教师不用自己去创造例句(这往往会造成不真实或不准确),而是
可以借助定位检索软件在语料库中寻找以
该语言为母语的人使用该词或搭配的例句。这样得到的例句既生动又真实,因而说服
力强。(4)编写练习或测试题。使用定位检索软件准备练习题或测试题可以极大地减轻教师的工作量,并且使题目更具真实性和可靠性。(5)学生作文分析。选择部分学生作文语体的语篇作为参照语料库。用定位检索软件分别对每个学生的作文做词频统计并将分析结果打印出来,这样教师就可以很容易地分析出学生是否能正确的使用所学的词或词组,出现了哪些语法错误等。5、语料库语言学与机器翻译及文本校对利用计算机将语料库中的材料,按一定的要求编码、处理,如把语言的各个层级分别看待,即词、句法、语义、互指,不同的应用将利用不同层级的信息,在词层级上的分析应用上就可以进行词的切分和词法分析、拼写检查、全文检索、词频统计、名词短语的辩识、义类词典、逐词机器翻译等。在句子(句法、语义)的分析和应用上可以进行语法检查、词义排歧、自然语言接口、对名词短语辩识的改进、机器翻译等。对机器可读的语料库进行编码处理,并赋
予一定的语法规则,制作出的翻译软件、
校对软件、定位检索软件、语义网等是目
前语料库语言学应用研究的一大成果。它
们的问世为语言工作者和学习者提供了一
个十分方便的语言工具。以英汉翻译系统
为例,目前我国市场上可见的译星、译林、快译通等电子词典和计算机双向全文翻译
系统非常受语言学习者和语言工作者的欢
迎。计算机多媒体使电子词典不仅提供了词意,而且还能模拟人声读出音来。一些专业全文翻译软件能进行双向翻译且翻译的正确率已达到了80%,翻译人员只需将本族语或目标语输入计算机,计算机就能在几分钟内将译文输出,翻译人员再用较短的时间对其进行人工校译就能完成译文工作,大大缩短了翻译时间。将计算机的校对系统用于
文字处理器中,能对所输入的文本进行自动输入
校对和语法错误提示,大大地提高了输入的正确
率,节省了大量的文稿校对时间。语料库语言学基本发展概况语料库语言学在国外的发展:语料库语言学作为一种研究语言的方法,可以追溯到19世纪,甚至更为久远。现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段:1、语料库语言学的早期发展早期的语料库语言学指的是20世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。此类研究主要集中在以下几个方面:(1)应用语料研究方法较早且较普遍的领域是语言习得。19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。据悉,这些日记作为原始材料,不仅是当时W.Preyer和W.Stern等人的理论假说的依据,而且至今仍是许多学者的研究语料之一。自本世纪30年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言发展模式。这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。(2)西方早期的结构主义语言学家利用自然
语料开展音系研究。他们注重“野外工作”,强调语料获取的自然性和语料分析的客观性。这些都为后来的语料语言学所继承和发展。(3)方言学从其产生以来就与语料关系密切。在西方,方言学脱胎于19世纪的历史比较语言学,最初兴趣主要是研究运用直接法所获取的有关单音不同分布的事实来绘制方言地图。“方言研究者手持笔记本,后来是手提录音机,记下或录下他所遇到的一切方言材料。此种取样法至今仍为某些业余研究者所用,它对于研究方言词汇的分布有一定价值。”(F
rancis,1983)2、新的语料库语言学1959年,R.Quirk着手建立“英语用法”语库(Su
rvey
of
English
Usage)。该项目旨在收集大量的风格题材各异的语料作为对英国英语口语和书面语进行系统描写的基础。几乎与此同时,以N.F
rancis和H.Kucera为首的一批语言学家和计算机专家汇集在美国的布朗大学合力攻关,于
1961年建成了当今最早的机读语料库-布朗语库
(B
row
n
Co
rpu
s)。这两个库可以说是现代语
料库语言学的开端。3、语料库语言学与乔姆斯基转换生成语法50年代中前期,在实证主义和行为主义思潮的影响下,语言研究总体上是经验主义占主导。但是这种状况随着乔姆斯基1957年《句法理论》及其以后的一系列论著的发表被根本转变。笛卡尔的理性主义占据主导地位,经验主义几乎无立足之地,被视为经验主义产物的语料研究自然被完全否定。乔姆斯基及其转换生成语法学派否定早期语料研究主要有两点:(1)语料研究的方向有误。乔姆斯基认为,语言研究的主要目标是建立一种能反映说话人心理现实的语言认知模式,即语言能力模式。因为只有语言能力才能对说话人的语言知识作出解释和描述,而语言运用只是语言能力的外在证据,它往往会因超语言因素的影响而发生变化。因此,它不能确切地反映语言能力。语料从本质上只是外在化的话语的汇集,基于语料的研究所建立的经验模式充其量只能对语言能力作出部分解释,因而语料不是语言学家从事语言研究的得力工具。(2)语料的不充分性。乔姆斯基在《句法
理论》一书中首次发现英语短语结构规则
具有递归性。这种递归性表明,自然语言
的句子是无限的,而作为语料基本单位的
句子的无限性决定了语料是难以穷尽的,
换言之,语料永远是不完整的,不充分的。4、在相对沉寂了近20年后,语料库语言学自80年代以来,迅猛发展,空前繁荣,主要表现是:(1)第二代语料库的建成以伯明翰英语语料库为代表的一大批语料库80年代以来相继建成。这些机控语库,尽管规模、设计和研究目的各异,但大多采用了较新的KDEM(Kurzweil
Data
Entry
Machine)光电符号识别技术,使语料的编码和编辑得以从繁重的人工输入中解脱出来,大大加快了语料的标注处理,促进了语料的分析和利用,故称第二代语料库。根据美国加州大学伯克莱分校的语言学家J.Edwards1993年的不完全统计,80年代以来建成并投入使用的各类语料库达50多个按语种分布如下:英语
24,法语4,意大利语2,丹麦语2,德语7,西班牙语2,芬兰语2,瑞典语2。此外,还有葡萄牙语,南斯拉夫语和爱脱尼亚语等也都建立了语库。(2)基于语料的研究项目增多大批语料库的建成极大地促进了基于语料的
研究项目的迅速开展。事实证明,机控语库是开
展大范围语言研究的极好料源,因为它所提供的
语料较之先前的材料更具有真实性,其层级结构
更加明晰,因而更有助于对语言的不同层面进行
描写研究,更有助于对不同语体的比较研究和开展量化与概率统计研究。许多研究项目取得重要成
果,有的深化了原有的研究,有的则是拓宽了原有的研究领域。如J.Svartvik
(1996)和M.Halliday(1991)等人的概率语法研究;G.To
t
t
ie
(1991)的英国英语和美国英语话语风格研究以及J.Sinclair
(1985)等人关于英语搭配的量化研究等。语料库语言学在国内的发展(《国内语料
库语言学研究评述》,贾雯,《阜阳师范
学院学报(社会科学版)》2006年第5期):在我国,从20世纪20年代开始,有学者
为制定基础汉字字表开始建立文本语料库;
70年代末以来,汉语现代文学作品语料库
(1979年)、现代汉语语料库(1983年)等机器可读语料库开始建设。90年代后,以《人民日报》光盘数据库、北大语料库为代表的大型汉语语料库日益发展,语料库成为研究中文信息处理的基本语言资源。在英语语料库建设方面,杨惠中教授80年代主持建成的上海交通大学科技英语语料库(JDEST),
是当时世界上第一个同类语料库,也是国内最大
最完备的英语语料库之一。1989年,中国石油大
学编制完成了广州石油英语语料库,库容约41万词次。1993年前后,香港科技大学编制了计算机
科学英语语料库,共计100万词次。1996年广州
外国语学院开始建立中国学生交际英语语料库。
此外由广东外语外贸大学桂诗春教授和上海交通
大学杨惠中教授牵头开发的“中国学习者语料库”
(CLEC)于1999年建成,该语料库广泛收集了包括我国中学生、大学生在内的一百多万词的各种书面语资料,并对所有的语料进行语法标注和言语失误标注,对研究中国学习者的英语特点具有开创性意义。语料库语言学基本研究方法语料库语言学的主要研究方法与传统的语言结构研
究的最大不同在于通过考察相关的“联结模式”
(as2sociation
patterns),研究语言使用的特征。联结模式既表现为量的关系,也表现为质的关系。定量分析表示语言特征及不同形式与语境之间的联结程
度,定性分析则对此作出功能解释。以语料库为基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 进口委托代理合同
- 设计师聘用合同书
- 美容师聘用标准合同年
- 种苗采购的合同范本
- 互动仪式链视角下轮岗教师专业引领的困境与破解
- 青春期父母预备手册-随笔
- 2025年湘教新版必修1物理下册月考试卷含答案
- 2025年外研版三年级起点九年级历史下册阶段测试试卷含答案
- 智能客服系统合作开发合同(2篇)
- 2025年外研版三年级起点九年级地理上册阶段测试试卷
- 四年级四年级下册阅读理解20篇(附带答案解析)经典
- 大连高新区整体发展战略规划(产业及功能布局)
- 国有资产管理法律责任与风险防控
- 未婚生子的分手协议书
- 变更监事章程修正案范例
- 北京小客车指标租赁协议五篇
- 输液室运用PDCA降低静脉输液患者外渗的发生率品管圈(QCC)活动成果
- YY/T 0681.2-2010无菌医疗器械包装试验方法第2部分:软性屏障材料的密封强度
- 烟气管道阻力计算
- 城乡环卫一体化保洁服务迎接重大节日、活动的保障措施
- 医院-9S管理共88张课件
评论
0/150
提交评论