计算机数据库技术在语言学研究中的利用,普通语言学论文_第1页
计算机数据库技术在语言学研究中的利用,普通语言学论文_第2页
计算机数据库技术在语言学研究中的利用,普通语言学论文_第3页
计算机数据库技术在语言学研究中的利用,普通语言学论文_第4页
计算机数据库技术在语言学研究中的利用,普通语言学论文_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机数据库技术在语言学研究中的利用,普通语言学论文语言学是一门既古老又年轻的学科,语言学的研究不只是理论和分析方式方法的创新。当代科学表示清楚,研究方式方法和操作手段的更新往往成为理论发展的契机。语言学的研究需要收集、加工、处理语料,并强调语料的真实性和客观性。语言学研究的学者都能感遭到语料处理方式和手段的重要性。语言学研究者面对大规模的文本语料,要从这些语料中开掘新的语言规则或需要的信息,首要任务就是对大规模真实的文本语料进行加工、挑选。采用手工的处理方式方法对海量语料数据进行统计、分类、分析等操作,工作效率会非常低,而且劳动强度非常大。这也促使处理语言材料的工作方式方法和操作手段发生变化。数据库技术是一门数据管理自动化的综合性技术,数据库是组织、存储和管理数据的仓库。随着计算机技术的广泛应用和网络的普及,数据库在生产、生活、科技领域得到了广泛地应用和推广,在语言学研究中也表现出了强大的优势,已成为语言学家的重要工具。二、数据库与语言学数据库,顾名思义,就是存放数据的仓库。只不过这个仓库是在计算机存储设备上按一定的格式存放的,具有强大的数据组织、数据处理和数据管理能力。语言学研究的语料具有规模大、类型多、异构性、零散性等特点,使用数据库管理能够提高语言学研究者的工作效率。要想高效地使用数据库来存储、管理各种语言材料,语料库设计的首要任务就是对语言材料数据进行合理地定义,建立便于对数据进行加工、处理的语言材料数据库。数据在数据库中的定义包括定义数据存储的格式、数据的存储类型和数据之间关联关系。数据的定义是数据库使用的关键,好的定义能够方便用户对数据进行统计、检索和处理。数据库管理系统具有强大的数据定义功能,为语言学研究者提供使用数据库的可能。数据库在语言学中的应用主要具体表现出在对语言材料的加工和处理方面。数据库强大的数据定义功能为语言材料的存储提供了可能,更重要的是语言学研究者能够通过定义的语言材料对海量的语料进行加工和处理。数据库有强大的数据处理功能,语言学研究者能够通太多种操作方式方法获取语言材料信息,如挑选语料、语料排序、语料分类、语料统计和语料的更新等。譬如,何乐士的(左传虚词研究〕中的文章大都写于二十世纪六十年代,当时主要靠手抄卡片积累资料、分析统计,这些工作何先生需要花费大量的时间和精神,几天甚至十几天才能获得结果,而如今研究者大都使用数据库或语料库,输入检索内容霎时就能准确无误地得到结果。这也是数据库的最大受益之处,省时省力。当前,随着计算机网络的普及和各种语言材料数据库的建设,使语言学研究者最大限度地占有语言资料成为了可能,充分具体表现出了数据库的资源分享性。语言学研究也有不同的研究目的和语料需求,要想使数据库能够知足不同的主题需求,需要建立愈加广泛的数据资源库。当然,语言材料的来源不同,类型不同,要让这些异构异质资源进行合理定义集成。语言学的研究需要现有的语言学研究成果,语言材料的数据库能够保证语言材料的可靠性,同时可以以知足语言学不断发展更新的需要,这也是数据库本身的特征。随着计算机的发展,数据库在语言学中得到了广泛的应用,已成为语言学家的重要工具。利用数据库技术使其具有构造化、关系化、集成、稳定等特点,建立语言材料的数据仓库语料库。语料库〔Corpus〕就是存放原始语言材料的数据仓库,就是一个由大量在真实情况下使用的语言信息经过科学的收集和组织而集成的专供研究使用的资料库。近年来计算机技术的发展,相关研究者和组织建立了广泛的语料库。三、语料库语言学语料库的设计需要大量真实语料的不断搜集、积累。所谓的语料库〔corpus〕,就是存放大量事实语料的仓库。但严格定义的语料库,仅指由大量收集的书面语或白话构成,并通过计算机储存和处理,用于语言学研究的文本库。语言学研究者在语料库的基础上开展语言学研究。语料库语言学反映两个层次的含义:一是语言学研究的一个新的手段,即利用语料库对语言学的某个方面进行研究;二是语料库反映出来的语言学的新观点和新理论,相当于语言学的一个分支,如社会语言学、语用学等学科。从现有文献资料看,大都将其作为语言学利用语料进行科学研究的一种新的手段。〔一〕语料库的作用和发展语料库是根据一定的语言学原则,对语言文本信息进行收集、加工、处理以电子计算机为载体承载语言知识的基础资源库。传统的语言学研究是通过手工方式方法获取语言材料,任何语言学研究者都不可能记忆和处理全部语言数据。建立语料库后,能够快速地从浩如烟海的语言资料库中获取准确的信息。语料库最直接的用处就是为编纂字典提供大量真实准确的例句,例如,根据COBUILD语料库编写的词典就有7种。除此之外,Leech〔1993〕还列举了语料库进行语言理论研究、语法研究、语义研究、语篇分析研究等十几种用处。讲明了语料库中的语料对语言学研究领域的重要性以及语料库对语言学研究领域的促进作用。20世纪90年代以来,语料库的建设和研究迅速发展,规模从百万字发展到千万字、亿万字,语料加工的深度发展到篇章级,实现了语料库的定量分析、机器翻译、词典编纂等。如英国的COBUILD语料库,在该语料库基础上出版了语法、词典、英语教学资料二十多种。汉语语料库的起步较晚,如北京语言文化大学的当代汉语语法研究语料库、北京大学CCL语料库和北语中介语语料库等。〔二〕基于语料库的语言学研究语料库已经成为语言学家研究语言学的强有力工具,基于语料库的语言学研究具有下面特点:〔1〕语料的真实性:学习者语料库中的全部材料都是通过随机采样所收集的学生实际作文,是真实的语言运用。通过对学习者中间语的分析得出的结论都是有根有据的,是从实际出发的。我们国家的英语教学成绩很大,但问题也不少,只要通过对教学现在状况的科学分析、深切进入研究,才可能提出有针对性的、切合实际的改良方案,收到实际效果,避免无的放矢,避免无谓的争论。〔2〕定量分析:基于语料库的研究,一个显著的特点就是数据驱动。计算机的存储和语言处理能力为观察语言包括学习者提供了以前难以想象的强有力手段,定量分析使描写具有客观性,通过统计推断可以以避免判定的主观性。数据驱动的定量分析使我们有可能看到以前凭直觉无法发现的问题。这些统计数据使我们有可能从量化的角度来讨论中国学生英语学习的特点。当然定量分析还必须辅以定性分析,才能为如何学好英语提出切合实际的解决办法。〔3〕群体分析:通过数据驱动的定量分析,我们还能够发现,有些言语失误是个别学生语言运用中的问题,是个体行为。有些言语失误则带有普遍性,是中国的英语学习者中普遍存在的现象,这就促使我们不得不认真研究其发生的原因。是由于母语迁移?还是由于过度概括?或者是出于教学资料或教学中的疏漏?只要找到了原因,才能找到改良教学的方式方法,提高教学质量。〔4〕纵向分析:学习者语料库中收集了各个层次学生的语言产出,他们处于不同的学习阶段,有的是初学者,有的已经到了学习的较高级阶段,这样就使我们有可能对英语学习的发展经过进行纵向分析,看看哪些是初学者容易出现的言语失误,哪些言语失误到高级阶段就很少出现,而另一类言语失误的出现频率却又增加了,进而发现学习者中间语发展的规律。〔5〕比照分析:所谓言语失误是指中间语中不合目的语规范的地方。有了学习者语料库,我们能够采用定量分析的方式方法,通过把学习者语料库与本族语者语料库进行比照分析,不但能够找出那些不合规范的地方,而且能够找出哪些语言现象过度使用〔即超用〕了,哪些现象又过少使用〔即少用〕了,这些都是凭经历体验和直觉很难发现的。语料库为语言学研究者提供真实的语料、统计数据、现行理论的验证和构建新的研究理论,为语言学研究从高度抽象转向语言实际应用起到了非常重要的支持作用。四、结束语语言学的研究必须以语言事实为根据,详尽地、大量地占有语言资料。数据库的出现使得语言材料的收集、整理和加工从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论