语料库语言学_第1页
语料库语言学_第2页
语料库语言学_第3页
语料库语言学_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语料库语言学维基百科语料库语言学(英语:corpuslinguistics)是基于语言运用的实例(即语料库)的语言讨论。语料库语言学可以对自然语言进行语法与句法分析,还可以讨论它与其他语言的关系。语料库最初由手工完成,而现在主要是由计算机自动完成。语料库语言学家信任,牢靠的语言分析需建立在新奇的语料、自然的语言环境,和最小的试验干扰之上。在语料库语言学中,语料标注的意义众说纷纭,从约翰•辛克莱⑴主见最少量的标注,并允许文本“为自己说话",至『英语用法调杳组”(设在伦敦高校学院)[2]鼓舞更多的标注,并认为它是通向更完备和严谨的语言理解的道路。名目1历史2方法3参考文献o3.1引用o3.2期刊o3.3书籍4外部链接5参见历史[编辑]现代语料库语言学的一个里程碑是亨利•库切拉和W.纳尔逊弗朗西斯在1967年出版的《当代美语的计算分析》(ComputationalAnalysisofPresent-DayAmericanEnglish)一书。该项工作基于对布朗语料库的分析,布朗语料库是一个细心编制的美国英语语料库,规模约有一百万词次。库切拉和弗朗西斯将这些语料用于各种计算分析,获得了丰富和多样化的成果,该成果结合了语言学、语言教、心理学、统计学、和社会学元素。另一关键出版物是1960年伦道夫•夸克的《当代英语语法》(TowardsadescriptionofEnglishUsage)口】,在这本书中他介绍了"英语用法调杳”项目(TheSurveyofEnglishUsage)°此后不久,波士顿出版商霍顿米夫林邀请库切拉为其新的美国传统英语字典供应百万词次,三线引文的来进行词典编纂。《美国传统英语字典》创新地将规定性元素(应如何使用语言)和描述性元素(语言实际上是如何被使用)结合在了一起。其他出版社纷纷效仿。英国出版商柯林斯COBUILD单语学习词典,就是为非英语母语者学习英语而出版的,它使用了“英语银行"(BankofEnglish)语料库。“英语用法调查”语料库被用于由夸克等人编著的《综合英语语法》(AComprehensiveGrammaroftheEnglishLanguage)中。布朗语料库也催生了类似的语料库:LOB语料库(Lancaster-Oslo-BergenCorpus,20世纪60年月英国英语),科尔哈帕(Kolhapur,印度英语),惠灵顿(Wellington,新西兰英语),澳大利亚英语语料库(AustralianCorpusofEnglish,澳大利亚英语),皱眉语料库(FrownCorpus,20世纪90年月初,美国英语),以及FLOB语料库(FLOBCorpus,20世纪90年月,英国英语)。其他语料库包括国际英语语料库(InternationalCorpusofEnglish),和英国我国语料库(BiitishNationalCorpus,收集了1亿词次的口头和书面语料,在20世纪90年月时由出版商、牛津高校、兰卡斯特高校和大英图书馆创建)。至于说到当代的美国英语,现已有了美国我国语料库(英语:AmericanNationalCorpus),以及可以在线访问的4亿多词次的美国当代英语语料库(英语:CorpusofContemporaryAmericanEnglish,1990年仓犍)。第一个电脑转录口语语料库,建于1971年蒙特利尔法语项目(MontrealFrenchProject),【用有一亿词次,这一项目还启发了夏娜•帕普拉克建立了规模更大的渥太华-赫尔地区法语口语语料库({{lang-en|CorpusofspokenFrenchintheOttawa-Hullarea)。⑶语料库除了收集现存语言,也收集古代语言。比如20世纪70年月建立的希伯来文圣经的安徒生福布斯数据库(英语:Andersen-ForbesdatabaseoftheHebrewBible,数据库的每个子句的语法分析都使用了多达七级语构的图表,每一部分都标注了七个方面的信息。⑹⑺古兰经阿拉伯语语料库(英语:QuranicArabicCorpus)是古典的阿拉伯文《古兰经》的标注语料库。它包含多层次的标注,包括形态分割,词性标注,以及使用依存语法进行的句法分析。网方法[编辑]语料库语言学已经有了一大批讨论方法,这些讨论方法都试图找到从数据到理论的解决方案。瓦利斯和尼尔森⑼最先介绍了他们的3A观点(英语:3Aperspective):注释(英语:Annotation),抽象(英语:Abstraction)和分析(英语:Analysis)o注释包括语料的数据库方案。注释可能包括结构标注,词性标注,句法分析和其他形式。抽象包括该方案在理论上的启发式模型或数据集中的翻译(映射)。抽象通常包括面对语言学家的定向搜寻,但也可能包括句法讨论者的句法规章学习。分析包括统计学探测,操纵和对数据集的归纳概括。分析可能包括统计学评估,规章库优化和学问探究方法。如今大多数词汇语料库采纳词性标注(英语:part-of-speech-tagged)。然而,即使是采纳未标注语料的语料库语言学家也无疑会使用一些方法来从句子中隔离出他们感爱好的词。在这种状况下,注释和抽象在词汇搜素中结合起来了。发布标注语料库的优点是其他用户可以在语料库中进行讨论与试验。语言学家与其他相关人士就可以采用语料库来工作通过数据共享,语料库语言学家能将语料库视为语言研讨的核心,而不是学问的源泉。CorpuslinguisticsFromWikipedia,thefreeencyclopediaCorpuslinguisticsisthestudyoflanguageasexpressedinsamples(corpora)of“realworld"text.Thismethodrepresentsadigestiveapproachtoderivingasetofabstractrulesbywhichanaturallanguageisgovernedorelserelatestoanotherlanguage.Originallydonebyhand,corporaarenowlargelyderivedbyanautomatedprocess.Corpuslinguisticsadherentsbelievethatreliablelanguageanalysisbestoccursonfield-collectedsamples,innaturalcontextsandwithminimalexperimentalinterference.Withincorpuslinguisticstherearedivergentviewsastothevalueofcorpusannotation,fromJohnSinclair^advocatingminimalannotationandallowingtextsto'speakforthemselves',toothers,suchastheSurveyofEnglishUsageteam(basedinUniversityCollege,London)@advocatingannotationasapathtogreaterlinguisticunderstandingandrigour.LinguisticsTheoreticalCognitiveGenerativeQuantitative•FunctionaltheoriesofgrammarPhonologyMorphology*MorphophonologySyntaxLexisSemanticsPragmaticsGraphcmicsOrthographySemioticsDescriptiveAnthropologicalComparative•HistoricalEtymologyGraphetics►PhoneticsSociolinguisticsAppliedandexperimentalComputational

Contrastive・Evolutionar}'ForensicInternetLanguageacquisitionSecond-languageacquisitionLanguageassessmentLanguagedevelopmentLanguageeducationLinguisticanthropology

Neurolinguistics

PsycholinguisticsRelatedarticlesHistoryoflinguisticsLinguisticprescription

Listoflinguists

UnsolvedlinguisticsproblemsLinguisticsportalContents

[hide]1History2MethodsSeealsoReferenceso4.1Journalso4.2Bookserieso4.3OtherExternallinksHistory[edit]Someoftheearliesteffortsatgrammaticaldescriptionwerebasedatleastinpartoncorporaofparticularreligiousorculturalsignificance.Forexample,PratisakhyaliteraturedescribedthesoundpatternsofSanskritasfoundintheVedas,andPanini'sgrammarofclassicalSanskritwasbasedatleastinpartonanalysisofthatsamecorpus.Similarly,theearlyArabicarammarianspaidparticularattentiontothelanguageoftheQuran.IntheWesternEuropeantradition,scholarspreparedconcordancestoallowdetailedstudyofthelanguageoftheBibleandothercanonicaltexts.AlandmarkinmoderncorpuslinguisticswasthepublicationbyHenryKuceraandW.NelsonFrancisofComputationalAnalysisofPresent-DayAmericanEnglishin1967,aworkbasedontheanalysisoftheBrownCorpus,acarefullycompiledselectionofcurrentAmericanEnglish,totallingaboutamillionwordsdrawnfromawidevarietyofsources.KuceraandFrancissubjectedittoavarietyofcomputationalanalyses,fromwhichtheycompiledarichandvariegatedopus,combiningelementsoflinguistics,languageteaching,psychology,statistics,andsociology.AfurtherkeypublicationwasRandolphQuirk's'TowardsadescriptionofEnglishUsage'(I960)团inwhichheintroducedTheSurveyofEnglishUsage.Shortlythereafter,BostonpublisherHoughton-MifflinapproachedKuceratosupplyamillionword,three-linecitationbaseforitsnewAmericanHeritageDictionary,thefirstdictionarytobecompiledusingcorpuslinguistics.TheAHDtooktheinnovativestepofcombiningprescriptiveelements(howlanguageshouldbeused)withdescriptiveinformation(howitactuallyisused).Otherpublishersfollowedsuit.TheBritishpublisherCollins*COBUILDmonolinguallearner'sdictionary,designedforuserslearningEnglishasaforeignlanguage,wascompiledusingtheBankofEnglish.TheSurveyofEnglishUsageCorpuswasusedinthedevelopmentofoneofthemostimportantCorpus-basedGrammars,theComprehensiveGrammarofEnglish(Quirketal.1985).图TheBrownCorpushasalsospawnedanumberofsimilarlystructuredcorpora:theLOBCorpus(1960sBritishEnglish),Kolhapur(IndianEnglish),Wellington(NewZealandEnglish),AustralianCorpusofEnglish(AustralianEnglish),theFrownCorpus(early1990sAmericanEnglish),andtheFLOBCorpus(1990sBritishEnglish).Othercorporarepresentmanylanguages,varietiesandmodes,andincludetheInternationalCorpusofEnglish,andtheBritishNationalCorpus,a100millionwordcollectionofarangeofspokenandwrittentexts,createdinthe1990sbyaconsortiumofpublishers,universities(OxfordandLancaster)andtheBritishLibrary.ForcontemporaryAmericanEnglish,workhasstalledontheAmericanNationalCorpus,butthe400+millionwordCorpusofContemporaryAmericanEnglish(1990-present)isnowavailablethroughawebinterface.Thefirstcomputerizedcorpusoftranscribedspokenlanguagewasconstructedin1971bytheMontrealFrenchProject,囱containingonemillionwords,whichinspiredShanaPoplack'smuchlargercorpusofspokenFrenchintheOttawa-Hullarea.©Besidesthesecorporaoflivinglanguages,computerizedcorporahavealsobeenmadeofcollectionsoftextsinancientlanguages.AnexampleistheAndersen-ForbesdatabaseoftheHebrewBible,developedsincethe1970s,inwhicheveryclauseisparsedusinggraphsrepresentinguptosevenlevelsofsyntax,andeverysegmenttaggedwithsevenfieldsofinformation.^TheQuranicArabicCorpusisanannotatedcorpusfortheClassicalArabiclanguageoftheQuran.Thisisarecentprojectwithmultiplelayersofannotationincludingmorphologicalsegmentation,part-of-speechtagging,andsyntacticanalysisusingdependencygrammar.倒Methods[edit]CorpusLinguisticshasgeneratedanumberofresearchmethods,attemptingtotraceapathfromdatatotheory.WallisandNelson(2001)3firstintroducedwhattheycalledthe3Aperspective:Annotation,AbstractionandAnalysis.Annotationconsistsoftheapplicationofaschemetotexts.Annotationsmayincludestructuralmarkup,part-of-speechtagging,parsing,andnumerousotherrepresentations.Abstractionconsistsofthetranslation(mapping)oftermsintheschemetotermsinatheoreticallymotivatedmodelordataset.Abstractiontypicallyincludeslinguist-directedsearchbutmayincludee.g.,rule-learningforparsers.Analysisconsistsofstatisticallyprobing,manipulatingandgeneralisi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论