语料库 入门课件_第1页
语料库 入门课件_第2页
语料库 入门课件_第3页
语料库 入门课件_第4页
语料库 入门课件_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

热烈欢迎来自全国各地的老师们!语料库入门OUTLINE1.基本概念2.著名网络语料库3.常用软件Corpus(语料库,尸体):

(pl.corporaorcorpuses):acollectionoftext,nowusuallyinmachine-readableformandcompiledtoberepresentativeofaparticularkindoflanguageandoftenprovidedwithsomekindofannotation(标注).按照一定的采样标准采集而来的、能代表一种语言或者某语言的一种变体或文类的电子文本集。Corpus视频Example:Startorbegin?在口语中哪个更常用?我们的老师经常说Let’sbegin!之类的话,对吗?我们通过对语料库的检索结果进行分析,可以找到很多问题的答案,例如:“学知识”在英语中是“studyknowledge”吗?“快速导航”翻译成“fastguide”对不对?“只为点滴幸福”这句广告语,对应的英文翻译是“Littlehappinessmatters.”吗?为何“ThebadweathersetinonMonday.”是正确的,但“ThegoodweathersetinonMonday.”却是错误的?在口头表达、写作或翻译中如何确定某些用法是地道的?学习者一般要有多大词汇量才能读懂英文报纸?哪些是商务英语中最常用的单词和短语?某种考试中,哪些单词、词组或其他语言现象出现的频率特别高?如何通过量化统计来分析文学作品的写作风格?以上问题也许在词典或语法书这样的工具书中是无法找到答案的,但语料库能为我们提供方便快捷的解决方案。语料库可以辅助EFL学习的各个方面,如词汇、语法、阅读、语体分析、翻译、口语、写作、测试和西方文化学习等。具体来说,本书中语料库辅助EFL自主学习的方法(简称为“语料库方法”)主要指以下三种:(1)直接在权威的语料库中查询语言和文化现象,如英国国家语料库(BNC)和美国当代英语语料库(COCA);(2)利用语料库软件进行文本分析,如AntConc和Range;(3)利用其他基于语料库的网站进行学习,如JustTheWord和SketchEngine。TypesofcorporaGeneralcorpus通用语料库Annotated标注corpus:acorpusenhancedwithvarioustypesoflinguisticinformation(ortaggedcorpus).Anannotatedcorpusmaybeconsideredtobearepositoryoflinguisticinformation,becausetheinformationwhichwasimplicitintheplaintexthasbeenmadeexplicitthroughconcreteannotation(“addedvalue附加值”).语料库语言学常用术语Token形符:anindividualwordType类符:wordform.指不重复计算的形符数。"Iseeacatandadog"containsseventokensbutonlysixtypes(thetype'a'occurstwice).Thesentence"Roseisaroseisaroseisarose."waswrittenbyGertrudeSteinaspartofthe1913poemSacredEmily.语料库语言学常用术语type/tokenratio(TTR)类符/形符比,形次比Rose句的TTR:4/10*100=40TTR是衡量文本中词汇密度的常用方法。可辅助说明文本的词汇难度。但是,文本中有大量功能词(functionwords,如the、a、of等)反复出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR会越低。因此用TTR衡量词汇密度就不合理。语料库语言学常用术语Frequencies/occurences(频数,出现次数)Frequency(频率)

例如每一百万词、十万词中,某单词的出现次数常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个语料库中的该单词的使用上是否有差异语料库语言学常用术语Lemma词目在英语语料库文本中,一些实词有大量的屈折形式(inflections),如go这一动词就有go,goes,went,going,gone共5种不同的屈折变化形式。go就是词目。在分析语言时,如果把那5种形式作为5个词来看待,就有可能显得不妥。因此需要将它们全部归并到go名下。这个过程叫词目归并或词形还原(lemmatization).有专门的软件根据词形还原表,自动对文本进行词形还原。Keywords关键词Keywordsarewordswhosenormalizedfrequencyinonecorpus(observedcorpus)issignificantlyhigherorlowerthanthatinanothercomparablecorpus(referencecorpus).Positivekeywordsandnegativekeywords语料库语言学常用术语Concordance索引(又称“语境中的关键词,KeyWordInContext,KWIC”)指的是运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出AntConc、WordSmithTools等检索软件语料库语言学常用术语

何谓语料库检索Concordancersaredevelopedtoproduceconcordancelinesofaspecificstringoftext.WordsmithToolsAntConcManyothers语义韵SEMANTICPROSODY

褒义、贬义例如,通过查询语料库,我们发现cause后面的名词,多为贬义词汇的语义韵(semanticprosody)类似我们经常说的褒义、中性和贬义等色彩,大体可分为积极语义韵(positiveprosody)、中性语义韵(neutralprosody)和消极语义韵(negativeprosody)等类型(Stubbs,1996)。例如汉语中的“广大”不能与含贬义的词搭配,我们不能说“广大犯罪分子”,只能说“广大人民群众”等。英语中像happen、incur、utterly和commit这样的词会搭配一些具有显著消极意义的词,而career和provide这样的词则会搭配一些有显著积极意义的词。这些特殊的节点词总是习惯性和某一类拥有相同或者相似语义特点的词语共现,使它们的语义相互影响、相互作用、相互渗透,在一定的语境内形成一种语义氛围,同时该节点显示出明显的语义韵特点(张瑜,2009)。我们可以利用语料库去探索发现单词的语义韵特点。当今世界上最大的英语语料库之一——COBUILD语料库的领导者JohnSinclair教授是第一个注意到语义韵现象的学者,他通过定位检索发现happen和setin(发生)常常与“不愉快的事件”(unpleasantevents)联系在一起(Sinclair,1991)。“SETin”(SET大写表示包括该词的各种变化形式,下同)的主语绝大多数是不愉快的事情,如rot、decay(腐败、腐烂)、ill-will(歹义)、decadence(颓废)、impoverishment(陷入贫困)、infection(感染)、prejudice(偏见)、viciouscircle(恶性循环)、rigormortis(僵硬死尸)、numbness(麻木)、bitterness(痛苦)、mannerism(癖性)、anticlimax(兴奋之后突然平淡而令人失望的情景)、anarchy(无政府状态)、disillusion、disillusionment(幻灭)和slump(萧条)等。Sinclair诙谐地称setin长期与坏蛋(badcompany)为伍,其结果是只要SETin一出现,人们就知道被描写的事情一定是不愉快的。另一方面,由于SETin已经染上了“贬韵”(imbuedwithan“unfavourableprosody”),一般来说它便没有资格在褒扬场合中抛头露面了。假如有人说这样一句话:“Goodtimessetin(好日子临头了)”,那么讲话人很可能是为了营造某种诙谐或讥讽的效果,否则听话人一定会感到很别扭(转引自纪玉华等,2000)。Stubbs(1995)在COBUILD语料库的1亿2千万单词中定位检索出4万个与动词cause(导致、造成)搭配使用的词群,发现该词染有较强的“贬韵”,充当其宾语的往往是accident、concern、trouble、damage或death之类的词。但是他发现动词provide(提供)在COBUILD语料库中却带着较强的“褒韵”(favourableprosody),充当其宾语的词汇多属于诸如“关怀”、“食物”、“帮助”、“金钱”之类的语义场(转引自纪玉华等,2000)。还有,Louw(1993)发现具有消极语义韵的词组BENTon和SYMPTOMATICof总是和不好的事物联系在一起,例如sin和ruining等。正则表达式例如,我们需要在选定的语料中检索analyze这个词,在索引软件的检索词输入框内,输入analyze即可。但是,另外一些文本可能使用analyse,或者我们还需要检索它的曲折形式,如analyzed、analyzing、analyzes、analysed、analysing、analyses等,分别检索就很麻烦了。这时我们需要:正则表达式RegularExpression,regex计算机汇编语言的一种技术,用于匹配文本中的字符串几乎每个正则表达式都由常量和变量两部分组成。例如analyze的各种屈折形式中,analy是常量。序号符号含义举例或说明1\b词的边界\ban\b2\w任何字母或数字\banaly\w3.任何字符或非字符2.44+重复1次或多次A+5*重复0次或更多BA*6?有或者无BA?7()组合,使得括号中的部分可以当作一个符号处理Act(ing)序号符号含义举例或说明1\b词的边界\ban\b匹配an,不匹配a、and或sand2\w任何字母或数字\w匹配字母a-z,A-Z,数字0-9及下划线3.任何字符或非字符2.4匹配204,214,2t4,24,2.4,2-44+重复1次或多次A+匹配A,AA,AAA等5*重复0次或更多BA*匹配B,BA,BAA,BAAA等6?有或者无BA?匹配B和BA7()组合,使得括号中的部分可以当作一个符号处理act(ing)可以匹配act和acting序号符号含义举例或说明9[]方括号中的任意字符[abc]匹配a、b或c[abc]+匹配10\s空格\w+\s+\w匹配任何二元序列11|或者(|号在回车键上面)(analyze|analyse)12\W非字符、非数字13\S非空格14\w*0个或多个任意数目的字母、数字及两者的组合15.*?任何字符串正则表达式区分大小写、全角和半角,输入时要格外小心。如何不区分大小写,可以在表达式前面加(?i)关于正则表达式的更详细说明,参照EXERCISEUsethesamewordtocompleteallthefollowingsentences.We’re____surethatit’smostlywaterandpainThey’re____goodatstartingstuff,thoseguys.…onewhoisbasicallydrivenby____decentinstinctsandmotivations.Theywere____tough-betterthanIthought...Throwingonthesideeverydaykeepsme____sharpandtherestofitisSheisvery____.Hermostrecentdecisionregardingher…ofthedistrictintact.Theboardis____certainthepublicisnotaptButtheysummeduphisHousestint____well.HehasbeendoggedlyKEYWe’reprettysurethatit’smostlywaterandpainThey’reprettygoodatstartingstuff,thoseguys.onwhoisbasicallydrivenbyprettydecentinstinctsandmotivations.Theywereprettytough-betterthanIthought...ThrowingonthesideeverydaykeepsmeprettysharpandtherestofitisSheisverypretty.Hermostrecentdecisionregardingherofthedistrictintact.TheboardisprettycertainthepublicisnotaptButtheysummeduphisHousestintprettywell.HehasbeendoggedlyCOCA视频常用语料库检索软件

AntConc免费,日本AnthonyWordSmithTools商业Range词汇难度分级PaulNationAntConc是著名的语料库检索软件,由日本早稻田大学LaurenceAnthony设计开发,可以在Windows、MacintoshOSX和Linux系统下运行。它可以免费下载()。该软件无需安装,双击即可使用。其官方网站有视频教程,介绍其使用方法。Antconc视频ANTCONC的应用许媛(2009)用WordsmithTools等语料库工具,统计了著名作家OscarWilde童话中的颜色词和光度词,从颜色词的类别、颜色的层次感和颜色的隐喻等三个方面探讨了其在艺术上的“唯美”追求。我们尝试用AntConc分析王尔德的童话作品TheNightingaleandtheRose(语料来自《新世纪大学英语综合教程7》,得出了相似的结果。这里主要介绍该软件的WordList和KeywordList功能的应用。首先,我们利用WordList功能初步确定文章大意并分析其语言特点,操作步骤如下:1)双击打开AntConc软件后,在File下拉菜单里打开该文章的文件(txt格式);2)在ToolPreferences弹出的新窗口中选择WordList,选择Treatalldataaslowercase;3)加载Someya的词形还原表e_lemma_no_hypen,方法是在Uselemmalistfile框打钩,点击Open,选上词形还原表,后点击Load;4)加载一个含功能词的停用词表functionwordstoplist。方法是点击Useastoplistlistedbelow,在Addwordsfromfile旁点击Open按钮,选择停用词表文件,然后点击Apply按钮;5)回到AntConc的主界面,点击WordList和Start按钮,此时会自动显示词频表(图6-4所示)。从这个词频表我们可以初步断定,作品的中心是象征爱情的rose(相关的red、tree、thorn、love和heart等单词也是例证),主要角色是nightingale和student,其情节围绕cry、sing、give、grow和dance等中心事件展开,这个催人泪下的爱情故事主要发生在night。关于作品主题的更可靠的断定方法将在后文描述。在词频表中,我们发现like一词的频率较高,要弄清它在文章中的意义和用法,有两种方法:一是在词频表中直接点击该单词(鼠标变成手形),查看语境共现行;二是点击AntConc的Concordance菜单,输入like,点击Start按钮,同样出现如图6-5所示的KWIC。由此可见,like在文中全部是“像……”的意思,可见作者用了很多明喻(simile)的修辞手法,我们可以管窥到王尔德华丽的语言风格。于是我们继续探究文中的比喻用法,用同样的方法分别检索as和than的语境(如图6-6和图6-7所示),发现了不少例证。我们再从词频表中查看颜色词的使用情况,拷贝词表的方法就是点击AntConc左下角的SaveWindow按钮。将文中的基本颜色词和实物颜色词进行统计分类,可进一步印证王尔德浪漫的文风和唯美主义的追求。其次,我们利用KeywordList功能分析TheNightingaleandtheRose的主题词。确定作品主题的可靠方法是提取主题词(keyword)。主题词是指与某一标准(参照语料库)相比,在一定文本中出现频率显著偏高的词,偏高的程度为主题词的“关键性”(keyness)。显然,主题词与文本的主题密切相关。这里选MarkTwain的TheAdventuresofTomSawyer作为参照语料库,其操作方法是:先加载词性还原表和功能词停用词表,然后打开ToolPreferences窗口,选择

KeywordList,并在ReferenceCorpusOptions处加载参照语料库的文本文件,点击Apply按钮。回到AntConc的主界面,选择KeywordList,点击Start按钮,然后会出现如图6-8所示的结果。我们将keyness较高的单词进行归类整理,并在此基础上绘制主题词网络图,如图6-9所示。语料库也可辅助ESP(Englishforspecificpurposes)语篇阅读。ESP指“专门用途英语”或“特殊用途英语”,例如金融英语和旅游英语等。它有别于我们在大学一、二年级所学的EGP(Englishforgeneralpurposes)。可以利用语料库工具辅助我们学习ESP特有的专业词汇,发现其句法和语法特点。李涛等(2009)指出,基于语料库的文学语篇分析主要有以下6个方面:①“作者考证”(authorattribution)——利用语料库的词汇统计原理识别某个语篇的作者;②主题词(keyword)分析——对语篇的关键词进行统计,得出关于该语篇的主题相关性;③两种语言风格对比——以平行语料库的方法对不同作家或同一作家不同时期文学语篇、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论