语料的标注与句法结构的提取_第1页
语料的标注与句法结构的提取_第2页
语料的标注与句法结构的提取_第3页
语料的标注与句法结构的提取_第4页
语料的标注与句法结构的提取_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语料的标注与句法结构的提取第一页,共二十九页,编辑于2023年,星期三PartI语料的标注PartII句法结构提取第二页,共二十九页,编辑于2023年,星期三PartI语料的标注1.Whatisannotation?2.Howtodoit?第三页,共二十九页,编辑于2023年,星期三AnnotationofcorporaAnnotation:Theprocessofmakingexplicitlinguisticcategoriesimplicitwithinacorpustext,forexample,byaddinglayersofinformationonthegrammaticalclassesofwords,orontheclassesofspeechactswhichhavetakenplaceinthecourseofthetranscribedspeech,ortheclassesoferrorslearnersmadeinwriting.(Edwards1995:20).第四页,共二十九页,编辑于2023年,星期三A.Part-of-speechtagging

B.SyntacticannotationC.SemanticannotationD.DiscourseannotationE.Pragmaticannotation第五页,共二十九页,编辑于2023年,星期三POS-Tagging

-alsoknownasgrammaticaltagging -divideswordsintocategories,basedonhowtheycanbecombinedtoformsentences -mostcommonusedformofcorpusannotation第六页,共二十九页,编辑于2023年,星期三Nowadays<RT>,<,>it<PPH1>is<VBZ>fashionable<JJ>to<TO>speak<VVI>of<IO>a<AT1>generation<NN1>gap<NN1>.<.></s><s>The<AT>parents<NN2>complain<VV0>that<CST>children<NN2>are<VBR>self-centered<JJ>and<CC>do<VD0>not<XX>show<VVI>them<PPHO2>proper<JJ>respect<NN1>and<CC>obedience<NN1>,<,>while<CS>children<NN2>are<VBR>complaining<VVG>that<CST>parents<NN2>do<VD0>not<XX>understand<VVI>them<PPHO2>.<.></s><s>How<RRQ>does<VDZ>the<AT>generation<NN1>gap<NN1>form<NN1>?第七页,共二十九页,编辑于2023年,星期三Howtodoit?manuallycomputer-assistedfullyautomatic第八页,共二十九页,编辑于2023年,星期三computer-assistedannotationAnnotool第九页,共二十九页,编辑于2023年,星期三FullyautomaticannotationCLAWSConstituentLikelihoodAutomaticWord-taggingSystemdevelopedbyUCREL(UniversityCentreforComputerCorpusResearchonLanguage)atLancasterPOS-taggerforEnglishexistssinceearly1980‘shasseveraltagsets第十页,共二十九页,编辑于2023年,星期三TagsetvariationCategoryExampleCLAWS5AdverboftenAV0Adverb,negativenotXX0Adverb,comparativefasterAV0Adverb,superlativefastestAV0Adverb,particleupAVPAdverb,deictichereAV0Adverb,intensifierveryAV0Adv,intensifier,postposedenoughAV0Adverb,questionwhenAVQAdv,question,intensifierhowAVQ第十一页,共二十九页,编辑于2023年,星期三FullyautomaticannotationGotagger第十二页,共二十九页,编辑于2023年,星期三When_WRBwe_PRPare_VBPborn_VBN,_,the_DTeducation_NNour_PRP$parents_NNSgive_VBPus_PRPis_VBZto_TOlearn_VBhow_WRBto_TOspeak_VBand_CChow_WRBto_TOrecognize_VBthem_PRP._.It_PRPis_VBZa_DTbasic_JJeducation_NNand_CCwe_PRPstart_VBPto_TOface_VBthe_DTcolorful_JJworld_NN._.The_DTeducation_NNis_VBZvery_RBimportant_JJwhich_WDTinfluences_NNSchildren_NNS's_POSnature_NN._.According_VBGto_TOthat_IN,_,education_NNgives_VBZthe_DTfirst_JJstep_NNto_TOpeople_NNSand_CCinfluences_NNSthem_PRPgradually_RB._.第十三页,共二十九页,编辑于2023年,星期三PartII动词被动结构提取1.动词被动结构的概念2.动词被动结构提取第十四页,共二十九页,编辑于2023年,星期三动词被动结构的概念:

(passiveconstructionsofverbs)

被动结构的2种形式:

longpassive(withby)shortpassive(withoutby)(LGSWE)第十五页,共二十九页,编辑于2023年,星期三语料库研究发现(LGSWE)

:SParepredominantinallsyntacticpositionsinEnglish.Be-passivessharplydifferbyregister,withconversationandacademicproseattheoppositepoles.LParemostcommoninnewsandacademicprose.第十六页,共二十九页,编辑于2023年,星期三动词被动结构提取研究问题:1、中国学生书面语中使用被动结构的情况如何?与英语本族语者有何不同?2、中国学生英语书面语和口语在被动结构上存在何种差异?3、中国学生书面语中的被动结构是否随二语水平的提高而发生变化?第十七页,共二十九页,编辑于2023年,星期三回答问题一:提取中国学生书面语中被动结构,提取英语本族语者的被动结构,进行对比.回答问题三:提取中国学生1-4年级书面语中的被动结构观察发展趋势.第十八页,共二十九页,编辑于2023年,星期三练习运用CONCORD

单独提取某个被动结构:动词+过去分词被动结构:(V+PP)例如:1)beforced(todo)2)Besupported(by)3)Bediscussed结构编码:*<VB**<V?N>第十九页,共二十九页,编辑于2023年,星期三代码的含义?<VB>代表be动词<VB*代表任何时态的be动词<V?N>:代表任何动词的过去分词如:<VBN>表示过去分词been第二十页,共二十九页,编辑于2023年,星期三第一组:中国学生作文本族语书面语第二组:中国学生作文中国学生口语练习提取:第二十一页,共二十九页,编辑于2023年,星期三第二十二页,共二十九页,编辑于2023年,星期三(V+PP)结构统计结果(万分率):中国学生美国人RF171864StF67.3115.1书面语中,中国学生与美国学生在被动语态使用上差异巨大。第二十三页,共二十九页,编辑于2023年,星期三(V+PP)结构统计结果:笔语(中国学生)口语(中国学生)171/67.360/26.2中国学生口语中的被动结构比书面语中要少,被动结构在口笔语中的分布基本合理。第二十四页,共二十九页,编辑于2023年,星期三(V+PP)结构统计结果:1年级2年级3年级4年级49/14.242/10.549/14.331/9.7呈现逐年递减的总趋势,但有变异。第二十五页,共二十九页,编辑于2023年,星期三(V+PP)结构统计结果:中国学生外国学生171/67.3421/81.9外国L2学生比中国学生高,但低于英语本族语者。第二十六页,共二十九页,编辑于2023年,星期三<VB**<V?N>by例如:beaffectedby<VB**<V?N>*<II>例如:betreatedas练习单独提取——

“带by的被动结构”第二十七页,共二十九页,编辑于2023年,星期三练习批量提取被动结构:*<VB**<V?N>*<VB**<R**<V?N>*<VB**

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论