Smith使用介绍版本_第1页
Smith使用介绍版本_第2页
Smith使用介绍版本_第3页
Smith使用介绍版本_第4页
Smith使用介绍版本_第5页
免费预览已结束,剩余21页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、WordSmith使用介绍1. WordSmith介绍这是WordSmith工具控制器的主画面1WordSmithToob它有四个主要的菜单选项,一个谚语(不断变化,您可以编辑),主要工具的三个按钮(Concord是红色,因为这个工具在使用中),以及一系列的标签.目前,我们看到它显示anthony&cleopatra.txt已被选定用做Concord.2.选择文本文件要选择文本文件,单击主控制器中的文件菜单当你单击选择文本,你会看到像这样:在左边是一个相当标准的文本文件资源管理器中,右边是一个选中文本区域.按一下有两个蓝色箭头的按钮(如下图光标处),或拖曳一些文本文件从左至右。您应该会看到类似

2、这样rhnrajprPMtErhnrajprPMtE目前WordSmith表明(在上图状态栏)7个已被保存.您可以看到文件大小,但WordSmith(还)不知道每个文本文件有多少的词.我们选择了Concord的7个文本(见Concord上位于已选文件).按下绿色按钮或者关闭窗口3. Concord3.1 Concord概况Aconcordance看起来就像这样:SlConcorcTFieEditViewCaFnule5d:irigfiHdpJCortcoidsflDt|Se1T4qcrtlNoCortcoidsflDt|Se1T4qcrtlNo| |1 11#|1#|% %ESIWhy.hew

3、n&w,kins(i?VIBretorestormyouso?BOITybaltUndBb644omKroninG1id|432 2l l1%he:ar岛1w二,HHIij.huihi!Ja-ri-HPiii-ii7nr;rif:iij,AHuwcamitIFiouhilhtr,Mmwrd帆h。也施旧?I10SITIIH。心加wallteaw1.013ornKMcm匚B,ixtl45conaxiztanceahutedoiM匕GWS 胃licnamwmrcbtnelw0 找dau由ATArduMLportH时胤?川巾耽unoc5电叫Pcrwc卜TChtr)1酉1口卜Paneow忸rM。修t宣*

4、cua-fclcjfsl ldealdealVdfekslalionMbliGiUvt依第k k整WIIVWIIV显w,|,|ConcordConcordfile?availableMartieMartie口IheLiteandDeathofKincJon.口ineLlleofKingHenryY_;har.二jTh已SecondPartolKlrghenry-UTheSecondPartg1KirgIrenry.qFhuThirdFartgfKingHenryVL.Trm即dfofKingRchwdHI.L.TiThfrTragedyofKirgRchsrdl.匐国的团图ThtFflmods

5、HistoryolThtFflmodsHistoryoltheItheI 甘儿TheFiraPertofKlrwhewIV.IheFirsTheFiraPertofKlrwhewIV.IheFirstPertofKingFertPertofKingFer yVI.TheyVI.TheL L 褥andDearthofandDearthofKincKincJoi.Ihe_ifeofKrJoi.Ihe_ifeofKrigHenryV.tctTheSecondPaloigHenryV.tctTheSecondPalo- -KirgHeKirgHenry.nry.JheSecondPa1TKirsHen

6、ry.33013301323132313031272134313521FoldffFoldffHfenameHfenameSts叫匕姑|UnicodeUnicode叫I IIteiskstIteiskst.mtTanousrist.mtTanousrist.33B07f7MIAMIA 比一.theClHst阳+M-331R?klkl kstkstIhefirstgrt=fIhefirstgrt=f311,2.777 7MskstMskstHitliftanddeat.Hitliftanddeat.279,3.279,3.? ?MskstMskstUitUitliftofkinliftofkin

7、h h. .352,0.352,0. .? ?MsfcstMsfcstUitsecondUitsecondpart.part.3612.3612.? ?CISKStCISKSt.witsecondwitsecondpsrt.psrt.356,6.777 7?.国TieThidPartTieThidPartafafKhgHarryVI.KhgHarryVI.J JTheTrageTheTragefli/fli/ofofKirgRchsrdI.KirgRchsrdI.J JIheTraged/ofKiIheTraged/ofKirgrtchirdrgrtchirdII.II.i3401340129

8、612961413|413|FFIfIfyouyouyouyoucancanwrii*nottsherecnyourtextwrii*nottsherecnyourtextfilefilecolectnn,thensaveyourchcolectnn,thensaveyourchoices(redSavebLttm)asfawurtssoices(redSavebLttm)asfawurtssforforsubsequentsesann?.subsequentsesann?.ItFilesFiles10hid守(57hghght虱stored7filesin1:oldBr(s)(2276KBr

9、te?)FtesseiecfedFtesseiecfed它是所有出现wherefore在RomeoandJuliet的8个文本的concordance.目前只有3项.第一个有644个词(43%),其源文件是rom06.txt.3.2制作一个Concordance当您按下主控制器Concord按钮,一个新的Concord工具打开了并出现在Windows任务栏.现在在Concord,选择File|New.FastExit如果没有文本文件已选定,会要求您选择一些.按ChooseTextsNow按钮.一旦文本被选中,输入一个合适的SearchWord:在这里,已经选择wherefore作为搜索词.然后

10、按OK.(3回区)concordance所有wherefore的例子,还在词前后有一个词分隔符号,如标点符号,空格等.既然现在我们已经做了concordance,WordSmith现在知道每一个文本文件有多少词:rom06.txt共有1,506次;rom8.txt更大(2,236个单词).D.beM;5HMESXR0ME0V VmW瓶阳VConcordV V口的3.3查看源文件要查看源文件,双击正使用的线.在这里,点击了突出行包含有whereforeartthouRomeo.1足引网尾,卜Mryt”,kinsman?怕附slormyou60ITybaltUncle,GUg”ATCEOGid43

11、2heai1&her)F5i0Romea,Rameo,tvlii-rKiiieartthaiiRomea?I7fiDenyIhjT31DTiyjjLfnO9,i33,AHowcamffitIhouh尚的JWmBfeGMIMBWI&7Hos1TIIHorchaidwalkaw1j013orriKJctnOS.iirtl4=J(:n-.coid*iceT T即ordNctJordNctJFh|Fh|看concndin曜locdb|dotpatterns|cbileii|Ikrnmea|IQUICQ|力球 ai3就祈daudf口4Ardx*kper七1bgwofgJu巾眈,力伏,力orgRtrwc卜

12、才htr)I理I口口。吊*。Rtrwo.,内Mr-for*-FieEditViewCarnuie三吐1%炉Hdp1 1 Concoidsnct|Se1TConcoidsnct|Se1T qcrtlNo.|qcrtlNo.|l lifljiflj% %1E9IWhty,hewn&w,kins(i?愀正怕旧slormQUSO?SOITybaltUHC1BH644omKArDHiDG1ri|4321“r*l*i:1叫rPn|四丐二:iiiiHIi.nhuihik-a1rHRIH-H7Hij1I153Howcamfstlhouliilher!tdlmetandUifrblv?11061Ttiacrch

13、etdvulteaw1j013&ri&c(nD0.itndhaiwmctanowlosotc3曲Concord)Concord)Fi&selectedFolderFilenameFilenameromDl.txtdAH.m口d:Vet.romD3,txtrom04,t)dromOS.tKtd:Mext.rom06,txtrom07,tKtdAtsxt.glTlO&t试Wends27texts0flderj9highlidnledSftc*ed(5E31Ebytesin1folder069033323176笑72126577E297297246686Bz9o036686Bz9o031 1z z回

14、区)回国0sub-foldersO.apfiles喧1RomeoalL148Kb148Kbtx4KD4KD12Kb12Kb5kb5kb5KD5KDFile5日rwihbl已嚼EEm-H雷NameSize31t*srgdaudtIKArdchkper七1bofoniofgairJufeKinoc,力CMTqRcrachtrshtr|I产IQ匚。吊*。fterwe冉MrMos-Concord)Concord)FieEditViewCarnuie三吐1%炉HcHieE*叫 EWEW 匚gpuleWmsHtdp,Mierhebeitricesthe幅沙篦$ingcloudsAnd,值upontlh&h

15、osomofthpAirInertkrowingRomeohtarheriInertkrowingRomeohtarheriDRomeDgIRoirrieojhersforearithouRumeg?Den/thyfatherandrefusethythyname.DiDiififthojwiltnot.thojwiltnot.bebeb billillswornmymylow,ccncordancecolbcates|plotpatternsclusters|uileramesn)urce触或notesIEsssngdouds1711AndMilsuporthsssngdouds1711An

16、dMilsuporth。banmdbanmdU UIEIE r.Ailirt(mtknowngRoneuhenshvrJlFS0Rcmv/Rnmooj/r.Ailirt(mtknowngRoneuhenshvrJlFS0Rcmv/Rnmooj/或按F8,线会变粗:wherefore,cncwherefore,cncFileEditVievjComputeSettingsHelpConcordancehonourofmyLin115slTostrikehimdeadIholditnot白sin.Capulei(starding)1591Why,hownow,kinsman?Whereforest

17、ormyou与口71601TyballtUncle,thisi与mMantgu&,ourfo9,1511Avillainthati&hithercomein与piteI62IToscornatoursolemnitythisnigM,1631CapuletYoungRomeo,isit?TybaltT由he,thatclouds(7dlAnd甘彳ilmuponth?bosomaltheairJuliet(notknowingRomeohearsher)(751ORomeo,Romeo,wheretoreartthouRomeo?1761Denythy-fatherandresethyname,

18、1771Orifthouwinot,bebutswornmylove,781AndIllnolongerbedCapulet1791Romeo(日 side)ShallIhearmore,orshallIspeakaMontague?11031RomeoNeilher,fairmaid,ileithertheedislike.11041JulietHowearnstthouhither,tellme,andwherefore?n051Theorchardwallsarehighandhardtoclimb,11061Andtheplacedeath,consideringwhothouart,

19、11071Ifanyofmykinsmenfindtheehere.11081RomeoWithloveslightwingsdidIHUconcordanceF F 融匚盯口: 匚 LI 二。 ; fil?rijTi?::口 I, 。 匚,te 打 r-lotot? ?SetSetassingclouds1741And&ail$uponthiebosomnFtiieair.Juliet(notknoRAingRone口hear:或把有兴趣d的线拉长或拉粗:将光标放在左栏的2和3数目之间,它改变形状:hlConcordance1591Why,hownow,kinsmar?Whereforesl

20、ormyouso?IbOITybaltUnclt1hearsher)17510Romeo,Romeo,whercloreartthouRomeo?1761DenythyHuwcamst1houIhithier,tellme,andwherelbre?11051Theorchardwallsare再拉下来.国wherefore,cncwherefore,cncFileEditViewComputeSettingsHelpN011。口 11 日口匚日 Net1591Why,hownovu.kinsman?Whereforestormyouso?16(31TybaltUncle,dwmgedmess

21、engerofheaven1711Untothewhiteupturnedworidringeyes1721Ofmortalsthatfallhacktogazaonhim1731Whenhebestridesthelazy-passingclouds1741Andsailsuponthebosomofiheair.Juliet(noiknowingRomeohearsher)17510Romeo,Rameo,whereforeartthouRomeo?1761Denythyfatherandrefusethyname.1771Orifthouwiltnot,hebutawommyhve,17

22、81AndIllnolongerbeaCapulet.1791Romeo(asida)ShallIhearmore,orshallIspeakatthis71801JulietTisbutthynamethatismyenemy.1611Thouartthyself.Howcamstthouhither,tellm序andwherefore?I1O5ITheorchardwallsareconcordance口lot口白,clustB餐filendMEB|soiMGetextJnot。吕也可以把光标放在右边缘后再拉粗,就在Set的左边.3.4 Collocates和MutualInformat

23、ion以下是AGO的collocates,用BNC的书面部分计算所得,按频率排序.Set目5引ngclauds1741Andailsuponthebooinnoftheair-Jufiet(notknowingRcFileEditVievjCompete三日ttinqsHelpNWordWithRelationTotaltaiLgfl|A1 1AGO;明口12,40316.7B5472 2HENSLEY孙。W.631513)AEONS9.S791184FORTNIGHT羽。9.3361211215YEARSaPio9.2W9,0339,9366MOONS明。B84C13121WEEKS期。87

24、541,0471.0298SEASONSaio854881ei9MILLENNIA日加8.6129910MONTHSacio8.3071,3831,36711,MOMENTS明白8.36717917812UNTHINKABLEago8128181513DECADE就。7.9391651EJ14COUPLEago76973G034215TWENTY被。7.668J0538716CENTURIES日印759212612317TEN州。752140546816FIFTY即Q7.50D13312719THac|o7.4951020MOOTED口和7.4715521日 GHTEENaqo7.46654S

25、O22,INCEPTION明。7.427923HUNDREDago7.34325024124FIFTEENacio7.342979 95 5nA Ah hILLIILLIn n二nY=Matches*MutudInformationColoc-atesF10并选择一个合适的词表来做比较16,689SetAGOconcordanceallocatesPtpatternsdustersfilenamessourcet由tnotes有AGO的实例近17000个,并且YEARS是首位搭配,9000次邻现于AGO.关系栏为空,此时只能用频率对每栏进行排序,或按照词的字母顺序排序.所需的是要知道所有这些c

26、ollocates,每个与AGO关系有多紧密.是否A,THE,WAS等等,真的与AGO关系紧密?如果我们现在选择菜单计算|MutualInformation,ConfirmFilenameConfirmFilenameC:uvsrnith4.woidlistMoncwritlen.1stHelp:CartelCartel; ;如那么,我们得到以下列表,排序时按关系栏:囹“ECm,匚j区FieEditViwjCompete5汛i叫5helpNWordWithRelationTotaltaiLeft|;1 1AGO:明。12,40316,785472 2HENSLEY羽。W.S315 513AEO

27、NSaC|09.8791134FORTNIGHT羽。9.3361211216YEARS期口9.2W9.D339,9356MOONS羽口884013127WEEKS日加87541,0471,0296SEASONSaio8.5488 81 1819MILLEMN1A日股8.6129910MONTHSa(io63071,3931,367HiMOMENTS卧8.36717917312UNTHINKABLEaPioS.1281815_13DECADE明)7.93916516J14COUPLEap|o769?3B0342J5TWENTYaqo7.668JOS38716CENTURIES那7.5921261

28、2317TEN7521J0546816FIFTY破口7.50013312719TH破口749510D20MOOTED即Q7.4715521曰 GHTEEN的口7.46654印22INCEPTION明口7.4279B23HUNDREDHUNDREDacio7.343250241_24FIFTEEN翅。7.3429795AilrrI上hLILIn-rnLiconcordanceccllccat&splotpatternsfilen-anesscarceriotes16,689Set此。列表前面几项能更好地反映AGO随着时间和数量的趋势.首位搭配(HENSLEY)只有5次同现于AGO(BNC书面部分

29、共有17次).3.5使用标注Concordancing如果您的源文件有标注,可要做的第一件事是让WordSmith知道.要做到这一点,在主控制能,选Settings|AdjustSettingsAdjustSettingsAdjustSettings然后,选TagsandMark-up如果您使用的是英国国家语料库,在Customsettings里选它,如上所示.然后选Entityfile如果不想见eacute;不选6及类似的,再按Load:ConcordFieFieEditVie*vCoinpMteSettingsHelpNConcordanceTheArts:Talesouto1school

30、Eiy9WH12J3JIU1ennethClarke,theSecretaryofStateforEducation,onElectionCElectionCalllastFriday,talkingcwPRPaboutteachers.Atthisriousthing,havingaradioprogrammePRPanlelevision,butthisRadio,butthisRadio4jointproductionwitliBEC1hasshownhowhasshownhowneatlyitcanworkintherighthands.Thepriorities:clerqjesii

31、ons;answersPPPtothepoint;anyspaceleeblsandtheanswersare,asinacooker/demonstrationclearlypreparedearlier,wPRPOnKingStreetJunior(Radio.Theschoolsecretarywaslookingforotherjobstosupplemenlpacket,therewasntenoughmoneyinthebudgettQpayforthetoteachthenewcurriculum,testsPRPforseen-/ear-oldswerebiii,Nowhewr

32、itesfull-line,PRPfortelevisionaswallasradivIcancordanice.:collocates而206206patternsdutaishlenamesIsourcetetnates你看到的介t和标注(但没有任何其他标记).4. Wordlist4.1词表WordSmithTools的词表像这样的到目前为止,我们已告诉控制器,忽略以尖括号开始和结束的所有标签(),把几个实体引用翻译成符号,如和,并且删除了每个文本的题头(直到).作为一个开端,已经不错了.现在,我们对词类做concordance.BNC使用的标记,如下所示:atthegreathouse

33、s所以每个介词标记为在介词本身前.目的是要看到在BNC选定的文字的所有的介词.选定一个BNC文本文件后,键入*作为搜索词(星号是必要的,因为一个词直接在词类标签后)并按下OK.WordSmith检查角括弧内是否是文字或标注始标记:在这里,我们选No.再次按下OK.这表明每个单词在文本文件了出现的频率,其在文本词汇中所占比例,以及每个单词在多少的文本文件中出现.4.2制作单词列表要制作单词列表,先按WordList按钮,在主控制器.WordList启动后,选择文本然后你会看到这样的在 这 里 , 我 们 要 作 出 一 个 基 于8文 本 文 件 简 单 的 词 列 表 , 文 本 来 自 戏

34、剧R o m e o a n d J u l i e t ,按MakeawordlistnowWordListtool显示一个频率列表.最常用的词是#.有985个#.怎么回事?原来,#在默认情况下被用来代表任何数字,如65,40或$997.82.在#下,最常见的词是the,and,Ito,of.旁边,你可以看到它在我们使用的8文本里的频率,每个词的百分比,以及每个词在8个文本中出现的次数.好彳I的频率最高,但在8个文本中却没有出现.要按字母顺序排列看词,请按一下窗口底部附近的alphabetical标签.现在,向下滚动到wherefore.结果似乎证实了我们做concordance的发现.4.

35、3 Concordancing选定词一旦你在屏幕上得到了一个词表,您可能希望看到一些词所在的语境.选择一个字(或多个)并选择计算|Concordance您会得到像这样(如果制作词表时的原始文本仍在原位):ConcordFieEditV网ComputeSettingsHelp2122232425262728303132Concordancetwo-tiersystemoftreatmentbetweenpatientsoffundholdersandscouldnotbetendedtoHIpatients.Doctorshw%neveranotherthoroughlydispiritingt

36、imelorpatients,andforthose*/howorkewhichcuUpariientstimeinhaspikhavespentmostofherlifeinhospitaThankstoPeterboroughsHospitafewdaysinihelocaldistricth 口即ita;AtfirstIplannedtostayinhospita:arefullyco-ardmaiedbetweenpatients,hospitaentsarebeingdischargedsojnerfromhospitanhasbeententativeinexpsandinghms

37、pitachildrenwhospendlangperiodsinhospitaSiwdah;andsavesmone.ShewasbornwithatHome(HAH)system,.IVluichofiercarswithJessica,butthishasdoctorsandv/iththeAdvancesinkeyholeservicesirrtothehome,hsledtcsomedevelopmentscanccifdancecollocatesplotpatternsdu&taisFilenamessourcetestnotes474.4lemmatising要手动进行lemm

38、atise,用屏幕上的单词列表把它拖到您想加入到的线上NWordFreq%Texts%ernmas|SetAB4ABBOT540.01屋65ABBOTS31的ABBOTSTOWN3 330.01ABBOTT1080.0368ABBOTTS0330.01田ABBY650.027口ABC22130.0571ABCS1 1172ABDEL440.0173ABDELBASET330.0174ABDELBASGET1 1175ABDICATE99D.03而ABDICATED330.01v v| |再放开:你会看到总数的变化并且Lemmas栏中的项目为可见如果有很多,您可以双击Lemmas栏看到详细资料L

39、emmdfcrms 区IABBOTTIOAPBCTTSsAEBCTSIOWN34.5词表统计4.6多词单元用二或三个词(n-grams)制作词表,如OFTHEINTHEENDONCEUPONATIME等等,你先要计算一个索引文件.这主要是表明每一个单独的词在您的语料库的位置制作一个多词词表,你得到像这样的结果NWordFreq%Texts%?_1ONEOFTHE:1,2080.0438379.792ALOTOF7470.0321345.423THEENDOF7170.0330162714aiJTOFWE53000225152.295PERCENTOF52520.0217035.4235.42目

40、THEREISA5060.0225553137PARTOFTHE5030.0224651.258SOMEOFTHE4540.022344675ASWELLAS4620.0223047.9212THEFACTTHAT4670.02225463011ENDOFTHE44500223248.3312BEABLETO4330.0219039.5812ATTHEEND4150.0122146.041IDONTKMOW3930.0111924.79ITWOULDBE3880.0119741.04L_TOBEA3830.0123743.33THEENDOFTHE3B20.01215447918ANUMBER

41、OF3670011753646ITWASA3620.0119139.792THEREISNO3520.0121043754375irisA3490.0121043.75ATTHEENDOF3470.012034229GOINGTOBE34J0.0114B30.33Z1THEREWASA3290.011623375西1DONTTHINK3220.01129268926INTERMSOF3120.0111324.532THERESTOF3000.0118939.17定IITISNOT2940.0118237.9229ATTHEMOMENT2870.0112326,673口INTHEFIRST2711593313按Ctrl/F2保存它,提示的文件名类似于_index_3-5-wordclusters.在以后可以作为一个普通的词表打开它.5.KeyWordsWordSmithTools的关键词列表像这样的.该关键词是与某种参考语料比较,其出现频率很高的词关键词旁边有不同的数字,告诉您每一个词在源文本的频率,以及与参考语料相比的频率在上述列表中,与英国国家语料库相比,戏剧RomeoandJuliet的8个文本有许多主要人物的名字,和一些古语词,如thou、thee、和love.要制作关键词列表,首先按Keywords按钮,在主控制器.当Keyword

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论