GAE功能介绍对外_第1页
GAE功能介绍对外_第2页
GAE功能介绍对外_第3页
GAE功能介绍对外_第4页
GAE功能介绍对外_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

GATE功能介绍鲁廷明2009年6月9日2目录概览功能介绍本次研究的不足之处概览(1)GATEisa

GeneralArchitectureforTextEngineeringDevelopedbytheNaturalLanguageProcessingResearchGroupwithintheDepartmentofComputerScienceattheUniversityofSheffield概览(2)LanguageResources(LRs) referstodata-onlyresourcessuchasdocument,corpus.ProcessingResources(PRs)

referstoresourceswhosecharacterisprincipallyprogrammatic

oralgorithmic,suchastokeniser,POStagger.Applications modelacontrolstrategyfortheexecutionofPRs. Therearetwomaintypesofpipeline:SimplepipelinesCorpuspipelines概览(4)documentannottationSetannotationTypefeature功能介绍Tokeniser

实现分词功能,每个Token标注包括的属性有:

kind:Word,Number,Symbol,Punctuation,SpaceToken

orth:upperInitial,allCaps,lowerCase,mixedCaps

length

stringSentenceSpliter

实现分句功能功能介绍Gazetteer

辞典 lists.def内容包括 country.lst:location:country country.lst内容包括

China

Chine

Chypre

Colombia

Colombie功能介绍PartofSpeechTagger 词性标注 也有标注错误的: Iwillstudyhardthisyear.

JJ(adjective,应当为RBadverb)功能介绍SemanticTagger

就是NETransducer,命名实体识别OrthographicCoreference(Orthomatcher) TheOrthomatchermoduleaddsidentityrelationsbetweennamedentitiesfoundbythesemantictagger,inordertoperformcoreference.PronominalCoreference

将人名、代词联系起来,比如:

JohnSmith…he…him…John…he…功能介绍DocumentReset Removealltheannotationsetsandtheircontents,apartfromtheonecontainingthedocumentformatanalysis(OriginalMarkups).功能介绍VerbGroupChunker Therulescoverfinite('isinvestigating'),non-finite('toinvestigate'),participles('investigated'),andspecialverbconstructs('isgoingtoinvestigate').NounPhraseChunker Markingnounphrasesintext.功能介绍OntoTextGazetteer

与ANNIEGazetteer结果相似,但是算法不同。FlexibleGazetteer TheFlexibleGazetteerprovidesuserswiththeexibilitytochoosetheirowncustomizedinputandanexternalGazetteer.GazetteerListCollector

指定标注类型的实体插入到指定Gazetteer的相应list中 并生成统计文件(实体名$次数)功能介绍TreeTagger TheTreeTaggerisalanguage-independentpart-of-speechtagger. TheTreeTaggerisatoolforannotatingtextwithpart-of-speechandlemmainformation.ItwasdevelopedbyHelmutSchmidintheTCprojectattheInstituteforComputationalLinguisticsoftheUniversityofStuttgart.TheTreeTaggerhasbeensuccessfullyusedtotagGerman,English,French,Italian,Dutch,Spanish,Bulgarian,Russian,Greek,Portuguese,ChineseandoldFrenchtextsandisadaptabletootherlanguagesifalexiconandamanuallytaggedtrainingcorpusareavailable. 分析英语文件成功 cd\treetagger\bin tag-english.batnews1.txt 但是未能集成到GATE中功能介绍Stemmer EachTokenisannotatedwithanewfeature"stem",withthestemforthatwordasitsvalue.GATEMorphologicalAnalyzer Consideringonetokenanditspartofspeechtag,oneatatime,itidentifesitslemmaandanaffix.ThesevaluesarethanaddedasfeaturesontheTokenannotation.MiniParParser Ittakesonesentenceasaninputanddeterminesthedependencyrelationshipsbetweenthewordsofasentence.功能介绍RASPParser RASP(RobustAccurateStatisticalParsing)isarobustparsingsystemforEnglish. 包括以下四个PR: RASP2Tokenizer RASP2POSTagger RASP2MorphologicalAnalyser RASP2Parser:createsmultipledependencyannotationstorepresentaparseofeachsentence. RASPisonlysupportedforLinuxoperatingsystems.SUPPLEParser SUPPLEisabottom-upparserthatconstructssyntaxtreesandlogicalformsforEnglishsentences. NeedaProloginterpreter.StanfordParser

功能岭介绍Mo晶nt缸re谅al升T唉ra帜ns弓du步ce钳rMa病ny雄o隶f狭th薪e断ke君y成fe方at寒ur摆es袄i窝nt结ro被du要ce抗d叔in泰t雨he纳M叮on域tr荒ea衣l塔Tr昏an妇sd浊uc叹er拦(榨MT哗)驳ha迫ve甚n污ow医b仍ee困n歇po零rt庙ed脆i江n雷so乳me架f胞or黑m并in爆to怒t葵he淹s柔ta司nd懂ar苹d约JA尚PE鸟t峰ra摩ns哀du精ce未r.洞T羊he抛s迎ta缴nd鸡ar担d殃JA垮PE教t六ra余ns纵du贫ce港r萝is领l滨ik苦el岭y爽to班b集e或mo折re谨s溉ta痰bl欺e彻an驾d召bu听gs黑w缓il侦l快bexe稀dmo衔re汇r态ap茧id衰ly铁t义ha稻n散wi地th划t把he恐M禾T.与st苍an秃da生rd丽J晒AP待E所tr麦an穴sd今uc日er类似供,未盯研究滩。功能费介绍Ch将in挨es穴ePl肃ug个inTh摊e叼Ch剧in低es啄epl殿ug功inco秤nt党ai盾ns忆a监s涛im栽pl咽e士ap洞pl貌ic泡at雄io诵n抹fo杆r衡Ch委in猛es翠e浴NE先r值ec保og家ni振ti均on孔(ch狮in两es勿e.纵ga你pp).功能里介绍Ch佩em银is银tr郑y阻Ta站gg倘erTh功is文G跑AT墓E累mo目du掀le很i敲s禾de威si冤gn预ed蜂t春o苍ta稍g叮a材nu帅mb眯er券o指f蔽ch踏em托is着tr市y难it脂em鉴s庭in番r薄un益ni到ng律t葵ex缠t.猫C弊ur外re缠nt绢ly烛t穗he狗t胖ag痕ge高r绸ta消gs励c星om午po袜un钻d辞fo溜rm逗ul或as株(蛮e.陈g.攻S察O2屡,眯H2极O,四H衔2S车O4朵.皇..传)钻io适ns搭(返e.潮g.猪F村e3制+,Cl-)战a住nd指e挤le头me纤nt服n腊am梯es搬a敏nd慌s狠ym并bo亚ls鲜(定e.押g.祝S写od蔑iu炼m衬an疮d败Na漫).割L益im百it俯ed舒s蓬up戒po膜rt冰f流or荷c搞om眼po命un园d帽na赌me更s盐is救a既ls颗o掘pr坊ov兄id刺ed绩(朱e.好g.su挣lp葵hu敬rdi椅ox厉id吸e)忠b亏ut壤o澡nl束y晓wh屈en土f粒ol仅lo么we窑d很by绿a部c夫om吸po预un鸣d越fo捆rm偏ul直a宅(i烧n瞎pa怎re对nt团he贺si负s粗or浪c某om馒ma四s)投.功能拢介绍Fl塌ex碎ib秀le爽E阶xp凝or酒te撒r可以寺指定临一个滋标注侦集的客若干馋标注脖类型河,输朱出带叙这些戚标注乱的文草档到耀文件去,并玻可以牵改变始输出画文件厕中标役注类碑型的像名称言。An骆no猎ta视ti圣on热S穴et如T牲ra估ns剪fe新r将一森种标峡注集门中的揭一部高分标臣注转莫移(星或拷沫贝)圣到另占一个如标注共集中茂(然芦后将螺这个跑部分晌的标铲注集绪可以刃作为更其他忌PR退s的轧输入抵,再前处理材)。Fo域r棕ex抄am仿pl江e,殖w都e崭mi阻gh阀t撤wi尘sh改t队o揪pe读rf灯or妇m弹na司me脊d绍en死ti甚ty倒r幕ec减og洁ni换ti锁on微o铅n甜th虏e锈bo亮dy拴o决f属an轻H矿TM纠L涌te宿xt弯,泊bu错t泄no蝇t烘on话t岁he雀h岔ea丸de串rs烛.替Af冠te招rto扁ke乖ni湖si锣ngan皇d器pe缩慧rf竿or熊mi登ng付g晃az谦et阿te负er理l蓬oo喜ku方p克on粒t魔he势w牵ho忘le锡t凶ex稼t,炸w瓦e鞋wo塘ul丈d平us汁e局th盈e鬼An略no存ta撒ti漆on手S隐et晕T惠ra戚ns巧fe宵r欢to铁t堤ra骆ns止fe也r杏th盘os距e浴an倒no鼻ta避ti膛on嘉s漠(c材re柴at搜ed她b睛y扩th呼eto衫ke与ni探se涂ran种d赔ga庸ze康tt锻ee练r)乳i珍nt枯o些a塌ne决w道an肌no饰ta纺ti困on闲s炎et鉴,猜an跟d肚th腔en坦r要un片t保he收r艳em队ai率ni爪ng获N马E括re城so商ur脖ce暂s,要s血uc稼h海as港t映he孟s司em慢an披ti腿c年ta仰gg卧er铺a透ndco秆re抗fe肤re恒nc驻emo我du迎le食s,楚o薪n珠th宝em没.功能批介绍In功fo匪rm钩at绸io醉n馒Re东tr独ie浪va赛l仆in火G馆AT赵ETh响e哨cu歌rr溜en谅t听im窑pl危em粮en金ta寄ti愉on节i贷s饺ba蒜se胁d费on牵t郑he象m帆os涝t愧po甘pu御la潜r小op宇en猪so堪ur颈ce她f答ul出l-咬te业xt侨s孤ea尚rc性h哥en袋gi需ne卧–Lu朗ce唉ne.Cr膏aw料le侵rTh仁e抱cr浓aw跟le弦rpl食ug盟inen充ab反le煌s花GA红TE阳t腥o始be甚u着se击d陡fo仓r木a量co姑rp绘us稍t炼ha劈燕t锋is促b戏ui巾lt愤u涨si毫ng池a垂w碍eb候c点ra释wl假.Th蛾e胸cr锹aw防le锦r谊it依se惩lf追i降sWe差bs饥ph堡in留x.漂Th牢isis值a肌J经AV铃A纹ba蛾se剩d浩mu瓜lt项i-右th绿re克ad难ed絮w盖eb打c鸣ra起wl怠er宇t统ha夸t驼ca熟n河be损c务us君to望mi凑ze络d铸fo央r格an牺y惊ap送pl找ic抖at山io凝n.功能忍介绍Go麻og淋lePl宴ug嗓inTh润ispl知ug飘inal冬lo因ws寻t街he店u志se姑r煎to邻q裕ue顿ry樱G榆oo混gl晓e衰an狠d俩bu付il村d掩th垃e董do发cu倒me燥nt跃c付or箩pu亮s漆th江at谎c驻on米ta钩in物s遍th裕e绍se学ar浑ch霞r粒es翁ul关ts侵r戒et农ur柄ne嚷d妻by息G进oo尿gl搂e刮fo目r欢th沫e蚀qu丧er懂y.Ya诞ho摆oPl餐ug硬inTh品ispl押ug修inal者lo齐ws纤t弟he舌u黄se痛r让to狭q主ue能ry腿Y民ah烤oo帖a猪nd卡b鼠ui详ld帖t勉he炎d离oc悄um牧en架t厅co情rp凡us携t镇ha辽t老co隔nt带ai表ns锯t蜡he吗s确ea炉rc穿h扑re杨su南lt春s远re嫂tu暑rn酱ed邪b迁y翻Ya微ho燃o模fo恢r袄th榴e紧qu朗er甲y.功能现介绍Wo醉rd拳Ne嚷tin地G既AT藏E执行稼出错磁。Ma碰ch春in文e草Le盈ar睡ni曲ng肆i觉n彩GA炮TEMi巨no悠rT杯hi糠rdMI坚AK字T泼NL掌G恢Le傅xi城co设n尚不焦明白痕用在药何处我。On野to撤Ro元otGa缩慧ze鼠tt汁ee亩r功能沫介绍Ke孟a忍-务Au婶to证ma销ti白cKe稀yp想hr菊as台eDe壮te鲜ct悔io继nKe呜a喊is杯a应t歼oo蜘l馅fo许r软au串to话ma鼻ti史c怀de零te劫ct纲io悦n富of件k杜ey井p押hr哭as依es阶.先训圣练得捕到模故型,崇然后葛可以侵应用兰。On软to抛te邮xtJa阔pe糟CCo队mp订il爽erJa鲁pe糠cis源a妈n苗al网te息rn探at旧iv过e鸭im会pl独em毛en音ta衰ti讯on常o馒f蓬th译e息JA贸PE破l铁an云gu慎ag堤e捕wh疼ic村h麦wo其rk捏s地by师c驳om待pi稠li醋ng雾J谢AP忧E雁gr墓am帮ma卸rs利i妙nt味o纺Ja吉va绘c气od碰e.犹C得om纳pa套re鸡d困to搏t动he封s数ta享nd慌ar漂d摘im舍pl招em峰en堡ta磨ti臂on荡,杯th假es馅e负co济mp烧il耍ed坝g择ra奴mm拳ar完s匙ca肆n话be干s璃ev耻er悬al已t彩im骗es腾f殃as桌te既r枣to蜘r尤un啦.功能椒介绍AN貌NI达CAN饺NI椒C附(AN惭No喊ta斩ti苗on福s-I及n-我Co抄nt喷ex丢t)缴i壳s墓a呜fu浊ll智-f知ea召tu姻re田d头an押no黄ta浇ti遮on俗i拴nd却ex胜in雅g巧an敲d丝式re描tr泥ie亦va灶l按sy毛st谊em扁.嫌It策i穷s尊pr炼ov熔id外ed践a匆s安pa变rt武o完f赔an棉e蔑xt拜en饼si健on捞o车f野th万e付Se凤ri汉al次D慨at昆a-类st酷or东es锯,浓ca异ll很ed放S聋ea河rc络ha妻bl限e泽Se蚊ri剧al倘D蛮at照a-徐st佣or晴e裹(S宜SD汁).可以涝用JA快PEpa昌tt梁er倦n查询茶,例元如:({Pe赚rs嗓on皱}{傻To魄ke或n.悲ro偏ot==牛"sa蛙y"酱})奇|(更{T湖ok泄en蹈.r驰oo易t==剖"sa购y"言}{字Pe阳rs愿on}){Pe煮rs钱on务}{依To殖ke阴n}牌{

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论