基于GATE的语义理解论文_第1页
基于GATE的语义理解论文_第2页
基于GATE的语义理解论文_第3页
基于GATE的语义理解论文_第4页
基于GATE的语义理解论文_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要:本文基于GATE匡架定制了基于中文并限定领域的信息抽取系统,以之用于在人机交互中对自然语言的处理,以此来解决对自然语言的业务问询请求。关键词:语义理解信息抽取1.引言随着人工智能的发展,人机交互的深入,人们越来越倾向于用自然语言,而不是原有的生硬的关键词元素输入,与智能系统进行交互。事实上,用户更习惯于用自然语言来描述一个问题,而不是用一系列的关键词,例如使用“我想看刘德华的电影”,而不是“刘德华and电影”。而研究显示,用自然语言来描述对信息的需求比用关键词准确得多,同时用户也更容易做到。这一需求的出现,引发了自然语言处理领域的快速发展,带来了一系列人机交互模式的变革,例如智能搜索引擎的出现,Siri的快速蔓延与发展。本文就利用自然语言进行业务问询请求进行了初探,定制中文信息抽取系统研究语义理解。2.语义理解目前,对自然语言的理解策略是针对某一领域知识库,在进行特殊处理之后,对用户提出的问题,系统可采用适当的策略给出理解与分析,而且能够针对用户要求进行相关的统计和针对具体情况给出适当的建议。机器对语言的分析和理解是一个层次化的过程,这个过程一般分为4个层次:语音分析、语法分析、语义分析和语用分析。在这4个层次中,针对语义的分析是人机交互最重要的内容,也是本文研究的核心。2.1语义分析的基本概念语义分析是指通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。为达到理解语言的目的,需要进行3步工作:首先,理解出现的每个词;其次,从词义构造理解语句意义的结构;最后,从句子语义结构表示言语的结构。2.2本文所采用的语义分析主要算法在本文的研究中,进行语义分析主要采用正则文法规则匹配算法。正则文法是自然语言领域中经常使用的一种文法形式,和正则表达式,有限状态机具有一一对应关系,适用于基于规则的文本匹配与内容理解。标注模板引擎格式进行编写,规则部分独立于引擎,更易于维护。所采用格式的语法类似于普通正则表达式,但匹配单位不是字符而是上游流程标注过的文本。3.业务模型描述本文研究的自然语言业务问询,其应用场景为:当用户在智能系统上输入一段自然语言,该智能系统能根据输入的内容,按照预先定义的语义范围与用户意图进行匹配,得出用户意图对应的业务。用户的意图被识别为业务类型后,按照业务类型对用户语句进行业务要素提取。3.1业务分类模型通常,自然语言理解任务可以分解为关键命名实体识别子任务和意图识别子任务。命名实体识别和抽取任务在自然语言信息提取中应用比较广泛, 意图识别则可以看成是一个语句层次的分类问题,即通过语句和上下文以及任务相关的知识等各种特征,把语句映射为预定义的一组意图上去。图1自然语言理解框架目前对于自然语言的命名实体识别和抽取任务主要采用统计理解和规则匹配来实现。由于主流的统计理解需要一定数量的标注,即对数据有一定的依赖性,且在本研究中,我们规定的用户输入有限定领域句法固定,词表相对稳定不变的特点,因此本文采用规则匹配的方法进行业务分类与提取关键字。以 "July31,2000"为例说明:分词(Tokeniser):被拆为"July""31"" ,""2000"词典查找(Gazetteer):在日期词典中查找,找到"July"是月份。命名实体语法检查(NamedEntityGrammar):使用关于日期的语法规则(通过JAPE定义),"July31,2000"被识别为一个日期。3.2业务关键字提取模型前面说过,用户的意图被识别为业务类型后,即可按照业务类型对用户语句进行业务要素提取。但实际情况是,用户的语句不一定能提供较完整的业务要素,甚至有时是极度模糊的。同时,不同的业务领域,所需要的业务要素又有极大的差别。面对这样的业务场景,建立针对业务领域的关键字提取模型,就成为较好的解决方法。业务关键字提取模型就是标记,一个业务哪些要素是必须的,哪些要素是可选。如对于音视频业务,它必须的要素是片名/演员/导演这三个中的一个,可选的就较多,如影片类型、上映时间等。转换为表格示意图:业务名称音视频必须片名/演员/导演可选影片类型/上映时间图2业务关键字提取模型业务关键词提取模型,以配置文件的形式进行管理。在满足灵活性的情况下,业务的增加对于系统不构成较大的改动4业务分类与关键字提取的实现4.1定制中文信息抽取系统由上一章可知,本文所进行的业务分类与关键字提取实质上是根据业务需要对自然语言进行的信息抽取。因此,本文在开源的 GATE匡架下,进行二次开发定制了一个中文信息抽取系统。该系统由各种与语言处理有关的组件组成, 依据功能的不同可划分为以下两大类:LR(LanguageResources,语言组件):指数据资源,包括词典、语料库及本体等。PR(ProcessingResources,处理组件):包括各种算法、翻译器、解析器和生成器等。这些组件以JavaBeans的形式实现,使用了MVC的设计模式,并提供了供外部调用的API,能够方便它与其他系统及处理模块(如分词模块、语料库和规则库等)进行集成与通讯。该系统的数据存储有两种机制:一是利用关系型数据库(如: Oracle);二是基于文件系统的存储,使用JAVA序列化或基于XML的内部格式。该系统的总体流程图如下所示:图3系统总体流程图4.2建立充足的中文词表在该系统中要对实际领域进行信息抽取,需要提供一个与实际领域相关的大且全的专业词表库。以“我想看XXX的电影”为例,要查询的主要内容为电影,与电影有关的最可能是导演、演员与片名。因此需要建立一个电影名称词表库,一个导演姓名词表库和一个演员姓名词表库,如下图所示:图图4电影名称词表库(movie_name.lst)List蹴 嘟(«r側酹柳aim噥ValueSate襁IELoo睥JW7tmLookupDR2NK「拠sttpiH聪舱wadorld■MettorMe「BrasfrmLoo恤masmuseimeM”fmcfnusteLookupmm(r'jsicjirgeiihislingerLoolw呱2MnintelstMr砸郦虺LookipIMI颔Jrnomu肋OI0EIMialhianieIWmmLootiV'們烈■:fc邀汨sifwbpaabLoomrs.)efaW切制LmMsifim担isisub.mLxfcwiukN■Sift(祗■lookupIT畅脚List-阪Wst■們lY-SITS底沖如乳』-_LootifMWsi-LoohpDB3Uptadstbx卸WZiHSi^rairsJslKMtoeLookuprList削Eltor曲卿加型i:n朋恤MifdcfeL湘畅DdOa) 1talopa&Ss™匾即SittooWgnstLooLp刘Ttatoifeit■twie眦〔LooM丁網一紅Owmwe.KIS… i—KdChvloplwWeeksmrmeJst■她徹Fat伽炯対SrusdaneL&lp恥&M临忖谢曲rtt砌irt唱frufnberLookupcm圖lift |IMpDaMBatesse^a(to.lstfefidfcaiaLactofMupBdlbdd |晰al』协曲LooLpDmE沁删teial制ELooLpDouglassjffiMAitumtef.s!■■*Actanre讪wbe(■■•■Lw即DROR |stfKer^opsedaIMp加ItafcthtesiffxjrttJsl$血』痂IMfMCIsiffxmo;fe.l?tIMp昭DetaSlfflJUSLSllw即pralOerRafSllffXjg潞■s.fi浙?*LookupHa(.jeoYiisoffxtJst血』1L咖和hw |SIftJffl呦ttlstLOOtlj删仙帥isulfo蝴tek!■sifmther |LwLpJorjfflkIhcsllstftIMp鋼ITOSldftAkrsLtw即Lan翩laiu侧fal |Lookup腑LfW图5电影导演词表库(movie_director.lst)

LS!M: Major加LawAwatortjfeVslueWeLookup浪M拥a.「am朮總帕pmteeJM.SI^meLo(Wnxh'iejcttto韧CfLookupmuro』酬listLookif)ffmlanumwIB弊si#mc諦融M■ V帥usic為咽她伽附IstakerLookVsaialaM■Maiteraladcr■Lookyp—狗 1痂』曲dstLookupwAwnALookwsin咒脏ir制壮曲衲砸■■■■■■Lookifi1oiiMcdcpa^ia血卿帼a加V^jeraalstsufijemLookyp黠 1siraiiwfeH5fXWL«W呃恥ink曲IW-她■■術m觎tt■血seraiLookupmsfnLookvWsix曲enlistLmWivtalsl酬atfittNameLnkw瓠 1jh■图6电影演员词表库(movie_actor.lst)

由于自然语言往往包含后前导语,如“我想”、“能不能”、“是不是”等在一句话的最前面引发后续动作的导入语,同时,引发查找电影的动作也应考虑在内(如“看”、“播放”、“来一段”等),这样才能不突兀地引入后面想查找的内容,符合中文的语言习惯。由于前导语是中文查询的共通语,而查找电影的动作具有局限性,使用范围不大。因此,为最大限度与自然语言匹配,也为使建立的词表库能有广阔的使用范围,不至于仅针对某一类型使用,将前导语和引发查找电影动作的词语分别建成单独的词表库,如下图所示:Listname瓯常MnorL^guajeMioteinnVpe恤MateMsLookupSencydopaediaL咖gamelstLCMip*iroviefKtaLCXXUPmck'i&jiectof.stfdlEOOfL咖movie.rane.lslstrove和ameLtXXlJp戦mcnwlslftlUK^musicNanieL(XXlJpW-Tmusi〔Eiw叨別ftnusic熬r回Lookup9nunberHWinterJMQJP职蚩orzfodslprefix■㈣Ml5aial.aAr.htftelalft?ia.a3o,翻saialjfiaMIserialftifeoorLooiw3?gl制MfnaireLKXUPsufixchannelWirumteldsulfetfiarinelwithnimber■"""■1■■■■LOMJPsuljTydo渕iafetLOOUlp3Ufixgereraj..s1LtXXUpa1suffis.mciie1st:ufKmo/eL咖suFi)(musiclstLoobjp■suFi)(seial.lst亦)囲曲LlXXlJp顯suTiH/fctsufixj/Lookup5uFi)t^alheffflirfenLl5lsufixwta.oonfertLookupt5ufir^athef.lst3Lfw^alh?fMtHost1stKfftHcstLnh|)^nanelst脚ftNameLookupurtJstLookup尊

图7前导语词表库(prefix.lst)LidnameUajcryinor伽彌阴Ar也枷椎Valueacl3dorj$tactactorjdionLookup*«-TadurllstsethiNBeun■■Lock®HMg即叱恂口毗服actLodapWaclQi讪■artdirectLoolap如\—~adjrd.enc/dopaedaJstactIrwl.encydopaedaLookup阿adH&itStact3(MDolupmiadIstealst*actIstaiLoduprnaclo^naop.stactopep_aopLockup■■®-Taclcpen3anie,lstado肌gameLockupacl.swicli^arrel.ls:actW.chanrelLWaadLodapacl惭廿恸也1st■■actMmovigLockupiact1呱tj脸Lockupapj.ls綁pluolapcbannel.lslfthnnel血pJ加皿忸曲khnaLockupcity.wrtdJstSwddLockupdalelstffdatEfflaleLodup輔enxcpa?dia™isftiameLochipgameJstLochpncvieador.lslLockLipI-?mrtyfecttSlffntKieffllrecitjDokupmovieramelst■血p 1■—(nisicnsn&.aSnusi:s™哋meLochip莒ISrxicftinjerLodmp*11

图8查看电影动作词表库(act_watch_movie.lst)在中文里查询某个类别时需要有与类型匹配的后缀词,此外,中文里常常在句末以语气助词作为结束,考虑到灵活性及通用型,将与查询类别有关的后缀词和通用的结束语气助词分别建表,如下图所示:Listme1啊UinorLanguageAnnotatorValueMtMatertateLwLp如淌paefijm曲财eLootupjaneJi血邮肚丿LmoviejclolstMieMrLoo^ip眈Lls(柿能轴憾rLookupnwhamells™tHML®tjp片mistnameJstAnisic^iiEfflaneLoo邮机$ICfcirjerLxfejpnumtedst訓nteLoobjppretest熾LoomseML咖fitterialSsenal抽Loo他3erialdiMr.lSSenalLookupseriaLm1sttotalhameLoo邮腫训和阳Nlinu血陨$血1恤恥<皿悔Loohp豹L盹如卿那sisjftxerdc['K(la姫HIsufejene^JsLoo邮3uf™ielstLoodpsufotMlsl■sftimric■L00M)■1■rSLrssrial.stsift.BalLootup血tv」stLwtip膻悄jsnfeMlsl防二corrertLoo肺LootupW7d.isw-ftMMLootupfr.ianeJsl测血加urllstLootipr图图9查看电影后缀词表库(suffix_movie.lst)MosWale槪BLoo加WosaedaLoo即gareJstinffl^adorJstfrmieffiorL»5fflD'jediTeaoLst斗meLoo即mrameJE■ftianeLtocpnwjia帕y捫蚯bootupffljsicjngfflst和icfsrgerLoo他iwtaJsltaberLookup価血他serialactors■Rsridferalador■Lt»M餌;al』『疝屈Mpaftr阿smLnam曲ftBmeLookuplift九帕肋nntelst---.5UffiK.ctanrel.<r(imb8f-(g疝1更幽渔stsuft醐删b血他Sllffixjtell.slsifiKjenedLMtjpSfflnft'ISlStsflimie疝m血st5ifi™ic血他siffls.serali汕iseiial曲戏川SLfiXtVLookupllfijE脚口)「帆忖sulBjc.ffltefffliifeiilLoo即SlfiK劇补1』■LtocpN皿si血即HamtfctHb/LOOtJfl毗tLargu3ge刚曲:nw图图10通用结束语气助词(sufix_general.lst)4.3用JAPE创建中文规则,以提高识别准确率仍然以“我想看XXX的电影”为例,对于电影的查询,针对前面所建立的词表库,需要对电影名称、导演和演员的匹配。因此,在创建规则时,需要对这三项分别建立规则。本文采用正则表达时,以灵活地处理文本的匹配,建立的规则如下:Rule-rnc/ie.'A(i'LtK>\up.majorType=='pi-I,'((LtxjKup.majorType==acr,LooKup.minorType=="wstGti_moYie"})?(Lookupmajorlype==斥rri<xiR.Lookup.minofType==]:;name:(Lookup.majorType==uLrrkjnoTiE:?({LookupmajorType==suliK.Qeneral-])?)—REF图11匹配电影名的规则Rule:mavie_with_director(.Lookup,majorType=--^fix'■?i<Lookup,majorType=="acr,Lookup.minor!ype=="^Qtch_movieT})?{{LookupmajorType=="pwLoolcup.minarType==*#diredor*J)director({Lookup.majarType=="acr,LooKup.minorType==drect'j)?((Laoti*)ma)ofType='Snnovic*'1Loolajp.mirrorType=="flnamel)?:Lookup.majorType==sufKm?ie:(lookup.majorType==Biiffix_g€ne"al})*?)■movie"REF图12匹配导演的规则Rule,movie_witn_3ctor(:'Lcrokup.majorType-"prefiZ]?({Lookup.majorType==act.LookupminorType==^atcli_mc^{{Lookup>.majorType=="#movie'1Lookup,minofTypG—factor}}actori'Lcx>kup.majorType=="sli^K_mcyie"}?賈LookupmajorType==suffix_gereral^)?):movie™>REP图13匹配演员的规则以匹配演员的规则为例做说明,该规则的名称为:movie_with_actor,该规则分为左右两部分,左边部分是匹配的规则,此部分以正则表达式进行标示,右边部分为匹配后应进行的操作。在该规则中,匹配的顺序是:前导语出现 0次或1次->查看电影的动作出现0次或1次->演员出现1次->查看电影后缀词出现0次或1次->通用结束语气助词0次或1次。4.4PR的实现建立继承AbstractprocessingResourc髯实现ProcessingResoure接口的子类。每个PR都具有初始化定制的中文信息抽取系统和执行两个步骤。在执行步骤中,除进行抽取动作外,还要计算匹配精度。所有 PR均采用管道的方式组织,更换或修改其中某一PR时不会对系统的整体产生影响,这样便于系统升级与模块复用。4.4Creole.xml的书写Creole.xml文件对系统中需要实现的PR进行定义与组织,PR作为资源,可以在Creole.xml中定义它的名字、实现类名、参数与注释等。系统在通过管道调用PR时,会首先读入Creole.xml文件,然后获取对每一PR的描述。例如本文中的BWPGazetteer资源,其Creole.xm文件配置如下:匸二亡,师F驼船二t盟•:二近;:EViFSazetzeer,jar<ZJAR>.lAS3j;b>rp.ga^-e.gazett-aez.BWP!zazette^z</"J_^^<?C']<Z?T>ABW?Gaz±tteer,</C2mM7><PA5JC'IE7ERNALFgunwt;”RUNTIME-IRtrus*COMMEtrr™"ThedocLmaattotfi .Doi:iiiLe!at</PflJt2tMETEP><PARflMEIERHWE^"annotationSetManeffROHTIME="tzueirCOKMETT=pTfifa^ncta:ions±trob±L5Sdfort?j£ £jjn^:etiaits"OPTIONAZ-^-rce iva,lang.String</? 工二Ea<PAtAl-IETERyJA?<E=,rj=z=zttra二orn0PII0nAL=,r:Jue,r>java.la^g.SEnng</FAAAMETER><PA7^1E7ERNAiiATi址占盹”DEFAULT,,Iist5rdefF,coMMEjn=,frie狂竝t?t旅filerit^JiscoflistsIr5UETiXES=,,dsri>»7RL<■■'空~Z~.><PA?A1'1E:EEDLFAJLI=friJrr-£rrCOr2-fEirT=,rri5三加;注丄叱廿梵dfor育北左丁thed5finiti-3i£HNAME=ir±nsodinj'

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论