




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、总第222期2008年第4期计算机与数字工程C om puter&D igital EngineeringV ol.36N o.4161信息抽取在自然语言查询接口中的应用与研究3陈玉华1林来宾2(洛阳师范学院计算机科学系1洛阳471022(北京航空精密机械研究所测量机事业部2北京100076摘要提出将信息抽取这种技术应用到汉语自然语言的处理中来,描述信息抽取会给自然语言查询接口带来的影响,并着重讨论信息抽取的实现算法。关键词信息抽取词典自然语言处理中图分类号TP391App lication and Research on Infor m ation Extraction inN at
2、ural L anguage Q uery InterfaceC hen Yuhua1L in L aibin2(D epart m ent of C om puter Science,L uoyang N or m al Institute1,L uoyang471022(C hina P recision Engineering Institute for aircraft industry2,B eijing100076A b s t ra c tThe technology of Infor m ation Extraction into C hinese natural langua
3、ge p rocessing has been introduced.The i m2 pact of infor m ation extraction on natural language query interface.A nd the Infor m ation Extraction algorithm has been discussed at last.Ke y w o rd sinfor m ation extraction,dictionary,natural language p rocessingC la s s N um b e rTP3911引言今天计算机已成了人们日常
4、生活与工作中必不可少的工具,虽然一般的计算机操作对用户的知识要求越来越少,但某些专门领域的软件(如地理信息系统方面的软件仍要求它的使用者拥有较强的专业知识,这样一部分用户的使用就受到了限制。为了使那些不具备专门领域知识的人也能使用这部分软件,人们从上世纪八十年代就开始了对自然语言查询接口的研究。在自然语言查询接口的帮助下,使用者只要具有日常语言的使用能力就可以方便地操作了。自然语言查询接口属于人工智能的自然语言理解的研究范畴。所谓自然语言理解,实质上是把一种表达转换为另一种表达的过程,这种转换也可视为映射。建立自然语言理解系统就是寻求映射的算法,使机器能够得到与人在理解上相当的输出。本文所说的
5、自然语言指的是汉语自然语言。传统的搜索引擎是目前自然语言处理中用得比较多的处理方式,它一般采用相关度的搜索方式,这种搜索得到的查询信息往往比我们需要的多得多,用户要在这些大量的信息中翻查才能找到对自己有用的东西。为了减少这些冗杂的搜索结果,我们将信息抽取技术引入到了自然语言处理中来。信息抽取(Info r m ation Extraction:IE技术是一种面向具体任务的实用的文档理解技术,它直接从自然语言文本中抽取事实信息,并以结构化的形式描述信息,供信息查询、文本深层挖掘、自动回答问题等之用。信息抽取与其它处理技术的不同点主要是它直接从文档中取出相关的信息点。例如3收稿日期:2007年9月
6、17日,修回日期:2007年11月8日作者简介:陈玉华,女,硕士,讲师,研究方向:自然语言处理和算法。林来宾,男,硕士,工程师,研究方向:机械设计和语言处理。我们想查找“流经湖北的河流”,原来的搜索方式会返回大量的有关河流与湖北的信息,用户必须在这大量的信息中再手工查找自己需要的信息;而采用了信息抽取技术后,得到的会是一系列的河流与地名,计算机在处理中只需直接在结构化的数据库中查找相关的信息即可。这样可大大提高查询结果的准确性。2信息抽取模型本文的研究是基于汉语G I S 查询语句进行的。在研究中,我们设计了一个信息抽取模型。图1是该研究采用的模型 。图1信息抽取模型一条自然语言查询语句,要让
7、计算机理解,首先要切分为最小的语义单位词。句子切分为一个个的词后,通过人为的制订一些对句子理解起限定作用的文法和句法,来达到对句子分析的目的,这样可以滤去句子中的一些干扰因素。语句经过分析后再进行抽取,就可以得到结构化的与设计模板结构一致的信息。3词典在自然语言理解系统中,词典是必不可少的,它是中文分词、语法分析、语义理解的基础。分词结果的好坏直接受分词词典的组织、容量以及分词策略的影响,所以构造适合于分词系统的词典是提高分词效率、减少分词中歧义性的有效途径。词典的容量包含两重含义:一是数量,二是内容。词典的存词数量标志着这个词典的规模;词典的内容主要指常用词基本的或主要的用法和意义。我们对词
8、典的设计思想是小数量大内容。小数量指尽量选那些使用频率高的词,以节约计算机的存储空间;大内容指词典必须包括词的足够量的基本用法和意义,因为句子分析的难点在于消除歧义,所以在词典中不仅要有反映词组类型特征的信息,还应该有反映句法功能特征的信息。另外,在汉语句子的自动分析中,仅仅知道句子组成成分的词组类型特征和句法功能还不够,还应再加上语义关系特征,并在词典中都加以反映。3.1本系统词典与一般汉语词典的不同数据库汉语查询的用词相对有限。一旦用户确定了所要查询的数据库,相应的受限汉语查询句的用词范围、句型在很大程度上就已经受到了限制,这就为减少词典的容量、提高分词速度提供了可能。另外,对汉语查询句的
9、分词、语法分析、语义处理等的目的是为了生成SQL 语句。要最终实现对汉语查询句的理解,达到查询数据库的目的,必须在查询数据库这个意义上对汉语查询句进行分词,这样在分词和语法分析时,词典中必须有为生成SQL 语句所必须的信息,以区分词汇对生成SQL 语句的重要程度。最后,数据库查询语句的针对性相对较强,可根据查询领域的不同确定部分词库是否使用,以及某类词语是否有必要去搜索,即部分词典动态使用。3.2词典结构数据库汉语查询界面的词典一般分为通用词典和领域专用词典两类。与领域无关的词存放在通用词典中,这种词典的移植性很强;与具体数据库模式相关的词放在领域专用词典中,一般来说 ,图2词典结构系统不同,
10、专用词典中的内容就会不同。在G I S 查询系统中,与空间相关的词一般都归到领域专用词典中。为了保持词典的结构一致性,我们在进行研究中将通用词典和领域专用词典的结构统一起来,其结构如图2所示。其中,Type 是词的类型,在这里,词的类型不是汉语中一般的词性,而是我们根据需要, 对词进图3“最少”的表示行的重新分类,譬如实体词,函数词等;D escrip tion是词的符号表示,是在以后生成的SQL 语句中用到的符号。例如词“最少”在词典中对应如图3。4信息抽取的文法规则信息抽取是要从自然语言文本中抽取事实信息,并以结构化的形式描述信息,结合这一特征,我们在对查询语句进行处理时,将查询句的各部分
11、信息段抽取出来,存放到固定的模板中去。要实现这一点,就要使用一种文法来描述匹配模式,对信息进行语法分析,并利用语法分析中的相应动作来实现信息的重新组织。下面列出了文法的一部分:一个基本空间关系查询请求可用下式表示:<查询语句>:=<修饰段><修饰段><空间关261陈玉华等:信息抽取在自然语言查询接口中的应用与研究总第222期系><修饰段><目标段>查询语句中的各组成部分又由以下各种成份组成:<空间关系>:=<空间拓扑关系>|<空间方向关系>|<空间量度关系><修饰段&g
12、t;:=<修饰短语>L <修饰短语><目标段>:=<目标短语>L <目标短语>修饰短语、修饰段及空间的各种关系又由不同类型的词组合而成。例如“城市名称”,由实体词“城市”和属性词“名称”组成,可以作为信息抽取的目标;而“距离300米”由空间关系词“距离”和数量词“300米”组成,可以作为信息抽取的修饰段。5信息抽取算法信息抽取算法是根据句子的查询文法和句法规则,对分词后的句子串进行模式匹配并消除句子的歧义,再将模式匹配后得到的各部分进行处理后抽取出查询条件、查询目标与查询实体,最后把抽取出来的这些信息输送到预先设计好的结构化的模板中去
13、。图4是本研究中实现的信息抽取算法的流程图。信息抽取的目的是生成SQL 语句所需的目标、条件与实体,一条语句经过信息抽取后,再将这些抽取结果组成一条SQL 语句就比较容易了。6结语计算机对汉语语言的理解一直以来都是进行汉语查询界面研究的一个瓶颈。本文提出的将信息提取技术应用于自然语言理解,能够大大提高查询的速度与准确度。参考文献1马林兵,龚健雅.空间信息自然语言查询接口的研究与应用J .武汉大学学报信息科学版,2003,(62徐爱萍,边馥苓.G I S 中文查询系统的词典设计与分词研究J .武大学报,2006,(43许龙飞,杨晓昀,唐世渭.基于受限汉语的数据库自然语言接口技术研究J .软件学报,2002,13(4:537 544图4信息抽取算法流程图4朱靖波,姚天顺.中文信息自动抽取J .东北大学学报(自然科学版,1998,19(15安东岳.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年计算机基础考试的成果分享试题及答案
- 山村老屋测试题及答案解析
- 如何评估药理学考试自己的水平及试题答案
- 汽车美容师沙龙活动组织试题及答案
- 2024年公务员考试各科知识框架试题及答案
- 宠物饮食对健康的影响因素试题及答案
- 美容师行业的多样性与挑战及试题及答案
- 公务员省考时间安排与调整研究试题及答案
- 心内科介入术前术后护理
- 环境因素对药物作用的影响试题及答案
- GB/T 32124-2024磷石膏的处理处置规范
- DB32∕T 3698-2019 建筑电气防火设计规程
- 2022年大学生就业指导综合测试卷及答案(题库)
- Mtqnqk吉祥时轮金刚圆满次第六支瑜伽修习次第11
- 2024年甘肃定西中考数学试卷试题真题及答案详解(精校打印)
- 砌石工程承包合同
- 穿越铁路顶管施工方案
- 2024-2029年中国可再分散乳胶粉(RDP)行业市场现状供需分析及市场深度研究发展前景及规划战略投资分析研究报告
- 中医药文化进校园模式研究
- 小学科学湘科版六年级下册全册同步练习含答案
- T-CPQS C011-2023 鉴赏收藏用潮流玩偶及类似用途产品挥发性有机物(VOC)安全限量及测试方法
评论
0/150
提交评论