免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北方交通人学坝f 州究生学位论文 摘要 摘要 ( 随着社会信息化程度的日益提高,用“自然语言”进行人机对话, 已成为信息化时代人们追求的目标,人们已不能满足简单的问答系统, 在完成很多需要由人机共同参与的任务时。需要具有高智能水平的对话 处理系统。基于特定任务域的口语对话系统的研究已成为目前智能信息 处理领域研究的热点。广。 本文着重x c x , 话系统中相近域的自然语言生威进行了研究,并结 合过适处理的特点,实现了一个具有一定通用性的鱼塑薅壹生成系统。 本文主要研究的问题如下: 1 对生成过程中“说什么”的研究; 雉计算语言学( c o m p u t a t i o n a ll i n g u i s t i c s ) 领域内,文本生成过程 可分为两个阶段:一是文本规划阶段,它的主要内容可以归纳为一句话 一我应该“说什么”内容;二是表层形式生成阶段,它用一句话讲就是 我“怎么说”这些内容。p 一; 文中在解决生成过程中的“l 兑什么”时,提出了用面向对象的知 识库来管理从语料库中提取来的数据。同时,还研究了基于特定域的对 话系统中知识的表示、知识的推理以及知识的提取,另外,还对知识的 更新进行了研究。 2 对生成过程中“怎么说”的研究: 根据谓语中心词的语义特征,提出了动词中心词驱动的格语法, 结合特定任务域的生成规则,选择可能的构成句子的方案,达到输出汉 语语句的目的。 3 丕缠亘整撞世的研究; 系统主要研究相近域之间的移植,采用的是将语言学处理和任务 域处理相分离的方法来实现。( 对不同的任务域,系统只需切换不同的任 务域,而采用一致的语- k 学处理模块,这样就使得系统可移植性成为可 能。) , 4 实现一个具有一定通用性的自然语言生成系统。 系统首先实现了颐和园导游域的自然语言生成系统,结合以上研 究,系统成功实现了交大导航领域的系统移植,并给出了相近域自然语 言生成系统移植的完整实现步骤,最后对该系统进行了详细的测试。 ( 本文所做的工作是国家自然科学基会资助项目“i n t e r n e t 上的 ! ! 立銮塑叁堂堕土塑塑生堂垡垒苎里 本文所做的工作是国家自然科学基金资助项目“1 n t e r n e t 上的 通用人机自然交互平台( 编号:6 9 8 7 2 0 0 2 ) 中的一部分。所实现的系统, 由于知识库表达力强,结构规范,可移植性强可以广泛应用于导游任务 域的系统中。 , ! ! 塑窒望叁兰型! 兰型壅竺堂垡笙兰 茎兰塑墨 a b s t r a c t w i t ht h ed e v e l o p m e n to f i n f o r m a t i o ns o c i e t y ,h u m a n - c o m p u t e rd i a l o g u s i n gn a t u r a ll a n g u a g eh a sb e c o m e t h ep e o p l e sg o a lp u r s u e d p e o p l es h o u l d n o tb es a t i s f i e dw i t has i m p l eq u e s t i o n - a n s w e rs y s t e mw h e nw eh o p et o c o l l a b o r a t ew i t hm a c h i n e i nf a c t ,w h a tw en e e di s ad i a l o g s y s t e m ,w i t h w h i c hw ec a nt a l kl i k ew i t hh u m a n r e s e a r c ho fs p o k e nd i a l o gs y s t e mb a s e d o n s p e c i a l d o m a i nh a sb e c o m et h e h o t s p o t i n i n t e l l i g e n t i n f o r m a t i o n p r o c e s s i n g d o m a i n - i nt h i st h e s i s ,t h ea u t h o rd ot h er e s e a r c ha b o u tn a t u r a l l a n g u a g e g e n e r a t i o ni l l c l o s ed o m a i nb e l o n gt ot h ed i a l o gs y s t e m ,c o m b i n i n gw i t ht h e c h a r a c t e r i s t i co f d i a l o gp r o c e s s i n g ,r e a l i z e t h ed e f i n i t e g e n e r a l n a t u r a l l a n g u a g eg e n e r a t i o ns y s t e m r e s e a r c hw o r ki sj u s ta sf o l l o w s : f i r s t l y , r e s e a r c h a b o u tw h a tw e s a y i nt h e p r o c e s s i n g o fn a t u r a l l a n g u a g eg e n e r a t i o n t e x tg e n e r a t i o nc a nb ed i v i d e di n t ot w op a r t si nt h e d o m a i no f c o m p u t a t i o n a ll i n g u i s t i c s :o n ei st e x tp l a n ,i no t h e rw o r d s ,w h a t w e s a y ,t h eo t h e ri ss u r f a c eg e n e r a t i o n ,i no t h e r sw o r d s ,h o wt os a y t os o l v e t i f f s p r o b l e m ,t h em e t h o do fm a n a g i n gt h ed a t aw i t hk n o w l e d g eb a s ei sp u t f o r w a r d s e c o n d l y , r e s e a r c ha b o u tw h a th o w t os a yi nt h ep r o c e s s i n go fn a t u r a l l a n g u a g eg e n e r a t i o n i no r d e rt og e n e r a t et h et e x t ,t h i st h e s i sp u tf o r w a r dt h e m e t h o do fc a s eg r a m m a rw i t hv e r bd r i v i n g ,c o m b i n ew i t ht h eg e n e r a t i o n r u l e s ,a n ds e l e c tt h ep o s s i b l es c h e m e t h i r d l y , r e s e a r c ha b o u tt r a n s p l a n tc h a r a c t e r i s t i c t h em e t h o dw h a tt h i s t h e s i su s e si ss e p a r a t i n gt h ep r o c e s s i n go ft a s kd o m a i nf r o mt h ep r o c e s s i n go f l i n g u i s t i c s l a s t l y , r e a l i z et h ed e f i n i t eg e n e r a ln a t u r a ll a n g u a g eg e n e r a t i o ns y s t e m f i r s to f a l l ,t h et h e s i sr e a l i z et h eg e n e r a t i o ns y s t e mb a s e do nd o m a i no ft h e s u m m e rp l a c eg u i d e ,t h e n t r a n s p l a n t t h e s y s t e m t od o m a i no fn o r t h e r n j i a o t o n gu n i v e r s i t y s c h o o l n a v i g a t i o ns u c c e s s f u l l y , a n dg i v e t h ed e t a i l e d s t e p so fs y s t e mt 1 a n s p l a n t f u r t h e r l n o r e ,t i f f st h e s i sa l s od os o m et e s t sa b o u t t h i ss y s t e m t i l er e s e a r c hd e s c r i b e di nt h i st h e s i sw a ss u p p o r t e d b yt h e n a t u r a l s c i e n c ef o u n d a t i o no fc h i n a j ! 查銮望查兰堡主竺塑竺兰堡垒兰! 二旦 第一章自然语言生成研究综述 自然语言生成是当前计算语言学中相当活跃的一个领域,有着极其 重要的应用价值。 1 1 自然语言生成的提出 自然语言是人们同常使用的语言,如汉语、英语、日语、法语等。 自然语言是人类知识的载体,也是人类学习环境和通讯的工具。在知识 经济的今天,一方面,计算机通过i n t e r n e t 已把世界变的越来越小,使人 与人之间的频繁交往成为可能;另一方面,计算机已经遍布各行各业, 成为辅助人类进行科学研究、设计施工、管理决策的重要工具。这样一 来,解决好人与计算机交流方式就变得尤其重要了。而人与计算机进行 交流,最自然的方式莫过于人类早已习惯的自然语言了。 基于自然语言的人机交互是一项十分庞大而复杂的系统工程,它是自 然科学和社会科学的交叉学科,因此它的研究不可能一步就能达到类似 于人与人之间的自然语言交互目的,必须随着自然科学和社会科学的不断 发展,逐步的加以分析和解决。图1 1 给出基于自然语言人机交互的框图。 可以看出:语音识别( s p e e c hr e c o g n i t i o n ) 、语音理解( s p e c c h u n d e r s t a n d i n g ) f t j 自然语言理解f n m u r a ll a n g u e a g eu n d e r s t a n d i n g ) 主要模 拟人类听懂以语音形式发出的自然语言的能力,自然语言生成( n a t u r a l l a n g u a g eg e r n e r a t i o n ) 年l l 语音合成( s p e e c hs y n t h e s i s ) ( 文语转换) ( t e x t t o s p e e c h ) 主要模拟人脑构思自然语言的句子、篇章,并朗读出来的能力。 其中,语音识别、语音理解、语音合成为语音信号处理( s p e e c hs i g n a l 1 5 r o c e s s i n g ) 研究的主要内容,语音信号处理主要研究如何进行语音形式的 自然语言信息与文本形式的自然语言信息之间的转换。语音识别、语音 理解主要完成把语音形式的自然语言信息转换为文本形式的自然语言, 如i b m 公司最新推出的v i a v o i c e2 0 0 0 系统就是一个基于非特定人的、 大词汇量、连续汉语语音识别系统。语音合成( 文语转换) 可以认为是语音 识别、语音理解的逆过程,主要完成把文本信息转换为语音形式的自然 语言,如微软中国研究院最近演示的中文t t s 系统。 自然语言理解和自然语言生成是自然语言处理研究的两大领域,自 北方交通大学硕上研究生学位论文 第一章 然语言理解是使计算机能象人一样听懂自然语言,而自然语言生成则是 使计算机具有人一样的表达和写作的功能。两者的结合使得计算机能够 和人一样灵活的使用流利的自然语言。 应用域知识处理 i l i士 对话处理 i tl l0 自然语言理解 l 自然语言生成 t语音处理l f i l0 语音识别理解 i 语音合成( 文语转换) 飞 自然语言处理 图1 1 基于自然语言人机交互框图 自然语言理解是把一种表达转换为另一种表达的过程,也就是在人 与机器理解之阃建立一种映射关系。自然语言理解主要研究如何使计算 机“理解”自然语句、篇章所表达的涵义,使得计算机能够根据用户的 交流意图来完成一定的交互目的。 自然语言生成是用自然语言来构造篇章的过程,即把句子意义的内 部表示转换为表层的结构。自然语言生成主要研究将计算机内部以某种 形式存放的需要交流的信息以合理的句子、段落、篇章的形式表达出来, 根据计算机内部的规划系统,生成合乎语法、语义的内部语言描述,并 以自然语言的形式输出。 1 2 自然语言生成研究的发展概况 自然语言生成的研究始于6 0 年代初期,较之于理解的研究,起步 北方交通火学坝1 研究生学位论文 鹅一章 较晚。自然语言的生成发展至今基本上可分为两类,随机生成和非随机 生成。随机生成主要用来检验特定的语法理论,也有用来检验转换生成 语法的有效性。随机生成处理语义的能力很弱,处理语用问题的能力更 差,因此一般不再用于自然语言的生成。非随机生成在程序内存储生成 句子的语义信息,并设法把这种内部表达转换为表层结构,从而生成句 子。非随机生成也主要有两种,一种是把程序内部事先存储的现成文本 直接作为生成结果输出,另一种是通过对内部知识结构进行转换而生成 文本,在这种类型中,根据知识库中对生成基元的描述又可以分为结构 驱动生成及目标驱动生成两种。结构驱动的特点是生成内容是预先设定 的,生成的主要过程就是检索知识库进行查找,得到相应的内容直接输 出。目标驱动生成中,知识库的内容不是专门为生成设置的,生成过程 需要根据一定的会话目标来从知识库中提取信息,然后对信息进行语言+ 学j l 】工并表示为可懂句子的过程。 12 1 国外自然语言生成研究的发展概况 1 5 3 9 自然语言理解的研究从五十年代就丌始了,而自然语言生成的工作 ! j ! | j 始r 六十年代。最早从事生成工作的是y n g r e 和f r i e d m a n 。y n g r e 使 用一种上下文无关语法随机生成符合语法的句子,而f r i e d m a n 使用扩充 转移网络( a u g m e n t e d t r a n s i t i o nn e t w o r k ,简称a t n ) 语法。在生成过程 中,可以随机地选择生成句子或词组的类型,由词组类型产生( 名词) , ( 动词) 等结构,把词随机地填入句子中( 名词) ,( 动词) 等结构对应 的位置中,由于词的选择是随机的,因此往往会产生一些合语法而不合 语义的句子。这种随机生成的方法只是用来检验一下语法的正确性。 由于随机生成特别强调句法,不太重视语义。为了生成质量较高的 句子,人们开始使用非随机生成法。这种方法的目的是用某种内部表示 式来记录句子的语义,然后把这种内部表示转化为句子的表层结构。 1 9 6 5 年s k l e i n 首先用一种从属语法进行了生成试验,他将输入的 语言分析成一棵从属语法树,生成各个词的从属关系由原始从属树倒出, 生成语法与分析语法类似,按一定的条件约束而成。生成的结果可以保 证输入与输出的语句意思相同。 r q u i l l i a n 主张在处理语言生成问题时把语义放在第一位。为了表 示词与词之j 、白j 的语义关系,他在1 9 6 8 年建立了语义网络系统。这个系统 的任务是比较两个词从而发现它们的语义关系。在比较时,要设法在语 义网络中找到一条通路把两个词从语义上联系起来。 北方交通人学硕士研究生学位论文 第一章 r s i m m o n s 和j s l o c u m ( 1 9 7 2 ) 首先在自然语言生成中利用a t n 语法 生成对输入语句的复述。这个系统以格语法作为内部表示的引入,表达 了各个概念点之间的语义关系。然后通过生成手段形成表层语言。这个 系统虽然只是用来复述一些输入语句,但对后人的工作有很大的启发。 n g o l d m a n 的文本生成系统b a b l e ( 1 9 7 5 ) 是m a r g i e 系统的一部 分。m a r g i e 是s c h a n k 等设计的系统,可以对输入句进行复述和推理。 系统为b a b l e 提供的内部知识表达结构是概念从属网络。b a b l e 用一 种二叉树结构的分辨网络从一些原始语义中选出与概念从属网络意义相 一致的动词,然后再加一些时态、情态等处理,最后生成句子。如: j o h n g a v em a r y ab o o k 可以复述为:m a r yr e c e i v e da b o o kf r o mj o h n b a b l e 系统在语义上使用了概念从属网络,并有了推理能力,但 知识表达方面缺乏一般性,处理语言现象也比较少。 八十年代以来,自然语言生成的研究,从广度和深度上都取得了很 大的进展,首先是八十年代初一系列论文的发表,为自然语言生成的研 究指明了方向,奠定了理论基础( m c d o n a l d1 9 8 0 , m c k e o w n1 9 8 2 】, a p p e l t1 9 8 2 ) 。从这些论文中可以看出人们对自然语言生成的研究有了 许多新的认识。在七十年代,自然语言生成涉及的是用相对简单的方法 来生成孤立句,如f r s i m m o n s1 9 7 2 】,而进入八十年代,自然语言生成的 研究总的说来有两发面的变化:一是人们在生成方面的兴趣从单旬生成 转向了段落、篇章的生成,研究人员开始考虑在自然语言生成中加入文 本规封j ( t e x tp l a n n i n g ) ,从而实现自然语言段落、篇章的生成;另一方面 是人们对特定形式的话语生成的兴趣,即考虑到根据用户知识水平的高 低,来建立相应的用户模型,来生成不同的话语。 m c d o n l d 设计的m u m b l e ( 1 9 8 2 ) 自然语言生成系统把生成过程分 为四步。第一步采用一些类似脚本的知识表示来规划某种目标;第二步 根据一些语法限制将一些词组结构的表示附着在规划中,存放在寄存器 中;第三步是实现,结构转化为功能性的词,再根据词法进行一些处理; 最后一步是遍历语法结构,将各个接点都缀上表层词汇。生成表层句子。 系统通过控制各步之间的信息传递完成生成。这个系统的逐步推导对生 成研究是一种好方法。 a n t h o n y 设计的文本生成系统p r o t e u s ( 1 9 8 2 ) 是一个游戏说明生成 系统。p r o t e u s 使用的语法类似于系统语法。在调用语法之前,p r o t e u s 先给出了生成句的结构。在确定文本范围时,p r o t e u s 用了一些启发规 则。这个系统只是在小范围内的实验系统,与这个范围的知识很有关系, 受限制很大,但这是一个智能文本生成系统。该系统通过规划产生文本, 北方交通大学硕士研究生学位论文 第一奇 而不只是从知识库中提取已有的句子描述。 d a p p l e t 设计的k a m p ( 1 9 8 2 ) 系统是一个根据规划产生话语的生成 系统,这个系统通过逻辑运算等推理方法达到一些话语的目标。系统与 语用目标紧紧联系起来。a p p l e t 认为语言的作用就是产生实际动作,所 以就必须通过推导得到答案。k a m p 系统主要用于推理、语用的研究, 只能生成一些句子,而不能生成自然语言段落。 j m m c k e o w n 的t e x t 系统( 1 9 8 4 ) 是一个多语句生成系统。前面的 系统都未注意文本结构,只是对底层的知识内容的直接反映。t e x t 的 知识源为海军数据库。系统根据一个数据库回答问题,系统设计了几种 修辞策略,如定义、比较、一致等。修辞策略选择需要定义一个概念, 比较两个物体时需要描述可能的信息,可以定义和描述目的。t e x t 的 生成过程可以由图1 2 来表示。 p a r i s 的t a i l o r 1 9 8 5 ,1 9 8 7 是为r e s e a r c h e r 而开发的问题答 案生成系统。r e s e a r c h e r 有一个复杂的物体信息知识库,t a i l o r 用 于生成对物体的描述。在t a i l o r 的生成过程中,系统根据用户的知识 水平建立了用户模型,由不同的用户知识水平选择反馈给用户的信息也 不同,在表层生成部分,采用了功能合一语法( f u n c t i o n u n i f i c a t i o n g r a m m a r 简称f u g ) 。 h o v y 的生成系统p a u l i n e 首先在生成中建立了与讲话者风格、 修辞及交互目的有关的讲话者模型,在这个模型中,h o v y 考虑了交流双 方的社会关系、讲话者与听话者的社会背景及讲话者的讲话意图。这些 因素作为影响生成文本的输入参数,通过选择1 8 种修辞目标 ( r h e t o r i c a lg o a l s 简称r g s ) ,决定生成文本中应包含那些信息及 应选用那些词汇。 s y o u n g 等设计的v o i d s ( 1 9 9 1 ) 系统是b r i t i s ht e l e c o m ,l o g i c a 和 c a m b r i d g eu n i v e r s i t ye n g i n e e r i n gd e p a r t m e n t 花三年的时间共同开发的项 目。这个系统主要用来处理对列车时刻表的电话查询。它采用上下文无 关语法,生成的过程是:针对几类固定的问题,采用令牌方式选择可以 匹配的词,然后用这些词组成句子。 p s i b u n 的s a l i x ( 1 9 9 1 ) 系统是具有规划功能的特定任务域的生成系 统,它根据家庭的亲属关系结构树,产生对家庭成员间关系的介绍文本, 陔系统涉及到句式有限,没有明显的语法部分。 m m e t e e r 的s p o k e s m a n 1 9 9 1 1 是b b ns y s t e m sa n dt e c h n o l o g i e s c o r p o r a t i o n 承担的d a r p a 计划中的s e m i a t u o m a t e df o r c e s ( s a f ) 5 页, 目中 1 部分。它采用数据驱动的结构来组织文本,首次尝试了面向对象的语 言生成。该系统主要产生军事上用的无线电信息。s p o k e s m a n 出两个 北方交通大学硕士研究生学位论文 第一章 c o r p o r a t i o n 承担的d a r p a 计划中的s e m i a t u o m a t e df o r c e s ( s a f ) 项目 中一部分。它采用数据驱动的结构来组织文本,首次尝试了面向对象的 语言生成。该系统主要产生军事上用的无线电信息。s p o k e s m a n 由 两个主要部分构成,文本规划器和语言实现器。文本规划器选择需要交 换的信息,决定信息的组织,选择信息与知识库的匹配。语言生成器生 成实际文本。它根据需要表达的意义组织文本结构,通过知识库匹配得 到结构中有关部门语言的具体内容,然后通过词汇的选择,连接形成表 层结构,从而生成自然语言文本。s p o k e s m a n 生成自然语言文本的 过程如图1 3 所示。 l表层部分 图1 2t e x t 生成过程 m i t 近几年丌发的g e n e s i s 系统已经应用到五个域七种语言中。 她的输入是由理解系统t i n a 产生的语义框架和从数据库获得的信息。 该系统包括三个部分:词典、消息模板和重写规则。其中词典用来实现 语义框架的表层形式,消息模板采用递归的方法构造语义框架的名词短 6 一 j ! 查奎望查兰堡主! 壅兰兰竺堡苎 一一! 二里 语、谓语和丛句,每个消息模板包括消息名、一个或多个词串以及关键 词。 文 本 规 划 器 语 考 口 实 现 器 组织需表达的意义 知识库匹配 选择词汇、连接 图1 3s p o k e s m a n 文本生成过程 词法 1 2 2 国内自然语言生成研究的发展概况 2 9 3 3 3 9 目前国内自然语言生成研究尚还处于起步阶段。清华大学研制的 军事情报系统用来模拟回答有关军事情报的问题,篇章分析系统将输入 情报的主要内容经过分析后分别存入一种框架形式的数据库。生成时采 用格语法,通过单句生成器给出表层的对话回答。它基本上属于对话理 解时输入的军事情报的直接复述。系统结构框架如图1 4 所示 相对来说,这个系统还是比较简单的,但在汉语生成中作了初步 的尝试。 清华大学硕士论文基于合一算法的汉语生成研究f 1 9 8 9 将格语 法和其它语法理论相结合,提出了一种表达句子意义的语用描述,其中 不仅有反映句核格关系的k 部,还有传达意图、焦点、情态、语气等 非格关系的p 部。对汉语特点尤其是汉语的生成规律,采用复杂特征集 和合一算法设计并实现了一个汉语单句生成系统。 北方交通犬学顾f :研究生学位论文 第一章 提问问题 信息查找 信息筛选 格的加工 单句生成 话语寄存 输出回答 图1 4 军事情报系统生成框架 清华大学研制的机器人话语生成系统r d g s 1 9 9 0 1 ,主要是根据消 防机器人视觉系统所获得的有关现场景物的识别结果,按照用户的交互 要求,通过查询知识库,生成连贯的汉语话语段,反馈给用户。 南京大学的博士论文汉语组合类型语法理论1 9 9 0 介绍了汉语 的一种形式语法体系( 既组合类型语法) 的基本思想、构架以及汉语句子 的实际组合过程。 北方交通大学信息科学研究所的博士论文自然语言生成系统的 建模与实现1 9 9 4 1 在语言学和数学研究的基础上,提出了语言的六层 次模型,即原始层、特征层、概念层、规则层、环境层和关系层,建立 了适合自然语言理解和自然语言生成的双向语法,还针对自然语言生成 对知识表达的要求,提出了基于面向对象方法的框架表示与语义网络表 示方法相结合的知识表达方法。 北方交通大学硕士研究生学位论文 第一章 1 2 3 小结 从国内外自然语言生成的发展概况,可以看出:国外在自然语言 生成研究方面开展的较早,已经有较多比较成熟的理论、模型和系统, 并且自然语言生成系统在一些领域已经商品化。我国的科技人员在较短 的时间内,借鉴国外的理论和模型,结合汉语的特点,已取得了不少成 绩,但我们也认识到与国外的自然语言生成研究相比,还存在不少差距, 我们应该从深入研究符合汉语的理论、方法和体系入手,研制出实用化 的汉语生成系统。 1 3 对话系统中自然语言生成的研究内容 实现“人机口语对话”是多年来人们一直渴望实现的梦想,同时也 是人工智能领域研究人员孜孜不倦追求的目标。目前,由于各种相关技 术尤其是语音技术的飞速发展,使得这个梦想的实现不再遥远。这种对 话式的人机交流方式,同传统的人机交互途径f 如键盘、鼠标、按钮、 触 摸屏等) 相比,无疑是一个革命,因为对人而言,这种交互方式更加 直接、有趣。可以说,这种技术的应用将在很大程度上提高机器的“智 商”。 1 3 1 对话系统发展概述【1 3 1 4 【1 9 2 0 虽然自然语言处理的研究历史比较长,人机对话的概念也早已提 出,但真正意义上的对话处理研究是最近才发展起来的。以前人们所谈 的人机对话事实上只是指自然语言理解或自然语言处理,或者说是一种 笼统的、广义的人机对话,与本文所谈到的口语对话是有区别的。 h a r v a r d 大学的b j g r o s z 教授在这方面的工作引人注目。她早在七 十年代就已经对对话进行了研究。1 9 8 3 年她和现在在宾夕法尼亚大学 的a k j o s h i 和s w e i n s t e i n 提出的焦点理论( c e n t e r i n g ) 弓起了广泛关注, 许多学者对此进行了扩展和完善。焦点理论并非为对话处理量身定做而 提出的,它同时也可用于篇章分析,事实上这两者之间有类似之处,都 强调深层的结构关系,只不过说话人的个数不一样。g r o s z 在原文中用 的是“话语”( d i s c o u r s e ) - - 词,即它包括了这两个基本点概念。1 9 8 6 年, 一9 北方交通大学硕士研究生学位论文 第一章 g r o s z 和s l i d e r 明确提出了话语中的三个组成部分:语言结构( 1 i n g u i s t i c s t r u c t u r e ) 、目的结构( i n t e n t i o n a ls t r u c t u r e ) 以及关注区点( a t t e n t i o n a ls t a t e ) 。 这三部分是一个由表及里的分析过程,表层的语言结构可将话语分为若 干段( s e g m e n g ) ,每一段都有自己的目的,这些目的反映了段内以及段 之间的逻辑推理关系。关注焦点则反映了任一时刻讲话者所关注的东 西,它的变化取决于目的结构和表层语言特性。所谓表层语言特性就是 她1 9 8 3 年提出的焦点概念:话语中有些东西比其他东西重要,构成焦 点,讲话时应采用能体现这一焦点的表达方式。 g r o s z 的理论对当前的对话处理研究的影响极大,大家普遍采用将 对话分段进行分析的方法,并在此基础上作出进一步的研究,已推出了 不少实验系统。 r o c h e s t e r 大学的j f a l l e n 和l k s c h u b e r t 等人设计的t r a i n s 系 统是一个辅助决策系统。该系统经过了多年的研究,用来帮助用户设计 和监督铁路货运计划。用户向系统提出货运请求和具体要求,系统考察 这些要求是否可行,并形成运输计划。t e a i n s 系统的结构如图1 5 所 不。 该系统采用黑板结构存储语句和对话知识,对话管理模块用来掌 握对话的进程,确保目标的实现,即与用户协商运输计划并执行。它能 追踪对话运行的状态,验证用户的对话意图,分析后给出自己的对话目 标,由生成模块输出。 d u k e 大学的a w b i e r m a r m 等人设计的电路维修系统( c i r c u i tf i x i t s h o p ) 是一个比较具有代表性的、能进行协调工作的对话系统。其他类 似的对话系统还有s r y o u n g 等人设计的m i n d s 系统,它们都在任务 域中采用树形结构组织知识、进行推理,并生成对用户输入的预测,用 以提高识别和理解的正确率。c i r c u i tf i x i ts h o p 系统在对话进程控制方 面有所发展,值得借鉴。该系统共分为五大模块,如图1 6 所示。 。 特别是近十年来,对话系统已经越来越引起国内外专家的重视, 是目前语音和语言学领域研究的热点,一系列有关对话系统研究项目纷 纷启动,国外比较大的项目有美国国防部( a r p a ) 资助的航空旅游信息 服务系统a t i s 、a t & t 公司的自动接线员( h m i h y ) 研究项目、m i t 的 天气信息语音自动服务( j u p i t e r ) 研究项目、德国教育科学研究联合部 资助的面对面自动翻译项目( v e r b m o b i l ) 以及日本文部省( m i n i s t r yo f e d u c a t i o n ) 资助的人机对话系统的研究等。国内正在进行的比较大的 项目有中国科学院同a t & t 合作的英汉语音自动翻译项目,以及“9 7 3 ” 项目“图像、语音、自然语言理解与知识发掘”中的自然人机口语对话 系统研究。 北方交通人学坝- t :i i ) f 究生学位论文第一章 用户l , l 句法分析 l l + 歧义处理语义理解 一语言生成 +l 对话管理卜1 计划推理 上 计划执行和监督 t r a i n s 运输、生产部门 图1 5 t r a n s 系统结构框图 域处理器 通用域知识 电路专业知识 语言接口 语言理解 语言生成 对 话 控 制 器 通用推理器 知识库 任务知识 对话知识 用户知识 图1 6c i r c u i tf i x i ts h o p 系统结构 1 3 2 一般自然语言生成系统研究内容 2 4 2 5 3 0 4 7 北方交通大学硕士研究生学位论文 第一章 在人们进行文章生成过程中,头脑中首先总是有某种“想说的东 西”存在着,这些想说的东西,在大多数情况下,不外是两三个基本概 念以及他们之间的某种可成立的关系。到了要把他们说出来或写出来的 阶段,再考虑表达这些概念的单词的语法特征。在计算语言学领域内, 根据上述描述过程,把文本生成过程分为两个阶段:文本内容决定阶段 或文本规划阶段,它的主要内容可以归纳为一句话一我应该“说什么” 内容? ;另一个表层形式生成,它用一句话讲就是我“怎么说”这些内 容。这个阶段根据文本规划阶段输出的中间表达形式生成表层语言形 式,它主要处理语言的选词、词的形态变化和词组的匹配等。 文本规划阶段,一般进一步划分为两个部分,文本内容规划部分( 全 局规划) 和文本句子规划部分( 局部规划) ,文本内容规划部分主要是将用 户输入的信息变成很细的颗粒,它使系统知道那些是主要的信息,那些 是该忽视的,决定文本的段落结构。文本句子规划部分的工作是把内容 规划的结果用适当的语言组成结构来表示。在句子规划阶段主要执行下 列任务:将内容规划对象映射到语言资源上;将内容规划对象组合和排 序成段落和句子:句子辖域确定;消除冗余,精练语句;嵌入词的引进 和常规用语的修饰;布局和格式处理等。这一过程可以用图1 7 来表示。 图1 7 一般自然语言生成系统结构图 1 9 8 2 年,w m a n n 将今后若干年自然语言生成的研究归纳为以下 四个问题: 北方交通人学硕上研究生学位论文 第一章 1 语法问题: 2 知识表示结构; 3 读者模型; 4 话语模型; 既然自然语言处理属于计算语言学的一个领域,那么自然语言的 生成就离不开语言学知识,就不可避免的要遇到语言学知识的计算机形 式表示问题,一般认为,如果知识表达的恰当,对把知识形成自然语言 篇章来说会更容易一些;读者模型指与用户知识水平有关的模型,也就 是说,对具有不同知识水平的用户视其交互目的应该生成不同的反馈信 息;话语模型是控制“说什么”和“怎么说”的模型,它用来进行对文 本内容和组织形式的选择。 自然语言生成的目的之一是使计算机能以可懂的自然语言形式输 出用户所需的文本信息,要作到有效的传递信息,生成的文本应满足以 下特性: 1 提供信息的( i n f o r m a t i o n t i v e ) :文本必须包含用户未知的信息: 2 上下文相关的( c o h e r e n t ) :文本必须是以前后相关联的形式组织 起来的; 3 可懂的( u n d e r s t a n d a b l e ) :文本必须是以用户可以理解的方式来 叙述的,而且包含的信息可以为用户所接受; 4 关联的( r e l e v a n t ) :文本必须提供与用户交流目的相关的信息; 5 适当的( a p p r o p r i a t e ) :文本必须以适当的形式及正确的语言效 果来修辞造句: 1 3 3 特定域对话系统中的自然语言生成 1 9 2 0 2 6 2 7 人机语声对话就是使计算机作为对话的一方模仿人一人对话,这 使得人机语声对话同其它类型的人机对话有着本质的区别。具体表现 在: 1 人机语声对话所使用的语言是1 3 语语言( s p o k e n l a n g u a g e ) ; 2 人机语声对话对话结构的复杂性; 3 对话中话语的含义与对话情境有着较强的依赖关系; 口语语言的特点 北方交通大学硕士研究生学位论文 第一翥 口语语言与书面语言( w r i t t e nl a n g u a g e ) 之间有很大的差别,口语语 言中包含有大量非书面语语言现象。这些书面语言的表现非常复杂,有 时反映了说话者的某一思想状况,具有向听话者传递一定信息的作用: 有时并没有任何意义,仅是说话者的一种习惯方式。口语语言中包含大 量的非书面语语言现象主要可概括为以下几种: 1 口语语言中存在着大量的省略现象,在上下语义允许的前提 下,人们总是采用最节省的方式交换信息; 2 迟疑现象,这一现象反映了说话者试图选择恰当的词汇和表达 方式表达他的思想; 3 口语语言中包含有大量句中意群间,偶尔也在意群中的停顿、 插入语、重复自我纠错等非书面语语言现象: 4 口语中存在着和书面语相比的非法语法结构及无意义的语音现 象: 对话的特点 对话的最大特点是目的性和协调性,并因此决定了对话的两个主 要的研究内容:任务域的分析和对话规律的研究。对话与篇章有着类似 之处,他们都是话语序列,都是为了完成达到某个交互目的或任务,因 此必须研究任务是如何实现的以及它是如何影响对话结构的,这是对话 处理的根本。g r o s z 早在1 9 7 8 年就指出:对话的结构反映了下面任务的 结构。但对话与篇章有着根本的区别,对话是由两个人共同完成的,不 象篇章的“作者”只有一个,因而协调对话的进程是对话处理所特有的。 任务域的分析是解决协调问题的基础,否则会出现“顾左右而言其它” 的局面。因此任务域要处理好如何实现任务和预测用户有可能会如何实 现任务两个问题。但这还不能保证对话的协调性,对话本身有其特有的 语言规律和控制规律。对话时经常要询问对方是否明白,或自己理解的 是否正确,甚至是仅仅告知对方正在听。这是篇章中没有的,对篇章不 明白就再看一遍,实在看不明白也没办法。进程控制规律也是对话中所 特有的,这是由于对话是由两个人参加决定的,不象篇章是“一厢情愿”。 以下几个方面,是对话处理中值得好好研究的。 1 了解用户的知识水平:对话双方若想协调的进行对话,必须了 解对方知道什么,会作什么,因为对话是信息的持续交流,已 知的信息没必要重复,为了完成这一点,系统应有一个用户模 型,对用户的知识和能力进行动态描述。 2 对话的目的:双方进行对话总是有一定的目的性,泛泛的说是 北方交通人学硕k 研究生学位论文 第一章 为把自己的知识传递到对方,或要求对方提供知识。但落实到 实际的对话,就会有一个个具体的目的。 3 对话进程的控制:对话是一个持续的过程,对话的内容是不断 变化的,但当前所谈的内容只有一个,而双方却都可以提出自 己交谈目的。如果目的不同,对话按那一方的意愿发展下去, 也就是说谁的目的级别高,谁能控制对话的进程。这一点事实 上要由双方对当前内容的知识水平决定,由懂得多的人控相j x , j - 话的发展。 4 对语义的预测:对话处理作为上面一层的处理过程应该对下面 各层提供一些反馈信息,识别和理解的结果是否正确在这里应 该得到检验,同时应预测出用户下一步可能要表达的意思,从 而知道识别和理解。 5 对话的分段处理:对话可能会很长,分析起来会有一定的困难, 实现不易控制。因而有必要将其分为一个个小对话段,把握每 一小段之间的关系既可掌握住整个对话的进程。分段的标准与 对话的内容有关,也与对话本身的语言规律有关。 6 对话语言的特点:为了适应信息的双向交流,对话语言具有自 己的特点,总结其规律,有利于知道对话系统的实现。 可以看出:在研究对话系统里的自然语言处理时,应考虑到与研 究机器翻译、自动文摘等的自然语言处理的差别,应结合对话系统的特 点。北方交通大学信息科学研究所硕士论文基于自然语言的人机对话 系统的研究在对话管理方面作了大量的工作,本文在此基础上,结合 l j 语特点,在自然语言处理的一个分支一自然语言生成上作了一些研究 工作。 1 4 选题的意义 自然语言生成研究的历史虽然并不算太长,但目前已有的研究成 果足以显示出它的重要性和应用前景。自然语言处理作为人工智能的核 心课题来研究,自然语言生成在其中起到重要的作用,如机器翻译中的 译文生成、自动报表的生成,军事上智能机器人在特殊环境下的应用等。 从知识产业的角度出发,自然语言处理也占有重要的地位,象专家系统、 数据库、知识库,计算机辅助设计,智能机器人等都迫切需要用自然语 言作为人机交流的手段,交互中自然语言生成是非常重要的部分。具有 篇章理解能力的自然语- f i + 理解与生成系统可用于机器人自动翻译、情报 北方交通大学硕士研究生学位论文 第一章 检索、自动标引、自动文摘以及自动写故事小说等领域。特别是随着智 能信息技术的发展,计算机越来越能够象人一样灵活使用流利的自然语 言,使得人们梦寐以求的理想一人与机器能够用自然语言进行对话,一 步一步变为可能。从这些令人心动的应用前景我们可以发现,自然语言 生成,尤其是对对话系统中的自然语言生成进行研究具有非常重要的意 义。 北方交通大学信息科学研究所在语言信息处理方面具有近三十年 的研究历史
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 现场施工管理措施
- 2024年中国耐高温同步带市场调查研究报告
- 2024年中国游戏机扫描板市场调查研究报告
- 2020-2025年中国植入式医疗器械行业市场前景预测及投资战略研究报告
- 2025年中国消炎药行业市场前景预测及投资战略研究报告
- 2024年中国普天同庆烟花市场调查研究报告
- 2025年银行行业市场趋势分析报告
- 2024至2030年音箱零配件项目投资价值分析报告
- 2024年中国双开门门机柜市场调查研究报告
- 2024至2030年管子冲刀项目投资价值分析报告
- 南非介绍课件
- 米诺环素治疗痤疮进展课件
- 三相异步交流电动机的直接启动试验报告(五篇)
- 电子商务概论题库(250道)
- 一年级数学认识钟表-空白表盘图(每张20图)
- 移动互联网的实训报告优秀三篇
- 父爱深深 阅读附答案
- 读书分享 《被讨厌的勇气》
- 急性呼吸衰竭的诊断和处理
- GB/T 9846.4-2004胶合板第4部分:普通胶合板外观分等技术条件
- 2021届虹口区高三英语一模
评论
0/150
提交评论