面向中文信息处理的“N+V”结构的句法语义研究_第1页
面向中文信息处理的“N+V”结构的句法语义研究_第2页
面向中文信息处理的“N+V”结构的句法语义研究_第3页
面向中文信息处理的“N+V”结构的句法语义研究_第4页
面向中文信息处理的“N+V”结构的句法语义研究_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面向中文信息处理的“N+V”结构的句法语义研究

关键词 :中文信息处理“N+V”结构自动消歧

“N+V”格式是一种比较常见的同形异构结构,虽然表层形式简洁,从层次划分上不存在困难,但是内部可能存在不同的语法关系、语义关系。

一、“N+V”结构本体分析

(一)“N+V”结构的语法关系

本文所指“N+V”结构是指可以自足的、无其他成分或标记的合法语言单位,不包括“把N+V了”“N的V”等结构形式。根据冯志伟先生的潜在歧义理论,我们将这种结构底层存在的语法关系区分如下:

主谓关系,其中“N”作主语,“V”作谓语,二者之间是陈述与被陈述的关系,如:粮食丰收、妈妈做饭、小二黑结婚;

偏正关系,其中“N”为修饰语,“V”是中心语,如:口头创作、直线上升、文艺演出、汽车制造、语言研究、核试验;

既可以分析成主谓关系也可以分析成偏正关系,这种结构在没有给定语境时会产生理解上的歧义,如:机器生产、专业人员培训。

其中,前两种属于“格式真歧义短语”,它们具有相同的表层类型形式,但是对应着两种句法功能结构,计算机在处理时不能判断采取哪种句法结构,就会产生两种结果,而这种歧义对人来说是不存在的;最后一种属于“实例真歧义短语”,即实例化后产生的短语对应至少两种句法结构,这种歧义对人和计算机都是存在的。

除此之外,由于已经给定短语格式,其中成分的词类已经确定,不会作为结构歧义的产生原因;另一方面,只涉及两个成分的“N+V”结构,词与词搭配时不会产生不同的结构层次,也就不会成为结构歧义的产生原因。

(二)“N+V”结构的语义、语用关系

“N”和“V”之间的语义关系不止一种,“N”既可以作为施事支配“V”,又可以作为“V”的受事受到“V”的支配,还可以作为状语修饰“V”,当同一个结构能够分析出不同关系时就会产生歧义。如“机器”既可以作为“生产”动作的对象,又可以作为“生产”动作的施行者,就会产生歧义。因此,我们可以认为,不及物动词只能构成主谓结构和部分状中结构,而不会产生歧义,只有“V”可以带宾语并且能带体词性宾语时,才会反过来支配前面的“N”,才会产生理解上的区别。如“专业人员培训”中的“培训”是及物动词,“专业人员”既可以作为状语,表示“培训”动作的执行者,又可以作为宾语,表示“培训”动作的对象。

当进入结构的“N”和“V”之间构成动作与受事、对象关系时,有可能构成定中结构。当进入结构的“N”和“V”之间构成施事主体与动作关系时可能构成主谓结构。当这两种关系同时存在时,就会构成歧义结构,这也是歧义格式中最常见的双重歧义关系,还有一些歧义结构的语义关系比较特殊,如:西部开发(“N”既是客体又是地点)、每个人都给一本书(“N”既是主体又是与事)。而当这两种关系都不存在时,“N”通常表示“V”的某种方式、手段,或是动作的时间、原因、范围等,此时构成偏正结构中的另一种——状中结构。

名词性的“N+V”结构还具有一种特殊的语篇特征,即“N”失去话题性,不能被回指,而“V”失去谓词性,得到指称意义,有时可以被数量词修饰,如:一项季度考核、一份会议记录。据此,整个结构就产生指称的语义效果,具有类别义和概念性的倾向,伴随着“N”的改变,类别也会发生变化。

根据现有“N+V”结构的研究成果来看,学者们对定中式的研究比较多,其讨论主要集中在此结构的性质、产生机制和限制条件方面。

对于进入定中结构的“N”的限制条件,李晋霞提出高生命度、高个体度的名词不易进入;缺省宾语不能进入;区别性的下位名词更易进入;概念信息非常具体的“N”不易进入。耿国锋则提出语义抽象、泛化,分布上失去名词形态特征的名词比较容易进入,还有抽象名词、集合名词较容易进入。对于“V”的限制条件,马真、陆俭明《“名词+动词”词语串浅析》中提出四类排斥进入主谓结构的动词:企图类、成为类、“使”类和“着想”类;并提出进入偏正结构的动词必须是名动词。李晋霞则提出:强动作动词、特征动词、口语动词、黏着动词、不及物动词不易进入,但可以举出很多反例。耿国锋提出,动作具有无界性的动词、非完成性和非瞬时性的动词、及物性降低的动词比较容易进入,且进入后失去动词的典型句法功能。但是,名词性“N+V”结构处在不稳定的发展变化中,许多曾经排斥的情况已经有为数不少的用例,需要重新考虑相应的规则。

这些限制条件具有启发价值,但其中某些概念比较模糊,有些对音节的限制几乎只是现象描写,还有一些从词类角度总结的限制条件更是琐碎而充满例外,不适合直接作为计算机消歧的策略。

二、歧义成因与识别方法

计算机处理自然语言时,是以词类标记序列为对象的,除了需要切分和了解各个词的词类、意义之外,还需要知道搭配规则与结果。根据冯志伟先生的潜在歧义理论,抽象的歧义格式所包含的歧义在代入具体成分时可能消除或保留。这里我们将“N+V”歧义格式分化为单义结构分别进行歧义成因和消解的讨论。

(一)主谓结构

在主谓结构中,“N”担任施事或感事,是动作行为的发出者或主体。参照知网的信息结构库,我们将典型的主谓结构的模式总结为以下几类:

N→V=[施事](个人名词/团体名词)→(事件,行动)

N→V=[施事](动物)→(事件,行动/状态)

N→V=[感事](表人名词/表物名词)→(事件,关系/状态)

通常来说,人或动物更容易发出动作,作为施事构成主谓结构,比较常见;而没有生命的物体也可以进入这种结构,如:长江奔腾、工程竣工,它们可以作为动作的感事进入结构,所以我们可以制定这样的规则,其中zwp表示主谓结构:

R1IFN∈V的主体语义类(即N的语义类为V的主体语义类或其子集)

ANDV[+单独作谓语]

THENN+V≌zwp

ENDIF

此条件的实现方法在于建立以动词为中心的词汇网络,针对动词的每个论元关系建立词库,再作为外部调用。高生命度的名词容易将N+V语符串通过心理加工构成主谓结构,当听到这类名词时听众容易产生“怎么样?”的语义期待,这也是这类名词不易构成偏正结构的原因。而“N”为人所共知的着名人物时,容易产生歧义,例如:鲁迅研究。

“N+V”形式的独立的主谓结构单独成句时往往受到语义上的很大限制,通常只能用于祈使句、表示对比或在口语中提问与回答,比较容易识别。如:

你说。

——谁去?——小明去。

我忘了,他记得。

(二)偏正结构

在偏正状中结构中,“N”描述“V”具有的某种特性,往往表示非常态的情况。其中有一种是由“N”作状语与某种不及物动词共同构成的,如:直线上升、五点出发、火线入党等,区分度比较明显,可以制定这样的规则,其中zzp表示状中结构:

R2IFV[+自身动作]orV[+趋向动词]

ANDN∈V的主体语义类①

THENN+V≌zzp

ENDIF

对于其他偏正状中结构来说,语义具有如下几种模式:

“N”表示范围。这种模式中的“V”在语义上一定存在一个域外的施事论元,如:局部调整、全线出击、侧面打听。

“N”表示时间、处所、方式、工具。这几种模式都是状语的常见用法,如:电话报名、网上缴费、乡村支教。

这种名词作为状语直接修饰动词的现象,简洁便当且鲜明直观,在古代汉语中就已经存在,如:风驰电掣、天翻地覆、灰飞烟灭等,在成语中仍有许多保留。另外,许多“N单+V单”的偏正结构已经被看作双音节动词收入了词典,如“龟缩、云集、瓜分”等。这些词数量有限且稳定封闭,用建立词库的方法进行标记就可以实现计算机对它们的自动识别。

在偏正定中结构中,“V”是中心语,具有动名兼类的性质,动词性减弱,名词性增强;“N”从自己的语义出发对“V”的类别进行限定,与“V”间是属性关系。有些结构中的“V”本身就与相关意义的“N”同形,如:合唱指挥、语文测验、学历证明。有些结构中的“V”则是在语境中获得名词性,如:政策调整、干部提拔等,其中的“V”指的是“V”所代表的动作事件。定中结构作宾语时,前面的谓语往往是既可以带体词性宾语又可以带谓词性宾语的,如表示判断、变化、心理态度等意义的动词。

定中结构主要有如下几种模式:

N→V=[受事](具体名词)→(事件,行动)

其中“N”是“V”的宾语,可以进入“把”字结构,这种情况在所有偏正式结构中所占比例最大,如“身体检查、日程安排、罪犯抓捕”。值得注意的是,“V”的缺省宾语一般不能构成这种结构,如“*学生教育”,因为“教育”的客体必然是学生,通常不这样说,而“学生”的下位概念则比较容易进入。如:小学生教育。

N→V=[结果](具体名词)→(事件,行动)

“N”的实体在“V”的影响下产生、改变或消失,可以用“出来”“成”检验。如:产品开发、服装剪裁、文件起草。

这两种结构中,“V”一般都是及物动词,“N”是“V”的宾语,有相应的“N+V”格式。对于这两种格式,我们制定这样的规则,其中dzp表示定中结构:

R3IFN∈V的客体语义类②

ANDV[+过程性]

THENN+V≌dzp

ENDIF

其它结构还包括“N”表示对象、目的,有时还包括表示处所、方式、工具等,这些情况下一般没有对应的“N+V”格式或变换后语义上发生改变。如:

对象:质量保证、会场布置、难民补助、社区服务

目的:会议筹备、主席选举、毒品搜查

工具:粮食救济、津贴补助、金钱奖励

方式:网络服务、行政干预、电话采访

处所:西部开发、地下工作、异地就业

对于这些格式,我们制定这样的规则:

R4IFN∈V的状况语义类∪V的时空语义类∪V的目的语义类③

ANDV[+过程性]

THENN+V≌dzp

ENDIF

其中有些“N”的意义与状中结构难以区分,有时状中结构也能充当名词性成分。为了对其进行区分,我们考虑这样的情况:偏正结构都是向心结构,整体性质由中心词的性质决定,状语修饰谓词而定语修饰体词,定中结构中的“V”呈现出明显的名词化。齐沪扬在《偏正式“N+V”短语研究》一文中将偏正式“N+V”结构的名词性和动词性连续情况绘制如下图④:

因此我们制定这样的补充规则:

R5在句中作为谓语的一定是状中结构,作为主语、宾语、定中结构中心语和定语的一定是定中结构。如:

记者电话采访了张先生。(作谓语)

电话采访是一种调查手段。(作主语)

张先生接受了电话采访。(作宾语)

电话采访的内容无可奉告。(作定语)

(三)歧义结构

上文所述皆是基于约束法的消歧策略,但是不管语料的规模多大也无法概括语言的全貌,这些规则是根据现有语料制定的,难免挂一漏万。且有一种无法处理的情况,即:当“N”既属于“V”的主体语义类又属于“V”的客体语义类时构成歧义结构,无法以形式化的规则判断。好在语言自有其整体性,各个部分间能够相互影响,可以将其放到具体语境中,根据上下文信息,基于优选法,从若干备选语义中选择最优方案。没有上下文的、独立成句的情况,上文已经讨论过,一般都出现在对话中,也可以根据语境区分。例如,“理事会审查”原本是个歧义结构,但在下列语境中可以轻易区分:

XX公司的理事会审查工作已近尾声。

理事会审查通过了这项提案。

对此,基于现有语料,我们提出几个假设性质的规则:

R6当句中出现了“V”的其他客体时,就可以认为这个“N+V”是主谓关系。例如:

在与中方新闻界交流、座谈的过程中,非洲朋友介绍了各自国家的新闻体制及运作情况。

蒙古教官培训阿富汗军队的费用大部分是由美国提供的。

鸡吃了混合食物比牛更能转化蛋白质。

R7将“N+V”结构的左端记为Wi,若Wi-1为“由”“用”等介词,则可以认为这个“N+V”是主谓关系。

这种情况已经不是前述的自足结构,“N”由介词引入,语义上支配动词。例如:

我是公司的法人代表,是由任局长任命的。

这些工具大部分仍然由手工业或工场手工业方式生产,然后才装到由机器生产的工作机的机体上。

即将派往伊拉克的军人是根据美格“训练与装备”计划由美国教官培训的。

通过对这两个假设规则的分析,我们发现不能独立成句、必须作为句子成分才能出现的“N+V”结构已经上升到句子层面的语言形式了,本文不再讨论。

(本文得到国家“973”重大基础理论研究项目子课题“语言计算模型与理论:面向网络语言的句法和语义分析的理论模型[项目编号:2024CB340500]”的支持。)

本文写作过程中得到南京大学文学院沈阳教授、钟叡逸老师的具体指导;本文在解放军外国语学院作报告时,李宗江教授提供了宝贵意见。特此致谢!

注释:

①主体语义类包括:施事(agent)、当事(relevant)、感事(experiencer)、领事(possessor)

②客体语义类包括:受事(patient)、内容(content)、结果(resultevent)、致事(beneficiary)

③状况语义类包括:方式(manner)、工具(instrument)、材料(material)时空语义类包括:时间(time)、空间(location)

④转引自:章婧.现代汉语定中N+V结构研究[D].北京,中国人民大学,2024.

参考文献:

[1]俞士汶.计算语言学概论[M].北京:商务印书馆,2024.

[2]章婧.现代汉语定中N+V结构研究[D].北京:中国人民大学,2024.

[3]冯志伟.论歧义结构的潜在性[J].中文信息学报,1995,(4):14~24.

[4]李晋霞.定中“N宾+V”结构构成因素的考察[D].北京:教育部语言文字应用研究所,2024.

[5]马真,陆俭明.“名词+动词”词语串浅析[J].中国语文,1996,(3):183~188.

[6]耿国

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论