




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGE24PAGE现代汉语断词手册前言体裁问题(文言、诗词歌赋)如果某些动词的使成用法在现代汉语中不再具有创生力时,即视为及物动词,不再视为兼具及物与不及物用法的「作格动词」(ergativeverb)。只是这些特殊用法必须视为文言的遗留,和现代汉语中保有创生力的作格动词不同。 有些副词是文言的遗留,其搭配的动词或副词很有限制,因此会使人觉得应该和其他语素被合为一词,不过体裁问题(其他:成语谚语)壹、一般分词原则1.单字词自为一个分词单位。2.多字而为单语素的自为一个分词单位,因此连绵词、音译词自为一个分词单位。3.叠字词若非可由构词律产生者,则自为一个分词单位。但AABB式若由AB式产生者,仍标为一个分词单位。4.无论何种复合结构,若是超过四个音节的,只要能再切分,原则上给与切分。也就是一个字组如果在意义上虽为一体而还不是不可分的整体,如果音节过长,还是尽可能拆分。但成语谚语不受此原则限制。5.一个字组若是由构词律组合者切分之。5.专名原则上自为一个分词单位。6.语素(字)的组合产生的意义不只是字义单纯累加的(意即意义经过转化或重构的)合并选为一个分词单位(以下就以「转义」来简称意义的转化或重构)。?7.离心结构合并为一词。8.附着语素依以下标准来决定是否独立为词:(1).虚字为附着语素,依所附着的成分来决定是否独立为词。传统上列为虚词的副词(这里的副词并不包括名词、动词作状语的)、介词、连词、助词等尽管为附着语素,但都依附于词组上,故原则上独立为词。指代词介于虚实之间,但通常独自分为一词(参第8条)。(2).其他的虚字依其附着情况又大可分为两类,是否独立为词也依此分类而定。附着语素如果只附着于别的词,不依附于词组上,则和其他的词合并为一个分词单位(如「刀子」「忽然」)。如果附着语素虽然常附着于词,但也可以附着于词组,则该语素独自视为一个词(如「兄弟们」的「们」)。所以如果某语素同时也可以附着于词组上,该语素就当作一个词看。但当这个附着语素只和一个封闭类的词相结合时,则合并为一个分词单位(如代词是个封闭类,因此「他们」视为一词)。如果附着语素可以附着于词和词组,但能和该语素结合的词已限定为少数几个(也就是差不多失去衍生力了),则该语素和相结合的词合并为一个分词单位(例如「者」为一个词,但「贤者」还是合并为一个分词单位),和词组结合的则该语素和词组各自分为一个分词单位。(3).附着语素如果固定和某个无穷类的词相结合而且负担意义恒为不变的话,一律独自视为一个分词单位。例如:「第一」的「第」总是搭配数字,数字是无穷类,因此「第」独自分为一个词。但如「第一义」之类有佛学意义,则合并为一个分词单位。(4).现代汉语实字是否为自由语素并不易判断。目前暂时把不能作名语的名词和不作述语的动词视为附着语素。现代汉语实字如为附着语素,通常只依附于其他语素(包括自由语素和附着语素),这个实字和其他语素合并为一个分词单位。9.因为现代汉语实字是否为自由语素并不易判断,我们也从其结合面的广狭来帮忙决定是否算是个分词单位(也就是视常用性或所搭配的语素多寡而定)。结合面广泛的语素除非在结合其他语素后造成转义或者十分常用,否则原则上独自视为一个分词单位,虚词可不用说,其他如指代词、数词原则上独自视为一个分词单位。其中数词即使是几个数字共同组成一个数目,其中每个数字都各自分成一个分词单位。但指代词、数词也有和其他词合并为一个分词单位的,特别是在偏正结构中。方位词的结合面也广,但在偏正结构中,方位词与他词的结合的紧密度,似乎依其地位而有所差别,所以是否独立分词,难以一概言之。指代词、数词、方位词在偏正结构中分词与否的条件比较复杂,其施行细则见下文的贰之七。其他实字也有结合面广的,则以结合后有转义的或语素搭配固定的为词,否则各成分分别为词。10.实字搭配后为高频率及共现率高的尽可能的合并为一个分词单位。11.离合词或不连续的词语原则上分词,但可加上语法特征来加以连系。12.根据以上标准而分合还犹豫难决的,暂时仍合标为一个分词单位。13.成语、谚语原则上合为一个分词单位,但标上独有的类别,以示非一般的词。如果中间有标点符号隔开,可用语法特征来连系。14.为了比较之便,原则上,除了本手册已有规则要分词之外,现代汉语的词我们也合并为一个分词单位(衡量现代汉语是否为词的标准大体依据中研院词库小组的电子词典,但其中也有相异之处,主要的异同可参考第参节)。
贰、各结构类的选词标准 因无现成的现代汉语词库,所以我们要利用在文档上断词和加词类标记的时候,来建立这样的一个词库。但要建立现代汉语的词库,就得避免把不该列在词典中的词语列进我们的词库中,在进行分词时就不得不放弃用现代汉语组的构词律来合词,因此有些在现代汉语组该合并的词语在现代汉语组就不得不分(参第参节)。一个汉字若正好是一个词,自不用说应为一个分词单位。两个字以上的组合则有可能是词或词组,以下的选词标准主要是针对两个字以上的词或词组。 语素合并选为一个分词单位的理由不外乎语素不独自作述语或名语、语素合并后意义有所转化、语素搭配固定、使用频率高、音节不太多等等。 我们对现代汉语词的分合可以按以下几类来加以说明: 1.专名、2.连绵词、3.音译词、4.重叠词、5.派生词与附属词、6.并列结构、7.偏正结构、8.述补结构、9.述宾结构、10.介宾结构、11.主谓结构、12.缩写或节略、13.成语谚语、14.其他。一、专名1.专名不论语素多寡,一律不作切分,独自作为一个分词单位。2.各书篇卷开头的标题、作者不作标选。3.专名与通名连用而又同位时(「专名+通名」,其中专名为人名、地名),合并为一个分词单位。如。.4.因为本标准把连用的专名与通名合并为一个分词单位,因此造成专名与偏正结构区辨上的问题。当专名又以通名为其中心语时(其实只限于同位的情况),有两种可能的选词法。其一为选专名,其一为选偏正结构。二、连绵词连绵词包括双声叠韵词与非双声叠韵词(这些词大体来自上古,因此是否双声或叠韵本应以上古汉语音系为准,而不能依赖现代汉语语音),是不能分解的单纯词(如「恍惚」「珊瑚」),所含各字皆非语素,也就是说每个字分开后独自没有意义。就不能分解这一点言,连绵词性质类似下述的音译词。只是连绵词限于二字,而且大体是上古汉语本有的词或早期的外来词;而音译词不限字数。 在断词时,连绵词不切分,独自作为一个分词单位。三、音译词指外来语直接音译为汉字而又非专名的。音译词不切分,独自作为一个分词单位。如「菩萨」「菩提」等。四、重叠词(一)分合原则:1.不是由重叠律产生的重叠形式列为一个分词单位。2.描绘情状的AA式重叠形式不易判定是否由重叠律产生,其中有些可能不用或不常用不重叠的形式了,因此我们把这样的重叠形式列为一个分词单位。表示程度加强的AA式事实上和描绘情状的连绵词性质相类,语法表现也相类。由AB产生的AABB基本上也是描绘情状的,虽然其中的AB仍为常用的词,由于不能直接切分,为了断词切分的方便,仍列为一个分词单位。另外能够重叠为AABB的ab也有限制,似乎和词汇不无关系,因为语义相当的并不一定有平行的重叠形式。比较「漂漂亮亮」和「?美美丽丽」。3.由重叠律产生的重叠形式若只是传达特定的语法意义,不列为一个分词单位。如表示尝试或暂时貌、逐指等。4.不能直接切分的重叠形式列为一个分词单位(如「明明白白」);不连续的重叠分词(如「试一试」)。(二)分合实例: 以下按叠字的形式来说明分词的处理情形:1.叠字词最多的是AA式,也就两个相同的字的重叠。AA式有三种: (1).AA或是不能拆的叠音词,或是重叠表示程度上的加强。如「青青」「了了」「轻轻」「奶奶」。合为一个分词单位。 (2).AA是A的重叠,表示逐指:这一类的重叠,有普通名词或量词的重叠(如「人人」「色色」「一片片」)、时间词的重叠(如「世世」)、副词的重叠(如「各各」)等。其中只有副词的重叠合为一个分词单位,因为副词可以重叠的很有限。(3)AA是动词的重叠,表示尝试或暂时貌。如「试试」。分为不同的词。 这三类AA式性质是很不相同的。第一种叠音词事实上和连绵词性质相类,只不过AA式是否全部都不是A的重叠,尚无定论。2.AAB:主要为动词的重叠。如「见见面」。如果其中的AB为动宾复合词的时候,在分词上比较不好处理。如「见见面」的「见面」仍分标为二词,再加上指示其为复合词的语法特征,第一个「见」或许可比照第二个「见」的标示法。3.ABB:「赤条条」视如描绘情状的AA式,合为一个分词单位;「一次次」比照量词的重叠,拆开来;「唱看看」的「看看」为尝试貌的词,独自立为一词。4.AABB:AABB如果不是AA和BB的单纯并列,而是AB的重叠时,就合选为一个分词单位。有时AABB不象是AB的重叠,也不像AA和BB的相加,也合选为为一个分词单位。如「战战竞竞」。 当AABB是AB的重叠的时候,通常是表示情状,都合选为为一个分词单位。如「欢欢喜喜」「打打杀杀」。5.ABAB:主要是AB式动词的重叠,表示尝试或暂时貌。可以用构词律产生,因此分为不同的词。如「走动走动」分为「走动走动」。6.A里AB:「糊里糊涂」。虽主要由AB式状态动词衍生,但只限于少数动词,因此合选为为一个分词单位。7.「AXA」式:因为重叠的语素是不连续的,所以分为不同的词。如「试一试」「试他一试」「试一试这个」「数了一数」。五、派生词与附属词 我们这里讨论的词头、词尾只包括具有衍生性的虚语素。 有时实语素搭配的是词缀或是附属词并不易断定。(一)词头与前加附属词 词头如「阿母」的「阿」、「兀那」的「兀」和其所附着的语素合选为一个分词单位。 「阿」「老」有接在姓名前的,如「阿娇」「老王」。也是和其所附着的语素合选为一个分词单位,列入专名中,但需加上构词成分的语法特征。 「自」「相」「可」虽然负担的语法意义固定,但一般直接在单音节的动词前,且所搭配的动词趋于固定,因此原则上与单音节动词合词。至于在双音节动词前的「自」「相」「可」就独立为一词,归类为副词,列入偏正结构中处理。「自」「相」「可」与单音节动词搭配的也有不合词的。一般原则是:「自」有反身作用的合词;表示自主的如果跟的是及物动词,则视此及物动词后头可否加宾语而定,可加宾语的不合词,如「自主之」的「自」独自为词(但如「自主」的「自」是兼表示反身的仍合词);「自」搭配不及物动词的皆合词,如「自然」。「可」加动词后如果还跟了宾语的一般要分词,否则合词。如「可爱」「可杀之」。「相」与单音节动词的搭配一律合词。如「相打」「相骂」「相信」。 「第」虽然只搭配数词,但数词是无限的,且「第」在组合上永远负担固定的意义,我们可以视为附属词,把它独立分为一词。只有在某些意义特定的固定组合上合词,如佛学语汇「第一义」。(二)词尾与后缀附属词 词尾通常和其所附着的语素合选为一个分词单位。如「子」「儿」在现代汉语可以确定为词尾,因此「子」「儿」和其所附着的语素合选为一个分词单位。 「王氏」「王某」的「氏」「某」和其所附着的语素合选为一个分词单位,列入专名中,但需加上构词成分的语法特征。 动词词尾是一般所谓的构词词缀,表达特定的语法功能,且可搭配的词多,因此就独立分为一词。如「了」「着」「过」「看」「看看」「将」。其中「将」一般放在移动动词后趋向动词前。 除了传统所谓的语气助词以外,有些语素可附于词和词组之后,我们原则上都归之附属词(语气助词也算是附属词,只是附着于句子。另外方位词也算是后接的附属词,而副词、介词、连词也可算是前接的附属词,但因都已归于传统的词类,可以不论)。除了在某些条件下我们把它和其前的语素合并为词以外,附属词通常独自分为一词。大约可分如下几类:1.位在名词或名词组之后,表示复数的:如「们」「等」「等等」「之类」等。这一类如果位在一般名词后就独立为词,在代词后则合并为一个分词单位(如「我们」「我等」)。2.位在数词之后的:如表约数或余数的「来」「余」「多」。我们把数字的组合也当作词组,因此这几个语素也视为附属词,独立为词。如「五百来个」。3.附缀于状词或有状词性质的词组后:如「地(的)」「里」「价」「也似」「似的」「一样」「一般」等。这一类原则上独为一词,在某些条件下把它和其前的语素合并为词。另外,「然」在功能和历史演变上和这些词有关,但因为是由文言传承而来,且搭配的语素趋于固化,因此视为词尾,和其前的语素合并为词。4.可附在从句或状语后,表示条件、时间、原因等的:「时」「(的)时节」「的时候儿」「的话」「上」「起见」「来」「以来」。原则上都独立为词。如「若是死时,与你们同死」「他去腰里摸时,搭膊和书都不见了」「为此上」「九岁上」「十年来」。5.「的(底)」「之」:附缀于定语后。不过「的(底)」后的中心语可以隐含,而「之」后面一定得有中心语名词。6.「得(的)」:表示可能性的动词后缀,或作为引介补语的连接词。如「晓得」(比较「晓不得」)「打得着」「娶得他起」「吃得口滑」。7.「者」「所」:「者」「所」可分析为代词性的附属词。除了部分附着在单字词后的「者」与其所附着的词合列为词外,「者」原则上独立为词。「所」除了在表示全量的「所有」以外,都独立为一词。 「者」所附着的如果是单字的状态动词,则合并为一个分词单位(如「仁者」「尊者」「长者」);如果是单字的动作动词或数词,则和所附着的分为二词(如「施者」「受者」「二者」)。如果「者」和所附着的单字构成常用词语,也合并为一个分词单位(如「向者」「今者」)。「者」字如果只是助顿用的,则独自分为一词。 「然」「地(的)」「里」「地里」「价」「假」「家」「箇(个)」「生」「也似」「似的」「一样」「一般」的分词,我们认为需要再讨论一下。这些语素,其功能大扺相类,但在分词的处理上,似乎不必完全一致。所以有的我们列入词尾,有的列入附属词。目前的处理是:词尾都和所附着的语素合并在一起,附属词独立分为一词。以下稍作讨论: 如「然」「尔」「如」等应视为词尾,因为是由文言传承而来且与其搭配的语素趋于固定化。例如「忽然」。 「地」通常跟在AA或ABB、AABB式的状词后头,跟在单音节的词后头很少,另外更少见的是看来象是复合词或词组的(如「平白地」「不住地」「恭意加敬地」「不知不觉地」)。也有似不能分离的双音节或三音节词(如「猛可地」「软郎当地」),亦为罕见。明代以后,用「的」来替代「地」逐渐常见起来。以下不特别指出时,就以「地」包括「的」。 和「地(的)」相结合的如果是单音节的语素,宜合并视为一词。有些单音节的语素似乎不能不加「地」,或者得加「地」才能修饰更多的动词。如「魆地」「特地」。「怎地」「恁地」和「怎」「恁」的限制有些不同,「怎」「恁」不能作述语。因此单音节的语素宜和「地」合并视为一词。但状声的词似乎应该独自分离开来,因为可能的状声词太多了(有的小说标点本还用引号把状声词单独隔起来)。如「飕(搜、醙)地」「扑(朴)地」。搭配「地」的状声的词也有双音节乃至三音节的,则当比照「地」搭配单音节状声词的情形,和「地」分离开来,不合并为词。 「地」虽然也附缀在词组之后,但是这些词组通常为套语,在断词上本可列为一个分词单位,因此即使在这里,「地」也可以视如词尾一般。但就总体而言,我们还是宁可把「地」视为附属词,一方面是「地」可以结合的词数目不少(但词类比较固定,主要是状词和拟声词);另一方面是功能固定而非必用(可能和韵律有关)。 上头说有些「地」所附缀的看来象是复合词或词组的结构,这种情形是较少数的。复合词或词组与「地」的分合原则我们且待下面AA、ABB等式与「地」的分合原则决定后再说。 那些加「地」的AA、ABB、AABB等式到底是否应和「地」合并为一个分词单位,似乎很难一言而决。以下谈一下断为二词和合并为一词时可能遇到的问题。 先谈分为二词的问题。如果断为二词,就会面临如下的问题:1.「地」一旦分词,就有要归什么词类的问题。2.词汇中如果没有加「地」的词,也就不能直接比较有「地」和无「地」的词在用法上的异同。3.如果「地」独立,那么功能和「地」相当的「的」也应该标为同样的词类,但在词类的自动标记时恐怕无法达到需求。 再谈合并为词的问题。如果「地」和所附缀的合为一个分词单位,就会面临如下的问题::1.会导致词典中有太多不必要的重复。如AA除了本式,还可以有加「地」「的」「里」「价」的形式。如果某些加「地」的词要列为一个分词单位,那么与此相对应而词尾为「的」「里」「价」也要合并为一个分词单位。那么这样的合并到底要到怎样的程度呢?是全部还是部分?更重要的是,不含附缀的形式和加「地」「的」的形式在语义和语法功能上通常是一样的(「里」「价」通常用于状语,可能和较少见有关)。假如语义和语法表现差不多,何必合?2.也可以用构词律来预测可加「地」即可,不需要以增加词的方式来解决。 比较上述二者,我们觉得如AA、ABB、AABB等式最好和「地」分作二词。复合词加「地」可比照AA式的分词方式,词组更不用说,也应和其后的「地」分作二词。 「里」的附加功能和「地」一样,大致上和「里」搭配的形式也可以在「地」前找到。如「白白里」「平白里」「猛可里」。我们比照「地」,把「里」独立为词。 「地里」的情况有些不同,所搭配的语素似有些限制,因此暂时把它合为一词。例如「黑地里」「越地里」「私地里」。 「价」「假」「家」等应该是同一语素的变体(其中「假」「家」罕见),功能也和「地」相当,但作状语为常,且跟在词组后的似也比较常见。我们比照「地」,把它独立为词。如「格格价」「丕丕价」「大声价」「每日价」「一阵价」「十日半月价」「送汤送水价」「甚般价」「每日家」「每日假」。 「个」可能也是「价」的变体,但通常看到的只限于「真个」,因此合并为一词。 「生」的功能和「地」相似,只是从元明以后就比较不常用,处理办法大致如「地」。因为代词是有限类,所以即使是附在双音节代词后,也合并归类。其他的双音节实词则仍然分词。如「作摩生」「」。 「也似」「似的」「一样」「一般」在功能上和「然」「地」等相当,且是双音节的,更应独立为词。六、并列结构 并列结构包括名词、动词以及虚词的并列(如「朋友」「乏少」「了别」「悉皆」),原则上两音节的并列结构都选为一个分词单位(不包括专名的并列,如姓氏和地名)。 就语义言,我们选为一个分词单位的并列结构包括同义、近义、反义等,也包括语义仅有些微关连而在语法次类范畴不相违背的(例如在能否接宾语上是一致的)。反义并列也标选,除了因为这样可借以观察当时双音节律运作的状况,也因为有些反义并列并不能确定是否有转义。如「大小」「多少」「反正」等。 分合原则:1.语素结合后意义有转化的一定选为一个分词单位。但我们所选的并列结构包括同义、近义、反义等,也不一定要有转义。2.并列结构中有顿号时各自为词,如果不含顿号,一般则合选为一个分词单位。句号代顿号,处理办法则如顿号。3.三字以上的并列结构是否要合选为一个分词单位,依以下办法处理: (1).三字的并列组合一般每个语素地位相等,是否合选为一个分词单位,原则上以是否成组或成套(自成一个封闭自足的集合)为准。如「去来今」「枝叶果」。为了比较的方便,有时即使未完全成组或成套,也合选为一个分词单位。如「地水火」。 (2).四字以上的组合如果其直接成分可以再往下切分(通常字数为偶数),原则上这个组合不选为一个分词单位。如「我人寿命」。如果四字以上组合每个语素地位相等,而且成组或成套,则不作切分而选为一个分词单位。如「春夏秋冬」「眼耳鼻舌身意」。并列复合词的分离:「没情没绪」「名目」七、偏正结构 偏正结构分两种:以名词为中心语的:以动词为中心语的。 偏正结构是否选为一个分词单位,在我们的断词中是问题最复杂且棘手的,因为最不容易找到一个具体客观的标准。因此在我们决定是否选为一个分词单位时,往往需要多方的考虑,而实际上所设计的选词标准也比较琐细。音节数目 偏正结构如果超过三字的,原则上不选为分词单位。意义 偏正结构为二字组合或三字组合的,无论是词还是词组,只要语素结合后超出组合义的(也就是意义有转化的),就合并为一个分词单位。(如「大人」「大麦」)。如是否有转义难以确定而在两可之间的,还是选为一个分词单位。离心结构的词类和中心语不一致的(也就是离心结构),该结构选为一个分词单位。自由性 偏正结构为二字组合的,也视语素结合的紧密度来看是否合并为一个分词单位。如果中心语和定语都是附着语素,就合并为一个分词单位。如果中心语和定语都是自由语素,且组合后意义无变转,就分为二词。如果中心语或定语中只有一个是附着语素,就视意义有无变转和语素是否常用来决定是否合并为一个分词单位。意义无变转和两个语素都是常用的合并为一个分词单位。三字组合常用性文言语素 定名式和状述式是否有别?定名式(二)当数词、指代词、方位词作为偏正结构的一个成分时选取标准如下:1.数词作为定语时,数词如果只是作为对中心语的计数,则不合并为一个分词单位(如「十事」「七夜」);数词如果是用来指称中心语类集合的总数,且这个集合在专业领域中其元素总是特定的某些个(如「六界」),则合并为一个分词单位;又或者数词是指该集合中某个元素的序数,也合并为一个分词单位(如「一品」)。 在三音节的结构中数词作为定语有两种:一为「数词+中心语」,如「三达智」;一为「「数词+中心语」+中心语」,如「十种力」。无论属哪一类,选为分词单位的标准大抵相同。2.指代词作为定语时,一般独立为一个分词单位(如「吾足」「此人」「诸佛」「一切人」)。但如下的一些情况不在此限: (1).有转义时则应合并为一个分词单位。如「吾子」是对人的尊称,「己身」不只是「自己的身体」。 (2).指代词作为定语的偏正结构如果有特殊佛学意义的合并为一个分词单位(如「一切色」「一切智」「己印」)。 (3).新兴或有新用法的指代词可以和中心语合并为一个分词单位。如「自」原为副词,到中古汉语也可作定语,因此无论是否转义或有无特殊佛学意义,凡是以「自」为定语的二字结构就标选。如「自印」标选为一个分词单位。 (5).疑问代词作定语的偏正结构如果只有两个音节而且搭配频率又高,则合并为一个分词单位。理由是疑问代词作定语时所结合的词比较有限。如「何等」「何人」「何物」「何时」「何处」「何所」等为常用词语,因而选为一个分词单位。但「何药」不选为一个分词单位。3.方位词如果作为定语,一般和中心语合为一个分词单位,如「东方」;如果作为中心语,原则上独自视为一个分词单位,如「城中」分为二词。但「天下」「足下」等有转义的仍合为一个分词单位。又如「空」在上古原为「孔」或「空洞」之义。在中古,「空中」可以指「天空之中」,则合为一个分词单位。方位词连用而只指一个方位或定点的,合为一个分词单位。如「东北」「中上」。(三)有的结构的中心语不能确定为状态动词还是抽象名词(动作动词原则上仍视为动词),原则上要看该词是否仍常用作主语或宾语(包括作主语或宾语的中心语)。如果是的话,便视为抽象名词。如果不是的话,便仍视为动词,而该组合不视为偏正结构。如果一个结构还可以为一般副词修饰的,便不视为偏正结构。如「妄想」可加「不」修饰,成为「不妄想」,归到「其他」类中。 以抽象名词为中心语的偏正结构,原则上和定语合并作一个分词单位。(四)偏正结构也依不同的字数各取标准来决定分词单位。现代汉语有时并不能以结合的紧密度来决定偏正结构是否为词,以有无转义来决定偏正结构是否选为一个分词单位有时也还难以掌握。因此有转义固然要选为分词单位,我们同时也依赖词的结合面的广狭和使用频率或搭配频率的高低来辅助决定是否选为分词单位。1.二字的组合依下述标准划分分词单位: (1).两个实字如果结合面都广,而且结合前后意义大致不变的,一般不合并为一个分词单位。如「小山」。两个实字如果结合面都广,而且结合前后意义大致不变,但彼此搭配频率高,一般合并作一个分词单位。如「女人」。 (2).两个实字如果结合面都不广,而结合后意义有转化的,或者彼此搭配频率高,一般合并作一个分词单位。如「肉髻」「冠帻」。 (3).定语如为名词(包括音译词),和中心语又非领属关系,则一般合并为一个分词单位。如两字若为领属关系,则一般不合并为一个分词单位(如「王足」「佛所」)。但有转义或在专业域领域中具有特殊意义的,则合并为一个分词单位(如「佛心」)。又或者定语对中心语的限制仅为冗赘,也合并为一个分词单位。如在「手掌」「车轮」中,「手」和「车」对中心语「掌」和「轮」的范限其实是无所增减。 (4).定语如为动词,是否合并为一个分词单位的原则如下: 当定语是结合面广的状态动词(相当传统所谓的形容词)或动作不及物动词时,如果没有转义或在专业域领域中不具特殊意义的,则不合并为一个分词单位。一般定语如果只是描述感官上所呈现的空间、数量或属性上的对比,是不合并为一个分词单位的。如「大寺」「大城」「大灯」「大华」的「大」独立为词。但是如果偏正结构所指涉的超出其组合义(如空间成为有固定规格的,或者比原有组合义的范围更加受限),则合并为一个分词单位。如「大人」(贵族)、「大火」(火灾)、「大水」(水灾)合并为一词。是否有转义有时可以采用转换为句子的检验法。如「大寺」「大城」「大灯」「大华」可以转换为「寺大」「城大」「灯大」「华大」而意义没有增损,该偏正结构就视为没有转义(插入「之」来检验是否为词在中古汉语是行不通的,故不考虑)。但这个检验法的答案也并非总是很确定的。 定语所指的如果只是中心语这个类的共通属性或者对中心语的范围无增损,也合并为一个分词单位。如「白骨」「绿叶」「大海」。 定语结合面较窄的或和中心语搭配频率高的通常和中心语合并为一个分词单位。例如同样形容美好的「善」「妙」「良」「好」等,只有「善」通常独立为一词(除非有转义或有佛学意义);而「妙」「良」「好」的结合面较窄,通常和中心语合并为一个分词单位。如「好衣」。又如「威」作定语主要是搭配容颜,所以和中心语合并为一个分词单位。如「威容」「威颜」「威相」。2.三个实字的组合是否合并为一个分词单位原则如下: (1).「双音节+单音节」通常和佛学有关,因此合并为一个分词单位。如「凡夫法」。如果和佛学关系不大,但有转义或常用,也合并为一个分词单位。如「族姓子」。 (2).「单音节+双音节」是否合并为一个分词单位视情况而定,通常就是有转义或在专业域领域中具有特殊意义的合标为一个分词单位。 (3).不能确定为「双音节+单音节」还是「单音节+双音节」的偏正结构,也标选为一个分词单位。3.四个实字或五个实字以上的组合原则上切分,但有特殊佛学意义而值得在佛学词典上列出来加以解释的合并为一个分词单位。(五)如果词组中含有并合成分,无论含不含顿号,都合并为一个分词单位。(六)「状语+述语」 在双音节的状述式中,怎样的状语可以和单音节动词合并为一个分词单位?决定于意义结合后的情况和常用性。文言语素与文言语法:「火急」「雪白」=「如火急」「如雪白」「仇视」(如仇一般看视):「视」一般为文言语素,只出现在某些构词成分中(「近视」「视野」);「仇」在白话中一般也不用来直接修饰动词。 作状语的语素是否独立为词,得考虑动词后否可带宾语。如果可带宾语,而且状语用在修饰动词上还算常用,则状语以独立分词为原则。如「紧追其后」的「紧」。 一般而言,常用的副词如「不」「将」等是要独自选为一个分词单位的。但是如果「状语+述语」转为特定意义的则为例外。如「不退转」「将来」合并为一个分词单位。 如果动词为附着的,也和副词合为一个分词单位。如「相处」。因为「处」只在文言中可以独用,但在现代汉语中为附着成分。 副词修饰副词,除了法相副词一般和其前的否定词或疑问词合并以外(配合现代语组的作法),原则上分词。如「暂不」「不再」。有时有搭配固定而有特定功能的副词也合并。如「不曾」相当现代在动词组前的「没有」。 副词的结合面转受限制的,也和中心语合选为一个分词单位。如「自」在上古汉语是副词,可以修饰相当多的动词,可以使不及物动词使动化或意动化。但因受中古汉语使动或意动用法衰退的影响,「自」和不及物动词的结合就逐渐固化,这个结构就比较难以创生类似的新词语了;同时「自」在上古汉语和动词的结合较紧密,往往构成一个音步,到了双音节动词转趋丰富的中古,双音节动词可以自为一个音步,「自」和动词的结合就没有那么紧密了。「自」加单音动词的结合面趋于缩小而固定,多半为上古汉语遗留的化石。因此「自」和单音不及物动词的结合通常可选为一个分词单位。如「自大」可以选为一个分词单位。 此外,「非人」有特定的意义,故选为一个分词单位。我们的「非」视为副词而不视为动词,故不列入述宾。八、述补结构 本处的述补结构的补语并不包括时间补语和数量补语,主要指的是动结式、动趋式这种以动词为补语的结构。如「解开」「脱出」。(一)动结式 动结式的述补结构常常不易决定是否复合词,是否应该列入词典中。目前只要补语前可插入表能性的「得」「不」,我们都还算是述补复合词。述补复合词如果是不可分离的(包括含中嵌的),就合标为一词(如「脱不了」「亏不尽」);但只要是可游离的,我们都分别标词类,而加上语法特征(即[+vrv]和[+vrr])来表示其可以合并为词(这么做还要先考虑程序的辨认及统计是否有困难)。如: 「看(VE)[+vrv]见(VK)[+vrr]」 「看(VE)[+vrv]不(Dc)见(VK)[+vrr]」 这样做的好处是述补复合词是否要算作一词在处理上是一致的,也利于统计;同时也可以减少许多能性式的词汇,这些词汇本可由构词律产生。 原则上我们不把「得」「不」视为述补复合词的一个成分。我们建议:如果述补结构只有「V{得,不}C」的形式而无相应的VC式时(亦即只有插入「得」「不」的形式时,如「做他不着」),还是把「得」「不」独自标类,而加上如[+vrd]的语法特征(如下例);如果述补结构不但有「V{得,不}C」,而且也有相应的VC式时,就只把「得」「不」独自分词分类而不加上如[+vrd]的语法特征(如上述「看不见」的标法)。 「看(VE)[+vrv]不(Dc)[+vrd]起(VA)[+vrr]」 这么做不但在标选方式上取得一致,同时可避免某些性质介于补语和动词词尾之间的常用词(亦即所谓的「动相补语」(phasecomplement)在归类上的困扰。如「忍住」的「住」。这种词可附在许多动词之后,如果把它和那些动词都合并列入词典中,那么将会增加不少词。如果我们把动补式都分开来而仅以语法特征来连系,那么可以让词典不列入这些动补结构,若需要研究时也可以很容易把这动补结构都列出来。 另外述补复合词分开标类在词类的标注上也有好处,理由另见《现代汉语词类标注手册》中的讨论。 在「V不C」式中有「V不得」「V不了」,我们建议把「不得」和「不了」合并为一词(「不得」为常用补语,性质有些像后置的法相副词),并加上[+vrr]的语法特征。最主要的是因为否定式的「不得」和「不了」的「得」「了」可以由「不」,仍具实词性,而相应的VC式应为「V得」和「V了」(还可以有「V得了」),其中的「得」「了」一般却只能归入词尾或助词。 「V得慌」的「得慌」视作独立的后置副词,「得」和「慌」合词,算是「得」中的例外。 常用的「不-V」式如果已固化而表达特定的语法功能,也可比照「不得」作同样的处理,如「难道...不成」的「不成」。(二)动趋式 动趋式的述补结构的补语为趋向动词,如「上」「下」「起」「回」「转」「出」「进」「入」「过」「开」「拢」等。另外还有「来」「去」,也算是趋向动词,但「来」「去」还可放在其他趋向动词后成为复式的趋向动词。以下暂时把「来」「去」和上述的趋向动词分开来以便说明。 动趋式因为也有插入「得」「不」的形式,或者插入动词词尾,因此趋向动词和动结式的述补结构处理一样,也和前面的述语动词各自分开分词分类,并加上语法特征以资连系。但趋向动词还有加上「来」「去」的复合形式。「来」「去」和其前的趋向动词还可以游离开来。目前「来」「去」和其前的趋向动词在分词上我们想到如下的处理法: 首先,在含复式趋向动词的动趋式述补结构,趋向动词到底和前面的动词还是和后面的「来」「去」结合得较紧,是很成问题的。这个问题牵涉到分词的问题。动词词尾总在趋向动词前(如「V了出来」),因此趋向动词看来和「来」「去」结合得较紧。但如果有动词宾语的话,宾语又以放在趋向动词和「来」「去」。之间为较常见「V出NP来」。更易令人迷惑的是,有时趋向动词出现冗赘的重复,好像趋向动词和中心动词及「来」「去」都结合得紧(如「V出NP出来」)。因此我们如果打算把整个含复式趋向动词的述补结构拆成两词,就不知是在趋向动词前分词还是在趋向动词后分词。我们目前的处理上仍然把这样的结构视为一体,但是仍作切分,而以语法特征来加以连系。我们给中心动词[+vrv]的语法特征,而给趋向动词和趋向动词[+vrr]的语法特征,所以在实际的分词上是让趋向动词和「来」「去」保有较紧密的关系。 其次,趋向动词和「来」「去」既是可分离的,在分词就有如下的几种办法可供选择:1.无论是否相连,趋向动词都和「来」「去」分词: 此法好处是一致,坏处是要加更多的语法特征(碰到「V出NP出来」这种句式时,在处理上更是棘手)。「来」「去」一旦独立开来,在处理上有两种办法可供选择:1a.视「来」「去」为完全独立的词,比照其他句末的「来」「去」,可能的词类为T。缺点是认为「来」「去」是和其前的「来」「去」为不相关的助词,而且表示动貌的「下去」「起来」也势得拆开来。1b.把「来」「去」也加上和趋向动词一样的语法特征[+vrr],词类和动词的「来」「去」相同(即VA),只有表示动貌的词类另外处理(如趋向动词和「来」「去」都给Di)。因为「来」「去」既然视为动词的补语,就不该是虚词了。「来」「去」视为动词还有一个理由:趋向动词如果单独和「来」「去」构成述补结构,两者间可插入「不」而造成能性式的合并为词(如「上不来,下不去」),因此在这个地方的「来」「去」看来仍象是动词,而且和趋向动词关系很密切。尽管在「V+趋+{来,去}」时,「不」总在趋向动词前,也很难说「趋+{来,去}」这样的合并结构和附在其他动词后「来」「去」就变成另一个不相干的助词了。 这个办法的缺点是比较麻烦,因为要连用三个语法特征来连系动补结构的三个语素,而且至少有两个语素要标上[+vrr])。另外一个问题是其他句末的「来」「去」都是助词,作为动趋式补语的「来」「去」很难说功能有明显的不同。2.趋向动词都和「来」「去」相连时合词,不连续时分词: 如采这个办法,则如「下去」「起来」无论为补语还是动貌标记,都合并为词(如果是一般补语,就合标一个语法特征[+vrr],如果具有动貌功能,就合标一个语法特征[+asp]),在分词上可以避免要先分办是否动貌标记的困扰,而且趋向动词加「来」「去」的组合很有限,并不难难找出来作统计。「来」「去」和趋向动词分离时,也如上述第一法一样,有两种办法可供选择:2a.一是视为完全独立的词,比照其他句末的「来」「去」,可能的词类为T。这样做有一个问题:「来」「去」和趋向动词分离时标为T,但与和趋向动词相接连时看来并无多大差别。2b.把分离的「来」「去」也加上和趋向动词一样的语法特征[+vrr],词类和动词的「来」「去」相同(即VA)。因此也是至少有两个语素要标上[+vrr])。这样做的缺点是不一致,好似分离的「趋-来」和相接连的「趋-来」是变成不同的词;而且「来」「去」和附在其他动词后「来」「去」就变成不相干的词了。。3.混合的办法:无论是否相连,趋向动词都和「来」「去」分词,但表示动貌的「下去」「起来」合词。这个办法,除了表示动貌的「下去」「起来」合并为词以外,「来」「去」无论是否和趋向动词连接,都分另外分词。而且「来」「去」的标类也有两种选择。一是标VA而以[+vrr]来连系。一是一致标为T。此法的缺点是较复杂,在自动断词上较为困难;而且万一补语和动貌标记界线不很清楚时,在分词上先就是一个问题了。 比较上述诸方案,我们觉得2b的缺点相对上比较可以容忍,而且在标记作业上是较简便的。以下给个例示: 趋向动词作为补语时: 「走(VA)[+vrv]下去(VA)[+vrr]」 「走(VA)[+vrv]下(VA)[+vrr]楼(Nc)去(VA)[+vrr]」 「做(VC)[+vrv]出(VA)[+vrr]十来两银子的气质出来(VA) [+vrr]」 表示动貌的趋向动词在语法上其实仍可视为补语,并不完全虚化。如对应于「唱起来」和「(继续)走下去」有「唱得起来」「唱不起来」和「走得下去」「走不下去」等式。从这里可以看出它的表现和别的补语是一致的。如果「起」「下」已虚化为词尾,不应仍受否定词的修饰或。我们把这种表示动貌的趋向动词仍视为补语,仍给与它的动词原类,但还加上[+asp]的语法特征。这个语法特征的意思是具有动貌功能的补语。 「唱(VC)[+vrv]起(VAC)[+asp]歌(Na)来(VA)[+asp] 「走(VA)[+vrv]下去(VA)[+asp]」 当趋向动词作为中心动词时: 「入(VCL)[+vrv]去(VA)[+vrr]房(Nc)里(Ng)」 「入(VCL)[+vrv]房(Nc)去(VA)[+vrr]」(三)动词配给与动词 相当现代汉语双宾动词「V给」的是「V与」,「与」和动词的搭配也可视为一种动补结构,因为「与」的动词性比一般的介词要强得多。理由如下: 现代汉语动词词尾可在「与」的前面或后面,如「V了与NP」和「V与了NP」都有。但「V了与NP」的NP以单音节为主,可能和节律有关(NP可能为弱读,避免和弱读「了」连用),。从这里看,中心动词为「与」。「与」决定时貌和论元。「V了+NP+与+NP」比「V+NP+与了+NP」为常,后者虽有而较不自然。从这里看,主要动词又象是V。可否用加语法特征解决?「V了与NP」(3)论元:「与」决定论元。「V与」的「与」归为动词(是否要用语法特征(如+vrr)来和主要动词用法区别开来?)。如果V为有「给与」义的三元动词,可以预测可以加「与」,也可以不用加;如果V为不是三元动词,可以预测必须加「与」来表达「给与」义。比较:送给他三块钱/送他三块钱/把三块钱送给他/送三块钱给他付给他三块钱/付他三块钱/把三块钱付给他/付三块钱给他交给他三块钱/*交他三块钱/把三块钱交给他/交三块钱给他分给他三块钱/?分他三块钱/把三块钱分给他/分三块钱给他寄给他三块钱/*寄他三块钱/把三块钱寄给他/寄三块钱给他拿给他三块钱/*拿他三块钱/拿三块钱寄给他/拿三块钱给他「与」在动词前和动词后的区别:前者归作介词,后者归为动词VD。 由于「V与」是可分离的,因此不管是否连用,都各自标类。如果V也是三论元的动词,则可以考虑把V和「与」各加上[+vrv]和[+vrr]的语法特征。九、述宾结构 现代汉语的述宾结构是可游离的,因此是词还是词组有时不好判断。我们根据如下的标准来决定现代汉语的述宾结构是否视为复合词:1.述语、宾语结合后意义转化的。如「出家」「将军」。2.述语、宾语间结合固定者要选。如「稽首」「如是」「若此」。9.动词「有」「无」及准系词「为」「如(若)」等原则上不和宾语合选,除非和宾语结合固定的,或者组合后意义有转化的。如「无色」「有漏」。 由于述宾复合词是可以游离的,因此我们认为也当比照述补复合词,只要是可游离的,我们都分别标词类,而加上语法特征(即[+spv]和[+spo],这个语法特征中的sp在这里的意义是「可游离的」)来表示其可以合并为词;述宾复合词如果是不可分离的,还是合标为一词(如「结果他」「抱怨」)。述宾复合词分词而加上语法特征还有词类标注上的好处,理由见《现代汉语词类标注手册》中的讨论。 大部分的述补复合词可视为在句法层次结合成词,因此在词典中可以不列整个述补复合词,只列动词也就可以了(部分还是得先列入词典中);但是述宾复合词的情况看来不同,最好视作在词汇层次就已构成,否则不好处理。但是哪些述宾结构要视为形成于词汇层次,也不是都很容易决定的。十、介宾结构: 介宾结构选为一个分词单位的限于二字组,主要是上古汉语遗留下来的,通常已固化为词。如介词在宾语前的「于是」和介词在宾语后的「是以」「何以」「何因」「何从」等。介词在疑问代词宾语前的二字组合也合并为一个分词单位。如「从何」「由何」「于何」。十一、主谓结构: 主谓结构其实和以抽象名词为中心语的偏正结构是不容易区分的,最主要是因为动词是否名语化在汉语中是一个颇富争议的问题,不过一般列在偏正结构的中心语一般是常用作主、宾语而且多非动作动词。主谓结构的例子如「年少」「师子吼」。十二、缩写或节略: 缩写或节略选为一个分词单位。如「从来」相当「从始以来」,「大梵天子」相当「大梵天之天子」。十三、成语、谚语 成语、谚语原则上选为一个分词单位。十四、其他(一)不连续结构 述补、述宾以外的不连续结构一般也不合选为一个分词单位。 不连续结构如果因中间成分不出现而连在一起时,视其是否尚可分解或有特定的功能而决定是否选为一个分词单位。 动词后接「为」「成」「作(做)」 「叫做」是来自「叫X做Y」的,「叫」和「做」原非同一句范畴的动词,只是一旦夹在二词中间的词为隐含时,两字就常连在一起用。由于中间的词可以复,因此「叫X做Y」的「叫」和「做」分作二词。「叫」和「做」的呼应可以从「叫」的语法记载中预测出来。其他结构相同的处理方式相同。 「奈何」虽来自不连续结构「奈何」,但在现代汉语中也当作问方法的固定词汇,一般人未必知道其原本的用法,因此选为一个分词单位。 另外如「难道...不成」的「难道」和「不成」虽前后呼应作为反问句,我们也还是视为二词。(二)非结构 「非结构」是说其中的各语素原来并不是共为一个成分的。如「然而」「然后」原为承指代词「然」加上连词「而」和副词「后」,后来才凝结为连词。 有些上古常用的副词到中古时,因为失势而有时就成为副词、连词的附着语素,如「复」「自」之类。到现代汉语时,「自」仍可作为副词的附着语素。 当副词、连词后连续接「是」和动词组的时侯,「是」是应分析为词尾还是独立的词往往颇费斟酌(「是」在这种地位原先可能是起烘托焦点的作用,但久而久之就弱化了)。,有 「若是」和「若」。助 助词连用时的分与合。「了么」 「V于NP」 动词后加「于」来引介名词组的「V于NP」结构是上古汉语的遗留。「V有」(三)文言遗留的特殊语序 宾语为疑问代词而又在动词或介词之前的两字组如果为常用词语也合并为一个分词单位(如「何如」「何若」「何以」)。如果不是常用词语,则分为二词(如「今欲何行」的「何」和「行」分为二词)。
参、分词和词库现代汉语组分词不一致的地方及理由一、与词库现代汉语组在分词上主要的差异(初步构想) 草案(合) 现代汉语组(分)序词「第接数词」数词 第七 第七数词 五千三百六十一 五千三百六十一分数 七分之三 七分之三表概数「多、来、几」 二百多 二百多述补结构(述-结) 打死 打死述补结构(述-趋) 升上来、送去 升上来、送去述补2+1结构 演奏完 演奏完动词重叠(AA) 唱唱 唱唱动词重叠(ABAB) 考虑考虑 考虑考虑动词重叠(AAB) 聊聊天 聊聊天量词 片片、一片片片片、一片片V-到 走到走到V-为 流为流为V-成 剪成剪成V-作铸作铸作V-给 送给、赠送给送与、赠送与V-有 收有收有V-于居于居于偏正式(动词为中心语) 接头词与单音节动词合 接头词与单音节动词分 (例:重做、改写)(例:重做、改写)方位词 之中,之上,之后 之中,之上,之后正反问句 喜不喜欢、可以不可以喜不喜欢(第一个「喜」 加语法特征)、可以不可以
现代汉语词类标注手册 这个手册主要为标注明清小说的词类而设,因此主要的适用对象也是明清小说,词例、例句也多采自这个范围。词类标注壹、分类原则多功能词的归类 一个词语如果在不同的语法地位意义有明显的不同,就视为不同的词。譬如某个字用作状语时和用于述语时意义很不同,则分别归类为副词和动词。 一般名词如果也用于定语或状语,仍视为名词(如时间及地方名词),但此外的词在跨类上可能别有问题。(1)可作述语、定语、状语:不跨类(动词);跨类(其一,依功能分三类;其二,作述语、定语为动词,作状语为副词)。(2)可作定语、状语:不跨类(非谓形容词);跨类(依功能分非谓形容词和副词两类)(3)可作述语、定语:动词(4)只可作述语?(5)只可作定语:非谓形容词(6)只可作状语:副词归类决定的牵涉到主要用法?如果虽可跨类,却主要用作状语。特别要注意状词和代词,特别是有些以作状语和定语为主的,但通常为状语,而且有的只作状语。状词要算是虚还是算是实?加「地(的)」是否要和不加「地(的)」的状态动词分开来处理?一般实词 一般实词如果能用作名语(主语、宾语、介词宾语),而不作述语用,则无论在任何地位,都归类为名词;如果能作述语用,而不作名语用,则不论在任何地位,都归类为动词。如果只能用作定语就归类为非谓形容词;如果只能用作状语,就归类为副词;如果只能用作定语及状语,就归类为非谓形容词。虚词代词 代词是有限类,而它的语法功能又很重要,需要另外处理: 「所有的人」的「所有」只能作定语,要归入哪一类? 一个词语如果在不同的语法地位意义有明显的不同,就视为不同的词。譬如某个字用作状语时和用于述语时意义很不同,则分别归类为副词和动词。和 指示 地方 情状:「恁」「恁地(的)」;状词(一)词缀与附属词 常用且组合意义一定的词缀独立标类(将来可用构词律合并的词缀独自分词)。如「第」。「地」「里」「地里」「价」「家」「然」「也似」「似的」介词和动词的分界与其归类原则:介词还是动词? 现代汉语有些词很难决定要归入P还是动词。这些词像常用的虚词,但又有动词的征性。如「将」「把」「与」「除」「和」「同」之类。以下略示处理办法: 「送与」的「与」在现代汉语仍可归入动词,可视同做主要动词的「与」。不过因这类词不但常用而且和其他介词在功能上的分际也有些模糊,即使归入动词,仍需要加以适度的区隔。将来采行的方案可能是:从不作述语用的词归作介词,也兼作述语用的归入动词。 如「跟」「和」「同」可以作主要动词及次动词,都可带词尾。因此似可归入动词VC1或VJ,这种用法的「和」「同」可以和「和」「同」的不及物用法(VH)分作两类。「为了(着)」「除了」有了特殊的用法而不同于一般的动词时,则可连同词尾归入介词或连词。关于辨识原则:(1)地位:如果只有次动词用法,则归为介词。如「共」。(2)时貌:「着」「了」。归为动词。但和第一项冲突时怎么办?注意有的次动词同时跟着「着」「了」。(3)论元:「与」决定论元。「V与」的「与」归为动词(是否要用语法特征(如+vrr)来和主要动词用法区别开来?)。如果V为有「给与」义的三元动词,可以预测可以加「与」,也可以不用加;如果V为不是三元动词,可以预测必须加「与」来表达「给与」义。比较:送给他三块钱/送他三块钱/把三块钱送给他/送三块钱给他付给他三块钱/付他三块钱/把三块钱付给他/付三块钱给他交给他三块钱/*交他三块钱/把三块钱交给他/交三块钱给他分给他三块钱/?分他三块钱/把三块钱分给他/分三块钱给他寄给他三块钱/*寄他三块钱/把三块钱寄给他/寄三块钱给他拿给他三块钱/*拿他三块钱/拿三块钱寄给他/拿三块钱给他「与」在动词前和动词后的区别:前者归作介词,后者归为动词VD。「将」「拿」「同」「被」「与」「给」「着」「乞」「喫」作被动的标志,其中「与」「给」「着」又有致使用法,是否应当区分为不同的类?。「与」在主要动词前有两用:一为「与同」义,可归入介词或连词;一相当「为」,是否该归入动词(带句子的双宾动词),「给」「着」的致使及被动用法也归此?「被坚执锐」副词与连词的区别「又」副词还是动词? 评价副词和动词并不一定好分,原则上如果能同时可用于述语和状语的而意义又没有明显的不同时,就只归入动词。如「亏不尽」「幸亏」都不能单独作述语,因此都是副词。副词的细类是否该多分类?如关连副词关连副词评价副词与法相副词评价副词与方式副词评价副词与时间副词分类原则的讨论多功能与跨类 一个词如果可作状语、述语、定语、补语等,一般的给类原则应当给与动词类。但是有些词虽然可以在状语及以外的地位出现,常见的却是作状语,其他地位出现就比较有限制。这使得我们在归类上颇为难决。这其中最不容易处理的是重叠词和代词。以下述说我们的处理方案。1.重叠词: 重叠词如「AA(地)」「ABB(地)」「AABB(地)」最通常是用作状语,但也可以作述语或定语、补语。「A地」及其他加「地」的状语以外的用法就比较少。 我们不采用跨类的作法,原则上把这类视为不及物的状态动词(VH)。但如果重叠词只作状语,归入副词;如果重叠词只兼作状语及定语,则归作非谓形容词(VA)。 要算是什么词类,加「地」以后是否要合并为一个分词单位,和不加「地」的形式是否要分作二词(词类亦各自决定),颇不易决定。如「看起来」这种含有「起来」的Dbc类则放弃,「起来」将独自为词。2.代词: 代词数目有限,可采取跨类(由地位决定)或不跨类的作法。若采不跨类的作法,则选类容易,且利于自动标类。若采跨类的作法,有助于将来的统计,目前我们暂时趋向于采取不跨类的作法。 一个代词如果能用作名语(主语、宾语、介词宾语),而不作述语用,则无论在任何地位,都归类为名词(指示词「这」「那」比较特殊,归入定词,另外处理),如「我」「那里」。如果能作述语又作定语、状语,而不作名语用,则归类为动词,(只是有的代词常用作状语,但作述语却很少见),如「恁的」;如果只能用作定语及状语,就归类为非谓形容词;如果只能用作状语,就归类为副词,如「那」(上声)。 如「什么」「这」分别归入Nh和Nep类。「那(哪)」可归Nep类和Dj类,「怎的」可归在Dj类和VH类中。但此法不。,但目前代动词和代副词在词库现有的类中将无位置可放,一个办法是全部归在Nh中。3.时间词; 时间词若是只能作状语或定语,建议归入VA。贰、和现代汉语组词类标注不一致的地方及理由一、可游离的复合词词类的标示(一)述补复合词词类的标示: 述补结构无论是否复合词或相连,都分别标类而加上语法特征(即[+vrr]和[+vrr]),这个做法已在断词手册中说明。现在要谈词类的标示法(部分说明已见于该手册中)。 对于可游离的述补复合词,我们考虑把两个语素各自标上语素原有的词类,而非整个述补复合词的词类。如词库现代汉语组的「叫(VC)[+vrv]不(D)醒(VC)[+vrr]」,或许就改标为「叫(VC)[+vrv]不(Dc)醒(VH)[+vrr]」。如此一则不必考虑「叫他不醒」要怎样标类了;一则这样可以和述宾复合词的标示法取得一致,因为现代汉语组的述宾复合词都是标示原类的。 另外,如果述补复合词的中心动词同时又是述宾复合词的中心动词时,就可以避免中心动词同时又是及物动词又是不及物动词的困扰了。 如果述补复合词的语素词类分标,那么整个述补复合词的词性要如何决定,是否在计算上会造成问题呢? 原则上整个述补复合词的词性要合并两个语素来决定。如果其中一个语素为及物动词,或者是VAC、VHC,那么整个述补复合词即可以带宾语。如果第二个语素(即补语)原为可倒装主语的动词,那么整个述补复合词应也可以倒装主语。我们认为述补复合词的词性的预测困难并不大,只是希望有程序可以有效的计算出来(预计可能只有很小的部分无法预测出来)。 考虑到「不得」为「得」的否定式,可能把「不得」标为一词(「不了」情形类似)。但对应于「不得」的「得」可能多标为DE(我们建议另归助词T3类),「不得」似无可归类(目前除了程度副词,尚未设其他的后置副词类),或者仍然把它视为补语而加[+vrr]的语法特征,或者把它改为助词类。 V和「与」的搭配:「与」标为VD类。(二)述宾复合词词类的标示: 建议述宾复合词如果可以游离,那么无论是离或合,词类标注,都不采用复合后的词类,而以语素的词类为准,并另外加上语法特征来显示为述宾复合词(如[+spv][+spo])。理由如下:1.述宾复合词如果加上语法特征,就足以显示为述宾复合词。而且述宾复合词通常是不及物动词的,我们可以用其他的办法来处理及物用法的预测问题(如永远不能分开的及物性述宾复合词合并给类;表示认知的述宾复合词比较可能带句子宾语)。此外,有时及物或不及物的分界也不是很清楚。例如「动火」在,现代汉语为一般不及物的,但偶然可带宾语。2.述宾复合词和一般述宾结构的分界不一定很清楚,如果词类标注上保持一致,而以加上语法特征来区别,则在修改上比较容易。而且述宾复合词也常常可以分离开来,有时可以把宾语作成领属宾语。 大部分的述补复合词可视为在句法层次结合成词,因此在词典中可以不列整个述补复合词,只列动词也就可以了(部分还是得先列入词典中);但是述宾复合词的情况看来不同,最好视作在词汇层次就已构成,否则不好处理。但是哪些述宾结构要视为形成于词汇层次,也不是都很容易决定的。二、类的增减:(一)旧类的删并:1.Cab:本类删除,改归T6。原本为「等」「等等」「之类」所属的类。2.Ncd:此类原名位置词类,和方位词(Ng)颇有重叠,今取消,改归Ng。方位词只有和他词成为复合词时不列为方位词。3.Neqb:本类删除,改归T7。原为后置数量定词,它的用法都接在量词之后。原本适用于如下的词:三点正、五十岁出头、两丈许。4.Cba(移动性前系连接词)和Cbb(非移动性前系连接词)合并: 现代汉语的.Cba和Cbb的区别,在现代汉语并没有那么清楚,因此合并为.Cb(关联连接词)一类。(二)新类的增加:1.在标注副词时,把现代汉语组电子词典原有的副词细类回补进来: 词库现代汉语组副词类实际标注的类比现代汉语组现在进行的标注还要细,但原则上还是采用现代汉语组电子词典中原有的分类。这是针对研究重点的不同而采取的因应手段。如现代汉语组第一年重点在副词,因此采用现代汉语组原本较细的分类。也就是现代汉语组原有的Daa、Dab、Dba、Dbb、Dc、Dd、Dfa、Dfb、Dg、Dh、Di、Dj、Dk的分类在标注时都补了回来。2.现代汉语组自添的类: 以下的类是现代汉语组新添的类(其中T类增加的理由已见于断词手册):[Dl]关连副词:如「也」「又」「就」「便」「才」「却」等。这一类现代汉语组的电子词典原来的归属不一。如「也」为Dbb;「又」为Dd和Caa;「就」为Daa和Dd;「才」为Daa。暂且不论这些词都可能有表示评价的用法(可以视为引伸附带的功能),只论其他的用法。这其中「就」和「才」的Daa用法因为功能明确,可以勿论。其他在归类上都不无问题。 「也」电子词典归入Dbb,这是表示评断的副词。但「也」用在如「他吃你也吃」「也有风也有雨」这种句子是很常见的,却很难看得出有什么评断意味。传统上「也」比较常见的是归于范围副词,因为至少可以说是以述语为其论元。 「又」分别列入Dd和Caa固然也是一法。不过把和时间无关的「又」列入Caa却不见得理想,因为「又」一般是不放在主语之前的,所以应该列为副词。如「他又肥又胖」「草儿又长,马儿又肥」。把「又」放在关连副词中,可以统合有时间关涉及无时间关涉的两种用法,而且可以避免归作连词的问题。 「就(便)」「才」都可涉及时间,但是只有「就」列了时间副词Dd的类,其实「才」也有涉及时间的用法。如「他才到」。另外,「就(便)」「才」都有表示条件而和时间无涉的用法,现有体系却无处可放。如「这样才对」「这样就对了」。我们认为,把「就(便)」「才」放在关连副词中,也可以统合有时间关涉及无时间关涉的两种用法。 我们把这些词归入关连副词,也是过去有人使用过的办法。这个归类法不但可以强调它联络句子的特征,而且可以避免某些归类上可东可西的困扰。T1(预留类)动词词尾:表动貌。如「了」「着」「过」「将」等。T2.(预留类)「的(底)」「之」:附缀于名词修饰语的词。「之」其实和「的(底)」功能有所差别,后面一定得有中心语名词。[T3].「得(的)」:表示可能性的动词后缀,或作为引介补语的连接词。如「晓得」(比较「晓不得」)「打得着」「娶得他起」「吃得口滑」。[T4].位在描绘情状的词语之后的:如「地(的)」「里」「价」「也似」「似的」「一样」「一般」等。[T5].可附在从句或状语后,表示条件、时间、原因等的:「时」「(的)时节」「的时候儿」「的话」「上」「起见」「来」「以来」。如「若是死时,与你们同死」「他去腰里摸时,搭膊和书都不见了」「为此上」「九岁上」。[T6].位在名词或名词组之后,表示复数的:如「们」「等」「等等」「之类」等。这一类如果位在一般名词后就独立为词,在代词后则合并为一个分词单位(如「我们」「我等」)。[T7].位在数词之后的:如表约数或余数的「来」「余」「多」。我们把数字的组合也当作词组,因此这几个语素也视为附属词,因此独立为词。如「五百来个」。[T8]「者」「所」:「者」「所」可分析为代词性的附属词。除了部分附着在单词后的「者」与其所附着的词合列为词外,「者」原则上独立为词。[]拟声词成语谚语1.拟声词另外独立分类的理由:(1)很难纳入现有的词类中(以作定语和状语最多)。(2)变异太多,即使勉强纳入现有的词类中,和别类混在一起定性或统计,也没有多大意义。如果独立分类,在统计时可以视情况来取舍。2.成语、谚语、引诗词、引古语 除了四字格的成语可以比较活用于句子中,其他较长串的谚语、诗词、古语,无论是内部或对外都没有标示词类的价值,可以整串用一个符号来标示(其中有标点符号的,可看清况用feature来连系)。至于四字格的成语的语法功能大致一定,是否并入其他词类不是很重要。假如要想对固化的成语另作研究,也可以独立出一类来。三、内容有更动的类 词类标注的不一致有的只是个别词实际归类的不同而非分类不同,但也有因对类别定义有所更动而导致部分词归类的不同。如[Dl]关连副词:如「也」「又」「就」「便」「才」。Dcd取消T类四、个别词在词类上的变动「来」「去」不标D。五、关于语法特征(一)名物化的征性处理办法的差别 标[+nom]的名化动词将只限于不后接宾、补语和前面无状语修饰的。如现代汉语组「学生的不(D)合作(VH)[+nom]」,我们只标作「学生的不(D)合作(VH)」。 对于「有些」「有一些」「有点」「有一点」,无论它是在动词前还是在名词前,我们的分词都是一致的,也就是都把「有」和「些」「一些」「点」「一点」分为不同的词。因此如现代汉语组的「他有一些(Dfa)疯狂(VH)」将改分析为「他有(V-2)一些(Neqa)疯狂(VH)[+nom]」。其中「疯狂(VH)」的[+nom]也可以不采用。 此外,如「快快说个明白」「聒絮个不住」中的「明白」「不住」在「个」后头,有些象是名物化,但我们暂时还是不加上[+nom]的特征。(二)可分离结构的语法特征 述补复合词、述宾复合词语法特征在标记上的的异同已如上述。现代汉语还有似乎把并列复合词分离开来的一种现象。如「没情没绪」「没名没目」「有势有力」。这种现象虽不经见,但在分词和词类标注上总是应给与适当处理的。我们觉得应可分为四个分词单位,而把其中分离开来的并列复合词标上同样的词类和加上语法特征(只是尚无现成的语法特征可资利用)。
现代汉语词类标注简表※文档上标注的类别和词库现代汉语组有异者下加线。[A]非谓形容词。是纯粹的形容词,不具述语作用。例:公共、共同。[Caa]并列连接词,这类连接词多半同时具有介词的特性。例:与。Cab(删除,改归T6)[Cb]句子连接词。这一类原包括Cba和Cbb两类。原Cba类如虽然、因为、即使、只有(原 来的「时」「的话」和「起见」等改归T5);原Cbb类如:虽、不但、可是、 所以、那么、否则、而且。Cbb(删除,和Cba合并为Cb)。[Daa]表范围和数量的副词。例:就、才、只、光、不过、约、正好、约、仅仅。[Dab]表范围和数量的副词,不可以直接修饰名词组。例:都、通、一。[Dba]法相副词。例:也许、大概、一定、:必须、可以、得。[Dbb]表示说话者的评断的副词。例:幸亏、果然。[Dc] 表否定的副词。包括:未、没有、没、不。[Dd]时间副词。例:先、立刻。[Dfa]动词前程度副词。例:很、非常。[Dfb]动词后程度副词。例:得很、之至。[Dg]地方副词。例:处处、到处。[Dh]方式副词。例:逐一、从头、一起。[Di] 标志副词。几乎都紧接在动词之后,表现时态。例:了、过、着、将(如「走 将出去」的「将」)。(建议此类将来归在T1)[Dj] 疑问副词。例:可、为什么、干么。[Dk]句副词。有转变或连接语气的功能。例:总之、据说。(建议此类将来改归 Cc,可改称为「语段连词」)[Dl]关连副词:如「也」「又」「就」「便」「才」「却」。[DE]即:的、底、之。(建议此类将来改隶T2)[I]感叹词。表示说话者的口气或态度的独用语式。例:啊、喂、唉。[Na]名词。例:泥土、盐、水、牛肉;桌子、杯子、衣服、刀;梦、话、原因、 勾当;风度、香气;三餐、五脏六腑、四肢;车辆、船只、夫妻。[Nb]专有名称。例:贾宝玉、崔宁、诗经、心宿;张、王、李。[Nc]地方名词。例:苏州、临安;府衙、市场、学校、村庄;海外;四海、当地。Ncd(删除)[Nd]时间名词。例:西汉;天宝;辛未;春天;十二月、腊月;六日、冬至;傍 晚、大清早;过去、从前、当初;以后、后来、将来;现在、当今、眼前。[Neu]数词(原Neu):数字和代数字。例:三、几、好几、甲。[Nes]特指定词(原Nes):具有特指(Specific)意义的定词,不能单独出现,可 以直接修饰名词。例:某、该、本、同、第。[Nep]指代定词(原Nep):例:这、那、哪、其、箇。[Neqa]数量定词(原Neqa):除了修饰中心语外,还可出现在论元位置(因中心 语省略)、状语位置。例:许多、一些。少部分还可当补语。例:她漂亮了 许多。Neqb:(删除,改归T7)[Nf]量词。用以计量的连用语位,常和定词构成定量式词组。[Ng]方位词。经常前接一个词组形成时间成分或表情况的成分。例:例:上有天 堂;上头、中间、左方、西北;夜里、三百人以上。[Nh] 代词。「我」「你」「他」;自己;您、足下、令尊(?)、本人、贱内、 小犬;「谁」「什么」「甚么」「啥」;之。[P]介词。用以引介一个角色,作动词的修饰成分或必要论元。[SHI]即:是。[T]语助词。附加于词组或句子后的连用词。.了;.没、没有、未、而已、罢了、 也罢、着、来、去;.呀、哇、那、呢、哩、么、呕、诶、囉、喽、吧、罢、 则箇;吗、否、不、无、与否、哉、耶、矣、啵、云云。T1(预留类)动词词尾:表动貌。如「了」「着」「过」「将」等。T2.(预留类)「的(底)」「之」:附缀于名词修饰语的词。[T3].「得(的)」:表示可能性的动词后缀,或作为引介补语的连接词。如「晓 得」(比较「晓不得」)「打得着」「娶得他起」「吃得口滑」。[T4].位在描绘情状的词语之后的:如「地(的)」「里」「价」「也似」「似的」 「一样」「一般」等。[T5].可附在从句或状语后,表示条件、时间、原因等的:「时」「(的)时节」 「的时候儿」「的话」「上」「起见」「来」「以来」。[T6].位在名词或名词组之后,表示复数的:如「们」「等」「等等」「之类」等。[T7].位在数词之后的:如表约数或余数的「来」「余」「多」。[T8]「者」「所」:「者」「所」可分析为代词性的附属词。[VA]动作不及物动词。这类动词只需要一个名词组参与论元即可。例:跑、飞、 走;坐、躺;上台、出场;下雨、刮风、打雷;谋生。[VAC]作格动词。论旨角色为客体(theme),动词前可有一个肇始者(causer),原来出现在动词前的客体移到宾语的位置。例:出动、转。[VB]动作类单宾动词。语意
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川鑫耀产城融合产业投资发展集团有限公司2024年12月对外公开招聘管理人员及专业工作人员笔试参考题库附带答案详解
- 供应链物流配送优化指南
- 采购供应商管理与成本分析表
- 浙江国企招聘2024湖州长兴交投集团及下属子公司招聘3人笔试参考题库附带答案详解
- 苏州江苏苏州大学科研助理岗位招聘9人笔试历年参考题库附带答案详解
- 2022年11月监理工程师考试《建设工程合同管理》真题及答案
- 厄贝沙坦氢氯噻嗪联合美托洛尔治疗对老年高血压患者血压变异性及心肾功能的影响
- 肝癌晚期患者的疼痛控制与临终关怀护理体会
- 旅游学概论双语
- 果茶小摊创业计划书
- 教师师德考核表
- 欧派终端培训销售篇
- 《式微》课件完整版
- 甘蔗种植技术
- 第11课《核舟记》-部编版语文八年级下册
- 护理基础知识1000题
- JJG 52-2013弹性元件式一般压力表、压力真空表和真空表
- 马工程-公共财政概论-课程教案
- 千年菩提路解说词
- 2022年高考(湖北省学业水平选择性考试)化学试题
- 古代汉语课件-副词
评论
0/150
提交评论