汉语分词具体规范下课件_第1页
汉语分词具体规范下课件_第2页
汉语分词具体规范下课件_第3页
汉语分词具体规范下课件_第4页
汉语分词具体规范下课件_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

回顾汉语分词的基本标准结构标准语义标准语音标准频度标准人名、地名、专有名词的具体切分规范思考题在自动分词的过程中,如何确定某个字串是语素、词还是短语?练习

判断下列切分是否正确,如果不正确,请加以改正。大/a哥/n李/nr教授/n老/a张/nr景德镇/ns市/ns华盛顿/ns特区/n南大街/ns亚马逊/ns河/n南京大学/nt

山东大学/nt

威海/ns分校/n

教学目标数词与数量词组的切分规范时间词的切分规范述补结构的切分规范语素与非语素字的处理汉语分词错误及人工校对一、数词与数量词组的切分规范①基数、序数、小数、分数、百分数一律不予切分,为一个切分单位,标注为m。例如:

“几”和“零”属于基本的系数词(或位数词),因此包含“几”和“零”的基数、序数、小数、分数、百分数也不切分。例如:一百二十三/m,第一/m,123.54/m,三分之二/m,20%/m,千分之三十/m

几十/m人/n,几十万/m元/q,第一百零一/m个/q②约数,前加副词或后加“来、多、左右”等诸数词的应予切分。约/d一百/m多/m万/m,仅/d一百/m个/q,四十/m来/m个/q,二十/m余/m只/q,十几/m个/q,三十/m左右/m几十/m人/n,几十万/m元/q两个数词相连的及“成百”、“上千”等则不予切分。五六/m年/q,七八/m天/q,十七八/m岁/q,成百/m学生/n,上千/m人/n,成千上万/i的/u群众/n一、数词与数量词组的切分规范(续)③数量词组应切分为数词和量词。三/m个/q,10/m公斤/q,一/m盒/q花/n但少数数量词已是词典的登录单位,则不再切分。

一个/m,一些/m(“分词规范”中也将“一些”作为一个切分单位)④表序关系的“数+名”结构,应予切分。例如:二/m连/n,三/m部/n一、数词与数量词组的切分规范(续)二、时间词的切分规范①年月日时分秒,按年、月、日、时、分、秒切分,标注为t。例如:1997年/t3月/t19日/t下午/t2时/t18分/t若数字后无表示时间的“年、月、日、时、分、秒”等的标为数词m。例如:1998/m中文/n信息/n处理/vn

国际/n会议/n这里应注意时间词与数量词的区分,例如:“78年”指“1978年”时应标注为“78年/t”,当指数量“78年”时应切分标注为“78/m年/q”。再如两/m个/q月/n,三/m天/q时间/n。同样当“8日”指一个月当中的第八天时为时间词,不予切分,标注为“8日/t”。若表示8天时,则要分开,标注为“8/m日/q”。西周/t,秦朝/t,东汉/t,南北朝/t,清代/t“牛年、虎年”等一律不予切分,标注为:牛年/t、虎年/t。“甲午年、庚子、戊戌”等也不予切分,标注为:甲午年/t,甲午/t战争/n,庚子/t赔款/n,戊戌/t变法/n②历史朝代的名称虽然有专有名词的性质,仍标注为t。二、时间词的切分规范(续)三、特殊代词+名词的切分规范本报/r,每人/r,本社/r,本/r地区/n,各/r部门/n

单音节代词“本”、“每”、“各”、“诸”后接单音节名词时,和后接的单音节名词合为代词;当后接双音节名词时,应予切分。四、区别词的切分规范①一般为切分单位,并标以词性b女/b司机/n,金/b手镯/n,慢性/b胃炎/n,古/b钱币/n副/b主任/n,总/b公司/n,②单音节区别词和单音节名词或名语素组合,作为一个切分单位,并标以名词词性n。雄鸡/n,雌象/n,女魔/n,古币/n③少数“单音节区别词+双音节词”的结构作为一个词收入了词典,则不再切分。

总书记/n五、述补结构的切分规范未收入词典的双音节述补结构,若拆开各是一个词,通常作为两个切分单位。如:走/v到/v,撞/v上/v,抓/v住/v,调/v好/a,坐/v稳/a若拆开了,其中至少有一个是语素,通常就不切分,作为一个切分单位。如:形成/v,鼓动/v,揭露/v,震动/v双音节的述补结构中间插入“得”或“不”一般应予切分。如:走/v得/u到/v,走/v不/d到/v,安/v得/u上/v,安/v不/d上/v但是如果去掉“得”或“不”后,前后两个字不构成一个词的,则作为一个分词单位。如:

来得及/v,来不及/v,对得起/v,对不起/v说得过去/v,说不过去/v有的去掉“得”或“不”后虽然是一个合成词,但其中至少有一个是语素,拆开了是难以理解的,仍作为一个切分单位。如:如:形得成/v,形不成/v六、四字以上语法单位的切分规范四个字以上的短语,通常应切分。

贯彻/v执行/v,调查/v研究/v

但像“生产资料/n”、“国民经济/n”、“生产关系/n”等若作为一个词已收入词典的就不再切分。

四个字的成语或习惯用语为一个切分单位,并标以词性i或l。

胸有成竹/i,众所周知/l

超过四个字的习惯用语或成语,一般不予切分,标注为l或i。

近水楼台先得月/i,一年之计在于春/l表达一个完整概念或集合的缩略语为一个切分单位,并标以j

三好/j,教科文/j,农工牧副渔业/j,德意日/j,港澳台/j同胞/n

在有顿号分开的情况下,则切分:

德/j、/w意/j、/w日/j,港/j、/w澳/j、/w台/j,

港/j、/w澳/j同胞/n

最后一个简称如与后面一个字(语素)可合成一个词的,则不单独切分出来。

农/j、/w林/j、/w牧/j、/w副/j、/w渔业/n六、四字以上语法单位的切分规范(续)七、语素和非语素字的处理除下列特殊情况外,语素和非语素字一般不作为切分单位。①某些双音节离合词分开使用,其中一个是语素,可将它标注为语素。出/v过/u两/m天/q差/Ng,理/v了/u一/m次/q发/Ng,

洗/v了/u一个/m舒舒服服/z的/u澡/Ng.②单字名词或名词性语素后接单纯方位词,通常应合成为一个处所词或时间词,但为了同“分词规范”保持一致,也为了汉外机器翻译处理的方便,这里采用以下的处理方法:a.“单字名词+单字方位词”的组合,切分为两个单位:饭/n前/f,树/n上/f,包/n里/f,床/n下/fb.“单字名词性语素字+单字的方位词”的结构,合为一个处所词或时间词。桌/Ng上/f-->桌上/s,午/Ng后/f-->午后/t,

身/Ng上/f-->身上/s,胸/Ng前/f-->胸前/sc.“省、市、县、乡、村、部、局、处、团、营、连、院、系、班”等名词后“里、上”等方位词,仍有组织、机构的意义,作为一个切分单位,标为名词。部里/n,县里/n,村里/n,系里/n,班上/n七、语素和非语素字的处理(续)③非语素字单独在文本中时,为一个切分单位,标注为x“/w鹌鹑/n”/w的/u“/w鹌/x”/w字/n怎么/r读/v?/w从以上的规范中我们至少可以看出两点:(1)汉语界定词的问题确实非常复杂,尽管制定了如此详细的规范,但在实际工作中仍然有一些问题解决不了,还要不断地补充规范。要解决什么是汉语的“词”的问题实在不是一件容易的事情,需要下大工夫。(2)正因为汉语的“词”如此复杂,因此在进行一项大的语言工程时首先必须制定好详细的规范,否则很难保证切分的一致性。七、语素和非语素字的处理(续)课堂练习切分并标注下列字串

三十余人五十万元

60年时间78年出生走不到来得及饭后乡里

八、汉语分词错误及人工校对

计算机的切分错误包括歧义切分、未登录词切分。歧义切分分为两种类型,一种为交集型,一种为组合型。所谓交集型歧义切分就是指如果字段ABC,既可以切分为AB/C,又可以切分为A/BC,所谓组合型(也叫包孕型)歧义切分就是指如果字段ABC,既可以切分为ABC/,又可以切分为A/BC或AB/C,如“烤白薯”,既可以切分为“烤白薯”(名词),也可以切分为“烤/白薯”(动宾结构),这种字段就是组合(包孕)型歧义切分字段。1、交集型歧义字段的类型例如,在句子“用树形图形式加以描述”中,歧义字段“图形式”是由名词“图”与名词“形式”之间的交叉组合产生的——“图形”+“形式”。事实上,“图形”是歧义词,它是歧义字段“图形式”在给定句子中错误地切分出来的片段,“形式”是非歧义词,它是歧义字段“图形式”在给定句子中,按正确的切分方式切分出来的片段。名词+名词例如,在句子“研究生命的本质”中,歧义字段“研究生命”是由动词“研究”与名词“生命”之间的交叉组合产生的——“研究生”(歧义词)+“生命”(非歧义词)。例如,在句子“白天鹅游过来了”中,歧义字段“白天鹅”是由形容词“白”与名词“天鹅”之间的交叉组合产生的——“白天”(歧义词)+“天鹅”(非歧义词)。1、交集型歧义字段的类型(续)动词+名词形容词+名词例如,在句子“让位移等于50厘米”中,歧义字段“让位移”是由介词“让”与名词“位移”之间的交叉组合产生的——“让位”(歧义词)+“位移”(非歧义词)。例如,在短语“独立自主和平等互利的原则”中,歧义字段“和平等”是由连词“和”与名词“平等”的交叉组合产生的——“和平”(歧义词)+“平等”(非歧义词)1、交集型歧义字段的类型(续)介词+名词连词+名词例如,在短语“对这种现象的确切描述”中,歧义字段“的确切”是由助词“的”与形容词“确切”的交叉组合产生的——“的确”(歧义词)+“确切”(非歧义词)。例如,在句子“这本小说的情节太平淡了”中,歧义字段“太平淡”是由副词“太”与形容词“平淡”的交叉组合产生的——“太平”(歧义词)+“平淡”(非歧义词)。1、交集型歧义字段的类型(续)副词+形容词助词+形容词例如,在句子“社会需求和生产水平有矛盾”中,歧义字段“需求和”是由名词“需求”与连词“和”的交叉组合产生的——“需求”(非歧义词)+“求和”(歧义词)。例如,在句子“他们看中的和日本人做生意的机会”中,歧义字段“看中和”是由动词“看中”与介词“和”的交叉组合产生的——“看中”(非歧义词)+“中和”(歧义词)。1、交集型歧义字段的类型(续)名词+连词动词+介词2、组合型歧义字段的类型量词+名词介词+名词例如,在“一阵风吹过来了”中,歧义切分字段“阵风”是由量词“阵”和名词“风”的串联组合产生的。例如,在“请把手抬高一点儿”中,歧义切分字段“把手”是由介词“把”和名词“手”的串联组合产生的。动词+名词名词+方位词例如,在“他喜欢吃烤白薯”中,歧义切分字段“烤白薯”是由动词“烤”和名词“白薯”的串联组合产生的。例如,在“他骑在马上”中,歧义切分字段“马上”是由名词“马”和方位词“上”的串联组合产生的。2、组合型歧义字段的类型(续)

方位词+动词副词+动词例如,在“他在庄稼地里间麦苗”中,歧义切分字段“里间”是由方位词“里”和动词“间”的串联组合产生的。例如,在“他将来北京探亲”中,歧义切分字段“将来”是由副词“将”和动词“来”的串联组合产生的。2、组合型歧

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论