中文信息处理教案_第1页
中文信息处理教案_第2页
中文信息处理教案_第3页
中文信息处理教案_第4页
中文信息处理教案_第5页
已阅读5页,还剩141页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文信息处理教案亢世勇编著汉语言文学院绪论一、什么是中文信息处理?语言信息处理(languageinformationprocessing)是指用计算机对自然语言的音、形、义等信息进行处理。即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作与加工。中文信息处理(chineseinformationprocessing)是用计算机对汉语的音、形、义等信息进行处理,也称“汉语信息处理”。汉字信息处理(chinesecharacterinformationprocessing)用计算机对汉字所表示的信息进行的操作和加工。中文信息处理是语言信息处理的一部分,或者一个分支。汉语信息处理解决的首要问题是汉字的信息处理,这是汉语的独特任务,也就是说,汉字信息处理是汉语信息处理的第一步,因此在很长一段时间“中文信息处理”主要任务是“汉字信息处理”,有人干脆把“中文信息处理”称为“汉字信息处理”,现在比较多的称为“汉语汉字信息处理”。语言信息处理与计算语言学同属于一个学科,是一个问题的两个方面,经常指同一个东西。如果要分开、相对而言的话,语言信息处理主要指偏重于语言问题的讨论,比如字词句篇章的知识、语料库以及语言信息处理的应用等等,而计算语言学偏重于语言问题在计算机上实现的方法、理论等。二、语言信息处理的发展与学科性质(一)语言信息处理的发展计算机语言在不断发展,自从有了高级语言后,各种人都可以很快地学会使用计算机,可以完全不顾机器指令,也可以不必懂得计算机的内部结构和工作原理就能得心应手地使用计算机进行各种科学计算、事务管理或语言文字的信息处理。而且,高级语言的通用性很高,可以适用于不同的计算机。语言信息处理(包括计算语言学)是一门研究如何运用计算机和计算机技术研究自然语言、处理自然语言的学问,也就是研究在自然语言的研究领域和自然语言的运用领域中如何运用计算机和计算机技术。计算语言学一方面利用计算机对语言文字进行各种定量化与精密化的研究;另一方面又要求语言学家为计算机进行自然语言处理提供可计算的语法模型,以支持自然语言的分析与生成、计算机系统的自然语言人机接口和机器翻译等各种应用。自然语言处理系统研制开发过程有三个大的领域和三个相应的层次,即理论语言学和语法层,计算语言学和形式化层,计算机科学和实现层。其中语法层关心的是语言本身的特征,它的主要任务是为后面的模块提供基础。实现层关心的焦点是如何控制计算机的各种执行过程,它也负责向其他层次的人员提供效的开发工具和环境。形式化层是语法层与实现层之间的接口界面,它的主要任务是将语法层提供的普通语法模型改写为更易于计算机处理的形式化语法模型。将语法形式化是计算语言学家的任务。语言文字信息处理最早起源于美国,经过半个世纪的努力,语言信息处理的研究不断发展,取得了比较多的成果,出现了一些应用成果,比如:自然语言理解、情报检索、机器翻译、计算机辅助教学等。(二)语言信息处理的学科性质从语言信息处理(包括计算语言学)学科本身来看,它是一门交叉学科。计算机对自然语言的研究和处理,一般应经过以下三个方面的过程:第一、把需要研究的问题用语言学的方法加以形式化,使之能以一定的数学形式严密而规整地表示出来;第二,把这种严密而规整的数学形式表示为算法,使之在计算上形式化;第三,根据算法编写计算机程序,使之在计算机上加以实现。因此,研究计算语言学,不仅要有语言学知识,还要有数学和计算机科学知识。这样,计算语言学处于文科、理科和工科的交叉点上,是建立在语言学、数学和计算机科学这三门学科基础上的边缘性学科。有专家(龚彦如等,1994)认为,计算语言学由基础理论领域、应用领域和相关学科领域三部分构成,其中:基础理论领域包括:1、词法学,2、句法学,3、语义学,4、语音学,5、统计学,6、信息论,7、数理逻辑,8、集论,9、格论,10、词汇学,11、语用学,12、言谈分析,13、认知论,14、文字学,等等;应用领域包括:1、自然语言理解,2、机器翻译,3、人工智能,4、电子词典,5、专家系统,6、知识工程,7、数据库与系统设计,8、大文本语料库,9、语音识别与合成,10、文本处理,11、情报检索,12、文字识别,13、自然语言的人机接口,等等;相关学科领域包括:1、计算机科学,2、心理学,3、病理学,4、术语学,5、逻辑学,6、社会学,7、语言教学,8、翻译学,9、文学,10、哲学,等等。冯志伟先生曾着重考察了英国的计算语言学研究和教学情况。据他介绍,在曼彻斯特大学设有计算语言学专业的学士学位和机器翻译专业的硕士学位。计算语言学专业的学士课程有:语言学导论,现代语言学,语法理论,比较语法、词汇学、社会语言学、语言交际学、语言学中的数学方法、统计语言学;计算语言学、计算机在语言研究中的应用;计算机导论、信息科学导论,自然语言处理中的高级计算机技术,信息系统的自然语言接口、术语学。机器翻译专业的硕士课程有:翻译理论、机器翻译理论、机器翻译实验、机器翻译中的语言学问题;计算语言学、信息系统的自然语言接口、术语学、程序设计、科技英语结构、英语文书自动处理等。“计算语言学”这门课程的内容有:形式语言理论、上下文自由语言的识别与分析、非上下文自由语言的分析、广义短语结构语法、词汇功能语法、词迹理论与确定性分析、知识与语义的表示法、概念依存理论、优先语义学等。从计算语言学教育的上述情况来看,计算语言学这门学科的确具有综合性、交叉性极强的特点。三、中文信息处理的发展中文信息处理的发展经历四个阶段:汉字的信息处理:汉字属性的统计与研究;汉字编码理论与技术;汉字常用字表和通用字表的制定;汉字字形库的研究,等等。汉语词语的信息处理:汉语分词规范,汉语总词表,词频统计;汉语自动分词系统,分词质量评估软件;汉语词类划分规范,带有词性标注的汉语词典;汉语词类的自动标注系统;汉语基本词汇信息库;汉语的语义词典和概念词典。汉语句子的信息处理:汉语的词组及句型规范,句型统计;汉语适用的句法分析算法:汉语的句法规则库(包括兼类词处理规则、虚词处理规则、动词处理规则、同形词类处理规则等等);汉语的格——价研究,汉语的词格辞典;汉语时、体、量等形态的表达与判别;汉语的受限语言及子语言研究。话语篇章的信息处理:汉语句间关系研究;汉语不同语体的话语模型;话语分析与生成系统。目前,在字处理、词处理己陆续取得相对突破的基础上,汉语句处理已成关键。这时句法知识、语义知识、语用知识的基础理论研究都是中文信息处理实践和中国计算语言学的前沿课题。其中,句法知识、语义知识的获取是当前的重点,而语义知识又是二者的难点,难的基础是词汇一级语言单位的语义。四、当前汉语信息处理需要研究基础问题黄昌宁先生(1992)认为我国当前计算语言学在基础理论方面面临两个重大的前沿课题:第一、语法理论问题。我国计算语言学的研究人员,尤其是语言学家,有责任针对汉语与印欧语系之间的深刻差别,逐步创立适合汉语的语法理论,这是我们踏上计算语言学这个世界学术大舞台的关键一步。第二、语义学问题。国内在语义学方面的研究几乎是空白的。当前首要的任务是给出词典中每个词条(义项)的语义描写。词义描写的策略:一是要建立一个概念分类体系;二是采用属性(或特征)描写来补充分类体系的不足,属性描写应当是开放的,可以随时根据需要加以补充和延伸。词义描写既是为句法分析服务的,又是最终建立句子意义表达的基础。在语言信息处理中,句法的结构歧义和多义的判别等问题的解决都离不开词典提供的语义信息。所以这方面的研究对于提高语言信息处理系统的质量和走向实用化具有不可低估的重要意义。在基本技术方面,今后10年里,要建立三级平台。第一级是中文信息处理基础研究平台;第二级是中文信息炒理应用关键技术平台(如自动标引系统中蕴含概念分析及权值评价模型、自动文摘生成系统的话语模型及句间联系分析);第三级是应用系统开发平台(如人机接口和问答系统)(袁崎、陈力为,1992)。这是中国计算语言学的基础性研究工作。早在1989年,董振东先生受中文信息学会计算语言学专业委员会的委托,起草了一个计算机界和语言学界合作,共同进行中文信息处理研究的设想。其内容为六个主课题:1、语料库系统语料库子系统是中文信息处理各相关领域的语言素材库。为标注自动分词系统、提取和验证词典信息、编制句法语义规则提供翔实的统计素材,并且最终成为中文信息处理基础研究用的综合统计分析的数据库。语料库系统的研究包括3个子课题:(1)分词规范。包括两个专门课题:分词规范制定;规范测试检验。(2)自动分词。(3)语料库。2、电子词典系统包括句法词典、语义词典和搭配词典三部分。3、句法语义分析和生成系统句法语义分析和生成系统中的词语知识库。句法语义分析子系统将包括一个全面覆盖汉语短语和句型结构的规则库,并且通过语言分析器产生句法树和语义网。这是汉语语句的最终分析结果。包括3个子课题:(1)分析规则库。包括三个专门课题:A、句型与短语,又包括:分类体系与层次;描述方法;动态与静态特征描述方法。主要文法属性研究等四项专门研究。B、歧义类型;C、分析器,又包含流程、模块两项专门研究.(2)生成规则库。包括3个专门课题:A、词序;B、搭配关系;C、以生成器(3)软件。包括两个专门课题:A、文法描述语言;B、解释器。4.受限语言系统这一系统包括:文法受限规格、词汇受限规格、用户选择与测试3个子课题。5.集成系统这一系统包括:文件管理、信息传输、系统间接口3个子课题。6.辅助工具系统这一系统包括光学字符阅读器、词处理机、语音识别系统3个子课题。参考书目1、《自然语言的计算机处理》冯志伟上海外语教育出版社2、《应用语言学》刘涌泉湖南教育出版社3、《汉语计算语言学》吴蔚天罗建林电子工业出版社4、《人工智能原理》石纯一清华大学出版社5、《现代汉语语法信息详解词典》俞士汶清华大学出版社6、《自然语言理解》姚天顺清华大学出版社7、《信息处理用现代汉语分词规范及自动分词方法》刘源等,清华大学出版社8、《计算语言学概论》翁富良等中国社会科学出版社9、《当代西方语法理论》俞如珍上海外语教育出版社10、《语言文字应用》,1992年至今各期11、《中文信息处理》,傅永和,广东教育出版社12、《应用语言学综论》,冯志伟,广东教育出版社13、《语料库语言学》,黄昌宁,商务印书馆14、《计算语言学探索》,冯志伟,黑龙江教育出版社15、《计算语言学基础》,刘颖,清华大学出版社第一章汉字信息处理•第一节汉字属性信息•汉字的属性信息包括字量、字频、字序、字形、字音(参考傅永和《中文信息处理》广东教育出版社)•一、汉字的字量•1、历代大型字典收字数量•说文解字9353字汇33179•声类11520康熙字典47043•字林12824中华大字典48200•玉篇22726中文大字典53768•广韵26194汉语大字典53768•集韵53525•2、现代通用字和常用汉字的数量•1981国标GB2312《信息交换用汉字编码字符集》收6763个,其中一级字3755个,二级字3008个。•1988年1月国家语委《现代汉语常用字表》•收字3500个,一级常用字2500个,二级常用字1000个。选取的根据:(1)频率(2)学科分布广(3)构词或构字能力强(4)汉字的实际使用情况。•1998年3月国家语委和新闻出版署《现代汉语通用字表》,7000字。包括了常用字表的3500个。•3、现代通用汉字和常用汉字的覆盖率•汉字序号1040160950240038005200•覆盖率%112550909999.999.99•经测试,常用字表中2500个常用字覆盖率为97.97%,1000个次常用字覆盖率为1.5%,两者合计99.48%。•二、汉字字频•1、70年代“748工程”对2100万汉字语料统计,形成《现代汉字综合使用频度表》。•2、1982—1985北航等10个单位对3亿汉字语料统计《三千高频度汉字字表》•3、1988年出版的《汉字频度统计》5991字分为五级,有笔画、出现次数、累计次数、累计百分比•4、1986年北京语言学院出版《现代汉语频率词典》其中列《汉字频率表》从180万字语料中得出单字4574个。•字频属性是选择字符、确定汉字字符数量和进行汉字分级的依据。•三、汉字字序•现代汉语用字排列的顺序.•(1)义序法(2)音序法(3)形序法•四、汉字字形•1、汉字的笔画•(1)汉字笔画数统计:简化字和被简化的繁体字以及未简化的汉字集(16339):8画至15画的字书较多,其中12画的字数最多。16339个汉字的平均笔画数为12.7061画。•(2)汉字基本笔画使用频度。•(3)汉字起笔统计。•2、汉字的部件•(1)分析汉字的方法•A、分析到笔画B、分析到偏旁•C、分析到部首D、分析到部件•主张:独体字构成成分分析到笔画,合体字的构成成分应分析到部件.•(2)汉字部件的定义(3)汉字部件的名称.•(4)汉字部件名称的规范.(5)汉字部件的分级统计.•(6)汉字末级部件组字频度•3、汉字的结构方式•(1)平面分析法的结构方式(2)层次分析法的结构方式•五、汉字的字音参见傅永和《中文信息处理》广东教育出版社汉字输入、编码、输出一、汉字输入的方法类型汉字输入是指利用汉字的形、音或相关信息通过各种方式把汉字输人到计算机中去的过程,汉字输入技术是汉字信息处理的关键技术。汉字输入的方法有三类:(一)汉字字形识别输入什么是汉字字形识别输入?也称汉字自动识别。即利用光学扫描方法将汉字的图形信息直接输入计算机,也就是用计算机自动辨别印刷或书写在纸(或其他介质)上的汉字。它属于模式识别和人工智能的范畴,是新一代计算机智能接口的一个重要组成部分,在应用上它是汉字信息处理系统高速自动输入的手段和根本出路,是汉语中文信息处理的一种好方法。2、汉字字形识别输入的类型:(1)联机手写汉字的识别。人一面写,机器一面认。这是最简单的一种汉字识别类型。(2)印刷体汉字的识别。包括两小类:单体印刷体汉字识别,识别印刷在纸上的一种印刷汉字;多体印刷体汉字识别,同时能识别印刷在纸上的宋、仿宋、黑、楷等印刷体汉字。(3)手写汉字的识别。包括三个小类:手写印刷体汉字识别;特定人写汉字识别和人机交互式手写汉字识别。3、汉字识别的基本思想与步骤汉字识别的基本思想是匹配判别。步骤:第一步把需要识别的汉字集合中每一个汉字字符的字形特征存贮在机器中)形成已知的汉字模。第二步用图形输入板或光电设备(如图文扫描、光导摄象管扫描、激光扫描等装置)扫描输入一个未知的需要识别的汉字字符,抽取它的特征。第三步将抽取到的代表未知汉字模式本质的表达形式(即各种特征)和预先存贮在机器中的所有汉字特征一个一个地匹配,匹配用一定的准则进行。最后在机器存贮的标准汉字模式表达形式的集合中,找出最接近输入汉字特征的那一个,该特征所对应的汉字就是识别结果,最后用相应的内部码来表示它。4、汉字自动识别的优点汉字自动识别的方法有许多优点。首先是实现了汉字的高速自动输入,大大减轻了人的脑力和体力劳动强度。其次是突破了人工输入的速度局限性,彻底解决了汉字信息处理系统中手工输入效率低的问题。再次是为办公自动化和下一代印刷技术的文字信息自动输入打下了基础。它还可作为新一代计算机智能接口的重要组成部分。最后它有助于汉字文本高倍压缩存贮和传输。5、汉字自动识别的研究进展陈敏和王翠叶最近(1995)报道了我国汉字识别技术的进展情况。这项技术自70年代未起步、目前正向实用化发展,印刷体汉字识别是我国汉字识别研究的主流。1988年已有五六个系统基本达到实用化,并形成商品,它们的主要技术指标达到了世界先进水平。识别字数可达3755—4000个,识别速度为20字/秒左右,对中等印刷质量文本识别率达到95%~99%,识别字号为3~6号,识别字体的宋、仿宋、楷、黑等,有一定版面分析和后处理能力,初步具备了适用的人机界面。联机手写识别1988年已有几个初步实用的装置,其主要技术指标为:识别字数可达6763——12000个,识别速度与人书写的速度基本相当;初次使用的识别率为80%左右,经常使用可达95%。书写时要求笔形与笔画数比较正确,极常用的少数笔形与笔画可以连笔书写,笔顺不严格要求。手写汉字识别1988年才开始认真研究,近几年进入高潮,全国已有几个实验性系统进行了裟定。特定人手写识别已在小范围试用。识别速度用386微机为1字/秒。接近实用的交互式自学习手写汉字识别系统,可识别3755个字,其前10位候选正确率为80%~95%。手写印刷体汉字识别已从方法研究转向实用系统的研究。6、汉字识别存在的问题——识别的准确率受到各种限制印刷质量扫描时的位置看以下实例:陈敏和王翠叶最近(1995)报道了我国汉字识别技术的进展情况。这项技术自70年代未起步、目前正向实用化发展,印刷体汉字识别是我国汉字识别研究的主流。1988年已有五六个系统基本达到实用化,并形成商品,它们的主要技术指标达到了世界先进水平。识别字数可达376(3755)~4000个,识别速度为20字/忿(秒)左右,对中等印刷质量文本识别率达到95%~99%,识别字号为3~6号,识别字体的宋、访宋(仿宋)、槽(楷)、票(黑)等,有一定版面分析和盾处埋(后处理)能力,初步具备了适用的人机界面。联机手写识别1988年已有几个初步实用的装置,其主要技术指标为;(:)识别字数可达6763~D000(12000)个,识别速度与人书写的速度基本相当;初次使用的识别率为80%左右,经常使用可这(达)95%。书写则要求笔形与笔画数比较正确,极常用的少数笔形与笔画可以连笔书写,笔顺不严格要求。7、汉字识别技术今后研究的主要方向(1)人工神经网络技术用于汉字识别人工神经网络技术具有高度的自组织、自适应和自学习能力。在我国手写汉字识别和印刷体汉字识别的研究中已得到了应用,今后将发挥更大的作用。(2)语言学知识用于汉字识别识别实际文本时,文中大部分字及其相邻字要受到词、句法、语义的限制,因而是相关的。识别系统利用这些相关性的知识,可改善孤立字识别时的性能,这样,把单字识别技术同语言学知识结合起来,能提高识别系统的水平。在已有的印刷体汉字识别系统中,后处理便利用了汉语的词进行自动纠错。今后将进一步利用词的上下文匹配和基本句法、语义的上下文匹配,来提高对实际文本的识别率。(3)多种识别方法集成将多种识别方法集成在一起表决判别,可大大降低系统的误识率,提高总的识别率。(二)汉字语音识别输入什么是汉字语音识别输入?汉字语音识别输入就是通过“说”和“听”来和计算机交换信息,即利用声音识别技术,抽取汉字的语音特征,实现对汉语语音的自动识别。其目的是让计算机“听懂”用汉语语音所表示的汉字信息,以便通过口授将包含有汉字的程序、数据、命令、文稿等送入计算机。语音识别输入的优点(1)输入速度快,说比写约快10倍,比打字约快4倍;(2)工作强度低,使用最方便,将手解放了。(3)使用最方便,不会受到编码规则对思维习惯的干扰。使用语音是人机对话的最自然的方式,也是名副其实的人机对话。语音识别的类型语音识别的类型,按不同的标准分类,有如下三种不同的分类结果。按使用人分类按使用人分类,有特定人语音识别和非特定人语音识别。特定人语音识别指使用前由使用者对系统进行训练,让系统记住事先选好的字或词的发音特征,识别时由这个使用者将字或词读进系统。非特定人语音识别是供许多人使用的系统,使用者不用对系统进行训练。系统要能听懂任何人说的话,就必须让系统获取许多人说话的共性特征,并在处理中进行强化,使许多人说的同一语音的特征有极高的稳定性,对不同的语音有极大的区别度。按词汇量分类按词汇量分类,有小词汇量语音识别、中词汇量语音识别和大词汇量语音识别。小词汇量指几十个字或词,中词汇量指几百个字或词,大词汇量指几千甚至上万的字或词。按发音方式分类按发音方式分类,有孤立词语音识别和连续语音识别。孤立词语音识别指识别时将字或词孤立地读进系统。连续语音识别指识别时将整个句子连续读进系统。要求系统既具备处理连续造成的同化、异位、脱落、换位等音变问题的能力,又具有通过语义、语法知识分析得出正确识别结果的能力。另外,还有使用环境优劣的区分,也就是指噪声轻重情况。目前噪声下的语音识别还只是在初步研究阶段。通常所说的语音识别都是有较好的使用环境。从技术上的难易程度说,上述每小类语音识别,后者都比前者难。如果将上述三小类排列组合起来,应该有12大类,即特定人小词汇量孤立词的识别、特定人中词汇量孤立词的识别、特定人大词汇量孤立词的识别、非特定人小词汇量孤立词的识别、非特定人中词汇量孤立词的识别、非特定人大词汇量孤立词的识别、特定人小词汇量连续语音的识别、特定人中词汇量连续语音的识别、特定人大词汇量连续语音的识别、非特定人小词汇量连续语音的识别、非特定人中词汇量连续语音的识别、非特定人大词汇量连续语音的识别。这12大类一类比一类难。4、语音识别研究的进展我国语音识别技术经十多年的发展,目前已开始走向实用。以汉语全音节识别的成绩最为显著。特定人大词汇量孤立词语音识别系统,具有较高的识别正确率和响应速度,有的已初步商品化,识别率基本能达到80%以上,有的还可达到95%以上。基于神经网络方法进行的汉语声母、韵母、声调的识别,已取得了可喜的成果,有些单位四声识别已达到近100%的水平。利用声学信息进行的语音识别,有一些中、小词汇量的语音识别系统已投入实际应用,如口呼语音输入的自动查报电话号码系统、声控电话查号系统等。非特定人中、小词汇量孤立词语音识别已取得优异的成果,利用适合于汉语特点的概率统计模型对不同话者和话流速度的变异有相当强的适应性,目前正向大词汇量孤立词语音识别系统迈进。连续语音识别刚刚开始,特定人小词汇量的连呼识别,特别是连续数字串语音的识别在实验室里已做到实时识别,并有较高的识别率。连续语音识别的后处理工作,也取得了一定的进展。噪声下的语音识别已在做初步的方法研究。5、语音识别研究今后努力的方向语音识别今后需努力做到能用且好用,应开展以下几个方面的研究工作。(1)加强识别方法和处理手段的研究,“提高语音识别的鲁棒性”(2)加强非特定人、大词汇量、连续汉语语音识别的研究(3)开展建立语音库和语音特征库的研究(4)注意计算机听觉模型的研究(5)注意研究模糊数学理论在语音识别中的应用(6)加强人工神经网络方法用于语音识别的研究(7)研究语言学知识在语音识别中的应用目前语音识别的方法主要是利用语音信号中的声学信息和模式匹配。语音识别的终极目的是语音理解。语音识别和语音理解一样,不能仅依赖于声学信息,还须依赖于语言学的信息。如利用汉语的词法、句法、语义和语用知识来解决语音信号多变性的问题。语音调味品困达到高级水平,必须利用语言学知识。(三)汉字编码键盘输入其做法大多以原有西文计算机系统为基础,利用计算机所使用的ASCII字符来对汉字进行编码,使汉字符号化,并借助键盘输入计算机。这是目前语言信息输入的最主要方法。二、电脑键盘的匹配与汉字编码1.汉字的键盘输入如何在国际通用的小键盘上用不同的键位组合把6763个不同的汉字从字库里“检索”出来、“敲打”出来,这是汉字信息处理的首要问题;而键位组合的设计就是平常所说的“汉字编码”。1978年12月,我国召开了“第一届全国汉字编码学术交流会”,会上提出了汉字输入编码方案约40个。专家们介绍,当时内地第一种汉字输人编码叫做“支码”(唐旬,1995)。“芝麻开门”,是古代阿拉伯神话中取得深山财富的神奇的咒语。“支码”的命名反映了人们打开现代电脑技术与中国语言文字结合的道路。到1983年,已达400个,其中40多个已在各种类型的汉字信息处理系统中获得了应用,形成了万“码”奔腾的“战国时代”。汉字与键盘匹配有很大的困难。张普(1993)对其作了全面论述。计算机在处理西文以及汉字以外的其他类型的文字都比处理中文(汉字)容易得多。“字”是中文特有的概念,中文由字组成词,由词构成句子。字母比汉字的结构简单,且数量很少。如希腊字母24个,拉丁字母26个,斯拉夫字母43个,阿拉伯字母28个,梵文字母46个,日本字母片假名、平假名各50个等。即使加上大写、小写、印刷体、手写体的区别,每个文种也都不超过200个符号;按笔画计,每个字母多为一两笔,很少超过三笔。而汉字的平均笔画为12笔,简化后的汉字平均笔画也有9画多。汉字总数远在3000年前的甲骨文时期就已达到4000个以上,就是只计算现代通用的汉字,国家语委公布的《现代汉语通用字表》也有7000个字,《信息交换用汉字编码字符集·基本集》也收字6763个字,加上第二、第四两个《辅助集》,已达21039个字。汉字的字数之多、笔画之繁、结构之复杂,堪为世界之最。汉字的这种实际情况造成了与计算机键盘匹配上的困难。计算机的键盘上有26个拉丁字母键,10个数字键,还有数目不等的功能键和符号键,加在一起有几十个键,人们靠这几十个键来输入各种文字符号,这在以拉丁字母为基础的西文自然不成问题,可以在键上直接输入,至多在键盘和软件上作些小的改造。但对于汉字输入来讲,就遇到了极大麻烦。张普追述道:开始,人们仿照老式中文打字机的办法,把汉字印在键上,键数不够,就造更大的键盘,以至于键盘大得像写字台,按起键来极不方便,找起字又麻烦,造价也贵了许多,于是人们想了许多办法来缩小链盘。有的将字体缩微,印在一张膜上,下面是压敏电阻,因为字小,又密集,手指不能按了,就用一支特制的笔来“点字”。更有人把常用的字放在第一页压膜上,不常用的或罕见的字放在第二页、第三页上,这样,经常在第一页上“点字”,偶尔到其他页上去点,这就进一步缩小了“字盘”。还有人把平面的“字盘”做成一个圆筒,左手摇筒管前后找字,右手拉坐标左右找字,字找到了就用脚将机关一踏,字就“点”进去了。这些方法显然不便于普及推广。于是有人仍在用手按键的方式上打主意,比如,在每个键上都印6个汉字(这叫主键),这样,就可以把键数减到1/6,但右手一按此键,就有同时键人该键的6个汉字的可能,因此,左手这边又设了6个数字键(这叫辅键,排列位置和右手主键上6个字的排列相对应,按哪个对应的辅键,主键上相应的字键就被键人。主键上的字有6个的,还有9个的,12个的,最多的每个主键上设计了30个汉字,当然对应的辅键也要有同样多个汉字才行。这些方法叫“大键盘输入法”,或叫“整字输入法”,各种缩小键盘的法子分别叫做:“笔触式”、“翻页式”“滚筒式”“主键辅键式”。大键盘方式没有很好地解决汉字与键盘匹配问题,人们再来攻小键盘。汉语拼音文字是在26个拉丁字母的基础上设计的,原有的计算机键盘不必做大多改造就可以键人汉语拼音。但有三个问题。第一个问题是汉语的同音字大多,与键盘的匹配问题,打了一个zhang1,计算机仍不知道是“张”,还是“章、樟、樟”。一般的方法就是靠软件在显示屏幕下设一个“提示行”,把同音字编上号,高频字在前,低频字在后,全显示在下面,是第几号再按一下对应的数字键:提示行每次显示10个汉字,若第一组10个字中没有要找的字,再按键要求看第二组10个字,碰上有100多个同音字的yi音节,找个字可就费周折了。第二个问题是:汉语音节的声调与键盘的匹配问题。西文键盘的拉丁字母上没有声调符号,人们开始用数字键1、2、3、4代替声调。,“妈、麻、马、骂”分别打成“ma1、ma2、ma3、ma4”后来,人们对声调不加区别,把声母、韵母相同、而声调不同的汉字看成是同音字,靠提示行来解决问题。这样拼音方式的声调与键盘匹配问题,也就成了同音字与健盘的匹配问题了。第三个问题是汉语拼音的拼式大长,像“庄Zhuang、床chuang、双shuang”这些常用字都要按7键,加上1个空格键,要打8键才是1个汉字,如有同音字还得看提示行,就是9键1字。后来有人想让选字键兼有空格的功能,也仍需打8键。汉字与计算机键盘匹配上的这些问题,最后还导致了人们通过拆分汉字字形来解决汉字与键盘的匹配问题。这就是汉字编码中的字形码的起由。汉字编码的类型可以按在编码方法中所使用的汉字主要属性来划分。目前较多地使用的汉字属性有字音、字形、字义、字频等属性,特别是字音、字形这两种属性。这样,汉字编码的类型就可分为形码、音码和音形码3种。2.汉字编码的类型(1)拼音编码按汉字的读音将其转换成汉语拼音的声母、韵母(或加上声调符号以及区分同音字的符号),或将双字母声母、复合韵母用单字母替代组成的编码。拼音编码可分为全拼音式和压缩拼音式。拼音编码的优点是易学;缺点:一是重码多,导致输入效率低,令人不胜其烦,且极易造成视觉疲劳;二是对用户要求很高;三是难于处理生字。(2)字形编码将汉字分解为部件或笔画,并按照规定的顺序排列、用相应的字母数字等符号替代,按一定的规则取舍的符号组合,就是字形编码。属于字形编码的有笔形码、前三未一码和五笔画码。又分两种:笔画式编码:即将汉字分解为笔画,每种笔画用一个数字代替编码,每字取6码或5码。例如将汉字的笔画分解为“横、竖、撤、点(捺)、折”等五种笔画,分别用1、2、3、4、5替代,按笔画的书写顺序排列,每个字最多取五码。字根代码类:五笔字型汉字编码主要是字根码。录入人员根据《五笔字型键盘字根总图》中所确立的字根,按照每个汉字字根的排列组合顺序(根序)递次编码输入计算机。在键盘上用字根输入汉字,首先是字根的归类记忆难。把几百个字根归类到二三十个键位上,并牢牢记住,绝不是轻松愉快的事;其次是输入操作时的拆字难,拆字需要耗费较多的心理操作,增加了大脑的负担。目前已问世的各种形码系统,一般是采用了“字根归类和拆分”的设计思路。这些字根的归类和拆分,绝大多数与中国人大脑中的汉字认知结构不统一,与国民知识背景不统一,与渊源流长的汉字文化传统缺乏内在的继承性,这就使得形码系统的学习难上加难。许多形码系统的设计没有恰当和充分利用中国人大脑中已具备的汉字认知结构,这是对国民主体知识资源的巨大浪费。(3)音形编码音形码是以拼音为主、以字形为辅的编码方法,目的是为了保留拼音编码的优点而又能区分同音字,一般是在拼音码的前面或后面添加字形码。添加形码中,有的提取字的偏旁或部首的信息,有的提取字的起末笔,有的采用字的四角号码或字频顺序,有的采用语义类别,等等。汉字编码发展到今天,形码仍然在为降低学习难度奋斗,音码仍然在为降低重码奋斗。这种情况,不适应中文信息处理技术的普及,特别是在90年代以后,电脑开始走人寻常百姓的家庭,电脑的使用者不是用它去“高速表达别人”,而是用它“述说自己的思维”。“说得出,就打得出”是他们最基本的愿望。让人们去背上百个字根确实困难;而音码全拼式又太慢、太费力。时代呼唤更科学、更简便、更合理的汉字输入方案。3.汉字编码的误区汉字编码存在一些误区(张普,1992):一是重码率越低越好,甚至追求无重码方案。实际上,“无重码”都是以牺牲易学性为代价的,邮电通讯中一直在使用的四码电码就是一种简单的无重码的设计。而我们完全可以发挥软硬件的优势,采用提示行选择、高频先见等方法在一定程度上容忍重码。二是速度越快越好。实际上不同的人员、不同的工作性质有不同的要求,最广大的一般用户要求不看键盘,以边想边打的方式输入汉字,对输入速度则只有一个最低要求,即只要每分钟输入30个字以上,而第一位的希望是越容易学越不容易忘越好。1986年有一次汉字编码的测评活动,以输入速度和重码率为主要指标来测评汉字编码方案的优劣。这种标准的选定就显示出某种认识上的局限性。三是词库越大越好。进入词处理阶段后,各种输入方法纷纷关注词库的大小。因为词少了不行,往往打了词语码以后,词库中没有该词,又得退回来用字的方式输入。为了减少这种事情的发生,词库从5000条词发展到1万、2万、3万、7万、9万……甚至更大。但是,词库越大,占的内存也就越多,而且,绝大多数人使用计算机都是在一定领域范围内工作的,他们所使用的词语也是有一定范围的。所以,最佳的词库设计是:“通用词库”十“专业词库”十“个人词库”。个人词库是个人自己生成的独用的习惯“词语”,现有词频统计结果表明,通用词库有4万条左右词已足够了,专业词语则各领域词语多少不一。因此,简单地认为词库的词越多就越好也不全面的。4.汉字编码的原则(1)社会学原则汉字编码研究的目的之一是为了信息处理技术的普及,这一普及首先要面向教育。《全国中小学教学用汉字编码规范及计算机汉字输入系统》经国家教委批准已列入“八五”重点攻关项目。从1993年开始,计算机逐步列为我国中小学的必修课程。自此,计算机和语文、数学、外语一样成为青少年必须掌握的四个工具之一。汉字输入系统进入中小学课堂是培养跨世纪人才的根本大计,教学的规范化相应地要求汉字编码研究的规范化。在规范化的前提下,将中小学的“识字、定字、查字、打字”教学统一起来。汉字是我国悠久历史文化的一个象征,研究汉字的分解原则,必须联系我国社会的文化背景,千百年来,人们通过汉字了解历史,了解社会,对汉字的记忆和应用有着一定的习惯,如人们常说的“弓长张、立早章”等,是人们称说汉字的习惯,与传统的字谜、测字一样有着深厚的群众基础,之所以能相沿习用,必有其合理的一面。现在,中文信息处理在拆分汉字,设计汉字编码方案时,就要充分考虑到这种文化传统和社会基础。(2)文字学原则汉字编码作为汉字的计算机语言或代码,必须准确而简洁地反映和体现汉字的特点和规律。在实际运用过程中,人们容易记牢的不是代码,而是字的结构规律,电脑容易识别的不是字的结构规律,而是代码。这两者虽有不同,但应统一。如果认为可以考虑汉字的特点,不遵循汉字的客观规律而任意拆分汉字,进行汉字编码设计,则是极片面的做法。对于汉字编码来讲,汉字的特点和规律中,尤其要考虑现代汉字的构形特点和规律,所以,汉字的分解一要以形为主,兼顾音义,二要以现代字形为主,兼顾历史。(3)工程学原则汉字编码是一项涉及多种因素的复杂工作,所以,应将汉字编码当作一项系统工程来抓。首先,要根据频率统计来确定字根的数量。对6737个汉字分解所得字根进行动态统计,根据字根出现次数,按出现频率的降频排列,到第200个字根时,其累计频率已达93.5%。由此可见,以200个左右的字根组成基本字根集是科学的。其次要正确处理字根和偏旁部首的关系。偏旁与字根相比,一般来说,偏旁要大于字根,偏旁产生的概念多半基于对整字一次性二分,字根是对整字不断地二分,一直分到基本字根为止。对6763个汉字二分得到的们旁约为1500个,而目前所需的电脑字根为200个左右,因而偏旁数远远超过所需的电脑字根数,其中一些复合偏旁就是由几个字根组成的。字根是组字的基本单位。部首是一部分汉字中共同的部件,具有很强的定形性,已成为人们文化常识的一部分。因此,在确定字根数量时,应以传统部首为核心来切分汉字编码方案中的字根。对6763个汉字分解所得字根进行的动态统计中,前200个字根中大约60%都是传统部首,前10个高频字根“口、一、日、亻、白、勺、土、又、木”,只有“勺”不是部首,由此可以看出,传统部首是字根的核心。三、汉字的存贮和汉字的输出(一)汉字的存贮汉字存贮有两层意思;一是指汉字内部码、交换码等汉字代码的存贮,这与汉字的数据结构有关;二是指汉字字形的存贮,它与汉字字形库(简称汉字库)设计有关。这里主要指后者。汉字字形库是建立在计算机存贮媒体上的汉字的字模数据集合,它是汉字信息处理系统用来产生汉字字形和各种图形符号的基础部件,也是西文计算机和信息处理所没有的特殊情况,所以,汉字字形存贮是汉语汉字信息处理的一项关键技术:分析和研究汉字字形存贮是中国计算语言学的一个重要内容。汉字存贮的关键在于字形描述。所谓字形描述就是将人可以认读和书写的字形表示成可供计算机存诸和处理的信息的加工过程(刘连元,1994)。汉字字形描述是中国计算语言学的一项基础研究。汉字字形描述存在更大的困难。陆致极(1990)通过具体设计和编写表现笔画顺序的汉字显示程序,论述了计算机汉字的设计与显示的问题。首先,确定汉字的结构形体。计算机内的字符是以点阵的形式设计出来的。在点阵中,每个线条由连贯的点构成。拉丁字母一般用7*或8*16的方阵就能分辨出所有的字形来。但汉字的形体复杂,需要用16*16、24*24甚至32*32、48*48的方阵来表现。汉字字形分解的层次结构是单字、字根、笔画、位点。从汉字的这些属性着手,根据汉字字形描述技术的不同,可将数字式字形存贮方式分成“点阵式存贮”、“笔画式存贮”和“字根式存贮”3种方式,与此相对应,汉字库也就有了3种类型:1.点阵字形描述是用“点”组字的点阵汉字库。现在广泛使用点阵形式的汉字库,用来存放数字化的汉字点阵数据。计算机的打印输出,不是把汉字一笔一画地写出,而是靠针打实现的。即将汉字的一笔一画一个点一个点地打出,打出点越密,就越接近汉字的笔画形状,这就要设计点阵字模。所谓点阵字模就是在若干个等距离垂直线和水平线交叉线形成的栅枪内,将汉字的笔画结构用点的形式描出。点阵字模设计好以后,再把它数据化,即利用计算机辅助设计的方法、在通用汉字终端屏幕上由造字软件先画出放大的栅格,通过键盘严格按事先设计的点阵字模一笔一画地在栅格内打点、画线,并及时地将这些点、线转换成数据存入。经过上述处理,计算机就可实现汉字显示或打印输出了(傅永和,1989)。根据点阵密度的大小,汉字库可分为通用型和精密型两种:通用型使用16*16、24*24、32*32、48*48点阵结构来描述汉字字形。其字形质量较低e主要用来打印一般文件和报表伪文字。精密型汉字库对字形、字体、字号、变倍等都有严格要求,并能反映汉字笔画粗细以及起落笔的笔锋,达到印刷出版业的规定。其点阵规格一般在128*128以上。因为上千个汉字的点阵信息量大,所以,常常采用信息压缩技术,将汉字的点阵数据压缩后存于汉字库中或直接采用轮廓汉字库,可以获得高精度的汉字。采用点阵来描述汉字字形,数据储量大大。字形点阵中的每一个都处于两种状态中的一种:或者在笔画上面,或者在笔画外面。这两种状态分别用二进制的1和0表示。存贮二进制的两个数字需要一个比特的存贮空间,这就意味着点阵中每个点的存贮量为1比特。如果一个汉字字形是用32*32的点阵描述的,那么就需要32*32=1024个比特的存贮量。这种汉字字形描述的点阵技术,将成千上万个汉字的点阵图形预先存在计算机系统中,计算机的存贮空间大量占用。此外,近年来,汉字信息处理的需要与技术都有很大的发展,公种打印机、印刷机对汉字点阵提出了更高的要求,从字体上看,至少要有来、仿宋、楷体和黑体四种字体;从点阵规格上看,要求有离、中、低各种点阵字字模;从点阵制作上看,不同字体、字号、规格的点阵而不能一副一副地制作,这就要求提供无级缩放的全系列点阵,还要成倍地增加内存。为了节省存贮空间,满足汉字信息处理的需要,常常采用信息压缩技术,将汉字的点阵数据压缩后存于汉字库中或直接采用轮廓汉字库,可以获得高精度的汉字。但经压缩的数据在进行字形输出时,又需要先进行数据的还原操作。2、曲线轮廓字形描述就是笔画矢量汉字库,又分两类:一类是笔画组合成字的单线条矢量汉字库,即汉字字形描述的矢量技术;一类是笔画轮廓汉字库,即汉字字形描述的曲线轮廓技术(刘连元,1994)。这种技术将汉字字形看作平面几何图形,采用特定的数学曲线描绘汉字的笔画轮廓,从而得到整个汉字字形的曲线轮廓。与点阵字形描述相比,曲线轮廓字形描述有较大优点。不同规格的字形不需要分别描述。一个汉字只需要一条轮廓曲线,不同规格和不同字号的字形都是通过这一主轮廓曲线的变换得到。由于不同规格的字形不需要分别存贮,所以,字形库整体存贮量小。3.用字根组字的字根汉字库也叫部件汉字库。(二)汉字的输出经过计算机加工处理的汉字信息是以数据形式贮存在计算机内的,这种汉字信息只有通过输出系统处理后才能提供给人们。这一过程就是汉字输出。汉字输出系统包括汉字终端的输出设备、输出方式和汉字输出控制程序部分。所谓汉字终端是指具有汉字输入、汉字显示、汉字打印以及汉字屏幕编辑、文件管理等功能的终端设备,终端和主机之间都有一个通信接口。接口有两个意思:一、在硬件上是指在终端和主机之间有一条信息传输的通路,有近程、远程之分;二、在软件上是指软件规定的通信方式,如中断方式和询问方式等。汉字输出方式有显示、打印、语音合成和通信传输4种。不同的输出方式要借助不同的汉字输出设备来实现。运用汉字显示器,比如屏幕显示输出是一种最常见的方式。如想要保留输出的信息就必须采用打印或印刷设备,早期的打印机只是打字机的变种,利用电子信号控制刻有不同字模的金属小锤,通过色带打印在空白纸上,得到不同的字符。由于汉字的数量大大,这么复杂的机械设备用于汉字打印缺乏技术上的可行性乙后来发明了点阵打印机,小锤换成了一排极细的小针,因此可以在电子信号的控制下打印出许多极小的黑点,组成各种图形,包括汉字。这样,汉字打印就有了技术上的可行性。汉字语音合成输出装置进行语音输出是一种自然的直接的输出方法。还有用于汉字信息交换传输的通信接口等输出设备。第三节《汉字属性字典》的开发与应用一、系统概述1、作为电子辞典,具有容量大、查找快的特点,收集了现代汉字形、音、义及其应用的各种信息,可以从不同角度进行快速检索。2、具有多种功能,除了正字形、标注音、作释义之外,还增加了字音示范朗读、笔顺动态静态演示、部件拆分图示、古今文字演变图示、字理讲解,等等。声形共呈,动静相配,图文并茂,充分体现出多媒体的神奇魅力。3、严格遵从国家有关的规范标准,包括字级、字形、读音、部首、笔画数、笔顺、部件等多种规范。4、适应面宽,雅俗共赏。既能供中、小学生使用,又可供大专学生、文字工作者查阅;既能用于个人学习,又能用于课堂教学;既能作少儿识字、外国留学生学汉字的工具,又可供文字工作者进一步探索汉字的奥秘。5、为了帮助外国留学生学习汉字,本辞典每个页面的各个栏目都加有英文注释。二、本辞典的内容1、本辞典的内容包括三大部分:检字、正文和附录。2、检字。供查找7000个通用字和1681个备用字,还能查找通用字的繁体字、常见异体字、旧字形和二简字,以及备用字的繁体字。3、检字的渠道是多方面的,有输入汉字、拼音检字、笔画检字、部首检字,可根据你的习惯来选择。4、正文。收有《现代汉语通用字表》7000字及其属性和相关信息。包括字音字义、字形分析、部件图示、笔顺演示、字理讲解、词汇成语、字谜谚语,共7个页面。5、另外,还收集1681个备用字,即《现代汉语通用字表》以外的部分生僻字。只作简要的释义,字音仍有男女声示范朗读。三、本辞典的页面1、本辞典的页面,除片头和封面之外,可分为三组:检字、信息和其他。2、检字页面包括:拼音检字、笔画检字和部首检字,还有一个输入检字框。3、信息页面包括:字音字义、字形分析、部件图示、笔顺演示、字理讲解、词汇成语、字谜谚语,以及附录。以上各页面的内容,请看各页面的介绍。四、字形分析1、按该键钮之后,就会转到字形分析页面。本页面分别对7000通用字的规范字形和不规范字形逐一进行分折。2、提供该字规范字形的基本属性。含字级(分为常用、次常用、通用三级)、字频(据国家语委的统计)、结构、起笔和笔画数、部件和部件数、四角号码(第五位为附号)、五笔型码、部首(含《新华字典》、《现代汉语词典》、《汉语大字典》和《汉语统一部首表(草案)》4种部首),等等。3、并且分析该字的不规范字形。列出其繁体字、常见异体字、旧字形、二简字(指已经被撤销的《第二次汉字简化方案(草案)》中第一表所收的字)、音别字(指因音同或音近而写别的字)、形别字(指因形近而写别的字)、词语别字(指在词语中因形、音、义而写别的字)。4、此外还针对容易写错的字作字形说明,以辨析正误。由于错字往往因人而异,实在无法穷举。5、有的繁体字、异体字、旧字形的笔画比较多,为方便看五、部件图示1、对7000通用字进行部件分析,提供该字的结构、部件数、部件,以及部件拆分树形图。2、依据的文件是《信息处理用GB13000.1字符集汉字部件规范》。基础部件完全按照该部件规范;中间层次的拆分也遵循该规范中提出的“从形出发、尊重理据、立足现代、参考历史”的原则。目前有关中间层次的拆分,存在不少分歧,还有待进一步探讨。本辞典的拆分,虽作了探讨,并请教了有关专家,但难免有不妥之处。3、动态的演示采用电影慢镜头的方式,形象地表现了书写的过程。静态的图示以笔画为单位,各有一幅图,表示笔顺的先后。它们各有所长,互为补充。六、字理讲解1、对7000通用字的字理作扼要的讲解。2、讲解中按照“立足现代,参考历史”的原则。既遵循文字学的原理,又结合实际应用的需要,把造字的规律、字体的演变、简繁的对应、异体的变迁以及音义的流变,作扼要的交代。3、为配合字理的讲解,选取了一些甲骨文、金文、小篆、隶书、楷书(取广义概念,这里用宋体表示)的图示(无则缺之),以加深对汉字源流的理解。七、词汇成语1、现代汉字的使用,除了作为单音词使用之外,往往出现在双音词、多音词以及成语中。为了方便您用字组词造句,本页面特地提供含有该字的词汇和成语。2、这些词汇和成语,是从大量语料中挑选出来的,在11万条中只选了65858条,其中成语7036条。八、字谜谚语1、您会喜欢猜字谜和抄名言、谚语。的确它们有助于启发思路、加强修养,而且能提高对学习汉字的兴趣。为此,本页面收集了以该字为谜底的字谜和含有该字的名言和谚语,供您欣赏。字谜6349条,谚语和名言共9689条。第四节汉字语义属性——《汉字义类信息库》的研究与实现1.建立《汉字义类信息库》的基本思想1.1以目前现代汉语及汉语信息处理研究的权威理论与成果为指导,博采众长,描述“国标GB-2312”的6763个常用汉字读音、义项、同音、同形、语义类、词性、成词与否等信息,建立信息库。具体说以中国社会科学院语言研究所词典编辑室编、商务印书馆出版的96版的《现代汉语词典》字词的立条、注音、释义为基础,以梅家驹、竺一鸣、高蕴琦、殷鸿翔编,上海辞书出版社出版的83版的《同义词词林》的语义分类和归类为汉字语义类的基本框架和基本标准,以俞士汶等著、清华大学出版社出版的《现代汉语语法信息词典详解》的词类体系和词类标准为标注词性的基本体系和基本标准,并参考了《新华字典》、《辞源》、《辞海》、《反义词词林》《词汇语义学》(张志毅等著)、《现代汉语词汇》(符淮青著)、《汉语类义词典》等的立条、注音、释义、分类及语素与词的有关理论,根据实际情况确立字条、确立描述框架,集众家之长来完成这一工作。我们希望在先进理论的指导下把《汉字义类信息库》建成一个高质量、高水平的信息库。1.2人机两用的全新研究理念。《汉字义类信息库》的建立不仅要满足人学习、研究汉字的某些需要,而且要满足计算机进行汉字、汉语信息处理的某些需要,因此汉字义类信息库的建立不仅要适合于人读,而且要适合于机读,在信息库的收字立条、结构的设计、属性的确定、属性的描述及信息的存储等方面充分都考虑到“人机”两用的特点。我们殷切地希望《汉字义类信息库》能够成为汉语、汉字信息处理的有效资源。1.3以“字位”为描述的基点。“字位”这个概念是仿语音学的“音位”、词汇语义学的“义位”而确立的,是指特定的形、特定的音、特定的义相结合的形音义一体化的汉字。通俗地说,一个单音单义的汉字就是一个字位,一个多音多义的汉字就可以形成多个字位,比如“打”有两个读音“da3”“da2”,读“da3”时又有两个同音字,包括动词类的“打”和介词类的“打”,而在动词类的“打”里又有25个义项,这样,一个字形“打”就衍生出27个字位“打”。一个字位就是一个单音、单义的汉字。汉字的形音义之间的关系非常复杂,造成了大量的同形字、同音字、多义字,而在实际使用中一个特定的环境里,只可能有一个字位,这种情况为计算机语言信息处理带来了更多的排歧的困难。如果以字为基点进行描述,一则描述信息比较粗疏,实用价值不大,二则因为描述的对象本身复杂,描述可能无法进行。因此,我们选择了以字位为描述的基点,使描述的信息颗粒度更小,获得的知识更细致,更具有实用价值。2.《汉字义类信息库》收字、立条原则以96版的《现代汉语词典》的立条、注音、字义词义解释为基础,以“国标GB—2312”6763个常用汉字为基准收字、立条,具体原则如下。2.1一字一条的原则坚持一个字立一条,同形字、同形同音字、完全同义字都分别立条。“好坏”的“好”和“喜好”的“好”,同形但不同音,分别立条,记为“好A”“好B”;类似的还有“挨A、挨B,艾A、艾B”等。“别去”的“别”和“把花别上”的“别”同形同音,但不同义,是不同的字,分别立条,记为“别1”“别2”;类似的还有“艾1、艾2、艾3、艾4、艾5”等。“捱”义同“挨(aí)”,“案”其中一个义同“按”,“骜”义同“傲”,都单独立条,不因义同而合并为一个字条。2.2一义一条的原则如果这个字是一个实义的多义字,一个义项立一个条。比如:“搭”,《现代汉语词典》解释为7个义项:(1)支,架,比如“搭桥”;(2)把柔软的东西放在可以支架的东西上,比如“把东西搭在竹竿上”;(3)连接在一起,比如“两根电线搭上了”;(4)凑上、加上,比如“把这些钱搭上就够了”;(5)搭配,配合,比如“粗粮和细粮搭着吃”;(6)共同抬起,比如“书柜已经搭走了”;(7)乘、坐(飞机、汽车等),比如“搭轮船到上海”。我们将这些解释和其他词典进行对比,认为是准确合适的,就立为7个字条。少部分字的一些义项解释为“原指----,也指(或喻指)---”,“原指”与“也指”的意思差别较大,无法归入一类,也考虑将其各自单独立条;比如“祟:原指鬼怪或鬼怪害人(迷信),借指不正当的行动”。2.3义项(语法意义)与词性相结合的原则虚词与虚语素,没有词汇意义,只表示语法意义。一个字自成虚词或虚语素,如果词性不同,就单独立条;如果词性一致,所表示的语法意义不同,从现有语义分类体系中比较容易标注的也单独立条;如果词性一致,所表示的语法意义有所差别,并且有些语法意义从现有的分类体系不好归类时则考虑合为一个字条,不单独立条。比如“从2”,《现代汉语词典》解释为:(1)介词,起于,“从---”表示“拿---做起”,例如“从北京到上海”。(2)介词,表示经过,用在表示处所的词语前面,如“从窗缝里往外望”。(3)副词,从来,用在否定词前面,如“从没听说过”。“从2”的(1)(2)义项为介词,语法意义差别比较大,容易标注,(3)为副词,因此分别立条。“的(de)1”《现代汉语词典》的解释为:(1)助词((2)—(5)同),用在定语的后面。(2)用来构成没有中心语的“的”字结构。(3)用在谓语动词的后面,强调这动作的施事者或时间、地点、方式等。(4)用在陈述句末尾,表示肯定的语气。(5)用在两个同类的词或词组之后,表示“等等、之类”的意思。(6)用在两个数词中间,表示相乘、相加。义项(6)有实在的词汇意义,是实词,单独立条。义项(1)—(5)都是虚词,其中(4)是表示语气,是语气词,单独立为一个字条;其他四个都是助词,表示的语法意义有所差别,但标注起来并不容易,合并为一个字条。“多2”,《现代汉语词典》解释为:副词,(1)用在疑问句里,问程度,如“他多大年纪?”;(2)用在感叹句里,表示程度高,如“你看他老人家多有精神啊!”;(3)指某种程度,如“无论山有多高,路有多陡,他都走在前头。”义项(1)有“问程度”的意思,而(2)(3)都是指“程度”,故将(1)单独立为一条,而将(2)(3)合并为一条。关于虚词的语义分类,现有的分类体系不够全面,需要进一步研究,并对这一部分字进行重新立条归类,当然这一部分字毕竟比较少,不会影响全局,以后补做起来,也不会有太大的困难。2.4补充原则以上两条主要处理实词字、实语素字、虚词字和虚语素字,此外还有非语素字。非语素字即单独没有意义的字,如“葡”“萄”“咖”“啡”等,也同样立一个条。这些字形成词的功能比较单一,一般都是和另外一个或两个同性质的字合在一起代表一个语素或词。这样,这些字在进行语义归类时是按照他们所形成的词或语素的意义归类的。根据上述原则,我们将“国标GB-2123”的6763个常用汉字按同音、同形区别为8568个汉字、确立为17429个字条。3.《汉字义类信息库》属性信息的确立《汉字义类信息库》的建立主要是为人识读、研究汉字的语义和计算机语言信息处理中对汉语字词句的识别、理解、分析、合成建立基本资源。为此目的,信息库属性信息确立的总原则是:以汉字语义为中心,重点考察汉字的语义分类;围绕对汉字语义分类的区分,涉及到汉字的读音、同形、同音、词性、是否成词等方面的信息。具体确立的属性信息如下。3.1、语义分类信息语义分类信息是《汉字义类信息库》的核心信息。以梅家驹等人编的《同义词词林》的语义分类标准和框架为基础,根据实际情况有所增加。《同义词词林》在“以词义为主,兼顾词类,并充分注意题材的集中”(《同义词词林·自序》,P5页)的分类原则指导下,将汉语的字词分为具有层级体系三级类别,首先分出大类12个(用大写A、B、C---表示),各个大类内部又按词义之间的同义程度分出若干中类,12个大类共分出94个中类(在大类字母后用小写a、b、c---表示),各个中类内部进一步按词义的之间的同义程度分出小类,94个中类共分出1428个小类(大类、种类字母之后用数字01、02、03---表示)。这个分类标准和分类体系从它自身的分类、归类实践以及我们对汉字语义归类的实践来看是可行的。但在归类中,我们发现“天干地支”类、“有机物、无机物”类、“非金属元素”类、“八卦”类、“语法范畴”类、“词缀”类等六类字无法归入现有的类中,故增加了六个小类,按《同义词词林》的分类体系分别归入第三大类的第一中类、第二大类的第一中类、第二大类的第十三中类、第四大类的第九中类、第四大类的第十一中类、第十一大类第四中类中,分别标记为Ca32、Ba11、Bm19、Di27、DK33、Kd06。这样《汉字义类信息库》的语义分类体系就分为12大类、94中类、1434个小类(具体的分类及各类的代码见本文第六部分的“语义分类信息”和《同义词词林》)。在这个分类体系中从“大类”到“中类”再到“小类”体现的是字词语义的上下位关系,而每一类内部体现的是字词之间的同义或反义关系。在这种描述框架指导下,我们的《汉字义类信息库》实际上构筑了汉语字词的语义网络关系。3.2读音信息汉字是形音义一体化的文字符号,相同的字形读音不同所表示的意义就不同,比如“的”读“de”、“dì”和“dí”,“了”读“le”和“liǎo”意义就不相同。汉字的读音有区别意义的作用,也决定了所属的语义类、词类等,因此,有必要标注语音信息。3.3同音信息这里的同音信息不是指一般的同音字词,而是特指同形同音字词。这些字词形音完全相同,但意义毫无联系,语言学称其为同音词,字典、词典一般都单独立条。他们所属的语义类和词类也会有一定的差异。这一部分字为数不少,为了人和计算机能够对这种现象作出正确的区分,有必要描述这一信息。3.4同形信息有一部分字,字形相同,但字音、字义均不同。这一部分字就字本身来看,难以与同音同形字区别,因此描述这一信息,以示区别。3.5词性信息《汉字义类信息库》继承了《现代汉语语法信息词典》词的分类标准和词类体系以及词类标记。划分词类的标准是语法功能,词类体系及标记(括号内的大写字母为词类标记)如下:名词(N)、时间词(T)、方位词(F)、处所词(S)、动词(V)、形容词(A)、状态词(Z)、区别词(B)、副词(D)、代词(R)、数词(M)、量词(Q)、介词(P)、连词(C)、助词(U)、语气词(Y)、象声词(O)、叹词(E)。《汉字义类信息库》又有其特殊之处,因为我们收录的对象是字。字有的是词,有的不是词;有的在某些义项上是词,而在另一些义项上不是词;当其不是词时,又有能否单独表示意义的差别。能单独表示一定意义的是语素,不能单独表示意义的是非语素字。语素又可按照构词能力分为词根语素和词缀语素。词根语素根据在构词中的功能及其所表示的意义进一步分为若干类。词缀语素根据在构词中出现的位置又可分为前缀、后缀,根据所构成的词所属的词类又可分为名词词缀、动词词缀---等。对这些差异进行区分,也是《汉字义类信息库》关注的一个重点。根据以上分析及我们的《汉字义类信息库》的标注实践,又补充了以下类别及相应的标记。我们的指导思想是将以上多种差别用一套符号标记出来,各类别后括号里的符号为该类别的标记。名词语素(Ng)、时间词语素(Tg)、方位词语素(Fg)、代词语素(Rg)、数词语素(Mg)、动词语素(Vg)、形容词语素(Ag)、状态词语素(Zg)、区别词语素(Bg)、副词语素(Dg)、名词前缀(Nh)名词后缀(Nk)动词后缀(Vk)、形容词后缀(Ak)、方位词后缀(Fk)、副词后缀(Dk)、非语素字(X)、偏旁(L)。有些字主要作姓名、地名、山名、河流名等用,我们将“姓名”分为一类,标记为“Nr”;将地名、山名、河流名归为一类,标记为“Ns”。综合以上分析,本文所讲的词性信息实际上包含了词类、语素类、人名、地名等信息,共三个部分37类。3.6备注信息有些字是专门用于书面语的,比如:因(沿袭)、处(居住)、斯(这、此)、匡(帮助)等;有些字是专门用于口语的,比如:飞(挥发)、翻(翻脸)、炸(因愤怒而激烈发作)、吹(说大话)等;有些字是专门用于方言的,比如:匡(粗略计算)、诳(谎)、卧(使婴儿躺下)、卧(比喻人体所占的位置)等;有些字是文言保留,比如:行(路程)、俞(表示允许)、椁(套在棺材外的大棺材)、缟(白绢)、食(给别人吃)、将(带兵)等。这些书面语、方言、文言的字词使用的范围有限,是特殊一族,也要标注出来。有一部分字词是兼类的,比如“本”有一个意义“原来、本来”,比如“本色、本义、本不想去”,前两个是区别词语素的用法,后一个是副词的用法,属于两个功能性质不同的类,也应该标注出来。4.《汉字义类信息库》的结构及属性描述4.1《汉字义类信息库》的结构《汉字义类信息库》采用成熟的关系数据库结构(在access环境下实现),用简单明了的汉字、字母、数字描述各种属性信息,便于理解、识读。软件(access)容易学习、掌握,而且功能强大,不仅为信息的储存带来方便,而且便于各种信息的管理,比如修改、删除、添加以及信息的抽取、分类等。4.2《汉字义类信息库》属性字段及属性信息的描述以下“[]”中的是“字段名”,“<>”中的是“数据值类型”,“()”中的是“宽度”,其他文字表述是每个字的“属性信息描述”。[字]<文本>(2)填写相应的汉字。[拼音]<文本>(7)只有一个读音的不填,有两个或两个以上读音的一般是最常见的一个不填,其他的读音都填声韵调,其中阴平、阳平、上声、去声、轻声分别用1、2、3、4、5表示。比如:挨,读阴平的不填,读阳平的,在该字段中填“ai2”;的,读轻声的,该字段不填,读阳平和去声的,该字段分别填“di2、di4”。[同音]<文本>(2)同形同音字,一般按《现代汉语词典》的编号在该字段填1、2、3---,同时为了统计的方便,在“字”里也标上了1、2、3---比如:艾,读“ai4”时,《现代汉语词典》分列了艾1、艾2、艾3、艾4四个词条,那么在由这些字分立的字条的该字段中也相应地分别填了1、2、3、4[同形]<文本>(2)只同形不同音的字,在该字段填A、B、C---,同时为了统计方便在“字”里也标上了A、B、C---,比如“的”字,分别读“de5”“di2”“di4”,那么在各读音下所立的字条的该字段中相应地填了“A”“B”“C”。[义项]<文本>(50)用简单的汉语词句表述该字的意义,不求完备,只求与其他意义区别开来。比如:的,共立了五个字条,该字段分别填写了:助词,语气词,相加、相乘,的确,目的。非语素字,填由其形成的词或语素,比如“葡”“萄”的“义项”中都填“葡萄”。[大类]<文本>(2)填该字词所属的语义分类的大类的代码。比如:“语气词”的“的”填“K”,“助词”的“的”填“K”,“相加、相乘”的“的”填“H”,“的确”的“的”填“K”,“目的”的“的”填“D”。[中类]<文本>(2)填该字词所属的语义分类的中类的代码。比如:“语气词”的“的”填“d”,“助词”的“的”填“d”,“相加、相乘”的“的”填“j”,“的确”的“的”填“a”,“目的”的“的”填“b”。[小类]<文本>(2)填该字词所属的语义分类的小类的代码。比如:“语气词”的“的”填“03”,“助词”的“的”填“01”,“相加、相乘”的“的”填“29”,“的确”的“的”填“30”,“目的”的“的”填“05”。[词性]<文本>(2)填该字词的词性代码。比如:“语气词”的“的”填“Y”,“助词”的“的”填“U”,“相加、相乘”的“的”填“V”,“的确”的“的”填“Dg”,“目的”的“的”填“Ng”。[频率]<数字>填清华大学在一定的语料库中统计得到的频率。这个频率没有区分同音字、同形字以及多义字的各个意义。[备注]<文本>(2)方言字词填“方”,书面语字词填“书”,口语字词填“口”,文言保留的字词填“文”,兼类的字词填兼类的标记。5.字的归类以上说明了《汉字义类信息库》开发的一些基本原则。把按义项确立的17429个字条归入各个类实在是一件非常复杂的事,还有一些问题需要研究。5.1语素与词的分别区分词还是语素的标准是:自己独立成词的则是词,和别的语素合在一起构成词的,一律看作语素。汉语当中的一个字,特别是落实到字的每一个义项上来看是词还是语素按照这一标准可以解决绝大部分字词的归类问题,但也存在一些纠缠的现象。在一个义项里,有时用为词,有时作语素用,该如何处理?比如:“藏(cang2)”有一个义项是“躲藏、隐藏”,举例是(1)包藏(2)暗藏(3)他藏起来了。“薄”有一个义项是“轻微,少”,举例是(1)薄技(2)广种薄收(3)这份礼太薄。例(1)(2)里的“藏”和“薄”是语素,因为它们是构词成分;例(3)的“藏”和“薄”是词,因为它可以独立充当句子成分。对这类现象有三种处理办法:(1)定为语素,(2)定为词,(3)分开来,例(1)(2)的定为语素,例(3)的定为词。这三种办法都是有道理的。办法(1)的根据是现代汉语中有一类语素即“自由语素”,既可以独立成词,也可以作为语素构词;办法(2)的根据是现代汉语中有一类词叫基本词汇,它既本身是词,又可以作为语素构词;办法(3)是把两种情况分开来,区别对待;总的来说办法(3)更细致地描述了语言现象的差异,但这样的话就造成了比较多的兼类(此处的兼类是指兼语素和词两类)。处理这类现象我们坚持的原则是:当这个字和别的语素构成的词的词性和其原来的词性保持一致,并且也保留了它原有的意义时,将其定为词;否则,分开来,处理为兼类词(详细参看下节“词性的兼类”)。依据这一原则将上述的“藏”“薄”统一定为词,主要考虑三个方面:一是这些语素和词的功能类一致(都是动词类或形容词类的),而且由这些语素构成的词一般的语文词典和电子词典都会收录,将其定为语素,实际意义不大;二是从语言学的角度来看词可以保留原有的意义而降格去构词,这是普遍的,而且将其定为词,当作语素用时,可以理解为降格使用,也不妨碍意义的理解和句子的分析;而语素独立成词有比较多的限制,而且将其定为语素,当单独作词用时,不利于句子的分析。三是为了简洁、明了,如果兼类较多,会造成分析、理解上的麻烦。5.2词性的兼类以义项立条的《汉字义类信息库》里的字大多数只有一个词性,但也有很少一部分是兼类的。比如“本”的一个义项是“本来、原来,如(1)本意,(2)本色,(3)本不想去”;“别”有一个义项是“另外,如(1)别名,(2)别称,(3)别有一番滋味在心头”。以上两个字在前两个例子中作区别语素用,而在后一个例子中用作副词,这是两个功能性质不同的类,不能合为一个,必须分开来,这就出现了兼类。对这类现象,目前信息库中通过“备注”字段作兼类处理,但并没有分开来立条。以后考虑分开来立条,以解决兼类的问题,也使对于“字”的信息描述颗粒度更小。5.3语素的划类与归类语素的划类与归类是指语素“词性”的划分与确定。依据的标准是语素的意义和其所构成词的词性。一般来说依据语素的抽象意义来分类和归类,如果语素表示的是“人或

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论