项目三 汉字信息化处理_第1页
项目三 汉字信息化处理_第2页
项目三 汉字信息化处理_第3页
项目三 汉字信息化处理_第4页
项目三 汉字信息化处理_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目三汉字信息化处理一、什么是汉字信息处理

汉字的信息处理(Chinesecharacterinformationprocessing),指的是用电子计算机对汉字进行转换、传输、存贮、分析等加工过程。汉字信息处理与汉语信息处理共同组成中文信息处理。

中文信息处理是指用计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言信息处理的一个分支,是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相关联的边缘交叉性学科。信息处理技术在现代有广泛的应用,从上世纪八十年代开始,中文信息处理进入了快速发展阶段,并极大地提高了中文社会的信息处理效率。二、汉字信息处理过程(一)汉字信息处理过程的三个阶段1.汉字信息的输入2.汉字信息的处理3.汉字信息的输出(二)汉字信息处理的历史据统计,全世界使用汉字的人数约占世界总人口的36%。虽然汉字是世界上使用人数最多的文字之一,但早期的计算机是不能处理汉字信息的。拼音文字如英文,其单词可以由为数不多的字母通过不同的排列来构成。因此,用计算机来处理就比较简单。而表意文字如汉字,其构成词的符号是独立的。不但符号数量多,而且结构复杂,计算机处理起来就比较困难。

自20世纪60年代以来,日本、中国及其他一些国家相继开展了汉字信息处理的研究。1974年,我国将汉字信息处理研究课题“748工程”列为国家重点工程,研制汉字精密照排系统和汉字情报检索系统。20世纪70年代末到80年代初,我国在汉字基本属性、编码和存储、输入与输出设备和汉字应用系统等方面的研究取得了迅速的进展。尤其是激光精密照排系统已达到世界领先水平,微型机汉字信息处理技术进入了实用阶段,使我国计算机应用的深度和广度都向前迈进了一大步。

汉字的信息处理首先要求把汉字输人电子计算机。这一输入遇到了很大的困难。因为电子计算机是西方人发明的,应该说就是为了西文的处理而产生的。而西文,如电子计算机的创始国美国和英国使用的英文与汉字有较大的不同。

这种不同主要表现在汉字是一种独特的“方块字”上,这种方块字更接近于原始“绘画文字”的形态,它是由点、撇、横等各种“笔画”在平面上组合而成的,笔画在平面上的位置有重要的意义,同一笔画放在不同的位置上就组成不同的字,汉字的笔画间必须断开,“一笔画”写不出汉字(个别的除外),因此,只有在一个“面”上才能识别汉字。而拼音文字(如英文)则不然,其字母是可以“一笔画”写出的(个别的除外),因此在“线”上就能识别。此外,汉字的字型不变和具有表意性也是与拼音文字不同的。汉字还有一字多音和一音多字,一字多义和一义多字的特点,也是拼音文字所没有的。这为向适于输入、处理拼音文字的电子计算机输入汉字带来了困难。

要想把汉字输入适于输入英文的电子计算机,就要把汉字向西文字母或数字组合转化(这里指印度一阿拉伯数字,它们的输入也早已解决了)。这是什么原因呢?这是因为,在电子计算机中,机器所能识别的只有两种状态(最基本的如接通电路和断开电路),我们可用二进制数1和0来表示与此相对应的计算机能执行的机器“语言”,一种不断接通和断开的脉冲电流,就可以用1和0的序列来表示,因此,人们就把用1和0的序列的表述称为机器语言。最初的计算机使用人员的确就用这种机器语言为计算机编制程序。这是十分困难的工作。

为了更有效地编制程序,人们发明了程序设计语言,这样源程序就可以用这种语言编写——它们用英文字母和十进阿拉伯数字,而利用一种编译程序使机器能自动地把英文字母和十进制数字转变成机器语言,即0和1的序列,再由机器执行。为了快速输入英文字母、十进制数字和少量标点符号和运算符号,人们发明了“键盘”,前述每一个字母、符号设一个“键”,按键就输入了相应的字母或符号。

汉字的“方块”却不是由简单的字母构成的(这是拼音文字的特点),它有6万多个字,从字形上来看,虽然基本笔画也不太多,但由于笔画的位置有意义,所以一个同样的笔画放在不同的位置上应该有不同的意义,应算不同的部件,这样下来,“形”的构件就多达600余种,怎么把它们作为基本字母如英文那样作编译处理呢?这么多的字母,是既无法用二进制代码表达,又无法用键盘输入(600键的大盘),况且人们根本无法记忆和拆解这些“字母”。

三、汉字编码方案的设计

作为汉字编码的实践,最早的工作不仅远在码化理论提出之前,甚至远在电子计算机或电动式计算机产生之前。那是1880年,为了在中国应用电报,一位丹麦工程师发明了汉字的电报码,正是每个汉字4个数字,每个数字表示成不同的点划构成的。由于每个位置上的数字都有10种可能,所以4位数码可区分出1万个汉字,就日常生活来看基本够用。其具体做法是按某一汉语字典顺序顺次编排,与语音、笔画等都没有直接的关系,被称为“无理”编码。它只能死记硬背,效率较低,但重码率也较低,一个熟练的报务员,每分钟可输入130个汉字,因而,现在还有人用电报码在电子计算机上输入汉字。

1928年,中国出现了“四角号码”,它的一个问题是重码率太高。一部字典收入的8877个汉字中,一组码代表两个及两个以上汉字的比例达88%。1959年原苏联科学院研制“汉一俄”翻译机时,将四角号码原来规定的10种笔画增至15种,每个汉字用5位数,前4位表示汉字的四角笔画,末位数区分重码。1963年,美国IBM公司采用林语堂的“上下形检字法”,取汉字的左上角笔形和右下角笔形编码。1970年,江德耀对上述方案加以改进,确定34个“起笔”和22个“末笔”进行编码,重码字选择输入,此即首尾码,但输入速度较慢。

把字形拆开进行编码,以1961年杜定友的“字根研究”为较早的成果,他归纳出504个字根,可用来组成全部通用字,以此来编码。接着,胡立人等提出“三角编号法”,取每字三个角的笔形(字根)编码,字根定为300个,合并为99个部首,排在100键的键盘上,每字击3次键便可输入。此法后由美国王安公司购买使用。20世纪70年代末乐秀章发明一种类似的256键输入方案。杨联升提出“笔画字母”编码法,把所有的汉字分解成21种笔画,以求与拉丁字母对应,按汉字书写顺序输入,为不等长码。

形码发展的一个范例是王永民于1983年推出的“五笔字型”编码法,按起笔(5种)概括汉字“形”的字根。与此同时,王永民还提出汉字形码的有关理论,如“汉字字根组字频度表”和“汉字字根实用频度表”(1982),“形码设计三原理”和“汉字字根周期表”等,不仅把形码组字法推向高级阶段,而且在汉字基础理论上做出了开创性工作。五笔字型码获得极大成功,录入员的盲打速度可达200字/分。1987年,美国数字设备公司(DEC)购买了“五笔字型”专利,同年又获英国发明专利,在中文电脑打字机用户中有50%以上自主选用“五笔字型”编码。

峄山刻石

泰山刻石

在音码方面,人们也做了大量的研究,提出不少编码方案。1958年,中国颁布了《汉语拼音方案》,每个字有规定的读音,这对音码的编制特别有利。1965年周有光提出了《电报拼音化》音码,这是一个全拼音的编码,有很好的可读性,在1万字内没有重码。由于全拼,汉字字音有多至6个字母的,平均2.97个字母,因而输入时击键次数太多影响速度,后来广泛发展了各种双拼方案,即声母用一个字母,韵母用一个字母,多字母的用一个字母代替。最早提出双拼的是黎锦熙、唐艺等,后来扶良文、李金恺等设计的都是声韵双拼法。

汉字一字多音和一音多字情况相当严重,例如在1980年商务印书馆出版的《现代汉语词典》中,发bì(毕)音的字有65个,发shì(是)音的字有44个,因而要选择字,降低了效率。为解决这个问题,人们又设计了音形码,以音形互补,郭淑珍等人较早设计出音形码,后来亦有很大的发展。进而,人们又开展词语输入、联想功能等,都使汉字的输入更加容易。现在的各种编码方案已达700余种,常用的有“五笔字型”、“声数码”、"CW语词系统”、“前三末一法”、“拆声三码”、“自然码”、“五十字元法”、“双音码”、“大众码”、“二维

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论