已阅读5页,还剩47页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,中文信息处理技术原理与应用(一),北京信息工程学院计算机系 李宝安,2,第一章 中文信息处理技术概论,信息处理的实质 汉字编码的种类与中文信息处理过程中汉字编码的变换 中英文兼容技术 ASCII体系的汉字内码 Unicode与Unicode汉字 中文信息处理系统五层结构模型 中文信息处理技术发展概况,3,信息处理的实质,信息和信息技术 文字信息处理 中文的文字信息处理的特点,4,信息和信息技术,1信息 2信息技术,5,完备的控制系统模型或完备的信息过程,6,文字信息处理,在多元化的信息中,文字信息是一种最通用、最普遍的表示形式。 文本信息的特点是:易于传播,所需存储空间小。但是由于世界各国语言文字存在较大差异,交流的群体受到限制。 计算机从处理数据发展到处理文字信息,代表应用技术上的一个重大进展。 文字信息处理的应用范围非常广泛,从编辑文稿,建立文件档案资料,排版印刷,到行政管理,办公室自动化,凡是需要用文字表达信息的应用场合,都可以利用文字信息处理技术。 文字处理技术是一项多学科的交叉技术。 文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母或文字。,7,英文信息的处理,英文信息处理技术中,要考虑以下各种字母、数字和一些必须用的符号,它们是: A,B,C,,X,Y,Z,共26个字母,包括大写和小写形式,共52个。 0,1,2,9,共10个阿拉伯数字。 ,, ,!,?,,,共32个图形符号。 用于计算机动作控制的控制符号,共34个。 以上共计128个字母、数字、符号的总和,统称为字符。 美国国家标准局制订了美国国家标准信息交换码(英文缩写为ASCII。这是一种用七位二进制数表示的代码。七位二进制数共可作出128种编码(27=128),正好分配给总数为128个字符)。 国际标准组织(ISO)规定依据ASCII制定作为英文字符编码的国际标准,即ISO 646。 中国在1975年依据ISO 646制定的七单位字符的编码标准(代号为GB1988),其中除了个别货币符号有了改动外,其余内容完全相同。,8,文字信息处理的全过程 (大致包含如下三个环节),文字信息的输入 文字信息的处理 文字信息的输出,9,英文字符的点阵化表示,10,中文的文字信息处理的特点,中文是联合国六种工作语言之一,是中国56个民族所使用的主语言,也是世界上五分之一以上人口的主语言。 中文汉字是中国30种文字中使用最广的文字,方块汉字是其基本表现形式。 与英文相比较,中文的特点表现在字、词、语块、句子、句模和篇章等七个方面 。 中文字的特点:字多,形美,音少(不同的发音只有410余种,加上四声变化,总共1295种),义众,类难,序隐。,11,中文词的特点:定义糊-能够独立运用的有特定的音、形、义的最小句法单位(印欧语系中最小的句法单位是语素morpheme),词类混,切分难,词频集中,词长短,词义众,识别易,构成与复合便,组句活,词库多。 中文语块乃是能够自由造句的基本句法单位。 中文句的特点:切分难(句乃能独立交际的最小语法单位),句型(句法上的句子模式称”句型”)多,简练,重意合。 句模(句法上的句子模式称”句模”)的特点是数量不多(不足200个)。 中文篇章的特点:简练,文体众多。 中文与英文最大的不同在于中文表述较为节省:表现同样意思的中文节省,节省了词的分隔符、性、数、格、时态、形态等的变化,动词可省掉语句的安排,省音节。中文语序多为聚焦型,英语1/2为发散型。国内有一个观点,认为中文的特点可用3S表示:简(Simple)、短(Short)、直(Straight)。但又有三大问题:同音字太多,四声变化与南腔北调。,12,对汉字特点的更加详细的分析,汉字的主要特点是它属于象形文字,字量大,字形复杂,和西文国家广泛使用的拼音文字有显著的区别 西文的特点是用少数结构简单的字母用线性规则排列组成单词。汉字不仅构成的笔画多,而且它是一种二维结构的图形 汉字的字量大 由于汉字字量大,字形复杂的主要特点,使汉字输入技术成为中文信息处理上的一个主要难题。通过汉字编码方法输入、光学汉字识别(OCR)、汉语语音识别输入等几个途径 与结构简单的英文字符相比,点阵式汉字字模要求用较高的点阵密度来表示。最少的汉字字模点阵表示要求1516点,字形质量稍好些的要2424点阵以上 和字符的输出要求相比,输出汉字字形要求输出设备的分辨率较高,13,汉字编码的种类与中文信息处理过程中 汉字编码的变换,汉字键盘码 汉字交换码 汉字内部码 汉字字形码 汉字地址码 汉字控制码,14,汉字键盘码,利用汉字编码方法,从键盘上产生的汉字代码称为汉字键盘码。 若是用各种汉字编码方案产生的汉字键盘码,由于所用的码元数较少,每个汉字一般平均须击键3.54次以上,所得键盘码的码长度就大,而且一般情况下,不同汉字的键盘码是不定长的,信息冗余度也大,更有必要把它们压缩和译码,变换成二字节的汉字信息交换码,以便进入计算机系统。,15,汉字交换码,是一种用于系统间或计算机通信用的汉字信息交换码,它是中文信息处理技术的基础标准,有关它的来源及其和ASCII码的关系已在前面提及。 另外它也可采用近年来开始流行的Unicode(即通用单一编码或国际通用码)代码。关于Unicode与Unicode汉字代码将在1.5节详细介绍。,16,汉字内部码,由汉字交换码加上标识信息后形成,根据不同的使用环境和条件,汉字内部码的形式有多种,所以要有汉字内部码这一代码形式,是由中英文兼容技术要求所引起的。 同样,根据不同的标准,如GB2312-80或GB18030-2000、ISO10646、GB13000或Unicode工业标准,具体汉字的内部码可以有不同的代码定义,但目前公认,系统中汉字内部码一般采用流行的双字节代码形式。,17,汉字字形码,中文计算机系统中,存储在系统内的汉字字形信息提供汉字字形码。由它通过输出设备把汉字内部码转换成汉字字形输出。,18,汉字地址码,中文计算机中汉字字形信息一般存放在称为汉字字模库的存储器内。这一存储器实际上是一种单元号连续的存储介质,每个汉字字模存放在字库中某一确定的地址,这一地址信息就称为地址码。 输出汉字时,先要把汉字内部码变换成相应汉字的地址码,再由地址码射成该汉字的字形信息。,19,汉字控制码,在英文字符系统中,常用的控制符有34个,根据需要可以扩充。在中文系统中,为控制某些汉字设备的动作,若有必要,可以从扩充的控制符中加以定义,作为专用的控制符使用。,20,中文信息处理过程中汉字代码的变换流程,21,中英文兼容技术,出发点是完全保留并利用原来英文计算机系统的一切硬、软件功能。使系统能方便地处理中、英文混合的信息流。 为了达到中、英文信息兼容的目的,汉字的代码(即汉字信息交换码)要遵守英文、数字系统字符代码体系的数据格式。同时,要利用计算机原有的系统软件兼容中、英文两种代码,又要求系统能明确地区分两种代码,以便在信息输出时,系统能对两类信息在逻辑上区分开作分别的处理。 用二个ASCII交叉组合成汉字信息交换码 汉字信息进入系统后,应对汉字代码添加相应的标识信息。 自Microsoft Windows 95版以后,开始使用Unicode作为统一的英文数字字符和汉字字符的编码,经过这样的改进,对汉字信息处理来说,实质上跨上了一个全新的台阶。 不管哪一国的字符码均以两个Byte来表示(如采用UCS-2),22,小结:中文信息处理系统技术的特点和要求,要解决使计算机系统能输入和输出汉字信息。 要解决信息量很大的汉字字形在系统内的存储。 系统技术上,要解决中英文信息的兼容问题,要求系统能处理中、英文混合的信息流。 中文信息处理系统技术必须走和国际标准相兼容的道路,以便中文信息处理能共享原英文系统所开发的各种硬、软件资源。,23,ASCII体系的汉字内码,PC机上大多采用双字节编码体系,从双字节的内码体系看主要有下列几种方式: (1,0) -双高位置“1” (1,0) -第一字节高位置“1”,第二字节高位为“0” (1,1/0) -第一字节高位置“1”,第二字节高位为“1”或“0”,24,中国国内使用的汉字内码编码,25,各种内码体系与C1集的关系联系起来考虑可分为两大类,未占用C1区的模式 覆盖C1区的模式,26,未占用C1区的编码方式,CCDOS式(1,1) VAX/VMS(1,1/0) STONE打字机(1,0) UNIX使用的内码EUC(Extended UNIX Code),27,CCDOS式(1,1),28,VAX/VMS(1,1/0),29,STONE打字机(1,0),30,UNIX使用的内码EUC(Extended UNIX Code),31,内部EUC表示还包括空格、删除字符、两个控制字符集和未指定的代码 (EUC特殊控制字符的表示):,32,台湾的EUC,目前在台湾销售中文UNIX的厂商可分为三大类。一为UI集团的公司,如A&T、Sun Micro System UNISYS等,二为OSF集团的公司,如DEC、HP、IBM、NCR等,第三类为国内的公司,如大同、宏基、神通等。 UI集团公司的以System v为底的中文UNIX产品已上市,其中文内码都是资策会订的CHINIX(中文UNIX缩写)系统的EUC码。 OSF集团公司的OSF1中文UNIX产品尚未上市,而OSF台湾小组在90年11月23日决定用CHINIX系统的EUC码为未来OSF1.1版之中文内码。 国内厂商正式产品上市的神通、大同,它的中文UNIX也用CHINIX系统的EUC码。而宏基产品采用Big-5码。,33,CHINIX系统所订的EUC码的格式,及与CNS 11643的对照表,34,覆盖C1区的编码方式,SHIFTJIS式 IBM DBCSPC HITACHI B16 NEC PC9801(JH) SIEMENS AT,35,Super Set of Shift JIS方式在上述方式的基础上向左扩充到第一字节编码为21处。,36,TRON TAD 码 采用大空间连续编码,只避开C0集,全部覆盖C1集。,37,TCA 码 TCA码是台湾电脑商业同业公会推荐的中文内码标准,部分覆盖C1集,避开系统中常使用的控制字符,编码空间不连续。,38,Unicode与Unicode汉字,背景 替代标准 方法与状态 设计思想 Unicode字集 未来扩展与字符收录 代码赋值 Unicode汉字,39,背景,在Apple开创的Unicode项目,乃是力求改进Macintosh微机处理多语种文本的体系结构 Unicode提供一种统一的字符标识方法,这种方法比Macintosh文字体系更为有效和通用,还为所有文本的显示和编辑减少了对文字(即字型)专用软件的依赖性。 消除了为处理多重字符编码使用的专用系统和应用软件代码,从而加速了本土化的进程,并减少了对应用软件和系统软件的测试工作。 提供了更多的符合排版行业及办公室刊印质量要求的字符。 完整性应具有足以包罗一般性文本交换可能用到的全部字符的字位。 效率由一系列定长字符组成的普通文本具有极其有用的模式,易于从语法上分析,即易于确定字符,软件不必保持其状态(maintain state),也不必寻找特殊的换码序列或前后搜索文本。 首次发布的Unicode包含世界上所有主要文字的近25,000字符,这对现代通讯是绰绰有余的,其中有由中国、日本、朝鲜及台湾工业标准规定的大约18,000个独特汉字,包括许多经典语言,如希腊、希伯莱、拉丁、巴利、梵文,以及有学向的非专业人员所裔的书面汉语。根据需要还将增加楔形文字、北欧古字、甲骨文之类的古老文字,以及在比较专门性研究中使用的附加汉字 。,40,替代标准,由于不想花费重复的劳动,Unicode组织考虑了其他一些公司和国际标准机构在开发通用字符代码集方面的所作的努力。当时具有代表性的是一种通用多字节字符编码标准,即ISO DP 10646。 Unicode与ISO DP 10646的主要区别是:后者旨在最大限度地提高现有产品的传送性,而Unicode则能对现有和未来产品作为一种有效的16位内部处理代码。 DP 10646的核心是其2字节的“基本多文种平面”(Basic Multilingual PlaneBMP)。 16位的编码空间本可以支持65,536个字符,而DP 10646的设计结果却只能用其“基本多文种平面”提供17,600左右的独特字代码。因为这个数量对于一般多文种处理是不够的,所以DP10646需要32位编码,与此同时要求8、16、24位的选择子集的不同方法,以及存取这些子集范围以外的字符的移位(shift)序列。,41,方法与状态,来自Apple和Xerox的两个工程技术队伍曾十分积极地致力于多文种操作系统领域的研究,并且认识到他们各自的字符编码方法能够显著地加以改进,二者在共同努力下提出了原始的Unicode构想。 不久,Apple和Xerox便成为一个非正式国际团体的成员,其他公司包括Claris、IBM、Metaphor、Microsoft、NeXT、Sun Microsystems、the Research Libraries Group等等。这种合作使得大家从其他公司在不同领域的贡献中获得了益处,并为今后增加了直接交往的机会。 Unicode草案1(Unicode Draft 1)颁布于1989年9月,它包含初步的字符集。 Unicode草案2是在1990年4月颁布的,它确定了除汉字之外的全部字集和代码。Unicode草案2包括字母文字、1,000个符号、18,000个中文、日文及朝鲜文中使用的汉字字符,以及多达4,096个用户字符空间。 Unicode版本10最后确定了汉字集及代码,并在1990年秋季完工。其他字符增补在后继的Unicode版本之中。 Unicode组织获得了ANSI X3L2委员会的批准,该委员会是美国负责ISO 10646的全国性机构。并把Unicode的主要原则写入10646(文件号X3L289195:“ISO DP 10646修改提议”)。ANSI支持这项提议的基本动机是要避免两个独立的多字节标准。不过,在国际上至今尚未接受这种更改。,42,设计思想,字符集的开发包含两个步骤:选择收入到集内的所有字符,然后给这些字符赋以代码。 Unicode字符是固定的16位标识符,主要(而不是排他性地)代表组成自然语言文本的字母、标点和其他符号,文本涉及外语、数学、科学及其他技术性文件中的字符。 在分配字符代码时,切不要把我们在显示屏上看到的图符A与存贮器中的字符A相混淆。然而为了方便起见,Unicode通常选用单个字形来显现代码表中的字符。 Unicode仅仅处理字符代码(为系统内部处理代码),而字形和字形标识码的赋值则是各个字模商或象AFII(Association for Font Information Interchange)正在研究的字形标识码标准的责任。,43,Unicode字集,定长的16位编码。 全编码。 完备编码。 保持基本特色。 对Unicode与其他形式的数据(ASCII、图片等)的区分,Unicode本身对此不作规定。 Unicode允许动态的重音组合形式和静态的组合形式。 Unicode限制自然语言字母的字符代码数量。 Unicode支持从其它文字借用字母。 具有专门用途的明显变体被赋以单独的字符代码。 Unicode不给中文、日文和韩文中使用的汉字分别指定单独的代码。 Unicode仅仅为了与现用标准保持一致才提供象IJ之类的字母组合。,44,未来扩展与字符收录,在首次实现Unicode之时,Unicode成员尽可能详尽地为选定文字所需的全部字符分配代码。有些文字尚未增补,而随着各个国家标准中字符的补充,其它一些文字(尤其是汉字)必将需要新的字符。 所选的符号主要代表目前在计算机系统中常用的或在标准中找到的符号。 我们不认为这些符号集是齐全的,而是希望把大多数未用符号的代码分配在用户的未用空间。 Unicode的创立公司现在正致力于成立一个国际团体,从而管理字符收录,推广Unicode统一代码,并且提供与Unicode有关的软件和服务。,45,代码赋值,Unicode分为5个区:字母和其他字符集比较小的文字;符号;用户字符;中文、日文和韩文的辅助字符区及汉字区。 字母区包括字母或拼音文字,诸如罗马、西里尔、希腊、阿拉伯、梵文、泰文等。 符号区包含标点、数学、化学、段落起始等方面所用的多种符号。 用户区大约有4,000个码点(code points),用来定义用户或销售商的专用图形符号。 中文、日文及韩文辅助字符包括标点、符号、假名、注音符号及单个和复合韩文汉字。 汉字子集提供44,000以上的通用于中文、日文和韩文的标识字符。 Unicode
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论