多用编码在汉字输入中的应用研究_第1页
多用编码在汉字输入中的应用研究_第2页
多用编码在汉字输入中的应用研究_第3页
多用编码在汉字输入中的应用研究_第4页
多用编码在汉字输入中的应用研究_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、新型邵氏多用编码在中文信息处理中的应用研究 潘虎林 ( 甘肃省秦安县生产力促进中心秦安 741600) 内容提要: 关键字:计算机 汉字 编码 输入 信息化是当今世界的发展潮流,是国家社会发展的趋 势。信息化水平已经成为衡量一个国家现代化水平和综合国 力的重要指标。汉字也是字符,与西文字符比较,汉字数量 大,字形复杂, 同音字多, 这就给汉字在计算机内部的存储、 传输、交换、输入、输出等信息处理带来了一系列的问题。 为了能直接使用西文标准键盘输入汉字,必须为汉字设计相 应的编码,以适应计算机处理汉字的需要。近三十年来,在 众多编码人的共同努力下,汉字编码领域已是百花齐放。可 是汉字输入仍然是制

2、约中国人进入计算机领域的难题,仍然 是我国信息化建设的瓶颈之一。邵氏多用编码是 Code for 1 计算机常用中文编码的种类 1.1 机 内 码 ASCII ( American Standard Information Interchange 美国信息互换标准代码) 是基于 罗马字母表的一套电脑编码系统,它主要用于显示现代英语 和其他西欧语言。它是现今最通用的单字节编码系统,并等 同于国际标准 ISO 646。包含控制字符、 可显示字符和 ASCII 扩展字符集扩展在计算机的存储单元中, ASCII 码值占 7 个字节 (8 个二进制位 ) ,其最高位 (b7) 用作奇偶校验位。 1.2

3、国标码 GB2312 字符集 121 又称为 GB2312-80 字符集,全称为信息交换 用汉字编码字符集基本集 ,由原中国国家标准总局发布, 1981 年 5 月 1 日实施,是中国国家标准的简体中文字符集。 它所收录的汉字已经覆盖 99.75%的使用频率, 基本满足了汉 字的计算机处理需要。在中国大陆和新加坡获广泛使用。 GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、 日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音 字母,共 7445 个图形字符。其中包括 6763 个汉字,其中 级汉字 3755 个,二级汉字 3008 个。 GB2312 中对所收汉字 进行了“分区”处

4、理,每区含有 94个汉字 /符号。这种表示 方式也称为区位码。它是用双字节表示的,两个字节中前面 的字节为第一字节,后面的字节为第二字节。 口. 号, 1.2 . 2 GBK字符集是 GB2312的扩展(K) , GBK1.0收录 了 21886 个符号,它分为汉字区和图形符号区,汉字区包括 21003个字符。GBK字符集主要扩展了繁体中文字的支持。 1.2 . 3 GB18030的全称是 GB18030-2000信息交换用 汉字编码字符集基本集的扩充 ,是我国政府于 2000 年 3 月 17 日发布的新的汉字编码国家标准, 2001 年 8 月 31 日后在 中国市场上发布的软件必须符合本

5、标准。 GB18030 字符集标 准的出台经过广泛参与和论证,来自国内外知名信息技术行 业的公司,信息产业部和原国家质量技术监督局联合实施。 GB18030 字符集标准解决汉字、日文假名、朝鲜语和中国少 数民族文字组成的大字符集计算机编码问题。该标准的字符 总编码空间超过 150 万个编码位,收录了 27484 个汉字,覆 盖中文、 日文、朝鲜语和中国少数民族文字。 满足中国大陆、 香港、台湾、日本和韩国等东亚地区信息交换多文种、大字 量、多用途、统一编码格式的要求。并且与 Unicode 3.0 版 本兼容,填补Unicode扩展字符字汇“统一汉字扩展A”的 内容。并且与以前的国家字符编码标

6、准(GB2312, GB13000.1) 兼容。 GB18030 标准采用单字节、双字节和四字节三种方式对 字符编码。 13 Big5 又称大五码,主要为香港与台湾使用,即是一个 繁体字编码。每个汉字由两个字节构成,第一个字节的范围 从0X81 0XFE (即卩129-255 ),共126种。第二个字节的范 围不连续,分别为 0X40 0X7E(即 64-126 ), 0XA1- 0XFE(即 161-254 ),共 157 种。 1.4 统一码Unicode字符集 统一码是由 Unicode 学术学会( Unicode Consortium ) 制定的字符编码系统。 Unicode 学术学会

7、的成员主要是电脑 软硬件厂 商。 Unicode 与 ISO 有紧密的合作, Unicode 可以 被看作是 ISO10646 的实践版。因此,支持 Unicode 的产品 也支持 ISO10646。 把上面概述的几种通用标准中文输入法的实现过程及 方法是中文信息处理正在使用的内码,各种应用层面的汉字 编码方案及其应用软件都是中文处理的外码。 汉字作为世界上最长寿的图形文字,则有形、音、义三 个属性,简称 0 性” 1 。人们可以从汉字的三种属性 中,选择一种或同时选择几种,为汉字编码。根据选用的汉 字属性不同,就形成了以下不同类型的汉字输入法。常用的 汉字输入方法有拼音类(微软拼音、智能狂拼、智能ABC等)、 形码类(万能汉字输入、二笔码、自然码、汉王等)和五笔 字形类(万能五笔、王码五笔、极品五笔、智能五笔等) 新型邵氏多用编码在汉字输入法中是形码类。由于它具有规 范、易学、高效、通用四项优势,汉字编码必须符合被知识 产权局授予专利,专利号为: 该编码解决了 学字、查字、打字、用字相结合的难题,简繁体汉字输入统 方案,同一键盘布局, 分适合中、外汉字输入。 2 新型邵氏多用编码(外码)的汉字编码依据及方法 汉字输入流程图 多用编码字件 编码依据 取码方法 单字取码方法 词组取码方法 高频字与调整码

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论