




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1(52)3.5 文字的表示及处理文字的表示及处理2(52)1. ASCII1. ASCII码码 ASCIIASCII码,即美国标准信息交换码码,即美国标准信息交换码(American Standard Code for Information Interchange)(American Standard Code for Information Interchange),使用使用 个二进位对字符进行编码。个二进位对字符进行编码。一、西文字符编码一、西文字符编码3(52)v 基本的基本的ASCIIASCII字符集共有字符集共有个字符个字符 9595个可打印字符(常用字母、数字、标点符号)个可打
2、印字符(常用字母、数字、标点符号) 3333个控制字符(不可直接显示或打印)个控制字符(不可直接显示或打印)v 特殊字符的特殊字符的ASCIIASCII码码4(52)标准标准ASCII字符集及其码表字符集及其码表 b6 b5 b4 b3 b2 b1 b0 012345670 1 2 3 4 5 6 7 8 9 A B C D E Fb6b5b4b3b2b1b00 1 1 01 0 01 1 0 1 0 1 15(52)0123456789ABCDEF0123456789ABCDEF6(52) 每个字符用标准规定的每个字符用标准规定的7 7位二进制数表示,位二进制数表示,在机内占一个字节(最高位
3、为在机内占一个字节(最高位为0 0)。)。 如:如: 字符字符“A”A”的的ASCIIASCII码为:码为: 字符字符“0”0”的的ASCIIASCII码为:码为: 0 02 2 或或(48)(48)1010、(60)(60)8 8、(30)(30)16162 2 或或(65)(65)1010、(101)(101)8 8、(41)(41)16167(52)要求:要求: 1.1.会比较会比较ASCIIASCII字符的大小字符的大小(按其(按其ASCIIASCII码值)码值) 空格空格0 09 9A A Z Z a az z 2. 2.会推算同组字符会推算同组字符ASCIIASCII码值码值 如如
4、A A的的ASCIIASCII值(十进制)为值(十进制)为6565,则,则B B、C C 的的ASCIIASCII值分别为值分别为6666、67678(52)定义方式定义方式: : 用用8 8位二进制数位表示一个字符的扩位二进制数位表示一个字符的扩充充 二二- -十进制十进制 交换码交换码. .特点特点: : 每个字符对应一个字节,共每个字符对应一个字节,共256256种种说明说明: : 有很多编码没有使用有很多编码没有使用, ,保留做为扩充保留做为扩充910(52)(2 2)第二部分:一级常用汉字,共)第二部分:一级常用汉字,共37553755个,个, 按汉语拼音排列按汉语拼音排列(3 3)
5、第三部分:二级常用汉字,共)第三部分:二级常用汉字,共30083008个,个, 按偏旁部首排列按偏旁部首排列 汉字共汉字共67636763个个 字符共字符共74457445个个11(52)一级汉字一级汉字(3755个)个)二级汉字二级汉字(3008个)个)(扩充使用)(扩充使用)字母、数字和各种符号字母、数字和各种符号 19423位号位号 191655568794区区 号号(按汉语拼音排列按汉语拼音排列)(按偏旁部首排列按偏旁部首排列)拉丁字母、俄文、拉丁字母、俄文、日文平假名与片日文平假名与片假名、希腊字母、假名、希腊字母、汉语拼音等共汉语拼音等共682个个共共6763个汉字和个汉字和682
6、个符号,个符号,每个每个汉字或符号都有一汉字或符号都有一个确定位置,该位个确定位置,该位置的区号和位号就置的区号和位号就是这个汉字的是这个汉字的“区区位码位码”GB2312-80字符集字符集12(52)n 区位码区位码: GB2312-80GB2312-80是一个二维代码是一个二维代码表,有表,有9494行、行、9494列列, , 汉字在代码表中的汉字在代码表中的位置用它所处的行号、列号表示。位置用它所处的行号、列号表示。行号行号 区号区号列号列号 位号位号13(52)例如:例如: “ “大大”字的区号字的区号2020,位号,位号8383, 区位码是区位码是20 8320 83 用用2 2个字
7、节表示为:个字节表示为: 00010100 0101001100010100 0101001183列20行大14(52)国标交换码国标交换码 ( (国标码国标码):):信息通信中,汉字的区位码与通信信息通信中,汉字的区位码与通信使用的控制码(使用的控制码(00H00H1FH1FH)发生冲突。)发生冲突。为了避免汉字区位码与通信控为了避免汉字区位码与通信控制码的冲突,每个汉字的区号和位号必须制码的冲突,每个汉字的区号和位号必须分别加上分别加上3232。得到的代码称为汉字的。得到的代码称为汉字的“国国标交换码标交换码”15(52)16(52)n机内码:机内码:n问题问题:n解决方法解决方法:17(
8、52)例如:例如:“大大”字字 区位码区位码:20 83 20 83 二进制表示为:二进制表示为:00000 010100 0110100 010 01001110011 国标交换码国标交换码:52 115 52 115 (+32+32) 二进制表示为:二进制表示为:00001 110100 0110100 011 11001110011 :180 243180 243(+128+128) 二进制表示为:二进制表示为: 0 01 110100 10100 1 11 11001110011(B4F3B4F3)18(52)19(52)nGBKGBK编码区分三个部分编码区分三个部分: :汉字区汉字区
9、(2100321003个汉字)、个汉字)、图形符号区、用户自定义图形符号区、用户自定义区区 GBKGBK每一个字符都采用每一个字符都采用双字节双字节表示表示总体编码范围为:总体编码范围为:81814040H HH H,共,共2394023940个码位;个码位; 首字节范围:首字节范围:8181H HH H(二进制最高位为(二进制最高位为1 1);); 尾字节范围:尾字节范围:4040H HH H(二进制最高位可以为(二进制最高位可以为0 0或或1 1););GBKGBK汉字内码扩充规范汉字内码扩充规范20(52)n目的目的:统一的多文本处理环境:统一的多文本处理环境, ,实现所有字符实现所有字
10、符在同一字符集中统一编码在同一字符集中统一编码n途径途径:UCS:UCS:ISO/IEC 10646 (ISO/IEC 10646 (通用多通用多8 8位编码位编码字符集字符集) )UnicodeUnicode:统一码或联合码,与:统一码或联合码,与UCSUCS完全等完全等同的工业标准同的工业标准 n优点优点:编码空间极大(:编码空间极大(4 4个字节),能容纳足个字节),能容纳足够多的各种字符集(够多的各种字符集(1313亿字符)亿字符)21(52)22(52) GB18030-2000 GB18030-2000编码标准在编码标准在GB2312GB2312和和GBKGBK编码标准的基础上进行
11、了扩充,采用编码标准的基础上进行了扩充,采用单字节、双字节和四字节三种方式对字单字节、双字节和四字节三种方式对字符编码,因此该标准的汉字有符编码,因此该标准的汉字有2700027000多个。多个。包括全部中、日、韩统一字符集和包括全部中、日、韩统一字符集和CJKCJK汉汉字扩充的所有字符。字扩充的所有字符。23(52) BIG5 BIG5码是台湾、香港等地使用的汉字码是台湾、香港等地使用的汉字繁体的编码标准,它用双字节进行编码。繁体的编码标准,它用双字节进行编码。BIG5BIG5收录了收录了1346113461个汉字和符号。个汉字和符号。24(52)几种汉字编码的对比几种汉字编码的对比GBK0
12、0 FF00FF20902汉字00 FF00FF6763汉字GB231200 FF00FF27484汉字GB18030GB2312GBKGB18030UCS-2(Unicode)6763个个汉字汉字(简体简体字字)21003个个汉字(包括汉字(包括GB2312汉汉字在内)字在内)27 000多汉多汉字字(包括包括GBK汉字和汉字和CJK及其扩充中及其扩充中的汉字的汉字)2万多汉字万多汉字双字节存双字节存储和表示,储和表示,每个字节每个字节的最高位的最高位均为均为“1” 双字节存储双字节存储和表示,第和表示,第1个字节的个字节的最高位必为最高位必为“1”部分双字节、部分双字节、部分部分4字节字节
13、表示表示(UTF-8编编码码) 1字节、字节、2字节、字节、3字节等不等字节等不等长编码长编码编码不编码不兼容!兼容!保持向下兼容保持向下兼容25(52):通过键盘、手写笔或语音通过键盘、手写笔或语音输入方式输入字符输入方式输入字符:将纸介质上的文本通过识将纸介质上的文本通过识别技术自动转换为文字的编码别技术自动转换为文字的编码26(52)27(52)n 键盘输入编码键盘输入编码 : : 汉字字数很多,无法与键盘上的键汉字字数很多,无法与键盘上的键一一对应,因此必须使用一个或几个键来一一对应,因此必须使用一个或几个键来表示汉字,这就需要对汉字进行编码。表示汉字,这就需要对汉字进行编码。(1 1
14、)键盘输入)键盘输入28(52)n汉字输入编码的分类汉字输入编码的分类:如:智能如:智能ABC, ABC, 紫光拼音紫光拼音 缺点:同音字引起的重码多,需增加选缺点:同音字引起的重码多,需增加选择操作择操作:将汉字的字形分解归类而给出的将汉字的字形分解归类而给出的编码方法,重码少、输入速度较快,编码方法,重码少、输入速度较快, 如:五笔字形法和表形码等如:五笔字形法和表形码等 缺点:缺点: 编码规则不易掌握编码规则不易掌握29(52)n联机手写汉字识别系统构成联机手写汉字识别系统构成 n 输入输入 、预处理、特征提取、分类、后、预处理、特征提取、分类、后处理、输出处理、输出n需求的配件需求的配
15、件: : 专用的书写板和笔专用的书写板和笔(2)联机手写汉字识别)联机手写汉字识别(笔输入)(笔输入)30(52)n工作过程工作过程: : n例如例如: : 汉王笔汉王笔 正识率正识率 9595 9090,速度速度 1212字字/ /秒秒31(52)n 目的目的: :使计算机具有人的听觉使计算机具有人的听觉, ,是模式识别的是模式识别的分支分支n 语音识别的分类语音识别的分类(按照不同的应用及要求):(按照不同的应用及要求):n孤立词孤立词/ /连接词连接词/ /连续语音识别连续语音识别n小词汇量小词汇量/ /中词汇中词汇/ /大词汇量语音识别大词汇量语音识别n特定人特定人/ /限定人限定人/
16、 /非特定人语音识别非特定人语音识别n 最高目标:非特定人大词汇量的连续语音识最高目标:非特定人大词汇量的连续语音识别技术别技术(3 3)汉字语音识别)汉字语音识别32(52)n 脱机文字识别:对已经印刷或写完的文字脱机文字识别:对已经印刷或写完的文字进行识别进行识别, , 自动输入计算机并转换为数字文本自动输入计算机并转换为数字文本形式的一种技术,也叫做汉字形式的一种技术,也叫做汉字OCROCR(Optical Optical Character RecognitionCharacter Recognition)。)。n 分类分类: : 印刷体印刷体OCR OCR 和手写体和手写体OCROC
17、R(4 4)脱机文字识别)脱机文字识别33(52)汉字键盘输入方法的比较汉字键盘输入方法的比较类型类型原理原理举例举例优点优点缺点缺点数字数字编码编码使用一串数字来表示使用一串数字来表示汉字汉字电报码电报码区位码区位码仅使用仅使用10个数个数字键字键难记忆难记忆字音字音编码编码把汉语的拼音作为汉把汉语的拼音作为汉字的输入编码字的输入编码智能智能ABC紫光紫光微软拼音输入微软拼音输入简单易学,适简单易学,适合于非专业人合于非专业人员员重码多,需增加选择重码多,需增加选择操作,不会汉语拼音操作,不会汉语拼音或不知道读音时无法或不知道读音时无法使用使用字形字形编码编码把汉字的部件或笔画把汉字的部件或
18、笔画作为码元,按照汉字作为码元,按照汉字结构及其切分规则作结构及其切分规则作为编码依据,确定每为编码依据,确定每个汉字的输入代码个汉字的输入代码五笔字形五笔字形表形码表形码郑码郑码重码少、输入重码少、输入速度较快,适速度较快,适合于专业录入合于专业录入员、打字员使员、打字员使用用缺乏统一的规范,编缺乏统一的规范,编码规则不易掌握码规则不易掌握音形音形编码编码(或形音或形音编码编码)采用字音及字形两种采用字音及字形两种属性作为码元的汉字属性作为码元的汉字编码输入方法编码输入方法粤音输入法粤音输入法同上同上同时要掌握音、形两同时要掌握音、形两种取码方法或规则,种取码方法或规则,对普通用户比较困难对
19、普通用户比较困难34(52):输出机器内部的汉字编:输出机器内部的汉字编码码, ,需要根据汉字编码对应的汉字字型码进行解需要根据汉字编码对应的汉字字型码进行解释,生成映像,最后再传送到显示器或打印机释,生成映像,最后再传送到显示器或打印机输出。输出。 机内机内汉字编码汉字编码字型码字型码打印输出打印输出( (显示器显示器/ /打印机打印机) )35(52)n 汉字字型码汉字字型码: :用于汉字在显示器或者用于汉字在显示器或者打印机上输出打印机上输出. .n 汉字字型码表示形式分类汉字字型码表示形式分类:n点阵表示形式点阵表示形式n矢量表示形式矢量表示形式36(52) 轮廓描述轮廓描述轮廓点轮廓
20、点直线直线二次曲线二次曲线点阵描述点阵描述37(52)n 字型库字型库:简称字库,同一种字体的所有简称字库,同一种字体的所有字符字符( (例如例如GB2312GB2312中的中的70007000多字符多字符) )的形状描的形状描述信息的集合。不同的字体述信息的集合。不同的字体( (如宋体、仿宋、如宋体、仿宋、楷体、黑体等楷体、黑体等) )对应不同的字库。对应不同的字库。 38(52)n 文本编辑的主要功能(了解)文本编辑的主要功能(了解)n对字、词、句、段落进行添加、删除、修改对字、词、句、段落进行添加、删除、修改等操作等操作n字的处理:设置字体、字号、字的排列方向、字的处理:设置字体、字号、
21、字的排列方向、间距、颜色、效果等间距、颜色、效果等39(52)n段落的处理:设置行距、段间距、段缩进、段落的处理:设置行距、段间距、段缩进、对称方式等对称方式等n页面布局的处理:设置页边距、每页行列数、页面布局的处理:设置页边距、每页行列数、分栏、页眉、页脚等分栏、页眉、页脚等n “ “所见即所得所见即所得”(What You See Is What You What You See Is What You Get, Get, 简称简称WYSIWYGWYSIWYG)40(52)n文本处理内容:文本处理内容:n字数统计,字频统计,简字数统计,字频统计,简/ /繁体相互转换,繁体相互转换,汉字汉字
22、/ /拼音相互转换拼音相互转换n词语排序,词语错误检测,文句语法检查词语排序,词语错误检测,文句语法检查n自动分词,词频统计,词性标注,词义辨自动分词,词频统计,词性标注,词义辨识,大陆识,大陆/ /台湾术语转换台湾术语转换41(52)n文本压缩,文本加密,文本著作权保护文本压缩,文本加密,文本著作权保护n关键词提取,文摘自动生成,文本分类关键词提取,文摘自动生成,文本分类n文本检索(关键词检索、全文检索),文本过文本检索(关键词检索、全文检索),文本过滤滤n文语转换(语音合成),文种转换(机器翻译)文语转换(语音合成),文种转换(机器翻译)n篇章理解,自动问答,自动写作等篇章理解,自动问答,
23、自动写作等42(52)(1 1)面向通信的文本处理软件面向通信的文本处理软件 计算机网络上最普及的应用是用电子邮件进行通计算机网络上最普及的应用是用电子邮件进行通信。信。n典型软件典型软件:n 微软公司的微软公司的Outlook ExpressOutlook Express,具有文字的增、,具有文字的增、删、改以及字体、字号的设置功能,也可以设定一删、改以及字体、字号的设置功能,也可以设定一些简单的格式和插入一些图片。些简单的格式和插入一些图片。43(52)(2 2)面向办公的文本处理软件面向办公的文本处理软件n功能要求功能要求: 文本制作的高效率、高质量;软件面向文本制作的高效率、高质量;软
24、件面向非专业用户,易学好用;文本处理能力,既非专业用户,易学好用;文本处理能力,既功能丰富,又操作简单;排版功能。功能丰富,又操作简单;排版功能。n典型软件典型软件: MS-Office MS-Office、WPS2000WPS200044(52)(3 3)面向出版的文本处理软件面向出版的文本处理软件n排版软件的排版软件的主要功能主要功能: 将文字、图形和图像等合理地安排在页将文字、图形和图像等合理地安排在页面内面内, ,使版面符合专业排版要求。使版面符合专业排版要求。n典型排版软件典型排版软件:n方正集团公司的方正集团公司的“飞腾飞腾”排版软件排版软件n美国美国AdobeAdobe公司的公司
25、的PageMakerPageMaker和和PDF WriterPDF Writer45(52)(4 4)面向网络信息发布和电子出版的文本处理面向网络信息发布和电子出版的文本处理软件软件 将文本制作成网页发布到将文本制作成网页发布到internetinternet或作为或作为电子图书进行出版电子图书进行出版n 典型处理软件典型处理软件n面向网络信息发布的软件面向网络信息发布的软件 MS FontpageMS Fontpage、Word Word n面向电子出版的软件面向电子出版的软件 AdobeAdobe公司的公司的Acrobat PDFAcrobat PDF格式文件格式文件46(52)n 根据
26、根据制作文本的用途制作文本的用途分为分为n 纯文本纯文本 TXTTXTn 丰富格式文本丰富格式文本 RTFRTFn 根据根据软件的使用软件的使用不同不同 DOC DOC、PDFPDF、WPS WPS 等等47(52)n 纯文本纯文本:是由一连串的字符组成的,几乎不包含任:是由一连串的字符组成的,几乎不包含任何其他格式信息和结构信息。何其他格式信息和结构信息。n 特性特性:呈现为一种线性结构,文件体积小,阅读不:呈现为一种线性结构,文件体积小,阅读不受限制,几乎所有的文字处理软件都能识别和处理受限制,几乎所有的文字处理软件都能识别和处理, ,没没有字体、字号的变化,不能插入图片、表格等,不能有字
27、体、字号的变化,不能插入图片、表格等,不能建立超链接。建立超链接。u由一串用于表达正文内容的字符编码所组成,几乎不由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息包含任何其他的格式信息和结构信息(1 1)纯文本)纯文本.txt.txt48(52) 本本 书书 由由 南南 京京 大大 学学 出出 B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6 版版 社社 ( P u b l i s h i n g B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67 H o u s e o f N
28、a n j i n 20 48 6F 75 73 65 20 6F 66 20 4E 61 6E 6A 69 6E g U n i v e r s i t y ) 出出 版版 67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6 文文本本的的内内容容文文本本在在计计算算机机中中的的表表示示49(52)n 文本的格式化文本的格式化( (字型字型 字号字号 颜色颜色 ) )n 丰富格式文本丰富格式文本(rich textrich text、fancy textfancy text、formatted textformatted text)n RTFR
29、TF格式格式 ( (不同软件系统相互交互中间格式不同软件系统相互交互中间格式) )n 多媒体文档多媒体文档(Multimedia DocumentMultimedia Document)n插入图插入图 表表 公式公式 声音声音 视频视频 . . (2)丰富格式文本)丰富格式文本50(52) 使用使用HTML语言描述为:语言描述为: 本书由南京大学出版社本书由南京大学出版社(Publishing House of Nanjing University)出版出版用一对用一对指出的是标记,如指出的是标记,如 和和 等,用于说明排版的格式和文字等,用于说明排版的格式和文字属性,它们不属于正文内容属性,它们不属于正文内容正文内容正文内容51(52)(3) 超文本超文本n若干文本或文本中的各个部分可按照其内容的关若干文本或文本中的各个部分可按照其内容的关系互相链接起来,从而形成系互相链接起来,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 供应链中的质量控制与安全保障
- (一模)东北三省三校2025年高三第一次联合模拟考试 政治试卷(含答案)
- 药店市场营销策略
- 会议议程中的信息传达策略
- 信息技术在教育教学中的应用研究
- 2025年《磁铁》中班标准教案
- 企业财务报表数字化的必要性及实践
- 初中信息技术浙教版七年级下册:第2课 走进物联网-教学设计 2023-2024学年浙教版(2023)初中信息技术七年级下册木木木
- 锅炉租赁协议
- 土地购买合同范本
- 多层光栅结构的防伪技术研究
- 《国有企业采购操作规范》【2023修订版】
- 五年级语文下册第五单元【教材解读】-【单元先导课】
- DQ-厂房设施设计确认方案
- 常用中药饮片介绍PPT幻灯片
- 各国钢材牌号对照大全
- MSA-测量系统分析模板
- 屈原《国殇》课件
- 电机与变压器(第6版)PPT完整全套教学课件
- 休克病人的麻醉处理
- 中考数学计算题100道
评论
0/150
提交评论