版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上节主要内容正数的原码、反码和补码都相同负数的最高符号位均为1[x]补=[x]反+1补码的减法运算可以转换成加法0的补码唯一补码表示范围大二进制浮点数→十进制:划分、移位、转换书P40
二(4)0
110
1
10001011100阶码尾数符号位
=(-29.125)10
(-0.01110100100)2×2
(110)2=(-11101.00100)2
将-50.625表示成二进制浮点数的形式。(前6位阶码,10位尾数,均为补码形式)
=(-0.110010101)2
×2
(110)2
(-50.625)10=(-110010.101)2
0
00110
1
110010101阶码尾数符号位2.5
文字的表示及处理要考虑的问题
字母“A”是如何显示在屏幕上的?汉字“一”又是如何显示在屏幕上的?文字与字符
西文字符的编码汉字字符的编码输入码机内码内存字形码机内码打印机显示器西文字符的编码
ASCII码
EBCDIC码ASCII码
美国标准信息交换码:使用7个二进位对字符进行编码
ASCII字符集共有128个字符
95个可打印字符(常用字母、数字、标点符号等)
33个控制字符
标准ASCII字符集及其码表b6b5b4b3b2b1b0
012345670123456789ABCDEFb6b5b4b3b2b1b001101001101011ASCII码每个字符用标准规定的7位二进制数表示,在机内则占一个字节(最高位为0)。
要求:1)会比较ASCII字符的大小空格<0~9<A~Z<a~z2)会推算同组字符ASCII码值如A的ASCII值(十进制)为65,则B、C…的ASCII值分别为66、67…EBCDIC码用8位二进制数位表示一个字符
说明:有很多编码没有使用,保留做为扩充文字与字符
西文字符的编码
汉字字符的编码常用的汉字编码字符集
国家标准GB2312
汉字扩充规范GBK
国家标准GB18030
台湾地区的标准汉字字符集CNS11643(BIG5,俗称“大五码”)
日本工业标准汉字字符集JISX0208-90
韩国国家标准汉字字符集KSC5601-87GB2312-80汉字编码◆第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号)◆第二部分:一级常用汉字,共3755个, 按汉语拼音排列◆第三部分:二级常用字,共3008个, 按偏旁部首排列汉字6763所有字符7445
◆区位码:GB2312-80是一个二维代码表,有94行、94列,汉字在代码表中的位置用它所处的行号、列号表示
◆例如:“大”字的区号20,位号83,区位码是2083
用2个字节表示为:0001010001010011GB2312-80汉字编码一级汉字(3755个)二级汉字(3008个)(扩充使用)位号:
………………19423字母、数字和各种符号
…………区号:191655568794GB2312-80汉字编码GB2312-80字符集
问题:信息通信中,汉字的区位码与通信使用的控制码(00H~1FH)发生冲突。
解决方案:每个汉字的区号和位号必须分别加上32。得到的代码称为汉字的“国标交换码”例如:“大”字的区号20,位号83
区位码2083的二进制表示为:0001010001010011国标交换码52115
二进制表示为0011010001110011GB2312-80汉字编码问题:文本中的汉字与西文字符经常是混合在一起使用的,汉字信息如不予以特别的标识,它与单字节的标准ASCII码就会混淆不清解决方法:使表示GB2312汉字的两个字节的最高位都置为“1”。这种汉字编码,称为GB2312汉字的“机内码”
GB2312-80汉字编码机内码例如:“大”字区位码:2083 二进制表示为:0001010001010011国标交换码:52115(+32)
二进制表示为:0011010001110011机内码:182243 (+128)
二进制表示为:1011010011110011(B4F3)区位码+32=国标码国标码+128=机内码区位码、国标码、机内码之间的转换区位码+32=国标码国标码+128=机内码(十进制)区位码+20H=国标码国标码+80H=机内码区位码+160=机内码区位码+A0H=机内码(十六进制)◆问题:GB2312-80只有6763个汉字,使用时功能不够。◆解决方法:1995年发布GBK,全称为《汉字内码扩展规范》GBK字符集中一共有21003个汉字和883个图形符号,它与GB2312国标汉字字符集及其内码保持兼容。◆组成:共收入21886个汉字和图形符号(21003个汉字,883个图形符号)GBK汉字内码扩充规范GBK汉字内码扩充规范◆
GBK编码区分三个部分:汉字区GBK/2:GB2312中的全部汉字;GBK/3:CJK汉字6080个;GBK/4:CJK汉字和增补汉字8160个;图形符号区GBK/1:收录GB2312-80符号和其他一些增补符号GBK/5:扩充符号用户自定义区GBK空白区域,用户可以自行定义字符
首字节尾字节00407EA1 FE0081FEGBK/3GBK/4
GBK/2GBK/5GBK/1GB2312图形符号GB2312汉字代码空间(6763个汉字)A0AAGBK/1B0F7GBK汉字内码扩充规范UCS/Unicode汉字编码目的:统一的多文本处理环境,实现所有字符在同一字符集中统一编码途径:UCS:ISO/IEC10646(通用多8位编码字符集)
Unicode:统一码或联合码,与UCS完全等同的工业标准优点:编码空间极大,能容纳足够多的各种字符集(13亿字符)缺点:4字节的字符编码使存储空间浪费严重克服:UCS-2是双字节编码,共有字符49194个,其中包括:欧洲及中东地区使用的拉丁字母、音节文字各种标点符号、数学符号、技术符号、几何形状、箭头及其他符号中、日、韩(CJK)统一编码的汉字GB18030-2000汉字编码标准
目的:与GB2312和GBK兼容,向UCS/Unicode过渡
内容:信息交换用的基本图形字符及二进制表,同时收录了主要的少数民族文字
编码方式:单字节/双字节/四字节码位数160多万几种汉字编码的对比GBK00FF00FF20902汉字00FF00FF6763汉字GB231200FF00FF27484汉字GB18030GB2312GBKGB18030UCS-2(Unicode)6763个汉字(简体字)21003个汉字(包括GB2312汉字在内)27000多汉字(包括GBK汉字和CJK及其扩充中的汉字)2万多汉字双字节存储和表示,每个字节的最高位均为“1”双字节存储和表示,第1个字节的最高位必为“1”部分双字节、部分4字节表示(UTF-8编码)1字节、2字节、3字节等不等长编码编码不兼容!保持向下兼容文字的表示及处理BIG5编码使用范围:中国台湾,香港地区的繁体汉字编码标准特征: 第一个字节的值在A0H~FEH
第二个字节的值在40H~7EHA1H~FEH收录内容:13461个汉字和符号符号408个常用汉字5401个次常用汉字7652个上节内容回顾1.字符的输入、处理和输出分别对应于不同的编码:
输入码机内码字形码A01000001大1011010011110011上节内容回顾2.英文字符的ASCII码用位二进制表示,其中最高位为,共能表示个不同的英文字符。3.对于同一英文字符,小写字符的ASCII码比其大写字符的ASCII码。如果字符A的ASCII码为65,那么字符a的ASCII码为4.一个汉字至少用个字节表示。80128大32972上节内容回顾5.在GB2312编码中,区位码、国标码和机内码之间的关系为:6.如果“大”的区位码为2083,那么它的机内码为区位码+=国标码国标码+=机内码区位码+=机内码32128160180243几种汉字编码的对比GBK00FF00FF20902汉字00FF00FF6763汉字GB231200FF00FF27484汉字GB18030GB2312GBKGB18030UCS-2(Unicode)6763个汉字(简体字)21003个汉字(包括GB2312汉字在内)27000多汉字(包括GBK汉字和CJK及其扩充中的汉字)2万多汉字双字节存储和表示,每个字节的最高位均为“1”双字节存储和表示,第1个字节的最高位必为“1”部分双字节、部分4字节表示(UTF-8编码)1字节、2字节、3字节等不等长编码编码不兼容!保持向下兼容文字的表示及处理
人工输入:通过键盘、手写笔或语音输入方式输入字符
自动输入:将纸介质上的文本通过识别技术自动转换为文字的编码三、汉字的输入输出1.汉字输入文字的表示及处理文本信息的输入人工输入自动识别输入键盘输入联机手写输入语音输入印刷体识别手写体识别文字的表示及处理键盘输入编码:
汉字字数很多,无法与键盘上的键一一对应,因此必须使用一个或几个键来表示汉字,这就需要对汉字进行编码。(1)键盘输入文字的表示及处理汉字输入编码的分类拼音编码:如:智能ABC,紫光拼音缺点:同音字引起的重码多,需增加选择操作字形编码:将汉字的字形分解归类而给出的编码方法,重码少、输入速度较快,如:五笔字形法和表形码等缺点:编码规则不易掌握文字的表示及处理联机手写汉字识别系统构成
输入、预处理、特征提取、分类、后处理、输出需求的配件:专用的书写板和笔(2)联机手写汉字识别(笔输入)文字的表示及处理工作过程:
在书写板上书写,书写板将笔尖的运动按时间采样,发送到计算机中,由软件进行识别,然后用该汉字(或符号)对应的代码进行保存。例如:汉王笔正识率95℅~90℅,速度12字/秒文字的表示及处理
目的:使计算机具有人的听觉,是模式识别的分支语音识别的分类(按照不同的应用及要求):孤立词/连接词/连续语音识别小词汇量/中词汇/大词汇量语音识别特定人/限定人/非特定人语音识别最高目标:非特定人大词汇量的连续语音识别技术(3)汉字语音识别文字的表示及处理
脱机文字识别:对已经印刷或写完的文字进行识别,自动输入计算机并转换为数字文本形式的一种技术,也叫做汉字OCR(OpticalCharacterRecognition)。分类:印刷体OCR和手写体OCR(4)脱机文字识别文字的表示及处理
汉字的输出过程:输出机器内部的汉字编码,需要根据汉字编码对应的汉字字型码进行解释,生成映像,最后再传送到显示器或打印机输出。机内汉字编码字型码打印输出(显示器/打印机)2.汉字输出文字的表示及处理
汉字字型码:用于汉字在显示器或者打印机上输出.
汉字字型码表示形式分类:点阵表示形式矢量表示形式文字的表示及处理汉字字型表示形式:汉字字型码用点阵表示16*16(占32个字节)、24*24、48*48等汉字矢量表示存储描述汉字轮廓特征的信息。如:Windows中TrueType技术即为该表示形式。轮廓描述轮廓点直线二次曲线点阵描述文字的表示及处理
字型库:简称字库,同一种字体的所有字符(例如GB2312中的7000多字符)的形状描述信息的集合。不同的字体(如宋体、仿宋、楷体、黑体等)对应不同的字库。
文字的表示及处理
文本编辑的主要功能(了解)对字、词、句、段落进行添加、删除、修改等操作字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等三、文本编辑1.文本的编辑文字的表示及处理段落的处理:设置行距、段间距、段缩进、对称方式等页面布局的处理:设置页边距、每页行列数、分栏、页眉、页脚等“所见即所得”(WhatYouSeeIsWhatYouGet,简称WYSIWYG)文字的表示及处理文本处理内容(了解):字数统计,字频统计,简/繁体相互转换,汉字/拼音相互转换词语排序,词语错误检测,文句语法检查自动分词,词频统计,词性标注,词义辨识,大陆/台湾术语转换2.文本的处理文字的表示及处理文本压缩,文本加密,文本著作权保护关键词提取,文摘自动生成,文本分类文本检索(关键词检索、全文检索),文本过滤文语转换(语音合成),文种转换(机器翻译)篇章理解,自动问答,自动写作等2.文本的处理文字的表示及处理(1)面向通信的文本处理软件 计算机网络上最普及的应用是用电子邮件进行通信。典型软件:微软公司的OutlookExpress,具有文字的增、删、改以及字体、字号的设置功能,也可以设定一些简单的格式和插入一些图片。3.常用文本处理软件文字的表示及处理(2)面向办公的文本处理软件功能要求:文本制作的高效率、高质量;软件面向非专业用户,易学好用;文本处理能力,既功能丰富,又操作简单;排版功能。典型软件:MS-Office、WPS2000文字的表示及处理(3)面向出版的文本处理软件排版软件的主要功能: 将文字、图形和图像等合理地安排在页面内,使版面符合专业排版要求。典型排版软件:方正集团公司的“飞腾”排版软件美国Adobe公司的PageMaker和PDFWriter文字的表示及处理(4)面向网络信息发布和电子出版的文本处理软件 将文本制作成网页发布到internet或作为电子图书进行出版典型处理软件面向网络信息发布的软件MSFontpage、Word面向电子出版的软件Adobe公司的AcrobatPDF格式文件文字的表示及处理
根据制作文本的用途分为纯文本TXT丰富格式文本RTF根据软件的使用不同DOC、PDF、WPS等3.常见文本类型文字的表示及处理
纯文本:是由一连串的字符组成的,几乎不包含任何其他格式信息和结构信息。特性:呈现为一种线性结构,文件体积小,阅读不受限制,几乎所有的文字处理软件都能识别和处理,没有字体、字号的变化,不能插入图片、表格等,不能建立超链接。(1)纯文本.txt文字的表示及处理
本书由南京大学出
B1BECAE9D3C9C4CFBEA9B4F3D1A7B3F6
版社(Publishing
B0E6C9E7285075626C697368696E67
HouseofNanjin
20486F757365206F66204E616E6A696E
gUniversity)出版
6720556E697665727369747929B3F6B0E6
文本的内容文本在计算机中的表示文字的表示及处理
文本的格式化(字型字号颜色)
丰富格式文本(richtext、fancytext、formattedtext)
RTF格式(不同软件系统相互交互中间格式)
多媒体文档(MultimediaDocument)插入图表公式声音视频...(2)丰富格式文本文字的表示及处理练习题1、按照汉字的“输入—处理—输出打印”的处理流程,不同阶段使用的汉字编码分别对应为()。
A.国标码交换码字形码
B.输入码机内码字形码
C.输入码国标码机内码
D.拼音码交换码字形码2、字母与字符的编码,目前在小型/微型计算机里最普遍采用的是()。
A.BCDB.ASCII码C.余3码D.16进制BB练习题3、在下列汉字编码标准中,不支持简化汉字的是()。
A.GB2312-80B.GBKC.BIG5D.Unicode4、已知大写字母“T”的ASCII码值为54H,则小写字母“t”
的ASCII码应为()。
A.70HB.68HC.74HD.71HCC练习题5、某微型机的内存储器容量为640KB,这里的1KB是为()。
A.1024个字节B.1024个二进制位
C.1000个字节D.1000个二进制位6、1MB的内存空间可以存放()个GB2312-80的汉字机内码。
A.1024B.512C.1024*512D.1024*1024AC练习题7、已知“江”字的区号为“29”,位号为“13”,则机内码为()。
A.CDADHB.3D2DHC.BDADHD.4535H8、在全角方式下,录入英文字符“STUDENT”需要占用()个字节。
A.7B.1C.14D.29、在中文win2000环境下,设有一串汉字的内码为B5C8BCB6BFBCCAD4,则这串文字中包括()个汉字。
A.2B.4C.8D.16CCC练习题10、在中文win2000环境下,有一段文本的内码为CBF5D0B45043CAC7D6B8,在这段文本中,含有()。
A.2个汉字和1个西文字符
B.4个汉字和2个西文字符
C.8个汉字和2个西文字符
D.4个汉字和1个西文字符D练习题11、在计算机处理汉字信息时,不同处理阶段常使用不同形式的编码,如输入码、机内码和字形码等。下列说法中不正确的是()。
A.采用不同汉字输入法输入的同一个汉字,其机内码相同。
B.对于同一个汉字,不同字体的字形码各不相同
C.在win2000环境下,不同字体的字形码均分别以不同的文件进行保存。
D.在win2000环境下,对于GB2312-80字符集中的所有汉字,其机内码就是国标码。D12.现代计算机中采用二进制是因为二进制的优点是()。A.代码表示简单,易读B.物理上容易实现且简单可靠;运算规则简单;适合逻辑运算C.容易阅读,不易出错D.只有0、1两个符号,容易书写B13.执行下列二进制逻辑与运算,其运算结果是:(
)。01011001∧10100111A.00000000B.11111111C.00000001D.11111110C14.十进制小数0.8125的十六进制表示为()。
A.0.12B.1.DHC.0.DHD.0.DF15.在16*32点阵的汉字字库中,存储一个汉字的字型信息需要()字节?A.256B.16C.32D.64
CD16.某个整数的二进制补码和原码相同,则该数一定()。A)大于0 B)小于0 C)等于0 D)大于或等于017.十进制“-65”在计算机内部用二进制代码10111110表示,其表示方式为()。
A.ASCII码B.反码C.原码D.补码DB18.32位字长的最大正整数是2147483647(231-1),而最小的负整数是-2147483648(-231
),即负整数比正整数多一个,其原因是()
A.机内整数采用原码表示
B.机内整数采用反码表示
C.机内整数采用补码表示
D.公认的约定C19.一个汉字文本文件的大小为200个字节,该文件内容在理论上应有()个汉字。
A.100 B.200 C.128 D.5020.根据某数制的运算规则,2*3=10,则3*5=()。
A.15B.17C.23D.21AC21.在某一进制下,如果8*7=62,则5*6=()。
A.26B.30C.17D.33D22.已知521+555=1406,则此种加法是在()下完成的。
A.七进制B.八进制
C.九进制D.十进制A第二章课后习题一、选择题1.在微型计算机中,应用最普遍的字符编码是()A.汉字拼音B.补码C.BCD码D.ASCII码2.与十六进制数CD等值的十进制数是()
A.204 B.205 C.206 D.203DB3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年高端装备制造技术与专利许可合同
- 2024年甲醇分销合同
- 2024年餐饮业标准设备租赁合同模板版
- 2025年度环保设备采购与安装合同6篇
- 2024年限定版围墙修缮合作协议版B版
- 2025年度环保产业技术转移与转化合同3篇
- 2024年版泵车施工废弃物处理合同
- 2024年高端装备制造业原材料采购合同范本3篇
- 2024年职工停薪留职期间工作绩效考核合同3篇
- 2024高端精密仪器制造与维修服务合同
- 双高建设的路径设计与实施方案
- 2024年上海市中考英语试题和答案
- 人工智能:AIGC基础与应用 课件 03模块三AIGC赋能办公应用
- 医院纯水系统施工方案
- 各类骨折病人体位护理
- 肺部感染的护理查房课件
- 三基护理练习题库(附答案)
- 临时施工单位安全协议书
- 网络评论员培训
- 《数字信号处理原理与实现(第3版)》全套教学课件
- 大型医院多院区一体化基础信息平台建设方案
评论
0/150
提交评论