




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 大学信息技术基础 主讲:袁建红 计算机工程学院 Email: yjh_第一章 信息、信息技术与计算科学信息、信息技术与计算科学 本章要点本章要点 1.1 1.1 探索信息探索信息的真谛的真谛1.2 1.2 信息科学信息科学1.3 1.3 信息技术信息技术1.4 1.4 计算与计算科学计算与计算科学1.5 1.5 计算机的信息表示与编码计算机的信息表示与编码下一张1.1 1.1 探索信息的真谛探索信息的真谛v已知骰子有六个面,各为1、2、3、4、5、6个点。掷一次骰子,六种结局(点)的出现概率相等。如果告诉你某个人掷骰子的结局是单数或者双数,这就是一个信息。那么这个信息如何表示?又如何计算?信
2、息数的进制编码u质量、能量和信息量是三个非常重要的量 人们很早就知道用秤或者天平计量物质的质量大小。然而,我们关于热、燃料、功与能的计量问题,迟至19世纪中叶,随着热功当量的明确和能量守恒定律的建立才逐渐清楚。能量一词就是它们的总称,而能量的计量则通过“卡、焦耳”等新单位的出现而得到解决。 v为阐明质量概念做出伟大贡献的是发现物体力学定律的牛顿(Sir Isaac Newton,1642-1727) v为阐明能量概念作出伟大贡献的是热力学第一定律的发现者们:迈耳(Julius Robert von Mayer,1814-1878)、焦耳(James Prescott Joule,1818-18
3、99)、赫尔姆霍兹(Hermann von Helmholtz,1821-1894)等。v 然而,关于文字、数字、图画、声音的知识已有几千年历史了。但是它们的总称是什么,它们如何统一地计量,直到19世纪末还没有被正确地提出来,更谈不上如何去解决了。20世纪初期,随着电报、电话、照片、电视、无线电、雷达等的发展,如何计量信号中信息量的问题被隐约地提上日程。1.1.1 什么是信息? l就一般意义而言,信息可以理解成消息、情报、知识、见闻、通知、报告、事实、数据等等。从不同角度对信息的理解:v1.最早对信息进行科学定义的是哈特莱(Ralph V.L. Hartley)。他认为,发信者所发出的信息,就
4、是他在通信符号表中选择符号的具体方式,并主张用所选择的自由度来度量信息。v2.1948年,信息论创始人,美国科学家香农(C.E.Shannon)从研究通信理论出发,第一次用数学方法定义“信息就是不确定性的消除量”。认为信息具有使不确定性减少的能力,信息量就是不确定性减少的程度。v3.控制论创始人之一,美国科学家维纳(N.Wiener)指出“信息就是信息,不是物质,也不是能量。”维纳把人们与外界环境交换信息的过程看成是一种广义的通信过程,试图从信息自身具有的内容属性给信息定义。v4.关于信息的定义,有人提出用变异量来度量,认为“信息就是差异”。他提出:“信息是反映事物的形式、关系和差别的东西。信
5、息是包含于客体间的差别中,而不是在客体本身中。” v5.信息是“事物运动状态和方式,也就是事物内部结构和外部联系的状态和方式”。v6.辞源对信息定义为:“信息就是收信者事先所不知道的报导。” v7.“信息是指对诸如事实、数据或观点之类的知识的传递或描述,这些知识可以存在于任何媒体或形式之中,包括文本形式、数字形式、图表形式、图形形式、叙述形式或视听形式。”1.1.2 从信息论到信息科学v信息论发展的三个阶段: 狭义信息论(或经典信息论) 通信技术问题 一般信息论 仍是通信技术问题,但增加了噪声理论 广义信息论 超出了通信技术的范畴1.1.3 香农对信息的定义v但是信息到底是什么呢?申农的狭义信
6、息论第一个给予信息以科学定义:信息是有秩序的量度,是人们对事物了解的不确定性的消除或减少。信息是对组织程度的一种测度,信息能使物质系统有序性增强,减少破坏、混乱和噪音。例如,厦门的秋天常常是秋高气爽,因此在这个季节里如果天气预报说:“明天白天晴”,人们习以为常,因而得到的信息量很小。但若天气预报说:“明天白天有雪”,人们将会感到十分意外,后一条天气预报给人们的信息量比前一条大,因为在厦门从来没有过下雪的天气。从这个例子,我们可以看出,消息出现的可能性越小,则此消息中携带的信息量就越多。反之,消息出现的可能性越大,则此消息中携带的信息量就越少。u另一方面,如果事件是必然的,即发生的概率为1,则它
7、传递的信息量应为零;如果事件是不可能的,即概率为0,则它将有无穷的信息量。u如果我们得到不是由一个事件构成而是由若干个独立事件构成的消息,那么我们得到的总的信息量,就是若干个独立事件的信息量的总和。 1.1.4 信息的度量v从上例中,可以初步断定消息中所含的信息量H 与消息出现的概率概率有关。或者说是概率的函数。 H=H(px) 其中,p(x)是消息出现的概率。 而函数H 究竟是什么我们暂时还不知道。究竟是什么我们暂时还不知道。v根据上面的描述,为了计算信息量,消息中所含的信息量H与消息出现的概率间的关系式应当反映如下规律: (1)消息中所含的信息量H是该消息出现的概率p(x)的函数,即 H=
8、Hp(x) (2)消息出现的概率愈小,它所含的信息量愈大;反之信息量愈小,且当p(x)=1时,H=0。 (3)若干个互相独立事件构成的消息,所含信息量等于各独立事件信息量的和,即 Hp(x1)+p(x2)=Hp(x1)+Hp(x2)v数学的分析表明并不是任何函数都具有上述三个要求的性质,而仅有仅有对数函数满足上面提的要求。所以前面的未知函数H仅可能是对数函数log。即消息所含的信息量H 与消息出现的概率p(x)有如下关系:)()(1loglogxpxpHaa上式一般称为等概率事件的信息量计算公式哈特莱首先提出采用消息出现概率的对数测度作为离散消息的信息度量单位。v信息量的单位的确定取决于上式中
9、对数底a的确定。当对数以2为底时,则信息量的单位为比特(bit);对数以e为底时,信息量单位为奈特(nit);当对数以10为底时,信息量的单位称为哈特莱。目前应用最为广泛的单位是比特。 v由于由于log22=1 Bit ,有两个等可能性结局的抽,有两个等可能性结局的抽样实验的结局的不确定性就恰好是样实验的结局的不确定性就恰好是1比特。这比特。这对应于掷一枚硬币,也对应于通信过程中讯对应于掷一枚硬币,也对应于通信过程中讯号仅有两个等可能结局,例如高电位和低电号仅有两个等可能结局,例如高电位和低电位(或者位(或者1和和0)的情况。)的情况。 由于它比以由于它比以10为底的对数表示不确定性在通信为底
10、的对数表示不确定性在通信和计算机界更好用,所以被计算机界广泛使和计算机界更好用,所以被计算机界广泛使用。今天用。今天“比特比特”已经成了信息的代名词。已经成了信息的代名词。而哈特利(而哈特利(10为底对数)、纳特(为底对数)、纳特(e为底对为底对数)都可以用于表示不确定性的大小,仅是数)都可以用于表示不确定性的大小,仅是应用面比较小而已。应用面比较小而已。 信息熵公式 v上述公式是对等概率事件信息量的计算公式。下面再研究非等概率事件的信息量计算。如在通信中传输中文或者英文时并不是每个字(符)的出现机会都相同。例如, 据统计,A、B、C、DZ的概率分别是的概率分别是0.0668、0.01179、
11、0.02260、0.03100 .和和0.00063在其他的抽样实验也会出现各个概率不相同的情况。v设离散信息源是由n个符号组成的集合,称为符号集。符号集中的每一个符号 xi 在消息中分别按概率p(xi)独立出现,又设符号集中各符号出现的概率为 :则 x1x2xn所包含的信息量分别为 -log2p(x1)、-log2p(x2) 、-log2p(xn) 。则每个符号所含信息量的统计平均值,即平均信息量为: H(x)=-p(xi)*log2p(xi) (i=1,2,3,.,n) Xi表示第i个状态(共n个状态);P(Xi)代表出现第i个状态时的概率; H(x)为消除不确定性所需的信息量。单位为比特
12、(bit)。 v在申农寻信息量定名称时,数学家冯.诺依曼建议称为熵,理由是不定性函数在统计力学中已经用在熵下面了。在热力学中熵是物质系统状态的一个函数,它表示微观粒子之间无规则的排列程度,即表示系统的紊乱度 举例一、抛掷硬币:v由于抛掷硬币只有两种可能: 出现A面的概率 出现B面的概率 0.5 0.5 所以平均信息量: H(x)= P(X1)log2(1/P(X1)+P(X2)log2(1/P(X2) =0.5*log2(1/0.5)+0.5*log2(1/0.5) =0.5*log22+0.5*log22 =1 bit举例二 试验二v设有一个试验,可能有两种结果: 出现A面的概率 出现B面的
13、概率 0.99 0.01 所以平均信息量: H(x)= P(X1)log2(1/P(X1)+P(X2)log2(1/P(X2) =0.99*log2(1/0.99)+0.01*log2(1/0.01) =0.0808 bit举例3:抛掷骰子v骰子共有六个面,每面的点数分别为1-6点,每面出现的概率相等,均为1/6,所以平均信息量为 H(x)=1/6*log2(6)+ 1/6*log2(6)+ 1/6*log2(6) = log2(6) = 2.6bitv例四:如果通讯时规定仅可以传英文字母和空格,而且已经调查了英文文献中每个字符的出现概率为: 空格空格0.1817 A0.0668 B0.011
14、79 C0.02260 D0.03100 . Z0.00063v则可以用公式(8.2)计算出每收到一个英文讯号消除的不确定程度H是4.0651比特 。v这里要注意有两个计算信息量的公式,一是对等概率事件,一是对非等概率事件的平均信息量。如例一,若问“出现A面”这句话的信息量,则用公式一计算:H(x)=-log2(1/2)=1(比特)。对例三,若计算“出现一点”这个事件的信息量:H(x)= )=-log2(1/6)=2.6bit.而对例二与例四,是非等概率事件,必需用求平均信息量公式计算。v回忆开始提出的问题: 由于单数与双数的概率都是二分之一,所以:H(x)= -log2(1/2)=1bit1
15、.1.5 数据、消息、信号与信息的区别 v信息与数据数据与信息是计算机科学中常用的两个术语。数据是描述客观事实、概念的一组文字、数字或符号。它不仅包括数值数据,还包括非数值数据。例如学籍登记表中的姓名、性别、通讯地址等也叫数据。数据是信息的素材,根据不同的使用目的和使用对象,可以从原始数据中经过加工取出不同的信息。虽然一切信息都是从数据中提取,但并非一切数据都能产生消除不确定性且服务于一定目的的信息 v信息与消息信息是消息的内核,信息是能给人带来新知识的消息。对特定的接收者,一则消息可能包含丰富的信息,也可能没有信息。v信息与信号 信息通过信号来传递。信号是信息的携带者,但并不是信息本身。同一
16、种信息既可以用这种信号表示,也可以用另一种信号表示。例如,在十字路口既可以用警察的手势也可以用红绿灯作为信号,表示是否可通行的信息。 1.2 1.2 信息科学信息科学 v“科学”(Science)与“技术”(Technology) “科学”是指探知事物的本质、特征、内在规律以及与其他事物的联系, 是关于自然、社会和思维的发展与变化规律的知识体系;“技术”则是运用科学规律解决实现某一目的的手段和方法,泛指根据生产实践经验和科学原理而发展形成的各种工艺操作方法、技能和技巧。v工程(Engineering)是指将科学原理应用到工农业等生产部门中去而形成的各门学科的总称。1.2.1 信息科学的产生与定
17、义信息和控制是信息科学的基础和核心。20世纪60年代中,由于出现复杂的工程大系统需要用计算机来控制生产过程,系统辨识成为重要研究课题。20世纪70年代以来,电视、数据通信、遥感和生物医学工程的发展,向信息科学提出大量的研究课题。关于什么是信息科学(Information science),有着不同的定义:v定义1:信息科学是研究信息的产生、获取、变换、传输、存储、处理、显示、识别和利用的科学,是一门结合了数学、物理、天文、生物和人文等基础学科的新兴与综合性学科。v定义2:以信息为主要研究对象,以信息的运动规律和应用方法为主要研究内容,以计算机等技术为主要研究工具,以扩展人类的信息功能为主要目标
18、的一门新兴的综合性学科。信息科学是以信息为基本研究对象,以信息的运动规律和应用方法为主要研究内容,这是信息科学有别于一切传统科学最基本的特征。1.2.2 信息科学的研究内容与体系v将信息科学研究的基本内容归纳为五个方面:v(1)探讨信息的基本概念和本质。v(2)研究信息的数值度量方法。v(3)阐明信息感知、识别、变换、传递、存储、检索、处理、再生、表示、施效(控制)等过程的一般规律。v(4)揭示利用信息来描述系统和优化系统的方法和原理。v(5)寻求通过加工信息来生成智能的机制和途径。信息科学的研究范围已经远远超出了香农的信息论的领域而深入到了控制科学、系统科学、复杂性科学、人工智能理论、认知科
19、学等领域。从信息科学的研究内容来划分,我们可以将信息科学的基本科学体系分为三个层次:v(1)信息科学的哲学层次;v(2)信息科学的基础理论层次;v(3)信息科学的技术应用层次;信息科学以香农创立的信息论为理论基础,以现代科学方法论作为主要研究方法、以研究信息及其运动规律为主要内容、以扩展人的信息功能作为主要研究目标的一门科学。1.31.3 信息技术信息技术1.3.11.3.1 信息技术的发展与定义信息技术的发展与定义 信息技术是人类开发和利用信息资源的所信息技术是人类开发和利用信息资源的所有手段的总和;信息技术既包括有关信息的有手段的总和;信息技术既包括有关信息的产生、收集、表示、检测、处理和
20、存储等方产生、收集、表示、检测、处理和存储等方面的技术,也包括有关信息的传递、变换、面的技术,也包括有关信息的传递、变换、显示、识别、提取、控制和利用等方面的技显示、识别、提取、控制和利用等方面的技术术。u迄今为止,人类社会已经发生过四次信息技迄今为止,人类社会已经发生过四次信息技术革命:术革命: 第一次革命第一次革命是人类创造了语言和文字,接是人类创造了语言和文字,接着现出了文献。着现出了文献。 第二次革命第二次革命是造纸和印刷术的出现。是造纸和印刷术的出现。 第三次革命第三次革命是电报、电话、电视及其他通是电报、电话、电视及其他通讯技术的发明和应用。讯技术的发明和应用。 第四次革命第四次革
21、命是电子计算机和现代通讯技术是电子计算机和现代通讯技术在信息工作中的应用。在信息工作中的应用。 人们对信息技术的定义,因其使用的目的、范围、层次不同而有不同的表述:v定义1:信息技术是指有关信息的收集、识别、提取、变换、存贮、传递、处理、检索、检测、分析和利用等的技术。v定义2:现代信息技术“以计算机技术、微电子技术和通信技术为特征”。v定义3:信息技术是指在计算机和通信技术支持下用以获取、加工、存储、变换、显示和传输文字、数值、图像以及声音信息,包括提供设备和提供信息服务两大方面的方法与设备的总称。v定义4:信息技术指“应用在信息加工和处理中的科学,技术与工程的训练方法和管理技巧;上述方法和
22、技巧的应用;计算机及其与人、机的相互作用,与人相应的社会、经济和文化等诸种事物。v定义5:信息技术包括信息传递过程中的各个方面,即信息的产生、收集、交换、存储、传输、显示、识别、提取、控制、加工和利用等技术。v定义6:从技术的本质意义上讲,信息技术就是能够扩展人的信息器官功能的一类技术。1.3.2 1.3.2 扩展人类信息器官功能的信息技术扩展人类信息器官功能的信息技术v人类的信息器官与功能: 感觉器官: 视、听、触等感觉器官 传导神经网络: 导入、导出神经网络 思维器官: 记忆、联想、分析和决策等 效应器官: 操作(手)、行走(脚)、语言(口) 等器官。1.3.2 1.3.2 扩展人类信息器
23、官功能的信息技术扩展人类信息器官功能的信息技术v信息技术的“四基元”: 感测技术:感觉器官功能的延长。 通信技术:传导神经网络功能的延长。 计算机和智能技术:思维器官功能的延长。 控制技术:效应器官功能的延长。1.3.3 信息技术的核心技术 信息技术主要包括:信息技术主要包括: 计算机与智能技术(计算机与智能技术(人的思维器官处理信息和决人的思维器官处理信息和决 策的功能的扩展策的功能的扩展) 通信技术(通信技术(扩展人的神经系统传递信息的功能扩展人的神经系统传递信息的功能) 传感技术(传感技术(扩展人的感觉器官收集信息的功能扩展人的感觉器官收集信息的功能) 控制技术(控制技术(扩展了人对信息
24、的控制和使用能力扩展了人对信息的控制和使用能力)u计算机技术 通信技术通信技术通信就是一定时空距离的信息的传递和交流;通信技术则是指理通信的手段和方法. (一现代通信方式 从信息的传播媒体看,现代通信方式可分为有线通信和无线通信两大类,有线通信包括金属电缆传输、光纤传输等,无线通信包括微波传输、移动通信、卫星传输等。 (二通信网络与信息高速公路 对于通信来讲,通信网络等基本设施的建设是极其重要的一环。通信网络由主干网和接入网组成,主干网使用光纤、卫星等光域通信技术,接入网通过电话线或光缆与最终用户相连。 信息高速公路源于1993年美国克林顿政府提出的国家信息基础设施计划,又称信息高速公路计划。
25、 u传感技术 传感技术同计算机技术与通信技术一起被称为信息技术的三大支柱。 传感技术是关于从自然信息源获取信息,并对之进行处理(变换)和识别的一门多学科交叉的现代科学与工程技术,它涉及传感器(又称换能器)、信息处理和识别的规划设计、开发、制建造、测试、应用及评价改进等活动。u控制技术 1.3.4 信息技术主要支撑技术微电子技术v微电子技术是指设计、制造和使用微小型电子元器件和电路,实现电子系统功能的新型技术。它是现代信息科技的基础,主要包括半导体技术、集成电路技术等,核心和代表是集成电路技术。v 微电子技术是二十世纪下半叶才发展起来的。1947年,美国贝尔实验室研制成功了第一支半导体晶体管。1
26、958年,出现世界上第一块集成电路。70年代从元件数小于1000个的中、小规模集成电路发展到1000以上的大规模集成电路,80年代以来又发展到10万个以上的超大规模集成电路,现正朝着上亿个集成元件的特大集成电路发展。目前,微电子技术的发展呈现出三微四最的特征,三微指尺寸微米级、功耗微瓦级、速度毫微秒级,四最指最佳方案、最洁净环境、最低成本和最精细工艺。1.4 1.4 计算与计算科学计算与计算科学v1.4.1 探索计算之源计算:即符号串的变换 从一个已知的符号串开始,按一定的规则,一步步改变符号串,经有限步骤之后得到一个满足预先规定的符号串,这种变换过程就是计算。如1+1变换成2,这就是一个计算
27、。按这种定义,定理证明、文字翻译等也都是计算。算法:求解某类问题的通用法则或方法,即符号串变换的规则。一个问题是不是可计算的,与该问题是不是具有相应的算法是完全一致的。v1.4.2 计算模型与图灵机 图灵机计算模型控制器100001111111 图灵机是一种抽象计算模型,用来精确定义可计算函数。图灵机由一个控制器,一条可以无限延伸的带子和一个在带子上左右移动的读写头组成。这个概念如此简单的机器,理论上却可以计算任何直观可计算函数。图灵在设计了上述模型后提出,凡可计算的函数都可用这样的机器来实现,这就是著名的图灵论题。图灵机为现代计算机的出现提供了重要的依据:带子存储设备命令相当于一组预先设计、
28、存储好的程序控制器决定读写头的每一步操作 v阿兰图灵(Alan Turing) 返回目录返回目录1.4.3 计算思维计算思维就是通过约简、嵌入、划分和仿真的方法,把一个看来困难的问题重新阐释成一个我们知道问题怎样解决的思维方法。周以真教授总结了计算思维的6大特征:v(1)概念化,不是程序化;v(2)根本的,不是刻板的技能;v(3)是人的,不是计算机的思维方式;v(4)数学和工程思维的互补和融合;v(5)是思想,不是人造物;v(6)面向所有的人,所有地方。v周以真教授认为:计算思维是每个人的基本技能,不仅仅属于计算机科学家。v计算思维涉及运用计算机科学的基础概念去求解问题、设计系统和理解人类的行
29、为。1.4.4 计算机科学的研究领域计算学科的研究包括从算法与可计算性的研究到根据可计算硬件和软件的实际实现问题的研究。计算机科学的研究领域可以概括为以下七个方面:v1.计算机系统结构的研究v2.程序设计科学与方法论的研究v3.软件工程基础理论的研究v4.人工智能与知识处理的研究v5.网络、数据库及各种计算机辅助技术的研究v6.理论计算机科学的研究v7.计算机科学史的研究1.5 计算机的信息表示与编码 1.5.1 1.5.1 信息在计算机中的表示信息在计算机中的表示v计算机既可以处理数字信息和文字信息,也可以处理图形、声音、图像等,但归根结底,一切信息在计算机内部都要转换成二进制的表现形式,也
30、就是说,一切信息都以0和1两个数字进行各种组合来表示。所以说,二进二进制是计算机存储和处理数据的基本方式制是计算机存储和处理数据的基本方式。计算机中为什么要用二进制 v计算机中的数为什么不用我们熟悉的十进制表示,而要采用二进制呢?这是因为数在计算机中是以电子器件的物理状态来表示的,采用二进制数便于物理元件的实现便于物理元件的实现;可以用这两个代码表示任何数,运算简单;二进制数使用器材少,节省存储空间;便于实现逻辑运算,易于求补码,因此,计算机中的数通常采用二进制(0和1)表示。 位的概念位的概念v数据的最小单位是二进制数的一位数,简称位 (bit,比特比特)。一个位只能表示两种状态:0和1。v
31、位是计算机存储数据的最小单位位是计算机存储数据的最小单位。字节的概念字节的概念v通常将8个比特位组成一个字节(byte,拜特,拜特),作为计算机容量的基本单位,例如存储器的容量就是用字节来计算和表示的,Byte也可以简写为大写的英文字母“B”。1024个字节称为1KB,1024KB称为1MB,1024MB称为1GB,1024GB称为1TB。v一般地,一个英文符可用一字节表示,一个汉字可用两字节表示。字的概念字的概念v数据的另一个单位是计算机的字(word),它是计算机作为一个整体进行数据存储、传输和处理的单位。计算机中常用“字长”来表示数据的长度,通常地说,“字长”就是“字”的长度。1个“字”
32、由若干个字节(8位二进制为1字节)组成。字长决定了计算机数据处理的效率,因此是衡量计算机性能的一个重要指标。1.5.2 信息的编码信息的编码v由于计算机只能识别0和1两个数字符号,但是输入到计算机的数据是由字母、数字、标点符号以及各种专用符号等组成的,因此必须对这些数据进行编码。所谓字符编码就是规定用怎样的二进制码来表示字母、数字以及各种专用符号。由于这是一个涉及世界范围内有关信息表示、交换、处理、存储的基本问题,因此都以国家标准或国际标准的形式颁布施行。v在计算机系统中,有两种重要的字符编码方式:EBCDIC和ASCII。前者主要用于IBM的大型主机,后者则用于小型机和微型机。下面我们就着重
33、介绍ASCII编码。vASCII码(American Standard Code for Information Interchange)码即美国信息交换码,是计算机处理西文字符所采用的编码,用7位二进制表示一个字符。这样从000 0000到111 1111共可表示128个符号,最高位为0.v所表示的字符包括:000 0000-001 1111 共32个字符为控制字符。010 0000-010 1111 为特殊字符,如空格,!/等011 0000-011 1001 为0-9十个数字100 0001-101 1010 为A-Z;110 0001-111 1010 为a-z;例如,字符!1Aa在计
34、算机中用Ascii码表示为:字符 二 十六 十 0000 0111 7 7 响铃 0000 1101 D 13 回车 ! 0010 0001 21 33 1 0011 0001 31 49 A 0100 0001 41 65 a 0110 0001 61 97中文信息编码及标准中文信息编码及标准v汉字编码即GB2312-80编码,是计算机处理汉字采用的编码,它规定每个汉字由两个7位二进制编码表示,又称国标码或汉字交换码,其收集汉字、图形符号7455个,汉字占6763个(一级3755按拼音字母排列,二级3008按部首排列)。vBIG5码(又称大5码)是针对繁体汉字的汉字编码。中文信息编码及标准中
35、文信息编码及标准v按照国标规定,汉字编码有94行94列,行号称区号,列号称位号,区号与位号(十进制)构成了区位码区位码。如“啊”的区位码为1601,而“春”的区位码为2026v国标码国标码:又称交换码,它是在不同的汉字处理系统之间进行汉字交换时所使用的编码。与区位码的关系为:区位码H2020H。 汉字处理原理汉字处理原理v处理汉字时要进行如下的代码转换:输入码交换码内部码字形码。v输入码:用来输入汉字。有区位码、拼音、五笔等;不同的方案有不同的输入码。v交换码:国标码。区位码H2020Hv内码:用来存储、处理汉字;一般用两字节表示。每字节的最高位为1,以与ASCII码区别。区位码H A0A0H
36、v输出码:(屏幕显示、打印)用点阵表示。输入码v输入汉字时所使用的编码称谓输入码。亦称外码。输入码的种类很多,目前常用的有“全拼”、“智能ABC”、“微软拼音”、“五笔字型”、“自然码”、“区位码”等。输入码举例:汉字“汉” 拼音:“han ” 五笔字型:“icy”内码 内码是计算机内部对汉字信息进行各种加工、处理的代码。一般用两个字节表示一个汉字的内码,两个字节最高位全取“1”。内码与区位码的关系为:区位码A0A0H,如: 啊 汉 区位码 1001 1A1A(十六进制) 国标码 3021 3A3A(十六进制)内码 B0A1 BABA(十六进制)设字符串“A5啊汉”,在内存中为:0100000
37、1 A00110101 5 10110000 啊1010000110111010 汉10111010输出码输出码即汉字字形码,其表现形式有:(1)铅字形式:适合打字机和印刷机(2)点阵形式:适合计算机的汉字处理 输出码是一个用二进制数表示的汉字点阵。一般地,英文字符用88以上的点阵显示,汉字则至少需要1616的点阵显示。一般来说,表现汉字时使用的点阵数越高,汉字字形的质量也越好。例:“汉”字的的16点阵输出码01000000 0000100000110111 1111110000010000 0000100010000010 0000100001100010 0001000000100010
38、0010000000001001 0001000000010001 0010000000100000 1010000011100000 0100000000100000 1010000000100001 0001000000100010 0000100000100100 0000111000001000 0000010000000000 00000000十六进制:40 08 37 FC 10 08 82 08 62 10 22 20 09 10 11 20 20 A0 E0 40 20 A0 21 10 22 08 24 0E 08 04 00 00 共32字节v汉字库:所有汉字,包括各种字体
39、、字形的输出码组成一个汉字库。一般,屏幕显示用16X16点阵,而打印用24X24,或者是48X48点阵。v显示汉字时,首先要根据该汉字的机内码计算出该汉字在汉字库中的地址码,再由地址码、字模长度计算出该汉字字模在字库中的起始位称值,再将该字字模显示到屏幕上。v国家标准GB18030-2000信息交换用汉字编码字符集基本集的扩充是未来我国计算机系统必须遵循的基础性标准之一。v信息时代的信息时代的“书同文、字同码书同文、字同码”Unicode Unicode 码码 标准ASCII码只可表示128个字符,扩展ASCII码可表示256个字符,汉字码用2字节表示,所以可表示216个字符。为了统一表示各国
40、的字符,采用32位对字符进行统一编码,可表示范围为232个字符。可以表示国际上主要文字,实现“书同文、字同码”。 1.5.3 数制的基及其表示v人们通常使用的数制是十进制。 我们把以位串表示整数、实数数值的方法称为计数。例如,把数字1、2、3并排写为:123,就表示一百二十三。这表明各位数字所表示的值不仅与该数字有关,而且与它们所在位置有关。例如在数123中,百位上的1表示1个100,十位上的2表示2个10,个位上的3表示3个1,每个数位被赋以一定的值称为位权。向左移动一位数字,权就增长10倍。最右边的权定义为1,向左边依次为10,100等。每个数位的数字所表示的值是这个数字与它的位权乘积,这
41、种表示方法叫做位记数法。我们把相邻位的权之比叫做基数,例如十进制数的基数为10 据此,我们就很容易写出各种数制的特点v 有十个不同的数字0,1,2,3,4,5,6,7,8,9v 逢十进一v 任一个十进制数都可写成按位权的展开式例如,734.58可写成734.58=7102+3101+4100+510-1 +810-2 十进制数十进制数二进制数 v 有两个不同的数字0,1v 逢二进一v 任一个二进制数都可写成按位权的展开式例如,1101.01可写成1101.01=123+122+021+120+02-1 +12-2十六进制 v 有十六个不同的数字0,1,2,3,4,5,6,7,8,9,A,B,C
42、,D,E,F,其中A,B,C,D,E,F分别对应于十进制数的10,11,12,13,14,15v 逢十六进一v 任一个十六进制数都可写成按位权的展开式例如,十六进制数369.47可写成369.47=3162+6161+9160+416-1+716-2R进制数 v 有R个不同的数字0,1,2,R-1v 逢R进一v 任一个R进制数都可写成按位权的展开式.v各数制的数分别加不同的角标以示区别:v二进制:B(Binary),如(11101)Bv八进制:O(Octal),如(35)Ov十六进制:H(Hexadecimal), 如(1D)H表1.1 各进制数对应表 十 0 1 2 3 4 5 6 7 8
43、910111213141516八 0 1 2 3 4 5 6 7 101112131415161720十六0 1 2 3 4 5 6 7 8 9 A B C D E F10二011011 1001011101111000100110101011110011011110111110000数制之间的转换 v(1)任意进制数到十进制数的转换)任意进制数到十进制数的转换v转换规则是:采用基数重复相乘法,即把数把数的各位按权展开用十进制规则求和即可的各位按权展开用十进制规则求和即可。例1:把二进制数11011.101转换成十进制数(11011.101)2 =124+123+022+121+120+12-
44、1 +02-2+12-3=(27.625)10v例2:把八进制数153.124转换成十进制数(153.124)8=182+581+380+18-1 +28-2+48-3=(107.1640625)10v例3:把十六进制数CF.48转换成十进制数(CF.48)16=12161+15160+416-1 +816-2=(207.28125)10(2)十进制数到任意进制数之间的转换 v十进制数转换为二进制数的方法是:整数部分整数部分采用除除2逆向取余法逆向取余法,小数部分小数部分采用乘乘2正向取整法正向取整法来得到。v对小数部分转换为二进制数的规则是对小数部分转换为二进制数的规则是: 用小数乘积的整数
45、部分作为二进制小数的第一位; 再用上次乘积的小数部分乘2,取新乘积的整数部分作为二进制小数的第二位。 以此类推,直至乘积为0或满足要求的精度为止。v例4:将十进制数0.375转化为二进制数 0.375 x 2 0.75 x 2 1.5 x 2 1.0 所以(0.375)10 = (0.011)2对整数部分的转换规则是对整数部分的转换规则是v 用2去除给出的十进制数,把所得余数作为二进制数的最低位;v 将刚才得到的商再除以2,余数作为二进制数的次低位;v 以此类推,直到商为0结束。v例5:(47)10=(101111 )2 二进制2|47 2|23 .12|11.1 2| 5.12| 2.12|
46、 1.0 | 0.1 同理,用除8逆向取余和乘8正向取整的方法可以实现由十进制数向八进制数的转换;用除16逆向取余和乘16正向取整的方法可以实现由十进制数向十六进制数的转换。 83=( 123 )88 83 8 10 -38 1 -2 0 -1 (3)二进制数、八进制数、十六进制数之间的转换 v八进制换二进制 一位换三位法:将八进制数的每位写成三位二进制数即可。 例6:把八进制数367.124转换为二进制数 (367.124)8=(011 110 111.001 010 100)2v二进制数换八进制数 三位换一位法:从小数点开始分别向左和向右每三位一组,不足三位补0,每组转换为八进制数。v例7
47、:把二进制数10100101.00111101转换为八进制数为: (010 100 101.001 111 010)2=(245.172)8v十六进制换二进制 一位换四位法:将十六进制数的每位写成四位二进制数即可。例例:( 2 F 0 . 3 C )H = (0010 1111 0000 . 0011 1100)Bv二进制数换十六进制数 四位换一位法:从小数点开始分别向左和向右每四位一组,不足三位补0,每组转换为十六进制数。v例:(10100101.00111101)2= 1010,0101.0011,1101 =(A5.3D)16v而八进制数与十六进制数之间,只需先转换为二进制数,就可以互相转换了。v例: 将八进制数367.124 转换为十六进制数(367.124)8=011 110 111.001 010 100=1111 0111.0010 1010=(F7.2A)16v在各种数之间进行转换时,要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学期教学评价标准与指标计划
- (三模)榆林市2025届高三第三次模拟检测历史试卷(含答案详解)
- 美术教学与科技结合创新探索计划
- 《计算化学生物学》课程教学大纲
- 《大型仪器操作》课程教学大纲
- 河流两岸景观建设设计计划
- 健身俱乐部空间规划的绿色环保理念
- 产品推广与客户关系深度挖掘策略
- 全球化背景下的企业资产多元化配置
- 2024年高一物理物理教材实验:测量做直线运动物体的瞬时速度(解析版)
- 分析化学试题(附答案)
- 小儿肠套叠护理查房
- DL-T5440-2020重覆冰架空输电线路设计技术规程
- UG NX12.0基础与应用教程 课件 单元2 任务2 二维草图创建和编辑
- DZ∕T 0273-2015 地质资料汇交规范(正式版)
- 中国传统文化经典解读-《菜根谭》智慧树知到期末考试答案章节答案2024年陕西工商职业学院
- 2069-3-3101-002WKB产品判定准则-外发
- 2024年江苏国信仪征 高邮热电有限责任公司招聘笔试参考题库含答案解析
- 小班社会《认识家用电器》课件
- JTG C10-2007 公路勘测规范
- 2024年广州市高三一模高考英语试卷试题答案详解(含作文范文)
评论
0/150
提交评论