西文字符的编码_第1页
西文字符的编码_第2页
西文字符的编码_第3页
西文字符的编码_第4页
西文字符的编码_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西文字符的编码西文字符集:由拉丁字母、数字、标点符号及一些特殊符号组成。字符的编码:字符集中每一个字符各有一个代码,即字符的二进制表示,称为该字符的编码。字符代码表:字符集中不同字符的编码互相区别,构成该字符集的代码表。ASCII字符集和ASCII码美国标准信息交换码(AmericanStandardCodeforInformationInterchange):使用7个二进位对字符进行编码(叫做标准ASCII码),称为ISO-646标准。基本的ASCII字符集共有128个字符,96个可打印字符(常用字母、数字、标点符号等)32个控制字符,特殊字符的ASCII码空格(32)、A(65)、a(97)、0(48)数字,字母的ASCII码是连续的,对应大小写字母ASCII码相差32。不同类型的ASCII码的十进制数值由小到大:数字、大写字母、小写字母汉字的编码(一)GB2312-80汉字编码第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号)第二部分:一级常用汉字,共3755个,按汉语拼音排列第三部分:二级常用字,共3008个,按偏旁部首排列区位码:GB2312国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示。每个汉字的区号和位号分别用1个字节来表示{如:“大”字的区号20,位号83,区位码是2083 用2个字节表示为:0001010001010011}国标交换码:问题:信息通信中,汉字的区位码与通信使用的控制码(00H~1FH)发生冲突。解决方案:为了避免汉字区位码与通信控制码的冲突,ISO2022规定,每个汉字的区号和位号必须分别加上32(20H)得到国标交换码。汉字文本的搜索UCS/Unicode与GB18030汉字编码标准通用编码字符集UCS/Unicode约有6800种语言和文字在使用,需要建立一个多文种(Multilingual)处理环境在ISO2022基础上,使用代码页号切换不同字符集的方法过于繁琐,且与其他系统不兼容目标与途径:实现所有字符在同一字符集中统一编码UCS/Unicode与GB18030汉字编码标准优点:编码空间极大,能容纳足够多的各种字符集(13亿字符)缺点:4字节的字符编码使存储空间浪费严重文字与文本文本(text):文字信息在计算机中的表示形式,组成文本的基本元素是字符,字符在计算机中采用二进制编码表示。文本处理过程文本在计算机中的处理过程:文本的准备(例如汉字的输入),文本编辑,文本处理,文本存储与传输、文本展现等,根据应用的不同,各个处理环节的内容和要求可能有很大的差别。文本信息的输入方法人工输入:通过键盘、手写笔或语音输入方式输入字符特点:速度慢、成本高,不适合需处理大批量文字的应用自动输入:将纸介质上的文本通过识别技术自动转换为文字的编码特点:速度快,效率高文字的自动识别分为:印刷体识别和手写体识别文本信息的输入方法由于汉字字数很多,无法使每个汉字与西文键盘上的键一一对应,因此必须使用一个或几个键来表示汉字,这就称为汉字的“键盘输入编码”。好的汉字键盘输入编码方案的特点:易学习、易记忆、效率高(平均击键次数较少)、重码少、容量大(可输入的汉字字数多)等汉字的输入编码与汉字的内码是不同范畴的概念。使用不同的输入编码方法向计算机输入的同一个汉字,它们的内码是相同的数字编码:使用一串数字来表示汉字的编码方法,例如电报码、区位码等。缺点:难以记忆,不易推广字音编码:一种基于汉语拼音的编码方法,简单易学,适合于非专业人员。缺点:同音字引起的重码多,需增加选择操作字形编码:将汉字的字形分解归类而给出的编码方法,重码少、输入速度较快,如五笔字形法和表形码。缺点:编码规则不易掌握形音编码:吸取了字音编码和字形编码的优点,使编码规则适当简化、重码减少。缺点:不易掌握联机手写汉字识别(笔输入)使用语音输入文本的系统也叫做“听写机”或“语音打字机”印刷体汉字识别(汉字OCR)。印刷体汉字识别:将传统纸介质上的文字信息自动输入计算机并转换为数字文本形式的一种技术,也叫做汉字OCR(OpticalCharacterRecognition)。脱机手写汉字识别:手写汉字识别。联机与脱机(手写汉字识别)的比较容易。使用计算机制作的数字文本,根据用途分为:简单文本、丰富格式文本和超文本三类。简单文本(plaintext):是由一连串的字符组成的,除了用于表达正文内容的字符(包括汉字)及“回车”、“换行”、“制表”等有限的几个打印(显示)控制字符之外,几乎不包含任何其他格式信息和结构信息。这种文本通常称为纯文本或ASCII文本,在PC机中的文件后缀名是.txt特性:呈现为一种线性结构,以行、字为单位,顺序写作与阅读是最通用的文本文件格式,文件体积小,阅读不受限制,几乎所有的文字处理软件都能识别和处理不能插入图片、表格等,不能建立超链接丰富格式文本丰富格式文本(richtext、fancytext、formattedtext),RTF格式,中间格式。超文本超文本(hypertext)的阅读方式:传统的顺序式阅读,通过链接、跳转、导航、回溯等操作实现跳跃式阅读超文本的结构节点(node)节点包含的内容超链(hyperlink)链源链宿超媒体(Hypermedia):超文本中的节点不单是文本节点,还包含图形、图像、声音或动画节点,这种基于多媒体信息结点的超文本,有时也称为“超媒体”超文本的应用:Windows等一些软件中的“帮助”文件,使用浏览器从Web服务器上下载的网页(html或htm文件),文本编辑与文本处理“所见即所得”(WhatYouSeeIsWhatYouGet,简称WYSIWYG):一方面所有的编辑操作效果立即可以在屏幕上看到,另一方面在屏幕上看到的效果与打印机的输出结果相同。图像与图形图像按生成方法分类从现实世界中通过数字化设备获取的图像,称为:取样图像(sampledimage)、点阵图像(dotmatriximage)、位图图像(bitmapimage)——简称图像(image)计算机合成的图像(syntheticimage),称为:矢量图形(vectorgraphics),简称图形(graphics)图像的数字化图像获取的过程实质上是模拟信号的数字化过程,它的处理步骤:扫描取样分色量化图像的表示方法与主要参数,从取样图像的获取过程可以知道,一幅取样图像由M(行)*N(列)个取样点组成,每个取样点是组成取样图像的基本单位,称为像素(pictureelement,简写为pel)。彩色图像的像素是矢量,它由多个彩色分量组成,黑白图像的像素只有1个亮度值图像的属性信息图像大小,也称图像分辨率(包括垂直分辨率和水平分辨率)位平面的数目,即矩阵的数目,也就是彩色分量的数目颜色空间的类型,指彩色图像所使用的颜色描述方法,也叫颜色模型。常用颜色模型:RGB(红、绿、蓝)、CMYK(青、品红、黄、黑)、HSV(色彩、饱和度、亮度)、YUV(亮度、色度)等像素深度,即像素的所有颜色分量的位数之和,它决定了不同颜色(亮度)的最大数目图像的压缩编码一幅图像的数据量可按下面的公式进行计算(以字节为单位):图像数据量=图像水平分辨率×图像垂直分辨率×像素深度/8数据压缩类型无损压缩:压缩以后的数据进行图像还原(也称为解压缩)时,重建的图像与原始图像完全相同有损压缩:使用压缩后的数据进行图像重建时,重建后的图像与原始图像虽有一定的误差,但不影响人们对图像含义的正确理解。如变换编码、矢量编码等压缩编码方法优劣的评价压缩倍数的大小重建图像的质量(有损压缩时)压缩算法的复杂程度图像的压缩编码图像压缩编码方法的国际标准和工业标准:ISO和IEC两个国际机构联合组成了一个专家组(JointPhotographicExpertsGroup,JPEG),制定了一个静止图像数据压缩编码的国际标准,称为JPEG标准JPEG标准的特点:适用范围广;能处理各种连续色调的彩色或灰度图像;算法复杂度适中;既可用硬件实现,也可用软件实现;图像的压缩比可控制(压缩比越低,图像质量越好;压缩比越高,图像质量越差)JPEG2000:适用于各种不同类型(黑白、灰度、彩色等)和不同特性(自然、医学、遥感、合成)的图像,可用于不同的应用模式(实时传输、检索、存档等)。采用了小波分析等先进算法,提供了更好的图像质量,更低的码率,更适合在WWW网上传输等,它兼容JPEG常用图像文件格式常用图像文件格式BMP(BitMaP-file)图像:微软公司在Windows操作系统下使用的一种标准图像文件格式,一个文件存放一幅图像,可以使用行程长度编码(RLC)进行无损压缩,也可不压缩。不压缩的BMP文件是一种通用的图像文件格式,几乎所有Windows应用软件都能支持。TIFF(TaggedImageFileFormat)图像文件格式:用于扫描仪和桌面出版,能支持多种压缩方法和多种不同类型的图像,有许多图像图形应用软件支持这种文件格式。由文件头、文件目录、目录条目三个部分组成。GIF(GraphicsInterchangeFormat):互联网上广泛使用的一种图像文件格式,它的颜色数目较少(不超过256色),文件特别小,适合网络传输。由于颜色数目有限,GIF适用于插图、剪贴画等色彩数目不多的应用场合。GIF格式能够支持透明背景,具有在屏幕上渐进显示的功能。尤为突出的是,它可以将许多张图像保存在同一个文件中,显示时按预先规定的时间间隔逐一进行显示,从而形成动画的效果,因而在网页制作中大量使用。由CompuServe公司1987年开发,基于Lempel-ZivWalch(LZW)压缩算法、使用特殊码、可变长度。数字图像处理数字图像处理:使用计算机对来自照相机、摄像机、传真机、扫描仪、医用CT机、X光机等的图像,进行去噪、增强、复原、分割、提取特征、压缩、存储、检索等操作处理对图像进行处理的主要目的提高图像的视感质量图像复原与重建图像分析图像的存储、管理、检索,以及图像内容与知识产权的保护等图像处理软件:使用较多的是面向办公、出版与信息发布的图像处理软件,也称为图像修饰(imageretouching)或图像编辑软件,支持多种不同的图像文件格式,提供多种图像编辑处理功能,可制作出生动形象的图像。如美国Adobe公司的PhotoShop,集图像扫描、图像编辑、绘图、图像合成及图像输出等多种功能于一体,是一个流行的图像处理工具。PhotoShop的主要功能包括数字图像的应用图像通信遥感医疗诊断工业生产中的应用机器人视觉军事、公安、档案管理计算机图形景物的模型(model):景物在计算机内的描述景物的建模(modeling):人们进行景物描述的过程绘制(rendering):也称图像合成(imagesynthesis),根据景物的模型生成图像的过程,所产生的数字图像称为计算机合成图像计算机图形学(ComputerGraphics):研究如何使用计算机描述景物并生成其图像的原理、方法与技术计算机合成图像的绘制,使用计算机合成图像的主要优点:能生成实际存在的具体景物的图像,还能生成假想或抽象景物的图像,能生成静止图像,还能生成各种运动、变化的动态图像计算机合成图像的应用:计算机辅助设计和辅助制造(CAD/CAM)利用计算机生成各种地形图、交通图、天气图、海洋图、石油开采图等作战指挥和军事训练计算机动画和计算机艺术其他:电子出版、数据处理、工业监控、辅助教学(CAI)、软件工程等矢量绘图软件矢量图形:计算机合成图像矢量绘图软件:制作矢量图形的软件:如:AutoCAD、MAPInfo、ARCInfo等2D的矢量绘图软件:Corel公司的CorelDraw。Adobe公司的Illustrator。Macromedia公司的FreeHand。微软公司的MicrosoftVisio。微软公司Office办公套件中的Word和PowerPoint数字声音及应用声音信号的数字化声音:由振动而产生,通过空气进行传播。它由许多不同频率的谐波所组成,谐波的频率范围称为声音的带宽(bandwidth),带宽是声音的一项重要参数。多媒体技术处理的声音信号主要是人耳可听到的20~20kHz的音频信号(audio)言语(speech)/语音:人说话的声音,其频率范围约为300~3400Hz全频带声音:音乐声、风雨声、汽车声等其他声音,其带宽可达到20~20kHz声音信号的数字化声音信号的数字化:将模拟声音信号转换成数字编码形式以便于计算机进行处理的过程声音信号数字化的过程:取样量化编码模拟的声音信号转变成数字形式进行处理的优点:以数字形式存储的声音重放性能好,复制时没有失真数字声音的可编辑性强,易于进行效果处理数字声音能进行数据压缩,传输时抗干扰能力强数字声音容易与其他媒体相互结合(集成)数字声音为自动提取“元数据”和实现基于内容的检索创造了条件波形声音的获取设备麦克风:将声波转换为电信号声卡(soundcard):进行数字化波形声音的获取:把模拟的声音信号转换为数字形式。(话筒或线路输入、单双道)波形声音的重建与播放MIDI(MusicalInstrumentDigitalInterface)声音的输入MIDI声音的合成与播放波形声音的主要参数DVD,DTV,DVD,DTV,家庭影院5.1,7.164kbpsDolbyAC-3同MPEG-15.1,7.0与MPEG-1层1,层2,层3相同MPEG-2层audioInternet,MP3音乐2128~112kbps(压缩10~12倍)MPEG-1层3DAB,VCD,DVD2256~192kbps(压缩6~8倍)MPEG-1层2数字盒式录音带2384kbps(压缩4倍)MPEG-1层1主要应用声道数目压缩后的码率(每个声道)名称全频带声音的压缩编码第2代全频带声音压缩编码标准量化位数声道数目使用的压缩编码方法数码率(bitrate):指的是每秒钟的数据量,也称比特率、码率数字声音未压缩前,其计算公式为:波形声音的码率=取样频率×量化位数×声道数压缩编码以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论