多媒体技术 第5章任务2了解文本媒体的编码方式_第1页
多媒体技术 第5章任务2了解文本媒体的编码方式_第2页
多媒体技术 第5章任务2了解文本媒体的编码方式_第3页
多媒体技术 第5章任务2了解文本媒体的编码方式_第4页
多媒体技术 第5章任务2了解文本媒体的编码方式_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、任务任务2 了解文本媒体的编码方式了解文本媒体的编码方式 5.2.1 文本媒体的分类和表示文本媒体的分类和表示 5.2.2 常用的编码方式常用的编码方式 5.2.3 文本的编辑和处理文本的编辑和处理 文本媒体的分类和表示文本媒体的分类和表示 文字是一种书面语言,它由一系列字符组文字是一种书面语言,它由一系列字符组成,包含中文和西文。成,包含中文和西文。文字信息在计算机中称为文字信息在计算机中称为“文本文本”,它是,它是计算机中最常用的一种数字媒体,在计算计算机中最常用的一种数字媒体,在计算机中采用二进制编码表示。机中采用二进制编码表示。文本的分类文本的分类 根据它们是否具有排版格式,文本可分为

2、简单文本、根据它们是否具有排版格式,文本可分为简单文本、丰富格式文本和超文本三大类。丰富格式文本和超文本三大类。l(1)简单文本)简单文本简单文本又称为纯文本,是由一连串字符或汉字的编简单文本又称为纯文本,是由一连串字符或汉字的编码组成,它几乎不包含任何其他的格式信息和结构信码组成,它几乎不包含任何其他的格式信息和结构信息,其文件后缀名是息,其文件后缀名是.txt。Windows附件中的记事附件中的记事本程序所编辑处理的文本就是简单文本。本程序所编辑处理的文本就是简单文本。简单文本简单文本(纯文本纯文本 ) 本本 书书 由由 南南 京京 大大 学学 出出 版版 社社 ( P u b l i s

3、 h i n g H o u s e o f N a n j i n g U n i v e r s i t y ) 出出 版版 文文本本例:例:本书由南京大学出版社本书由南京大学出版社(Publishing House of Nanjing University)(Publishing House of Nanjing University)出版出版文文本本在在计计算算机机中中的的表表示示 B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6 B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67 20 48 6F

4、75 73 65 20 6F 66 20 4E 61 6E 6A 69 6E 67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6 文本的分类文本的分类(2)丰富格式文本)丰富格式文本l在日常生活中,为了文本能美观、醒目的展现给用户,在日常生活中,为了文本能美观、醒目的展现给用户,人们通常需要对纯文本进行加工、排版,这样的文本人们通常需要对纯文本进行加工、排版,这样的文本就是就是“丰富格式文本丰富格式文本”,如微软公司的,如微软公司的Word软件所软件所处理的处理的DOC文件、文件、Adobe公司的公司的Acrobat软件所处软件所处理的理的PD

5、F文件等。文件等。l在丰富格式文本中,除正文之外,还有许多用来说明在丰富格式文本中,除正文之外,还有许多用来说明文本的版面结构、内容组织、文字属性的信息,这些文本的版面结构、内容组织、文字属性的信息,这些信息被称为信息被称为“标记标记”,这些标记及其使用规则被称为,这些标记及其使用规则被称为“标记语言标记语言”。不同的软件使用的标记语言并不相同,。不同的软件使用的标记语言并不相同,相互之间不一定兼容。为了便于丰富格式文本在不同相互之间不一定兼容。为了便于丰富格式文本在不同的软件和系统中互换使用,一些公司还联合提出了一的软件和系统中互换使用,一些公司还联合提出了一种公用的中间格式,称为种公用的中

6、间格式,称为RTF格式。格式。丰富格式文本丰富格式文本本书由南京大学出版社本书由南京大学出版社(Publishing House of Nanjing University)(Publishing House of Nanjing University)出版出版举例:下面标题的格式为:中文用黑体,西文用举例:下面标题的格式为:中文用黑体,西文用Arial Black体,居中体,居中 使用使用HTML语言描述为:语言描述为: 本书由南京大学出版社本书由南京大学出版社(Publishing House of Nanjing University)出版出版用一对用一对指出的是标记,如指出的是标记,如

7、 和和 等,用于说明排版的格式和文字属性,它等,用于说明排版的格式和文字属性,它们不属于正文内容们不属于正文内容正文内容正文内容文本的分类文本的分类超文本超文本:它是用超链接的方法,将各种不同空间它是用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。的文字信息组织在一起的网状文本。超链接是有向的,起点位置称为链源,它可以是超链接是有向的,起点位置称为链源,它可以是网页中的一个标题、一个句子、一副画等;目的网页中的一个标题、一个句子、一副画等;目的地称为链宿,它可以是另一个网页(在本网站或地称为链宿,它可以是另一个网页(在本网站或其他网站中),也可以是同一个网页中的其他部其他网站中)

8、,也可以是同一个网页中的其他部分。分。超文本的格式有很多,目前最常使用的是超文本超文本的格式有很多,目前最常使用的是超文本标记语言标记语言(Hyper Text Markup Language,HTML) 及丰富文本格式及丰富文本格式(Rich Text Format,RTF)。超文本(超文本(www网页)网页)WWW网页按照其内容的关联性相互进行链接,网网页按照其内容的关联性相互进行链接,网页就是典型的页就是典型的 “超文本超文本”超文本也属于丰富格式文本超文本也属于丰富格式文本网页网页A网页网页B网页网页C网页网页D网页网页E网页网页F网页网页G网页网页Ha1 a2b2c2 f1d1c1

9、b1e1g1h1a3“超链超链”实际上就是一个实际上就是一个指针,用于指向其他网页,指针,用于指向其他网页,也可以指向同一网页中的也可以指向同一网页中的其他部分其他部分 超链是有向的,起点位置称为超链是有向的,起点位置称为链源,它可以是网页中的一个链源,它可以是网页中的一个标题、一句句子、一个关键词、标题、一句句子、一个关键词、一幅画、一个图标等一幅画、一个图标等小结:文本的分类小结:文本的分类文本文本类型类型 特点特点 在计算机内的表示在计算机内的表示 文件文件扩展名扩展名 用途用途简单简单文本文本没有字体、字号和版没有字体、字号和版面格式的变化,文本面格式的变化,文本在页面上逐行排列,在页

10、面上逐行排列,也不含图片和表格也不含图片和表格由一连串与正文内容对应由一连串与正文内容对应的字符的编码所组成,几的字符的编码所组成,几乎不包含任何其他的格式乎不包含任何其他的格式信息和结构信息信息和结构信息.txt网上聊天网上聊天短信短信文字录入文字录入OCR输入输入丰富丰富格式格式文本文本(线性线性文本文本)有字体、字号、颜色有字体、字号、颜色等变化,文本在页面等变化,文本在页面上可以自由定位和布上可以自由定位和布局,还可插入图片和局,还可插入图片和表格表格除了与正文对应的字符编除了与正文对应的字符编码之外,还使用某种码之外,还使用某种“标标记语言记语言”所规定的一些标所规定的一些标记来说明

11、该文本的文字属记来说明该文本的文字属性和排版格式等性和排版格式等.doc.rtf.htm.html.pdf公文公文论文论文书稿书稿网页网页丰富丰富格式格式文本文本(超文超文本本)除上述特征外,文本除上述特征外,文本中还含有超链,使文中还含有超链,使文本呈现为一种网状结本呈现为一种网状结构构同上,但还应包含用于指同上,但还应包含用于指出出“链源链源”和和“链宿链宿”的的标记标记.doc.rtf.htm.html.pdf.hlp同上,以同上,以及软件的及软件的联机文档联机文档(帮助文件帮助文件)文本的输入文本的输入 使用计算机制作文本,首先要向计算机输入该文使用计算机制作文本,首先要向计算机输入该

12、文本所包含的字符信息。本所包含的字符信息。l人工输入人工输入:即通过键盘完成信息输入,某些场合也会使用语音输即通过键盘完成信息输入,某些场合也会使用语音输入和联机手写输入等方法。入和联机手写输入等方法。人工输入速度慢、成本高、使用方便。人工输入速度慢、成本高、使用方便。l印刷体自动识别技术。印刷体自动识别技术。该技术是将纸介质上的文本通过识别技术自动转换为该技术是将纸介质上的文本通过识别技术自动转换为文字的编码。文字的编码。这种输入方式速度快、效率高,通常应用于需要大批这种输入方式速度快、效率高,通常应用于需要大批量输入文字资料的档案管理、图书情报等应用领域。量输入文字资料的档案管理、图书情报

13、等应用领域。文字符号输入计算机的方法文字符号输入计算机的方法印刷体识别印刷体识别手写体识别手写体识别键盘输入键盘输入联机手写输入联机手写输入语音输入语音输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入 技术上非常困难,还无法实用技术上非常困难,还无法实用目前准备先突破工整的楷书手写体的识别目前准备先突破工整的楷书手写体的识别!汉字的键盘输入汉字的键盘输入 汉字与键盘上的键无法一一对应,因此汉字与键盘上的键无法一一对应,因此必须使用几个键来表示一个汉字,这就称必须使用几个键来表示一个汉字,这就称为汉字的为汉字的“键盘输入编码键盘输入编码” 优秀的汉字键盘输入编码应具有的特

14、点:优秀的汉字键盘输入编码应具有的特点:l易学习、易记忆易学习、易记忆l效率高效率高(平均击键次数较少平均击键次数较少)l重码少重码少l容量大容量大(可输入的汉字字数多可输入的汉字字数多)汉字键盘输入方法的比较汉字键盘输入方法的比较类型类型原理原理举例举例优点优点缺点缺点数字数字编码编码使用一串数字来表示使用一串数字来表示汉字汉字电报码电报码区位码区位码仅使用仅使用10个数个数字键字键难记忆难记忆字音字音编码编码把汉语的拼音作为汉把汉语的拼音作为汉字的输入编码字的输入编码智能智能ABC紫光华宇紫光华宇微软拼音输入微软拼音输入简单易学,适简单易学,适合于非专业人合于非专业人员员重码多,需增加选择

15、重码多,需增加选择操作,不会汉语拼音操作,不会汉语拼音或不知道读音时无法或不知道读音时无法使用使用字形字形编码编码把汉字的部件或笔画把汉字的部件或笔画作为码元,按照汉字作为码元,按照汉字结构及其切分规则作结构及其切分规则作为编码依据,确定每为编码依据,确定每个汉字的输入代码个汉字的输入代码五笔字形五笔字形表形码表形码郑码郑码重码少、输入重码少、输入速度较快,适速度较快,适合于专业录入合于专业录入员、打字员使员、打字员使用用缺乏统一的规范,编缺乏统一的规范,编码规则不易掌握码规则不易掌握音形音形编码编码(或形音或形音编码编码)采用字音及字形两种采用字音及字形两种属性作为码元的汉字属性作为码元的汉

16、字编码输入方法编码输入方法粤音输入法粤音输入法同上同上同时要掌握音、形两同时要掌握音、形两种取码方法或规则,种取码方法或规则,对普通用户比较困难对普通用户比较困难文本的输出文本的输出 文本的输出通常分为打印输出和屏幕输出。文本的输出通常分为打印输出和屏幕输出。由于存放在计算机存储器中的文本是数字由于存放在计算机存储器中的文本是数字形式的、不可见的,因此,无论是打印还形式的、不可见的,因此,无论是打印还是屏幕显示,它们都需要专门的软件进行是屏幕显示,它们都需要专门的软件进行文本格式的翻译和显示。文本格式的翻译和显示。承担文本输出任务的软件称为阅读器或浏承担文本输出任务的软件称为阅读器或浏览器,如

17、微软的览器,如微软的Word、IE浏览器,浏览器,Adobe公司的公司的Adobe Reader等。等。输出过程中字形的生成输出过程中字形的生成 过程:过程:l先根据字符的字体确定相应的字库(先根据字符的字体确定相应的字库(font),),l再按照该字符的代码从字库中取出该字符的形状描述再按照该字符的代码从字库中取出该字符的形状描述信息信息l然后按形状描述信息生成字形,并按照字号大小及有然后按形状描述信息生成字形,并按照字号大小及有关属性(粗体、斜体、下横线)将字形作必要的变换关属性(粗体、斜体、下横线)将字形作必要的变换l最后将变换得到的字形放置在页面的指定位置处最后将变换得到的字形放置在页

18、面的指定位置处2种不同的字库:种不同的字库:点阵点阵描述描述轮廓轮廓描述描述轮廓点轮廓点直线直线二次曲线二次曲线西文字符的编码西文字符的编码 西文字符是由拉丁字母、数字、标点符号西文字符是由拉丁字母、数字、标点符号及一些特殊符号组成及一些特殊符号组成目前在计算机中使用最广泛的是标准目前在计算机中使用最广泛的是标准ASCII字符集及其编码。字符集及其编码。ASCII码又称为美国标准信息交换码,国码又称为美国标准信息交换码,国际上通用的是际上通用的是7位二进制数版本,共位二进制数版本,共128个元素。个元素。西文字符的编码西文字符的编码 012345670 1 2 3 4 5 6 7 8 9 A

19、B C D E Fb6b5b4b3b2b1b0图5-2 标准ASCII字符集及其编码32个控制字符,不可打印空格通常一个通常一个ASCII码值占一个字节(码值占一个字节(8个二进制位个二进制位),每个字,每个字节中多余出来的一位(最高位)可设为节中多余出来的一位(最高位)可设为“0”,用作数据传,用作数据传输时的奇偶校验。输时的奇偶校验。汉字的编码汉字的编码 汉字的历史源远流长,世界四分之一的人汉字的历史源远流长,世界四分之一的人口使用汉字,汉语被联合国列为法定六种口使用汉字,汉语被联合国列为法定六种正式语言和工作语言之一。正式语言和工作语言之一。中文文本的基本组成单位是汉字,汉字数中文文本的

20、基本组成单位是汉字,汉字数量大,同音、异体字多,它们在计算机内量大,同音、异体字多,它们在计算机内部的表示与处理则是一个非常重要的问题。部的表示与处理则是一个非常重要的问题。目前汉字编码主要有目前汉字编码主要有GB2312、GBK、GB18030等。等。常用的汉字编码字符集常用的汉字编码字符集国家标准国家标准GB2312-1980汉字扩充规范汉字扩充规范 GBK (已被已被GB 18030取代取代)国家标准国家标准GB18030-2005港澳台使用的汉字编码字符集港澳台使用的汉字编码字符集CNS 11643 (BIG 5,俗称,俗称“大五码大五码”)UCS/Unicode多文种大字符集多文种大

21、字符集lUnicode的的UTF-8lUnicode的的UTF-16GB2312汉字编码汉字编码 GB2312汉字编码是我国在汉字编码是我国在1981年颁布的第一个年颁布的第一个国家标准国家标准在该标准中有在该标准中有3755个一级常用汉字(按汉语拼音个一级常用汉字(按汉语拼音排列)、排列)、3008个二级常用汉字(按偏旁部首排列)个二级常用汉字(按偏旁部首排列)和和682个非汉字字符。个非汉字字符。一级汉字一级汉字(3755个)个)二级汉字二级汉字(3008个)个)(扩充使用)(扩充使用)字母、数字和各种符号字母、数字和各种符号 19423位号位号 191655568794区区 号号(按汉语

22、拼音排列按汉语拼音排列)(按偏旁部首排列按偏旁部首排列)共共6763个汉字和个汉字和682个符号,个符号,每个每个汉字和符号都有一汉字和符号都有一个确定位置个确定位置拉丁字母、俄拉丁字母、俄文、日文平假文、日文平假名与片假名、名与片假名、希腊字母、汉希腊字母、汉语拼音等共语拼音等共682个个GB2312汉字编码汉字编码GB2312的所有字符分布在一个的所有字符分布在一个94行行94列的列的二维平面内,行号称为区号,列号称为位号,各二维平面内,行号称为区号,列号称为位号,各用两位十进制数表示。用两位十进制数表示。在计算机内部每个汉字采用在计算机内部每个汉字采用2个字节来表示,并个字节来表示,并把

23、每个字节的最高位均规定为把每个字节的最高位均规定为“1”。这种高位均。这种高位均为为“1”的双字节汉字编码就称为的双字节汉字编码就称为GB2312汉字汉字的的“机内码机内码”,又称为,又称为“内码内码”。目前目前PC机中机中GB2312汉字不论用何种方法录入,汉字不论用何种方法录入,在机器内部都统一用机内码表示。在机器内部都统一用机内码表示。GB2312汉字的编码汉字的编码每一个每一个GB2312汉字使用汉字使用16位位(2个字个字节节)表示表示为了与为了与ASCII字符相区别,每个字节的字符相区别,每个字节的最高位均为最高位均为“1”例如:例如:“南南”字的代码是字的代码是11000100

24、11001111(用十六进制表示为(用十六进制表示为C4CF) 11第第1字节字节第第2字节字节X X X X X X XX X X X X X X汉字编码对照表汉字编码对照表 由于由于GB2312编码只有编码只有6763个汉字,且均为简体字,在实个汉字,且均为简体字,在实际应用中经常不够使用,所以我国又陆续发布了其它一些汉际应用中经常不够使用,所以我国又陆续发布了其它一些汉字编码标准,它们之间的关系如表所示。字编码标准,它们之间的关系如表所示。GB2312GBKGB18030-2005Unicode 5.0汉字数目6763个汉字(简体字)21003个汉字(简、繁体均有)70244个汉字(包括

25、中、日、韩统一汉字)70217个汉字(国际标准)字节数双字节存储和表示,每个字节的最高位均为“1” 双字节存储和表示,第1个字节的最高位必为“1”部分双字节、部分4字节表示变字节编码兼容性只与GB18030编码兼容GBK汉字汉字内码扩充规范内码扩充规范 GB2312的不足:的不足:l汉字字数太少,缺少繁体字汉字字数太少,缺少繁体字,无法满足人名、地名、古籍无法满足人名、地名、古籍整理、古典文献研究等应用的需要;与整理、古典文献研究等应用的需要;与ASCII码不兼容码不兼容GBK汉字汉字内码扩充规范(内码扩充规范(1995):):l在在GB2312基础上,增加了基础上,增加了1万多汉字万多汉字(

26、包括繁体字包括繁体字)和符和符号号l共有共有21003个汉字和个汉字和883个图形符号,如个图形符号,如“計計算算機機”、冃冃、冄冄、円円、冇冇等繁体字和生僻字等繁体字和生僻字 l与与GB8312保持向下兼容,也使用双字节表示,第保持向下兼容,也使用双字节表示,第1字节字节最高位必须为最高位必须为“1”:1 X第第1字节字节第第2字节字节X X X X X X XX X X X X X XUCS/Unicode多文种大字符集多文种大字符集背景:为了实现全球数以千计的不同语言文字的统一编码背景:为了实现全球数以千计的不同语言文字的统一编码方案:方案:ISO将全球所有文字字母和符号集中在一个字符集

27、中进行将全球所有文字字母和符号集中在一个字符集中进行统一编码统一编码(目前共收集了目前共收集了17x2161,114,112 个个) ,称为,称为UCS/UnicodeUCS/Unicode的编码方案:的编码方案:l先实现部分字符的编码(近先实现部分字符的编码(近11万个字符)万个字符)l尽量与已有编码标准兼容尽量与已有编码标准兼容l包含有中、日、韩统一整理出来的约包含有中、日、韩统一整理出来的约7万汉字(称万汉字(称CJK汉字)汉字)l允许有若干不同的编码方案允许有若干不同的编码方案, 常用的两种是:常用的两种是:单字节:单字节:ASCII字符字符双字节:拉丁、希腊、阿拉伯,双字节:拉丁、希

28、腊、阿拉伯,三字节:三字节:CJK汉字汉字四字节:其他四字节:其他Unicode:UTF-8 单字节可变长编码单字节可变长编码应用:应用:Linux,Web网页,电子邮件网页,电子邮件双字节:双字节: ASCII字符、拉丁、希腊、字符、拉丁、希腊、 阿阿 拉伯,常用拉伯,常用CJK汉字,汉字,四字节:非常用四字节:非常用CJK汉字汉字Unicode:UTF-16双字节可变长编码双字节可变长编码应用:应用:Windows,Mac,Java,GB18030汉字编码标准汉字编码标准背景:无论是背景:无论是Unicode的的UTF-8还是还是UTF-16,其,其CJK汉字字汉字字符集虽然覆盖了我国已使

29、用多年的符集虽然覆盖了我国已使用多年的GB2312和和GBK标准中的汉字,标准中的汉字,但它们的但它们的编码并不相同编码并不相同为了既能与为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的编码标准接轨,又能保护我国已有的大量汉字信息资源,我国在大量汉字信息资源,我国在2000年和年和2005年两次发布年两次发布GB18030汉字编码国家标准汉字编码国家标准。GB18030实质上是实质上是UCS/Unicode字符集的另一种编码方案:字符集的另一种编码方案:l单字节编码(单字节编码(128个)表示个)表示ASCII字符字符l双字节编码(双字节编码(23940个)表示汉字,与个)表示

30、汉字,与GBK(以及(以及GB2312)保持向)保持向下兼容,下兼容,GBK不再使用不再使用l四字节编码(约四字节编码(约158万个)用于表示万个)用于表示 UCS/Unicode中的其他字符中的其他字符GB18030目前已在我国信息处理产品中强制贯彻执行。目前已在我国信息处理产品中强制贯彻执行。 标准名称标准名称GB2312GBKGB18030UCS-2(Unicode)字符集字符集6763个汉字个汉字(简体字简体字)21003个汉字个汉字(包括(包括GB2312汉字汉字在内)在内)近近3万汉字万汉字(包括包括GBK汉汉字和字和CJK及其及其扩充中的汉字扩充中的汉字)包含近包含近11万字符,

31、万字符,其中的汉字与其中的汉字与GB18030相同相同编码方法编码方法双字节存储和双字节存储和表示,每个字表示,每个字节的最高位均节的最高位均为为“1” 双字节存储和双字节存储和表示,第表示,第1个字个字节的最高位必节的最高位必为为“1”部分双字节、部分双字节、部分部分4字节表字节表示,双字节表示,双字节表示方案与示方案与GBK相同相同(1) UTF-8采用单采用单字节可变长编码字节可变长编码(2) UTF-16采用双采用双字节可变长编码字节可变长编码兼容性兼容性编码编码不兼容!不兼容!小结:几种汉字编码的对比小结:几种汉字编码的对比编码保持向下兼容编码保持向下兼容小结:不同标准,不同的表示!

32、小结:不同标准,不同的表示!与字符的编码一样,图像、声音、视频等也分别有许多编码与字符的编码一样,图像、声音、视频等也分别有许多编码标准:国际标准标准:国际标准(ISO)、国家标准、国家标准(GB)、工业标准、企业、工业标准、企业标准等,这也是信息处理复杂性的原因之一。标准等,这也是信息处理复杂性的原因之一。n由于经济利益和政治体制等多种原因,相同的信息在计算机由于经济利益和政治体制等多种原因,相同的信息在计算机中可以有不同的表示,即采用不同的编码进行表示中可以有不同的表示,即采用不同的编码进行表示n例如:例如: “南京大学南京大学1234ABCD”的的3种表示:种表示:C4 CF BE A9

33、 B4 F3 D1 A7 31 32 33 34 41 42 43 44E5 8D 97 E4 BA AC E5 A4 A7 E5 ADA6 31 32 33 34 41 42 43 4457 53 AC 4E 27 59 66 5B 31 00 32 00 33 00 34 00 41 00 42 00 43 00 44 00GBUTF-8UTF-16文本的编辑和处理文本的编辑和处理 1. 文本编辑和排版文本编辑和排版l在许多场合,为了实际需要,文本必须美观、清晰,在许多场合,为了实际需要,文本必须美观、清晰,所以需要对字、词、段落进行添加、删除、修改、格所以需要对字、词、段落进行添加、删除

34、、修改、格式的设置等排版工作。式的设置等排版工作。l这些解决文本外观的问题就是文本编辑的主要任务。这些解决文本外观的问题就是文本编辑的主要任务。常用的文字处理软件如常用的文字处理软件如Microsoft Word 、WPS等。等。2. 文本处理文本处理l文本处理强调的是使用计算机对文本中所含文字信息文本处理强调的是使用计算机对文本中所含文字信息的形、音、义等进行分析和处理,如字数统计、词语的形、音、义等进行分析和处理,如字数统计、词语错误检测、文语转换等。错误检测、文语转换等。l文本处理最广泛的应用就是文本检索,如文本处理最广泛的应用就是文本检索,如Google检检索或百度检索。索或百度检索。

35、目的:确保文本内容正确无误目的:确保文本内容正确无误操作:对字、词、句和段落进行添加、删操作:对字、词、句和段落进行添加、删除、修改等操作除、修改等操作MS Word的功能:的功能:l在文本的任何位置都可以在文本的任何位置都可以插入插入新的文字新的文字l从文本的任何位置都可以从文本的任何位置都可以删除删除不需要的文字不需要的文字l将一段文字从一处将一段文字从一处移动移动到另一处到另一处l将一段文字从一处将一段文字从一处复制复制到另一处到另一处l在文本中自动在文本中自动查找查找指定的词语指定的词语l用一个词语自动用一个词语自动替换替换文本中指定的词语文本中指定的词语文本编辑文本编辑(text e

36、diting)目的:使文本清晰、美观、目的:使文本清晰、美观、便于阅读便于阅读操作内容:对文本中的字操作内容:对文本中的字符、段落乃至整篇文章的符、段落乃至整篇文章的格式进行设计和调整,分格式进行设计和调整,分成成3个层次:个层次:l对字符格式进行设置对字符格式进行设置l对段落格式进行设置对段落格式进行设置l对文档页面进行格式设置对文档页面进行格式设置文本排版文本排版(Typesetting )设置字符的格式设置字符的格式字号字号( (八号八号 初号初号, 5磅磅72磅以上磅以上) ) 1 1磅相当于磅相当于1/721/72英寸英寸 字体字体( (宋体、宋体、楷体楷体、黑体黑体、仿宋仿宋、隶书

37、隶书) )字符的修饰字符的修饰l字符的形状字符的形状( (字形字形) ):正常、加粗、加粗、倾斜、加粗倾斜加粗倾斜l字形的修饰:字形的修饰:下划线下划线、着重号、上下标、删除线、着重号、上下标、删除线l字符的颜色字符的颜色l字符的宽度字符的宽度l字符的间距字符的间距l字符的效果字符的效果字符的排列方向字符的排列方向什么是段落?用什么是段落?用“回车回车”相互隔开的一组文相互隔开的一组文字字段落格式的设置:段落格式的设置:l段落的对齐方式段落的对齐方式( (两端对齐、分散对齐、居中对齐、两端对齐、分散对齐、居中对齐、左对齐、右对齐左对齐、右对齐)l段落的缩进方式段落的缩进方式( (首行缩进、悬挂缩进、左缩进、右缩进首行缩进、悬挂缩进、左缩进、右缩进)l段间距和段内行距段间距和段内行距l使用编号和项目符号使用编号和项目符号l段落段落添加边框和底纹添加边框和底纹l首字下沉或悬挂首字下沉或悬挂l段落与分页的关系段落与分页的关系设置段落的格式设置段落的格式控制段落的缩进控制段落的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论