第5章51 文本与文本处理_第1页
第5章51 文本与文本处理_第2页
第5章51 文本与文本处理_第3页
第5章51 文本与文本处理_第4页
第5章51 文本与文本处理_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第5章章 数字媒体及应用数字媒体及应用5.1 文本与文本处理文本与文本处理 5.2 图像与图形图像与图形 5.3 数字声音及应用数字声音及应用5.4 数字视频及应用数字视频及应用25.1 文本与文本处理5.1 文本与文本处理文本与文本处理 5.1.1 字符的编码字符的编码5.1.2 文本准备文本准备5.1.4 文本编辑、排版与处理文本编辑、排版与处理5.1.3 文本的分类文本的分类5.1.5 文本的展现文本的展现 35.1 文本与文本处理文字处理是计算机应用的基础文字处理是计算机应用的基础n 计算机应用使用计算机进行信息处理计算机应用使用计算机进行信息处理n 其中,其中,文字信息处理是涉及面

2、最广的一种计算机文字信息处理是涉及面最广的一种计算机应用,几乎与任何领域任何人都有关。应用,几乎与任何领域任何人都有关。文字文字数值数值语言语言音乐音乐图像图像信息的形态有多种信息的形态有多种45.1 文本与文本处理写作写作编辑编辑排版排版印刷印刷发行发行写作写作 传统的文字处理过程传统的文字处理过程55.1 文本与文本处理计算机文字处理过程计算机文字处理过程n 文字信息在计算机中称为文字信息在计算机中称为“文本文本”(text),文本是计算机中最),文本是计算机中最常用的一种数字媒体常用的一种数字媒体n 文本由一系列文本由一系列 “字符字符”(character)组成,每个字符均使用二)组成

3、,每个字符均使用二进制编码表示进制编码表示n 文本在计算机中的处理过程是:文本在计算机中的处理过程是:(文本编辑器文本编辑器)文本编辑文本编辑与排版与排版格式化的格式化的电子文本电子文本(2)文本文本展现展现(文本阅读器文本阅读器)(5)文本处理文本处理(文本处理软件文本处理软件)(3)文本准备文本准备电子电子文本文本(1)(文字与图表文字与图表 的输入的输入)文本存储文本存储与传输与传输(4)( (存档存档/ /通信软件通信软件) )65.1 文本与文本处理5.1.1. 字符在计算机中的表示字符在计算机中的表示 75.1 文本与文本处理字符、字符集及其编码表字符、字符集及其编码表 n 文字的

4、基本元素是字母和符号,统称为文字的基本元素是字母和符号,统称为“字符字符” (character),它包括:字母、数字、标点、符号等,它包括:字母、数字、标点、符号等n 字符集:一组特定字符的集合字符集:一组特定字符的集合n 不同的字符集包含的字符数目与内容不同,如:不同的字符集包含的字符数目与内容不同,如:中文字符集、西文字符集、日文字符集等中文字符集、西文字符集、日文字符集等n 字符的编码:字符的编码:n 字符集中每个字符的二进位表示,称为该字符的编码或代码字符集中每个字符的二进位表示,称为该字符的编码或代码(code) n 不同的字符其编码各不相同不同的字符其编码各不相同n 字符集中所有

5、字符的编码的一览表,称为该字符集的码表字符集中所有字符的编码的一览表,称为该字符集的码表85.1 文本与文本处理复习:西文字符的编码复习:西文字符的编码ASCII码码n 西文是表音文字西文是表音文字(拼音文字拼音文字),它由拉丁字母、数字、标点符号,它由拉丁字母、数字、标点符号以及一些特殊符号所组成以及一些特殊符号所组成n 美国标准信息交换码美国标准信息交换码(ASCII码码):n ASCII字符集包含字符集包含96个可打印字符和个可打印字符和32个控制字符个控制字符n 采用采用7个二进位进行编码个二进位进行编码n 计算机中使用计算机中使用1个字节存储个字节存储1个个ASCII 字符字符n 存

6、在问题:存在问题:n 字符集太小(只有字符集太小(只有128个字符)个字符)n 不同国家和地区使用不同的字符集及其编码,互不兼容不同国家和地区使用不同的字符集及其编码,互不兼容n 东亚地区使用的大字符集无法编码东亚地区使用的大字符集无法编码0X X X X X X X95.1 文本与文本处理汉字如何编码?汉字如何编码?n 汉字是记录汉语(国语,华语)的文字,属于表汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素,有多个国意文字,它用符号直接表达词或词素,有多个国家和地区使用(中、日、韩、新、马家和地区使用(中、日、韩、新、马)n 汉字的特点汉字的特点n数量大;字形复杂

7、,同音字多,异体字多数量大;字形复杂,同音字多,异体字多n 如何编码?如何编码?n确定收入多少字、哪些字?确定收入多少字、哪些字?n在字符集中如何排列?在字符集中如何排列?n使用多少个二进位进行编码?使用多少个二进位进行编码?105.1 文本与文本处理常用的汉字编码字符集常用的汉字编码字符集n国家标准国家标准GB2312-1980n汉字扩充规范汉字扩充规范 GBKn国家标准国家标准GB18030-2005n台湾地区的标准汉字字符集台湾地区的标准汉字字符集CNS 11643 (BIG 5,俗称俗称“大五码大五码”)n日本工业标准汉字字符集日本工业标准汉字字符集JIS X 0208-90n韩国国家

8、标准汉字字符集韩国国家标准汉字字符集KSC 5601-87nUCS/Unicode多文种大字符集多文种大字符集115.1 文本与文本处理一级汉字一级汉字(3755个)个)二级汉字二级汉字(3008个)个)(扩充使用)(扩充使用)字母、数字和各种符号字母、数字和各种符号 19423位号位号 191655568794区区 号号(按汉语拼音排列按汉语拼音排列)(按偏旁部首排列按偏旁部首排列)GB2312汉字编码字符集汉字编码字符集n 1980年颁布年颁布信息交换用汉字编码字符集信息交换用汉字编码字符集基本基本集集GB2312-1980n GB2312字符集由三个部分构成:字符集由三个部分构成:拉丁字

9、母、俄拉丁字母、俄文、日文平假文、日文平假名与片假名、名与片假名、希腊字母、汉希腊字母、汉语拼音等共语拼音等共682个个共共6763个汉字和个汉字和682个符号,个符号,每个每个汉字和符号都有一汉字和符号都有一个确定位置个确定位置125.1 文本与文本处理GB2312汉字的编码汉字的编码n 每一个每一个GB2312汉字使用汉字使用16位位(2个字节个字节)表示表示n 为了与为了与ASCII字符相区别,每个字节的最高位均字符相区别,每个字节的最高位均为为“1”n 例如:例如:“南南”字的代码是字的代码是11000100 11001111(用十六进制表示为(用十六进制表示为C4CF) 11第第1字

10、节字节第第2字节字节X X X X X X XX X X X X X X135.1 文本与文本处理GBK汉字汉字内码扩充规范内码扩充规范 n GB2312的不足:的不足:n 汉字字数太少,缺少繁体字汉字字数太少,缺少繁体字,无法满足无法满足人名、地名、古籍整理、人名、地名、古籍整理、古典文献研究古典文献研究等应用的需要;与等应用的需要;与ASCII码不兼容码不兼容n GBK汉字汉字内码扩充规范(内码扩充规范(1995):):n 在在GB2312基础上,增加了基础上,增加了1万多汉字万多汉字(包括繁体字包括繁体字)和符号和符号n 共有共有21003个汉字和个汉字和883个图形符号,如个图形符号,

11、如“計計算算機機”、冃冃、冄冄、円円、冇冇等繁体字和生僻字等繁体字和生僻字 n 与与GB8312保持向下兼容,也使用双字节表示,第保持向下兼容,也使用双字节表示,第1字节最高位字节最高位必须为必须为“1”:1 X第第1字节字节第第2字节字节X X X X X X XX X X X X X X145.1 文本与文本处理UCS/Unicode多文种大字符集多文种大字符集n 背景:为了实现全球数以千计的不同语言文字的统一编码背景:为了实现全球数以千计的不同语言文字的统一编码n 方案:方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一将全球所有文字字母和符号集中在一个字符集中进行统一编码编

12、码(目前共收集了目前共收集了17x2161,114,112 个个) ,称为,称为UCS/Unicoden UCS/Unicode的编码方案:的编码方案:n 先实现部分字符的编码(共先实现部分字符的编码(共107,361个字符)个字符)n 尽量与已有编码标准兼容尽量与已有编码标准兼容n 其中包含有中、日、韩统一整理出来的近其中包含有中、日、韩统一整理出来的近3万汉字(称万汉字(称CJK汉字)汉字)n 允许有若干不同的编码方案允许有若干不同的编码方案, 例如:例如:单字节:单字节:ASCII字符字符双字节:拉丁、希腊、阿拉伯,双字节:拉丁、希腊、阿拉伯,三字节:三字节:CJK汉字汉字四字节:其他四

13、字节:其他Unicode:UTF-8 单字节可变长编码单字节可变长编码应用:应用:Linux,Web网页,电子邮件网页,电子邮件双字节:双字节: ASCII字符、拉丁、希腊、字符、拉丁、希腊、 阿阿 拉伯,常用拉伯,常用CJK汉字,汉字,四字节:非常用四字节:非常用CJK汉字汉字Unicode:UTF-16双字节可变长编码双字节可变长编码应用:应用:Windows,Mac,Java,155.1 文本与文本处理GB18030汉字编码标准汉字编码标准n 背景:无论是背景:无论是Unicode的的UTF-8还是还是UTF-16,其,其CJK汉字字符集虽然汉字字符集虽然覆盖了我国已使用多年的覆盖了我国

14、已使用多年的GB2312和和GBK标准中的汉字,但它们的标准中的汉字,但它们的编编码并不相同码并不相同n 为了既能与为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量编码标准接轨,又能保护我国已有的大量汉字信息资源,我国在汉字信息资源,我国在2000年和年和2005年两次发布年两次发布GB18030汉字编码汉字编码国家标准国家标准。n GB18030实质上是实质上是UCS/Unicode字符集的另一种编码方案:字符集的另一种编码方案:n 单字节编码(单字节编码(128个)表示个)表示ASCII字符字符n 双字节编码(双字节编码(23940个)表示汉字,与个)表示汉字,与GBK

15、(以及(以及GB2312)保持向)保持向下兼容,下兼容,GBK不再使用不再使用n 四字节编码(约四字节编码(约158万个)用于表示万个)用于表示 UCS/Unicode中的其他字符中的其他字符n GB18030目前已在我国信息处理产品中强制贯彻执行。目前已在我国信息处理产品中强制贯彻执行。 165.1 文本与文本处理标准名称标准名称GB2312GBKGB18030UCS-2(Unicode)字符集字符集6763个汉字个汉字(简简体字体字)21003个汉字个汉字(包括(包括GB2312汉字在内)汉字在内)近近3万汉字万汉字(包括包括GBK汉字汉字和和CJK及其扩及其扩充中的汉字充中的汉字)包含包

16、含10万多字符,其万多字符,其中的汉字与中的汉字与GB18030相同相同编码方法编码方法双字节存储和双字节存储和表示,每个字表示,每个字节的最高位均节的最高位均为为“1” 双字节存储和表双字节存储和表示,第示,第1个字节个字节的最高位必为的最高位必为“1”部分双字节、部分双字节、部分部分4字节表示,字节表示,双字节表示方双字节表示方案与案与GBK相同相同(1) UTF-8采用单字节采用单字节可变长编码可变长编码(2) UTF-16采用双字采用双字节可变长编码节可变长编码兼容性兼容性编码编码不兼容!不兼容!小结:几种汉字编码的对比小结:几种汉字编码的对比编码保持向下兼容编码保持向下兼容175.1

17、 文本与文本处理例例: IE浏览网页时文字编码的选择浏览网页时文字编码的选择185.1 文本与文本处理5.1.2. 文本准备文本准备 文稿如何输入计算机文稿如何输入计算机 195.1 文本与文本处理文字符号输入计算机的方法文字符号输入计算机的方法键盘输入键盘输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入(1)数字编码数字编码, 如电报码、区位码等如电报码、区位码等, (2)字音编码字音编码, 如智能如智能ABC等等(3)字形编码,如五笔字形和表形码等字形编码,如五笔字形和表形码等, (4)形音编码形音编码发展趋势:基于统计和学习功能的以词语发展趋势:基于统计和学习功能

18、的以词语(短语短语)或句子作为输入单或句子作为输入单位的输入方法位的输入方法205.1 文本与文本处理文字符号输入计算机的方法文字符号输入计算机的方法键盘输入键盘输入联机手写输入联机手写输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入优点:优点:自然,流畅自然,流畅小型化,适合移动计算小型化,适合移动计算不足:不足:识别速度和正确性还需提高识别速度和正确性还需提高书写要求还要降低书写要求还要降低215.1 文本与文本处理文字符号输入计算机的方法文字符号输入计算机的方法键盘输入键盘输入联机手写输入联机手写输入语音输入语音输入自动识别输入自动识别输入字符信息的输入字符信息的

19、输入人工输入人工输入优点:优点:自然,方便,适合移动计算自然,方便,适合移动计算不足:不足:对说话人、说话方式、说话内容的对说话人、说话方式、说话内容的适应能力要大适应能力要大大增强大增强识别速度和正确性还需大大提高识别速度和正确性还需大大提高225.1 文本与文本处理文字符号输入计算机的方法文字符号输入计算机的方法印刷体识别印刷体识别键盘输入键盘输入联机手写输入联机手写输入语音输入语音输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入扫描仪扫描仪OCR数字数字文本文本纸介质纸介质文本文本文本的文本的映象映象(image)识别率已达到识别率已达到98%功能功能: 简、繁体

20、字简、繁体字混合识别混合识别 中文、西文混合识别中文、西文混合识别 文字、表格混合识别文字、表格混合识别 智能校对功能智能校对功能235.1 文本与文本处理文字符号输入计算机的方法文字符号输入计算机的方法印刷体识别印刷体识别手写体识别手写体识别键盘输入键盘输入联机手写输入联机手写输入语音输入语音输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入 技术上非常困难,还无法实用技术上非常困难,还无法实用目前准备先突破工整的楷书手写体的识别目前准备先突破工整的楷书手写体的识别!245.1 文本与文本处理汉字的键盘输入汉字的键盘输入n 汉字与键盘上的键无法一一对应,因此必须使用汉字

21、与键盘上的键无法一一对应,因此必须使用几个键来表示一个汉字,这就称为汉字的几个键来表示一个汉字,这就称为汉字的“键盘输键盘输入编码入编码”n 优秀的汉字键盘输入编码应具有的特点:优秀的汉字键盘输入编码应具有的特点:n易学习、易记忆易学习、易记忆n效率高效率高(平均击键次数较少平均击键次数较少)n重码少重码少n容量大容量大(可输入的汉字字数多可输入的汉字字数多)255.1 文本与文本处理汉字键盘输入方法的比较汉字键盘输入方法的比较类型类型原理原理举例举例优点优点缺点缺点数字数字编码编码使用一串数字来表示汉使用一串数字来表示汉字字电报码电报码区位码区位码仅使用仅使用10个数个数字键字键难记忆难记忆

22、字音字音编码编码把汉语的拼音作为汉字把汉语的拼音作为汉字的输入编码的输入编码智能智能ABC紫光紫光微软拼音输入微软拼音输入简单易学,适简单易学,适合于非专业人合于非专业人员员重码多,需增加选择操作,重码多,需增加选择操作,不会汉语拼音或不知道读不会汉语拼音或不知道读音时无法使用音时无法使用字形字形编码编码把汉字的部件或笔画作把汉字的部件或笔画作为码元,按照汉字结构为码元,按照汉字结构及其切分规则作为编码及其切分规则作为编码依据,确定每个汉字的依据,确定每个汉字的输入代码输入代码五笔字形五笔字形表形码表形码郑码郑码重码少、输入重码少、输入速度较快,适速度较快,适合于专业录入合于专业录入员、打字员

23、使员、打字员使用用缺乏统一的规范,编码规缺乏统一的规范,编码规则不易掌握则不易掌握音形音形编码编码(或形音或形音编码编码)采用字音及字形两种属采用字音及字形两种属性作为码元的汉字编码性作为码元的汉字编码输入方法输入方法粤音输入法粤音输入法同上同上同时要掌握音、形两种取同时要掌握音、形两种取码方法或规则,对普通用码方法或规则,对普通用户比较困难户比较困难265.1 文本与文本处理5.1.4 文本的编辑与排版文本的编辑与排版275.1 文本与文本处理复习:使用复习:使用Word的操作流程的操作流程创建新文档或打开老文档创建新文档或打开老文档文稿输入文稿输入编辑编辑排版排版文档存盘、打印或发送文档存

24、盘、打印或发送输入中西文字、符号输入中西文字、符号和图表和图表进行增、删、改操作,保进行增、删、改操作,保证文本的正确性证文本的正确性满足清晰、美观、便满足清晰、美观、便于使用等要求于使用等要求285.1 文本与文本处理n 目的:确保文本内容正确无误目的:确保文本内容正确无误n 操作:对字、词、句和段落进行添加、删除、修操作:对字、词、句和段落进行添加、删除、修改等操作改等操作n MS Word的功能:的功能:n在文本的任何位置都可以在文本的任何位置都可以插入插入新的文字新的文字n从文本的任何位置都可以从文本的任何位置都可以删除删除不需要的文字不需要的文字n将一段文字从一处将一段文字从一处移动

25、移动到另一处到另一处n将一段文字从一处将一段文字从一处复制复制到另一处到另一处n在文本中自动在文本中自动查找查找指定的词语指定的词语n用一个词语自动用一个词语自动替换替换文本中指定的词语文本中指定的词语文本编辑文本编辑(text editing)295.1 文本与文本处理n 目的:使文本清晰、美观、目的:使文本清晰、美观、便于阅读便于阅读n 操作内容:对文本中的字操作内容:对文本中的字符、段落乃至整篇文章的符、段落乃至整篇文章的格式进行设计和调整,分格式进行设计和调整,分成成3个层次:个层次:n对字符格式进行设置对字符格式进行设置n对段落格式进行设置对段落格式进行设置n对文档页面进行格式设对文

26、档页面进行格式设置置文本排版文本排版(格式化格式化)305.1 文本与文本处理设置字符的格式设置字符的格式n 字号字号( (八号八号 初号初号, 5磅磅72磅以上磅以上) ) 1 1磅相当于磅相当于1/721/72英寸英寸 n 字体字体( (宋体、宋体、楷体楷体、黑体黑体、仿宋仿宋、隶书隶书) )n 字符的修饰字符的修饰n 字符的形状字符的形状( (字形字形) ):正常、加粗、加粗、倾斜、加粗倾斜加粗倾斜n 字形的修饰:字形的修饰:下划线下划线、着重号、上下标、删除线、着重号、上下标、删除线n 字符的颜色字符的颜色n 字符的宽度字符的宽度n 字符的间距字符的间距n 字符的效果字符的效果n 字符

27、的排列方向字符的排列方向Demo1315.1 文本与文本处理n 什么是段落?用什么是段落?用“回车回车”相互隔开的一组文字相互隔开的一组文字n 段落格式的设置:段落格式的设置:n 段落的对齐方式段落的对齐方式( (两端对齐、分散对齐、居中对齐、左对齐、两端对齐、分散对齐、居中对齐、左对齐、右对齐右对齐)n 段落的缩进方式段落的缩进方式( (首行缩进、悬挂缩进、左缩进、右缩进首行缩进、悬挂缩进、左缩进、右缩进)n 段间距和段内行距段间距和段内行距n 使用编号和项目符号使用编号和项目符号n 段落段落添加边框和底纹添加边框和底纹n 首字下沉或悬挂首字下沉或悬挂n 段落与分页的关系段落与分页的关系设置

28、段落的格式设置段落的格式Demo2325.1 文本与文本处理控制段落的缩进控制段落的缩进n 段落缩进是指段落中的文本到正文区左、右边界的距离,段落缩进是指段落中的文本到正文区左、右边界的距离,包括段落左缩进、右缩进和首行缩进。其缩进的距离可包括段落左缩进、右缩进和首行缩进。其缩进的距离可由水平标尺上对应的三个缩进标记来指示由水平标尺上对应的三个缩进标记来指示左缩进标记左缩进标记首行缩进标记首行缩进标记右缩进标记右缩进标记右缩进右缩进左缩进左缩进首行缩进首行缩进正文区正文区右边界右边界正文区正文区左边界左边界悬挂缩进悬挂缩进标标记记335.1 文本与文本处理n页面格式的设置:页面格式的设置:n设

29、置纸张大小和页边距设置纸张大小和页边距n设置每页的行、列数目设置每页的行、列数目n设置分栏数目与格式设置分栏数目与格式n设置页码设置页码n设置页眉和页脚设置页眉和页脚 设置页面的格式设置页面的格式345.1 文本与文本处理设置页面的分栏设置页面的分栏355.1 文本与文本处理n “所见即所得所见即所得”(操作效果屏幕立即可见,打印结果与操作效果屏幕立即可见,打印结果与屏幕所见完全相同)屏幕所见完全相同)n 撤销撤销(undo)和恢复和恢复(redo)操作操作n 格式刷格式刷n 多种视图多种视图(大纲视图与大纲编辑大纲视图与大纲编辑)n 自动更正、自动套用格式、自动编号、自动图文集自动更正、自动

30、套用格式、自动编号、自动图文集 n 自动保存功能和自动备份功能自动保存功能和自动备份功能n 样式、模板和向导样式、模板和向导(wizard)功能功能n 宏操作(宏操作(Macro)提高提高Word操作效率的若干措施操作效率的若干措施365.1 文本与文本处理文本处理初步文本处理初步375.1 文本与文本处理n使用计算机对文本中的字、词、短语、句子、篇章进行识别、转换、分析、理使用计算机对文本中的字、词、短语、句子、篇章进行识别、转换、分析、理解、压缩、加密和检索等有关的处理解、压缩、加密和检索等有关的处理n文本处理内容:文本处理内容:n字数统计,词频统计,简字数统计,词频统计,简/ /繁体相互

31、转换,汉字繁体相互转换,汉字/ /拼音相互转换拼音相互转换n词语排序,词语错误检测,文句语法检查词语排序,词语错误检测,文句语法检查n自动分词,词性标注,词义辨识,大陆自动分词,词性标注,词义辨识,大陆/ /台湾术语转换台湾术语转换n关键词提取,文摘自动生成,文本分类关键词提取,文摘自动生成,文本分类n文本检索(关键词检索、全文检索),文本过滤文本检索(关键词检索、全文检索),文本过滤n文语转换(语音合成),文种转换(机器翻译)文语转换(语音合成),文种转换(机器翻译)n篇章理解,自动问答,自动写作等篇章理解,自动问答,自动写作等n文本压缩,文本加密,文本著作权保护文本压缩,文本加密,文本著作

32、权保护选讲:选讲: 什么是文本处理什么是文本处理?385.1 文本与文本处理例:例:Word 2003的文本处理功能的文本处理功能n 英文拼写检查和英文拼写检查和英语同义词检查英语同义词检查n 字数统计字数统计n 自动编写摘要自动编写摘要n 中文简繁体转换和术语转换中文简繁体转换和术语转换n 中英词语翻译中英词语翻译n 语法和格式检查语法和格式检查n 语音识别(口授命令和听写)语音识别(口授命令和听写)n 文档保护文档保护(防止打开或修改文档防止打开或修改文档)395.1 文本与文本处理5.1.3 文本的分类文本的分类405.1 文本与文本处理简单文本简单文本(纯文本纯文本 ) 本本 书书 由

33、由 南南 京京 大大 学学 出出 B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6 版版 社社 ( P u b l i s h i n g B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67 H o u s e o f N a n j i n 20 48 6F 75 73 65 20 6F 66 20 4E 61 6E 6A 69 6E g U n i v e r s i t y ) 出出 版版 67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6 文文本本的的内

34、内容容文文本本在在计计算算机机中中的的表表示示 没有字体、字号的变化,不能插入图片、表格,也不能建立超没有字体、字号的变化,不能插入图片、表格,也不能建立超链接,其文件后缀名是链接,其文件后缀名是 .txt 由一串用于表达正文内容的字符编码所组成,几乎不包含任何由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息其他的格式信息和结构信息 举例:举例:415.1 文本与文本处理丰富格式文本丰富格式文本本书由南京大学出版社本书由南京大学出版社(Publishing House of Nanjing University)(Publishing House of Nanji

35、ng University)出版出版 有字体字号等属性变化、设置了段落和页面排版格式的文本称为有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富丰富格式文本格式文本” 丰富格式文本中,除了正文内容之外,还使用了许多丰富格式文本中,除了正文内容之外,还使用了许多“标记标记”来描述字来描述字符的属性和格式的设置。符的属性和格式的设置。 举例:下面标题的格式为:中文用黑体,西文用举例:下面标题的格式为:中文用黑体,西文用Arial Black体,居中体,居中 使用使用HTML语言描述为:语言描述为: 本书由南京大学出版社本书由南京大学出版社(Publishing House of Nan

36、jing University)出版出版用一对用一对指出的是标记,如指出的是标记,如 和和 等,用于说明排版的格式和文字等,用于说明排版的格式和文字属性,它们不属于正文内容属性,它们不属于正文内容正文内容正文内容425.1 文本与文本处理超文本超文本n 若干文本或文本中的各个部分可按照其内容的关系互相若干文本或文本中的各个部分可按照其内容的关系互相链接起来,从而形成链接起来,从而形成 “超文本超文本”ABCDEFGHa1 a2b2c2 f1d1c1 b1e1g1h1a3“超链超链”实际上就是一实际上就是一个指针,用于指向其个指针,用于指向其他文本块,也可以指他文本块,也可以指向同一文本块中的其

37、向同一文本块中的其他部分他部分 超链是有向的,起点位置超链是有向的,起点位置称为链源,它可以是文本称为链源,它可以是文本块中的一个标题、一句句块中的一个标题、一句句子、一个关键词、一幅画、子、一个关键词、一幅画、一个图标等一个图标等文本块可以是一个文本块可以是一个网页,一个文档,网页,一个文档,一段文字,也可以一段文字,也可以是一张图片,甚至是一张图片,甚至一段声音或视频一段声音或视频 435.1 文本与文本处理小结:文本的分类小结:文本的分类文本文本类型类型 特点特点 在计算机内的表示在计算机内的表示 文件文件扩展名扩展名 用途用途简单简单文本文本没有字体、字号和版没有字体、字号和版面格式的变化,文本面格式的变化,文本在页面上逐行排列,在页面上逐行排列,也不含图片和表格也不含图片和表格由一连串与正文内容对应由一连串与正文内容对应的字符的编码所组成,几的字符的编码所组成,几乎不包含任何其他的格式乎不包含任何其他的格式信息和结构信息信息和结构信息.txt网上聊天网上聊天短信短信文字录入文字录入OCR输入输入丰富丰富格式格式文本文本(线性线性文本文本)有字体、字号、颜色有字体、字号、颜色等变化,文本在页面等变化,文本在页面上可以自由定位和布

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论