第5章5[1][1]1 文本与文本处理.ppt_第1页
第5章5[1][1]1 文本与文本处理.ppt_第2页
第5章5[1][1]1 文本与文本处理.ppt_第3页
第5章5[1][1]1 文本与文本处理.ppt_第4页
第5章5[1][1]1 文本与文本处理.ppt_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第5章 数字媒体及应用,5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用 5.4 数字视频及应用,本章考题题型分布,5.1 文本与文本处理,5.1.1 字符的编码 5.1.2 文本准备 5.1.3 文本的分类 5.1.4 文本编辑、排版与处理 5.1.5 文本的展现,文字处理是计算机应用的基础,计算机应用使用计算机进行信息处理,其中,文字信息处理是涉及面最广的一种计算机应用,几乎与任何领域任何人都有关。,传统的文字处理过程,计算机文字处理过程,文字信息在计算机中称为“文本”(text),文本是计算机中最常用的一种数字媒体 文本由一系列 “字符”(character)组成,每个

2、字符均使用二进制编码表示 文本在计算机中的处理过程是:,5.1.1. 字符在计算机中的表示,字符、字符集及其编码表,文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、标点、符号等 字符集:一组特定字符的集合 不同的字符集包含的字符数目与内容不同,如: 中文字符集、西文字符集、日文字符集等 字符的编码: 字符集中每个字符的二进位表示,称为该字符的编码或代码(code) 不同的字符其编码各不相同 字符集中所有字符的编码的一览表,称为该字符集的码表,一、西文字符的编码ASCII码,西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成 美

3、国标准信息交换码(ASCII码): ASCII字符集包含96个可打印字符和32个控制字符 采用7个二进位进行编码 计算机中使用1个字节存储1个ASCII 字符 存在问题: 字符集太小(只有128个字符) 不同国家和地区使用不同的字符集及其编码,互不兼容 东亚地区使用的大字符集无法编码,GB2312汉字编码字符集,1980年颁布信息交换用汉字编码字符集基本集(我国第一个国家标准)GB2312-1980 GB2312字符集由三个部分构成:,拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个,共6763个汉字和682个符号,每个汉字和符号都有一个确定位置,区位码:GB2312国标字符

4、集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。 问题:文本中的汉字与西文字符易与单字节的标准ASCII码混淆不清。 例如:“大”字的区号20,位号83,区位码是20 83,用2个字节表示为:00010100 01010011(1453H)。 解决方法:把一个汉字看作两个扩展ASCII码,即每个汉字的区号和位号必须分别加上32(即 0010 0000),且使表示GB2312汉字的两个字节的最高位(b7)都等于“1”。,这种高位为 l 的双字节(16位)汉字编码就称为GB2312汉字的“机内码”,又称内码。例如:“大”字的内码是:10110100 11110011(B4F3

5、)。,汉字的区位码、国标码、机内码的关系: 国标码=区位码+2020H 机内码=国标码+8080H 机内码=区位码+A0A0H汉字机内码双字节,最高位是1;西文字符机内码单字节,最高位是0。,GBK汉字内码扩充规范,GB2312的不足: 汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要;与ASCII码不兼容 GBK汉字内码扩充规范(1995): 在GB2312基础上,增加了1万多汉字(包括繁体字)和符号 共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、冇等繁体字和生僻字 与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必须为“1”:

6、,UCS/Unicode多文种大字符集,背景:为了实现全球数以千计的不同语言文字的统一编码 方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码(目前共收集了17x2161,114,112 个) ,称为UCS/Unicode UCS/Unicode的编码方案: 先实现部分字符的编码(共107,361个字符) 尽量与已有编码标准兼容 其中包含有中、日、韩统一整理出来的近3万汉字(CJK汉字) 允许有若干不同的编码方案, 例如:,GB18030汉字编码标准,背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然覆盖了我国已使用多年的GB2312和GBK标准中的

7、汉字,但它们的编码并不相同 为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量汉字信息资源,我国在2000年和2005年两次发布GB18030汉字编码国家标准。 GB18030实质上是UCS/Unicode字符集的另一种编码方案: 单字节编码(128个)表示ASCII字符 双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向下兼容,GBK不再使用 四字节编码(约158万个)用于表示 UCS/Unicode中的其他字符 GB18030目前已在我国信息处理产品中强制贯彻执行。,小结:几种汉字编码的对比,例: IE浏览网页时文字编码的选择,5.1.2. 文本准备

8、文稿如何输入计算机,文字符号输入计算机的方法,键盘输入,(1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 (3)字形编码,如五笔字形和表形码等, (4)形音编码 发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单位的输入方法,文字符号输入计算机的方法,优点: 自然,流畅 小型化,适合移动计算 不足: 识别速度和正确性还需提高 书写要求还要降低,文字符号输入计算机的方法,优点: 自然,方便,适合移动计算 不足: 对说话人、说话方式、说话内容的适应能力要大大增强 识别速度和正确性还需大大提高,文字符号输入计算机的方法,识别率已达到98% 功能: 简、繁体字混合识别

9、 中文、西文混合识别 文字、表格混合识别 智能校对功能,文字符号输入计算机的方法,技术上非常困难,还无法实用 目前准备先突破工整的楷书手写体的识别!,汉字的键盘输入,汉字与键盘上的键无法一一对应,因此必须使用几个键来表示一个汉字,这就称为汉字的“键盘输入编码” 优秀的汉字键盘输入编码应具有的特点: 易学习、易记忆 效率高(平均击键次数较少) 重码少 容量大(可输入的汉字字数多),汉字键盘输入方法的比较,5.1.3 文本的分类,简单文本(纯文本 ),没有字体、字号的变化,不能插入图片、表格,也不能建立超链接,其文件后缀名是 .txt 由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格

10、式信息和结构信息 举例:,丰富格式文本,本书由南京大学出版社(Publishing House of Nanjing University)出版,有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本” 丰富格式文本中,除了正文内容之外,还使用了许多“标记”来描述字符的属性和格式的设置。 举例:下面标题的格式为:中文用黑体,西文用Arial Black体,居中,使用HTML语言描述为:,本书由南京大学出版社(Publishing House of Nanjing University)出版,用一对指出的是标记,如 和 等,用于说明排版的格式和文字属性,它们不属于正文内容,正文内

11、容,超文本,若干文本或文本中的各个部分可按照其内容的关系互相链接起来,从而形成 “超文本”,“超链”实际上就是一个指针,用于指向其他文本块,也可以指向同一文本块中的其他部分,超链是有向的,起点位置称为链源,它可以是文本块中的一个标题、一句句子、一个关键词、一幅画、一个图标等,文本块可以是一个网页,一个文档,一段文字,也可以是一张图片,甚至一段声音或视频,小结:文本的分类,5.1.4 文本的编辑与排版,使用Word的操作流程,创建新文档或打开老文档,文稿输入,编辑,排版,文档存盘、打印或发送,输入中西文字、符号和图表,进行增、删、改操作,保证文本的正确性,满足清晰、美观、便于使用等要求,目的:确

12、保文本内容正确无误 操作:对字、词、句和段落进行添加、删除、修改等操作 MS Word的功能: 在文本的任何位置都可以插入新的文字 从文本的任何位置都可以删除不需要的文字 将一段文字从一处移动到另一处 将一段文字从一处复制到另一处 在文本中自动查找指定的词语 用一个词语自动替换文本中指定的词语,文本编辑(text editing),目的:使文本清晰、美观、便于阅读 操作内容:对文本中的字符、段落乃至整篇文章的格式进行设计和调整,分成3个层次: 对字符格式进行设置 对段落格式进行设置 对文档页面进行格式设置,文本排版(格式化),设置字符的格式,字号(八号 初号, 5磅72磅以上) 1磅相当于1/

13、72英寸 字体(宋体、楷体、黑体、仿宋、隶书) 字符的修饰 字符的形状(字形):正常、加粗、倾斜、加粗倾斜 字形的修饰:下划线、着重号、上下标、删除线 字符的颜色 字符的宽度 字符的间距 字符的效果 字符的排列方向,Demo1,什么是段落?用“回车”相互隔开的一组文字 段落格式的设置: 段落的对齐方式(两端对齐、分散对齐、居中对齐、左对齐、右对齐) 段落的缩进方式(首行缩进、悬挂缩进、左缩进、右缩进) 段间距和段内行距 使用编号和项目符号 段落添加边框和底纹 首字下沉或悬挂 段落与分页的关系,设置段落的格式,Demo2,控制段落的缩进,段落缩进是指段落中的文本到正文区左、右边界的距离,包括段落

14、左缩进、右缩进和首行缩进。其缩进的距离可由水平标尺上对应的三个缩进标记来指示,页面格式的设置: 设置纸张大小和页边距 设置每页的行、列数目 设置分栏数目与格式 设置页码 设置页眉和页脚,设置页面的格式,设置页面的分栏,“所见即所得”(操作效果屏幕立即可见,打印结果与屏幕所见完全相同) 撤销(undo)和恢复(redo)操作 格式刷 多种视图(大纲视图与大纲编辑) 自动更正、自动套用格式、自动编号、自动图文集 自动保存功能和自动备份功能 样式、模板和向导(wizard)功能 宏操作(Macro),提高Word操作效率的若干措施,文本处理初步,使用计算机对文本中的字、词、短语、句子、篇章进行识别、

15、转换、分析、理解、压缩、加密和检索等有关的处理 文本处理内容: 字数统计,词频统计,简/繁体相互转换,汉字/拼音相互转换 词语排序,词语错误检测,文句语法检查 自动分词,词性标注,词义辨识,大陆/台湾术语转换 关键词提取,文摘自动生成,文本分类 文本检索(关键词检索、全文检索),文本过滤 文语转换(语音合成),文种转换(机器翻译) 篇章理解,自动问答,自动写作等 文本压缩,文本加密,文本著作权保护,什么是文本处理?,例:Word 2003的文本处理功能,英文拼写检查和英语同义词检查 字数统计 自动编写摘要 中文简繁体转换和术语转换 中英词语翻译 语法和格式检查 语音识别(口授命令和听写) 文档

16、保护(防止打开或修改文档),5.1.5 文本的展现(输出),文本的展现(输出),目的:阅读、浏览或打印文本 使用的软件:文本阅读器/文本浏览器 嵌入在文本编辑(处理)软件中,如微软的Word, 独立的软件:如Adobe公司的Acrobat Reader,微软公司的IE等 文本展现的过程: 对文本的格式描述进行解释 生成文字和图表的映像(bitmap) 传送到显示器或打印机输出,附:输出过程中字形的生成,过程: 先根据字符的字体确定相应的字库(font), 再按照该字符的代码从字库中取出该字符的形状描述信息 然后按形状描述信息生成字形,并按照字号大小及有关属性(粗体、斜体、下横线)将字形作必要的

17、变换 最后将变换得到的字形放置在页面的指定位置处 2种不同的字库:,点阵描述,轮廓描述,真题讲解,一、选择题 1、在下列字符中,其ASCII码值最大的一个是 。 (2005年) A、 X B、 6 C、 5 D、 Y,答案:D,2、下列汉字编码标准中,不支持繁体汉字的是 。(2007年) A.GB2312-80 B.GBK C.BIG5 D.GB18030,答案:A,3、在ASCII编码中,字母A的ASCII编码为41H,那么字母f的ASCII编码为_。(2008年) A46H B66H C67H D78H,答案:B,4、不同的文本处理软件使用的格式控制和结构说明信息并不统一,不同的丰富格式文

18、本互不兼容,因此一些公司联合提出了一种中间格式,称为_格式。 、 (2008年) ADOC BPDF CHTML DRTF,答案:D,5、根据ASCII码值的大小,下列表达式中,正确的是 。 (2009年) A. “a” “A” “9” B. “A” “a” “9” C. “9” “a” “A” D. “9” “A” “a”,答案:D,6、已知“江苏”两字的区位码是“2913”和“4353”,则其机内码是 。(2009年) A. 3D2D和4B55 B.4535和535D C.6145和7585 D.BDAD和CBD5,答案:D,7、若内存中相邻2个字节的内容为十六进制74 51,则它们不可能

19、是_。(2010年) A1条指令的组成部分 B1个汉字的机内码 C1个16位整数 D2个英文字母的ASCII码,答案:B,二、多选题 1、设某汉字的区位码(2710)D ,则其 。 (2005年) A.机内码为(BBAA)H B.国标码为(3B2A)H C.国标码为(4730)H D.机内码为(9B8A)H,答案:AB,2、文本编辑的目的是使文本正确、清晰、美观,下列_操作属于文本处理而不属于文本编辑功能。 (2006年) A. 添加页眉页脚 B. 统计文本字数 C. 文本压缩 D. 识别并提取文本中的关键字,答案:ABD,三、填空题 1、 1KB的内存空间能存储512个汉字内码,约存 个24

20、24点阵汉字的字形码。 (2005年) 2、在中文Windows环境下,西文使用标准ASCII码,汉字采用GB2312 编码,现有一段文本的内码为:AB F4 D1 E3 78 C2 B7 55, 则在这段文本中,含有的汉字和西文字符的个数分别是_。(2006年),答案:14,答案:3、2,四、判断题 1、每个汉字的机内码都用两个字节存储。 (2005年) 2、只要是在同一个字符集下,文本的输出所使用的字库都是相同的。 (2009年),答案:T,答案:F,3、汉字输入的编码方法由数字编码、字音编码、字型编码和形音编码等4种,在同一种汉字编码字符集中,使用不同的编码方法向计算机输入的同一汉字,它们的内码是不同的。 (2008年),答案:F,4、在ASCII码表中,数字和英文字母按照ASCII码值从小到大排列的顺序为:数字、大写字母、小写字母。( ) (2008年),答案:T,例题讲解,一、选择题 1、下列有关我国汉字编码标准的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论